You are on page 1of 80

单位代码:10010

学 号:20心易D叫lf

霸北京化工大学
专业学位
硕士研究生学位论文

题 目每料层懈白§瑶
回垒融、风控许代衍宪
j匕
≈ 业确锥舌里
研究

指导教师 张文
企业导师 王撼

El 期: Zo/8年f朔斗日

万方数据
北京化工大学硕士学位论文 IIIIIII I III IMI IM I I I
Y351 4991
本人郑重声明: 所呈交的学位论文,是本人在导师的指导下,

独立进行研究工作所取得的成果。除文中已经注明引用的内容外,本

论文不含任何其他个人或集体已经发表或撰写过的作品成果。对本文

的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本

人完全意识到本声明的法律结果由本人承担。

作者签名: 日期:则
关于论文使用授权的说明

学位论文作者完全了解北京化工大学有关保留和使用学位论文

的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属北

京化工大学。学校有权保留并向国家有关部门或机构送交论文的复印

件和磁盘,允许学位论文被查阅和借阅;学校可以公布学位论文的全

部或部分内容,可以允许采用影印、缩印或其它复制手段保存、汇编

学位论文。

口论文暂不公开(或保密)注释:本学位论文属于暂不公开(或

保密)范围,在』L年解密后适用本授权书。

日非暂不公开(或保密)论文注释:本学位论文不属于暂不公开
(或保密)范围,适用本授权书。

储签名:盐巡 日期:竺型三:!
导师签名:丞叁 日期:兰竺!茎:垒f

万方数据
学位论文数据集

中图分类号 C939 学科分类号 630.99

论文编号 1 001 02 0180041 密 级 非保密

学位授予单位代码 1 0010 学位授予单位名称 北京化工大学

作者姓名 韩晓峰 学 号 2015230041

获学位专业名称 工商管理 获学位专业代码 125100

课题来源 自选 研究方向 互联网金融风控

论文题目 基于数据挖掘的互联网金融风控评价研究

关键词 互联网金融,风控,征信,数据挖掘

论文答辩日期 2018年11月30日 ・论文类型 应用研究

学一 _:芷论文评阋及答辩委员会情况

姓名 职称 工作单位 学科专长

指导教师 张文 教授 北京化工大学 数据挖掘,知识科学

评阅人1

评阅人2

评阅人3

评阅人4

评阅人5

答辩委员会主席 唐方成 教授 北京化工大学

答辩委员1 唐方成 教授 北京化工大学

答辩委员2 李想 教授 北京化工大学

答辩委员3 张英奎 教授 北京化工大学

答辩委员4 王淑慧 教授 北京化工大学

答辩委员5 孙军 教授 北京化工大学

注:一.论文类型:I.基础研究2.应用研究3.开发研究4.其它
二.中图分类号在((中国图书资料分类法》查询。

三.学科分类号在中华人民共和国国家标准(GB/T 1 3745-9)《学科分类与代码》中查
询。

四.论文编号由单位代码和年份及学号的后四位组成。

万方数据
目录

基于数据挖掘的互联网金融风控评价研究

摘要

互联网金融(简称互金)的定义是将互联网技术与金融功能有机结合的一种

新兴技术,一般情况下从功能上互金可以分成第三方支付、网络借贷、大数据金
融、众筹、信息化金融机构、互联网金融门户六大类,而其中的网络借贷又包含

了网络P2P借贷和网络小额贷款等。在网络P2P借贷中的风控按照阶段又分为
审批前风控、审批环节风控、授信环节风控、贷后存量客户管理环节风控、贷后

逾期客户管理环节风控、资金流动性管理环节风控、放款环节风控七类,其中最

重要的风控就是前三个风控环节,这三个风控统称贷前风控,而网络P2P借贷
中的贷前风控(简称借贷互金贷前风控)就是本次论文所讨论的重点和方向。

对于借贷互金企业来说,风控的本质是对用户数据进行建模并对风险进行定
价,一般的风险定价模式是采取对用户的信用程度打分的方式,在银行中,一般

采用人民银行的征信报告来统一对客户的信用程度进行评判,其评判结果也被众
多银行作为贷前风控的重要考量因素之一。对于借贷互金类企业来说,人行征信

评判结果固然很好,但人行征信报告只对外提供了简单版本的评判报告,只有银
行机构才有权限查看完整版的征信报告。这种简版的征信报告对于借贷互金类企

业是不够的。这种市场空缺也促成了一批第三方征信机构的崛起,尽管人行征信
数据并不对第三方征信机构和借贷互金企业开放,但基于互联网的优势,第三方
征信机构和借贷互金企业依然可以根据所搜集到的海量用户数据、消费行为数据
和社交行为数据完成了对用户的借贷风险定价,其价值在金融场景中与人行征信
的效果是相似的,甚至在一部分特定场景下要比人行征信的风控效果还要优秀。
其中比较有代表性的就是前海征信和蚂蚁金服,这两家互联网金融科技企业也是

互联网金融领域内规模较大的企业,其中的蚂蚁金服比较多侧重于用户的电商场
景,其数据来源多来自于淘宝,天猫和支付宝交易等电商业务场景。而前海征信
的数据更多的来自平安集团旗下的银行,保险等场景,这种差异是与其产品生态

特性是相关的。
随着敢于超前消费的90后消费群体的成长,随之而来的是借贷互金的蓬勃
发展,借贷互金企业推出了全新的风控模式迅速填补了市场空白,通过应用数据
挖掘技术对海量用户数据的分析和建模,构造出了全新的风控评价机制,并在技

术和算法的驱动下对海量数据进行分析,实现对用户的精准画像,完成了传统银

万方数据
北京化工大学

行无法实现或者无法低成本实现的风控定价,从而实现了对金融风险定价的重
塑,一方面降低了风控成本,提升了客户满意度,另一方面也将风控评价的效率

和峰值容量等技术指标较传统模式有了大幅度的提升。新的风控模式一方面通过
电脑自动审核并且无需人工干预,另一方面对用户的风险进行评判,通过观测某
些数据指标来断定借款风险,极大的降低了审核成本,增加了企业利润。
论文首先阐述了借贷互金贷前风控评价的背景、意义及目标和相关研究方
法。并介绍了在本次论文中所涉及到的风控评价的相关理论依据和采用的技术和
知识。重点介绍了行为金融学,数据挖掘的相关知识和本次论文实验用到的决策
树算法和Weka软件。

其次,本论文阐述了风控评价模型在借贷互金企业中所涉及到的诸多指标的
分类和构建原则,分析期间应用了行为金融学的风险度量和心理决策知识将全部
数据指标分成了认证,生物识别,借款还款和行为数据4大类别。并在此基础之

上节选取了47个风控指标数据作为本论文所讨论的风控评价模型的研究指标。
再次,本论文讨论了如何通过对数据指标按照数据仓库星型结构规范设计风

控评价数据仓库,详细阐述了数据仓库的建模实践原则和具体的字段含义。并以
活动图的形式展示了数据仓库的清洗.转换.力Ⅱ载(ETL)的详细步骤。接着,本
论文使用weka工具通过C4.5决策树算法对数据仓库的数据进行了分析和结果校
对,并得出了准确率在96.49%的实验结论。

最后,本论文对风控评价实验过程中的存在的问题和不完善之处进行了分析
和总结,并对未来的研究方向进行了展望。

本论文的创新点在于基于行为金融学理论对于借款人的行为数据进行分析
和建模,希望能够发现行为数据与风控评价模型的关系。

关键词:互联网金融,风控,征信,数据挖掘

lI

万方数据
目录

Research on Internet Financial Risk-Control Evaluation Based

on Data Mining

ABSTRACT

Intemet finance(ITFIN)is defined as an emerging technology that dynamically

integrates Internet technology and financial functions.Generally,ITFIN Can be

divided into six categories,including third—party payment,online debit and credit,big

data finance,crowdfunding,information-based financial organizations and INFIN

portals,while the category of online debit and credit include online P2P loan and

online petty loans.For online P2P loan,risk control is classified into seven groups,

including risk control before examination and approval,risk control during

examination and approval,risk control during credit extension,risk control during

post—loan stock customer management,risk control during post—loan management of

customers with overdue behaviors,risk control during financial liquidity management,


and risk control during lending,while the first three are the most important parts and

can be called by a joint name pre-loan risk contr01.nle pre-loan risk control in online

P2P debit and credit is the emphasis and orientation of the discussion in this paper.

For ITFIN lending enterprises,the essence of risk control is to model user data

and price the risk.Mostly,a risk pricing model is based on the manner of rating users’

credit scores,Banks usually adopt the credit investigation reports issued by the

People’S Bank of China(PBC)to uniformly rate customers’credits,and the rating

results are taken by many banks as one of the important considerations for pre—loan
risk contr01.For ITFIN lending enterprises,the PBC rating results are good,but the

PBC’S credit investigation reports only provide a simple version of the evaluation

report to outsiders,and only the banking institutions have has the right to view the full

version of the credit reports.This kind of brief credit investigation report is not

enough for ITFIN lending companies.This market vacancy has also contributed to the

rise of third—party credit investigation agencies.Although the PBC’S credit

investigation data iS not open to thjrd—party agencies and ITFIN lending companies,

they Call rely on the advantages of the Intemet,and complete the pricing of a user’s

111

万方数据
北京化工大学

lcarl risk based on the collected massive user data,consumer behavior data and social

behavior data.111e value is similar to that of the PBC’S credit investigation in

financial scenarios,and,even in some specific scenarios,is superior to the PBC’S

credit investigation in risk contr01.The most representative cases are the Qian Hai

Zheng Xin(credit investigation)and the Ant Financial Service Group.These tWO

Interact financial technology companies are also large—scale enterprises in the ITFIN

field.nle Ant Financial Services Group focuses on users’e-commerce scenarios,and

has most of its data sourced from e-commerce business scenarios such as Taobao,

Tmall and Alipay.nle data of the Qian Hai Zheng Xin is mostly from the banks

subordinated to PING}AN Group.the insurances and other scenariOS.nle difference

between the tWo is related、Ⅳim the ecological features of their products.

The data of Qianhai Credit Information iS more from the bank,insurance and

other scenarios of Ping An Group.This difference is related to the ecological

characteristics of its products.

The growth of the post一90s consumers who are bold in premature consumption is

accompanied by the booming of credit ITFIN.The ITFIN credit companies have

launched a brand new risk control model to quickly fill the gap in the market,

anflyzed and model massive user data with data mining technology,constructed a

new risk control and evaluation mechanism,conducted technology and

algorithm・driven analysis of massive data for precise user portraits,completed pricing


ofrisk contr01 which iS beyond the capacity oftraditional banks or cannot be achieved

with a low cost,and therefore reshaped the pricing of financial risk.TKs route,for the

one hand,reduces the cost of risk control and upgrades consumer satisfaction,and,for

the other hand,significantly improves technical indexes(such as the efficiency of risk

control and evaluation,and the peak capacity)over those of the traditional models.

For one
thing,the new risk control model is based on automatic computer review,and

requires no artificial intervention;for another,the borrowing risk of a user is rated by

observing some indexes,and this model significantly reduces the cost of examination

and approval,and increases enterprises’profits.

Firstly,the background,significance and objectives of pre—loan risk control and

evaluation in the ITFIN industry and related research methods are expounded in the

paper.Besides,relevant theoretical foundations,technologies and knowledges

involving risk control and evaluation are introduced with emphases on behavioral

finance,data mining・related knowledge,and the decision

IV

万方数据
目录

Secondly,the classifications of the indexes involved in 1TFIN lending enterprise

for a risk control and evaluation model and the principle for the model construction

are then explained in the paper.During the analysis,the risk metrics and

psychological decision-making knowledge of behavioral finance are utilized to divide

all data indexes into four major categories--authentication,biological cognition,loan

repayment and behavioral data.On this basis.a total of 47 risk control indexes are

selected as the indicators for the risk control and evaluation model discussed in this

paper.

Thirdly,how to design the risk control and evaluation data warehouse according

to the data warehouse star-topology specification is discussed in the paper with

detailed elaboration on the modeling practice principles and specific field meanings of

the data warehouse.In addition,the form of activity diagram is used to display the

detailed data warehouse’S clean—convert—load(ETL)steps.Then,the Wbka tool is used

to analyze and verify the data in the data warehouse with the C4.5 decision tree

algorithm,obtaining the experimental conclusion ofan accuracy rate of 96.49%.

Lastly,the existing problems and imperfections in the experiment of the risk

control and evaluation are


analyzed and summarized.while the future research

orientations are prospected.

The paper is innovative in the behavioral financial theory—based analysis and

modeling of borrowers’behavior data,hoping to fmd out the relationships between

the behavior data and the risk contr01 and evaluation model.

KEY WORDS:Intemet finance,risk control,credit investigation,data mining

万方数据
北京化工大学

目录

摘要………………………………………………………………………………………………………………………….1

ABSTRACT…………………………………………………………………………………………………………………..III

第1章绪论…………………………………………………………1

l,1研究背景…………………………………………………………………………………1

1.2研究的目的和意义…………………………………………………………………………3

1.2.1研究的目的………………………………………………………………………………………………………3

1.2.2研究的意义……………………………………………………………………………….4

1.3研究的方法……………………………………………………………………………….6

1.3.1研究的方法……………………………………………………………………………..6

1.3.2论文的结构…………………………………………………………………………….6

1.4研究的平台一移动互联网…………………………………………………………………7

1.5本文可能的创新…………………………………………………………………………..8

第2章互金贷前风控评价理论基础与文献综述……………………9

2.1互金贷前风控评价的关键理论和技术……………………………………………………9

2.1.1网络借贷类互联网金融………………………………………………………………一9

2.1.2互金贷前风控评价……………………………………………………………………10

2.1.3行为金融学及行为金融学与互金贷前风控的关系…………………………………。10

2.1.4数据挖掘………………………………………………………………………………12

2.1.5数据仓库………………………………………………………………………………15

2.1.6 ID3决策树算法………………………………………………………………………17

2.1.7 C4.5决策树算法……………………………………………………………………一18

2.1.8 Weka………………………………………………………………………………………………………………19

2.3风控评价国内外研究综述………………………………………………………………20

2.3.1美国FICO评分系统…………………………………………………………………..20

2.3.2前海征信………………………………………………………………………………24

第3章互金贷前风控评价指标构建和价值分析…………………….31

3.1互金贷前风控评价指标的构建依据…………………………………………………….31

3.1.1业务场景………………………………………………………………………………32

3.1.2指标的真实性和客观性………………………………………………………………32

3.1.3指标的合法性………………………………………………………………………….33

3.4互金贷前风控评价指标构建……………………………………………………………33

VT

万方数据
目录

3.4.1基本认证信息及价值分析……………………………………………………………33

3.4.2高级认证信息及价值分析……………………………………………………………34

3.4.3生物识别数据及价值分析……………………………………………………………35

3.4.4借还款数据及价值分析………………………………………………………………35

3.4.5行为数据及价值分析………………………………………………………………….35

第4章互金贷前风控评价模型的构建………………………………39

4.1构建数据仓库……………………………………………………………………………39

4.1.1数据来源………………………………………………………………………………39

4,1.2建立维度表……………………………………………………………………………39

4.1.3建立事实表…………………………………………………………………………….40

4.1.4数据处理………………………………………………………………………………43

4.2创建并测试模型…………………………………………………………………………45
4,3测试风控评价模型………………………………………………………………………47

第5章贷前风控评价模型对于互金企业的启示和建议…………….49
5.1贷前风控评价模型对于借贷互金企业管理上的价值和意义……………………………49

5.1.1有效降低企业成本……………………………………………………………………49

5.1.2增加企业利润…………………………………………………………………………49

5.1.3打造借贷互金企业的核心竞争力…………………………………………………….50

5,1.4减少了贷前风控审批层级,促成组织效率提升和资金周转率的提升………………50

5.1.5提升了企业贷前风控流程的客观性…………………………………………………..50

5.2贷前风控评价模型对于企业管理上的启示…………………………………………….50

5.2.1借贷类企业贷前风控的中立性………………………………………………………50

5.2.2对成本和效率的要求是企业管理中的一项重要目标………………………………..51

5.2.3对企业管理中贷前风控监控有了更高要求………………………………………….51

5.3贷前风控评价在实验过程中的几个亟待解决的问题…………………………………一52

5.4风控评价关于改进和改善的几点建议…………………………………………………。52

5.4.1风控数据孤岛问题……………………………………………………………………52

5.4.2隐私问题………………………………………………………………………………53

5.4.3区块链技术的引入……………………………………………………………………53

5.4.4银行对于风控评价起到的作用………………………………………………………55

第6章总结和展望……………………………………………………s7

6.1结论…………………………………………………………………………………………………………………一57

6.2研究不足及展望…………………………………………………………………………..57
VIl

万方数据
北京化工大学

参考文献……………………………………………………………………………………一59

VIll

万方数据
目录

Contents

Abstract.......……...............................…..……...................…....…….…............................….......…....

ABSTRACT……………………...….………………………………III

Chapter 1 IntroductiOn..................................1

1.1 Research Background......................................................】.

1.2 Research Objective and Significance……..…………………………3


1.2.1 Research Objective.....................................................3

1.2.2 Research Significance…………………………………….…….4


1.3 Research Method..........................................................Ej

1.3.1 Research Method………………………………………………..6


1.3.2 Paper Structure....................,...................................6

1.4 Research Platform--Mobile Internet…………………………………7


1.5 Possible Innovation of the Paper.........................................8

Chapter 2.Theoretical Foundation and Literature Review of

ITFIN Pre—loan Ri sk Control and Evaluat ion……………9

2.1 Key Theories and Technologies for ITNET Pre—loan Risk Control and Evaluation

2.1.1 Peer—to—Peer(P2P)ITFIN…………………………………………………………………………………9

2.1.2 ITFIN Pre—loan Risk Control and Evaluation…………………………………………………10

2.1.3 Behavioral Finance and the Relationships between Behavioral Finance and ITFIN

Pre—-loan Risk Control and Evaluation…………………………………………………….……………….】l()

2.1.4 Data Mining……………………………………………………………………………………………………….12

2.1.5 Data Warehouse………………………………………….………………………………………………………11;

2.1.6 ID3 Decision Tree Algorithm.….…..….………………………...…..…......……..………………..17

2.1.7 C4.5 Deci sion Tree Algorithm…….....................….........….………........................…..…18

2.1.8 Weka……………………………………………………………………………………………………………………19

2.3 Review of Domestic and Foreign Researches on Risk Control and Evahation.20

2.3.1 The FICO Credit Scoring System of the USA……………………….………….………………20

2.3.2 Oian Hai Credit Investigation……………………………………………………………………….24

IX

万方数据
北京化工大学

Chapter 3.Construct ion of Indexes for ITFIN Pre—loan Ri sk

Control and Evaluation and Analysis on the Values.......31

3.1 Foundation for Construction of the Indexes for ITFIN Pre-loan Risk Control and

Evaluation……………………………………………………………………………………………………………………!I】.

3.1.1 Business Scenari0…………………………………………………………………………………………….32

3.1.2 Index Authenticity and Objectivity………………………………………………………………32

3.1.3 Index Legal ity………………………………………………………………………………………………….31l

3.4 Construction of the Indexes for ITFIN Pre—loan Risk Control and Evaluation

……………………………………………………………………………………………………………………………………33

3.4.1 Basic Authentication Information and the Value Analysis………………………….33

3.4.2 Advanced Authentication Information and the Value Analysis…………………….34

3.4.3 Biological Recognition Data and the Value AnalysiS..................….……………....35

3.4.4 Borrowing and Repayment Data and the Value Analysis......................…..……......35

3.4.5 Behavior Data and the Value AnalysiS..................….....…..............…......................35

Chapter 4.Construct ion of the Model for ITFIN Pre—loan Ri sk

Control and Evaluation.................................39

4.1 Construction of a Data Warehouse……………………………………………………………………..39

4.1.1 Data Source……………………………….………………………………………………….…………………..!;9

4.1.2 Construction of a Dimension Table………………………………………………………………一39

4.1.3 Construction of a Fact Table…………………………………………………………………………40

4.1.4 Data Processing…………………………………………………………….………………………………….43

4.2 Creation and Test of the Model…………………………………………………………………………45

4.3 Test of the Risk Control and Evaluation Model……………………………………………….47

Chapter 5.Indications and Recommendations of the Pre—loan

Risk Control and Evaluation Model for P2P Enterprises…49


5.1 Values and Significance of the Pre—loan Risk Control and Evaluation Model for

Management of P2P Enterprises..............…....,...………..….….............,,.......................…..........49

5.1.1 Effectively reduce enterprise costs…………………………………………………………….49


万方数据
目录

5.1.2 Increase enterprise profits………………………………….……….……….……….……….……49

5.1.3 Build core competiveness of P2P enterprises……………………………………………….50

5.1.4 Reduce pre—loan risk control and examination steps,and faci 1 itate improvement

of both organizational efficiency and capital turnover.............................................50

5.1.5 Upgrade the objectivity of an enterprise’S pre—loan risk control flow.50

5.2 Indications of the Pre—loan Risk Control and gvaluation Model for Enterprise

Management....................…….…….…..…..............................………….............................…….…….…..50

5.2.1 Neutral ity of Pre—loan Risk Control in Peer Enterprises………………………….50

5.2.2 Requirements on cost and efficiency are an important goal of enterprise

management.........….................................................,.....…................................….….…...............….51

5.2.3 Higher requirements have been raised on pre—loan risk control and monitoring

in enterprise management…………………………………………………………………………………………..51

5.3 Problems Demanding Prompt Solution in the Experimental Process of Pre—loan Risk

Control and Evaluat ion………………………………………………………………………………………………5:1

5.4 Recommendations for Improvement of Risk Control and Evaluation.....................52

5.4.1 The Problem Concerning Isolated Island of Risk Control Data…………………..52

5.4.2 The Problem Concerning Privacy….……...........…..........................….……....………..…..53

5.4.3 Introduction of Blockchain Technology……………………………………….………………..53

5.4.4 Role of Banks in Risk Control and Evaluation……………………………………………..55

Chapter 6.Conclusion and Outlook......................57

6.1 Conclusion…………………………………………………………………………………………………………….!;7

6.2 Research Shortcoming and Outlook.…….........................................….……......................57

References……………………………………………………………………………………………………………………59

万方数据
第1章绪论

第1章绪论

1.1研究背景

所谓金融,从广义上的定义是指对现有的资源进行整合,实现价值的等效流
通,施行从储蓄到投资的过程,从一般理解上来说金融其实是一种动态的货币经

济学,互联网金融【1]就是互联网技术和金融功能的有机结合是利用互联网技术和

移动通信技术等一系列现代信息科技技术实现资金融通的一种新兴金融模式。金
融所包含的类型比较广泛,其中较为常见的包含借贷,保险,支付,期货等,在
本次论文讨论中,将主要针对互联网金融企业中的网络借贷类的企业进行讨论。
与传统金融借贷公司一样,借贷互金企业一样也面临着各种金融欺诈风险,

相对于传统金融的线下人工信审核来说,借贷互金企业更多的采用在线机器审核

模式(简称机审),机审完全由电脑自动化审核,因此对于借贷互金企业来说,
面对的风险要比传统行业大很多,也正是因为如此,借贷互金企业的借款年化利
率是要普遍高于传统银行的【21。
在借贷互金业务中对信用风险的评估和定价从来都是至关重要的,金融信用

风险也叫做违约风险,即借款人在拿到钱后无法按照约定如期履约的情况,造成
无法履约的原因无外乎无力偿还,不愿意偿还或者因第三方原因造成无法履约。
不管是哪种情况都会造成出借方的不良贷款增加,严重的会造成出借方资产损失
甚至会发生破产。为了减少这种因为无法履约造成的不良影响,早期的借贷互金
企业是采用担保和风险准备金的办法来减少风险的,这也是最常见的抵御风险的
办法【3训。
担保比较常见的是融资性担保【5司,融资性担保是指担保人和债权人约定的
当借款人无法履约还款时,可以由担保人负责承担担保责任,这也是国家所认可
的一种担保模式,一般在银行借贷中会较多的采用这种担保模式,但这种模式对
于借贷互金企业来说也并不能保证一定可以回款,一方面可能存在借款人和担保
人互保问题,另一方面担保人未必一定有履约能力。因此在借贷互金企业的实践
中,不论是担保人超额担保还是按照最高额担保,实际作用都是有限的。
另外一种模式是风险准备金【7】,理论上讲如果借款人无法履约通过风险准备

金覆盖的风险的方式是可以保证资金安全的,但在实践过程中这种模式也存在很
多问题,一种情况是风险准备金并不是在银行托管的,就是说风险金可能会被借
贷互金企业挪作它用,这造成了所谓的风险准备金只是一堆账面上的数字,当需

要覆盖风险时却无可覆盖。另外一个问题是风险准备金的来源可能是来自借款人

万方数据
北京化工大学

超借的部分,也就是说借款人实际借款需求是lO万元,但实际发出的借款是12
万,其中多出来的部分就作为风险准备金,这种方式虽然一定程度上可以解决和
改善因风险准备金挪用造成的无法抵御风险的问题,但这种风险准备金并不受法

律保护,也就注定了当借贷互金企业走司法渠道解决债务问题时无法以风险准备
金的名义要借款人还款,借贷互金企业必须以借款的名义起诉,但风险准备金并

没有到借款人帐户,所以司法渠道也未必能解决。
从投资人的角度来看,同样也是存在风险的,投资人投资资金里也包含了风
险准备金,无形中将借贷互金企业的风险金问题转移到了投资人身上,如果借款

人逾期,投资人不但损失了投资本金,也因为风险准备金的存在加剧了投资损失。

综上所述风险准备金也无法彻底解决资金挪用问题。
因此,在银行等传统金融机构可以施行的风控方案对于借贷互金企业来说未

必能行得通,所以对于借贷互金企业来说,需要要用新的方法来抵御金融风险,
其中最简单的模式是将传统金融企业的贷前风控时检查和验证借款人资质的环
节自动化,通过对借款人资质的检查,从而实现对风险进行快速定价。

最开始的互金风控评价模式是将线下银行风控流程进行的线上化处理和改

造,首先借款人提交电子资料,由借贷互金企业人工审核,并通过电话核对进行
的,这种风控评价模式一方面效率很低,另一方面也有人为失误因素在里面,其
风控评价效果并不理想。后来出现了对借款人的资信状况进行评分的办法,得分
越高逾期风险越低,这也是现阶段使用较多的风险定价手段。

以较早采用评分法来解决个人信用问题的美国为例,其信用评价机制主要通
过Fair Isaac Company出台的FICO评分系统,FICO的评分规则是评分在300~
850分之间,分值和风险是成反比的,分数越小则风险越高,其数据来源主要是

来自美国的三大征信局(Equifax、TransUnion和Experian)所搜集的2亿信贷数
据。其评分的多寡并不能代表客户的优劣,信贷放款也不能仅仅靠这评价FICO
得分的多少来贷款,其评分仅仅是美国金融机构发放贷款的参考指标之一,是否
发放贷款还要参考一些别的因素【8-11]。

对于互金来说,由于交易是依托于互联网而不是面对面进行,因而对借款人
资料的真实性和完善性存在更大的不确定因素。鉴于此,传统互联网的风险评价

模式并不适用于基于互联网的金融模式,必须要采用新的模式和方来来对互联网
金融的进行风险评价,一般来说,互联网风控评价包含
(1)审批前风控

在此阶段重点在于判断借款人的借款意图是否真实,另外对借款人的紧急联
系人的基本信息也需要进行核实,与借款人的关系,工作单位,联系电话等
(2)审批环节风控

万方数据
第1章绪论

在此阶段侧重于对借款人提交资料的真伪进行核查,一般此阶段检查的主要
是借款人的身份资料是否真实有效,是否存在冒名顶替现象,另外会核查下借款
人是否在失信人名单里
(3)授信环节风控【121

在此阶段侧重根据用户的信誉等级匹配不同的借款产品
(4)贷后存量客户管理环节风控

此阶段重在监控钱款的资金去向,借款人对资金的使用情况等。
(5)贷后逾期客户管理环节风控
此阶段重在对客户电话联系和走访,敦促其还款,处置抵押物等。

(6)资金流动性管理环节风控
此阶段的重在监控和判断借款人资金流入和流出的差异风险,比如借钱去进
行高风险的投资、出借他人或者从事违法犯罪行为之类。
(7)放款环节风控

其中的销售环节、审批环节统称为贷前风控【”d钔,相对于其它几种风控类型
来说,贷前风控是最重要的,因为大部分的资金风险是最容易从贷前发现的,而
且从贷前阶段发现风险的成本和代价也是最低的。所以借贷互金企业往往都非常

看重贷前风控评价,而在本次论文讨论的风控评价与研究也正式针对借贷互金企

业的贷前风控的,并且本次论文所重点讨论的数据挖掘技术也是借贷互金企业贷
前风控中经常使用的技术,一方面能极大的减少贷前风控中繁杂的人工核查步
骤,极大的降低成本,另一方面通过大数据和人工智能也可以提升风控效率,将
之前人工核查需要几天才能完成的工作缩短为几秒钟。

基于数据挖掘【15埘J和人工智能等【22’26】手段,因而互金在风险定价【27】方面要
比传统金融更加复杂,因此在对互金交易风险进行定价时要采用和传统金融不同
的方式和方法进行。在本次论文讨论中,将用Weka[28-35】做为数据分析工具,并

通过一些无法履约的借款数据样本和可以履约的借款样本来进行决策树分析,经
过数据挖掘从而得到一个可用的风控评价模型。

1.2研究的目的和意义

1.2.1研究的目的

首先在本次论文讨论中进一步梳理关于互金贷前风控评价各项实践有关的
知识和理论。

其次通过对互金的风控评价分析当前的风控评价现状,分别阐述几种不同的

决策树分类算法,在数据训练中会加入一部分用户行为数据,并根据实验来分析

万方数据
北京化工大学

和验证算法的结果。
最后通过检验决策树分类算法的结果,对行为数据在评价结果中的作用进行
讨论,并对互金风控评价提出自己的建议和改进意见。

。1.2.2研究的意义

(1)从理论角度研究的意义
从理论角度互金风控评价机制,通过模型和数据采集分析机制来对借款人资

质、偿还意愿和偿还能力做出评价,从而降低风险率,在借贷互金企业中除了正
常的业务数据之外,还会涉及到一些关乎用户行为的数据和指标,比如用户经常

的运营商不做实名认证,我们在实践中发现这类用户行为与最终的风控评价结果
是有关联的,这也是行为金融学的研究领域,行为金融学是金融学的一个边缘交
叉学科,其中是在金融学知识中融入了行为科学、心理学等知识的新兴学科,也
是当前在金融融资理论领域里非常引人关注的重点研究领域。

行为金融学通过考察单个个体发生的行为的心理动机来预测金融市场的发
展规律,行为金融学提供了一个全新的角度来审视行为的不同对决策结果的影响
因素,希冀能够构建出一套模型来解决现实金融场景中行为的差异影响决策的问
题。

从表面上看,行为金融学中所讨论的行为个体是不够理性的,他们在做风险
决策时可能更多的倾向于基于经验和非理性的简单推断法,而不是采取较为科学

的贝叶斯规则来做决策。在大多数情况下,这种基于经验的简单推导虽有误差,

但还是有效果的,但正是由于这些误差可能会导致决策出错,在这种情况下市场
的最终选择是一种无法确定的结果。
在风控评价领域行为金融学也拥有着独特的分析方式和方法、心理决策分析

法和风险度量方法。行为金融学将心理学上的人类所具有的心理特征引入到资产
定价理论中去,这些心理特征包括认知缺陷、非理性、偏好风险、厌恶失败、自
控力低等特征和趋利避害等。行为金融学认为决策者是复杂的带有一些偏好性,

容易改变主意,在决策过程中可能会被外界因素而改变,且决策偏好一般在决策
过程中才会浮现。通过对借款人行为和心理决策的分析,行为金融学成功的解释

了一些之前的标准金融学理论中难以解释的问题。在互金风控领域,一些先知先
觉的借贷互金企业会使用行为金融学的相关理论结合互金业务场景来设计的风
控模型,从而对借款人的借款风险进行定价。
在本次论文讨论中,部分采用了行为金融学的理论,在对借款人风控评价上,
也尝试包含了一部分行为数据,并希冀能够对风控评价的准确率上起到一些作
用。

万方数据
第1章绪论

(2)从现实角度研究的意义
从现实角度来看,对借款人风险定价是一个借贷互金企业的核心竞争力。
对于传统的金融行业的代表.银行来说,银行面临的主要是贷款风险,银行
贷款一般是要求借款客户必须具备一定的条件,比如借款客户和银行有较多的资
金结算关系,有帐户流水,如果借款客户是企业的话,通过企业与银行对公业务
办理也可以发现借款客户的经营状况如何,通过查阅交税情况也可以分析和判断
出企业的营业收入状况,一旦银行发现借款客户的交税数额较少但借款申请额度
较大,银行往往会认为该借款客户风控评价风险较高。
而对于借贷互金企业来说,它们是无法像银行那样轻易的接触到借款客户的
银行流水、完税情况和往来账明细的,一般的借贷互金企业的做法是根据客户在
网上进行消费、通话记录、社交网络等数据来进行综合判断和考量的,通过对借

款客户的各类数据进行数据挖掘从而得出对借款客户的风控评价结果,从行为金
融学中的”通过个体行为所产生的心理动机来解释分析和预测金融市场的发展情
况”的理论中可以看出,通过这种方式得出的风控评价结果也是积极有效的。
随着消费金融的兴起,国内消费金融规模增长迅猛,如图1.1所示

消费金憨交易规模e亿元)
S 渤0
4 嬲0
4鼢 0

3鼢 O

3黜 0

2鼢 O

2嗽 0

l妫 0 1183.5

王 嘲O

娣0


6.8

20王l
18。6

20王2
60

2013
183.2

稿翻霞

2014

2015

图I-I消费金融交易规模
Figl-1 Scale of consumer fmancial transaction

截止到2016年国内消费金融交易规模以每年100%的速度大幅度增长,如图
1.1所示,截止到2016年末已经达到了4367.1亿的规模,占GDP的6%,较2016

年同比增长368.9%,相对于消费金融较成熟的美国市场来看,美国的消费金融
占GDP比例是19.7%,远远超出中国,这说明中国的消费金融还有很大发展空
间,特别是现在的85后和95后非常热衷于超前消费,这会进一步加速消费金融

万方数据
北京化工大学

的发展。
在消费金融领域,电商是一个最重要的消费金融场景,在国内电商的领军企
业是阿里巴巴和京东,每年的天猫双十一,京东618促销活动都会沉淀下来的海

量交易数据,这些海量交易数据已经具备了从中分析用户信贷风险的条件。也正
因为此,风控评价在海量电商交易数据的支撑下有了长足的发展,因此在消费金
融领域快速发展的同时,风控评价技术也在不断发展,风险定价成本也在不断下

降。

于此同时,各种新的技术,新的研究成果也像雨后春笋一样出现在了风控评
价领域,如人工智能技术,大数据,数据挖掘技术,图像识别技术,生物识别技
术等等不一而足,在本次论文讨论中将重点讨论使用数据挖掘技术对风控评价所
带来的影响。

1.3研究的方法

1.3.1研究的方法

在本次论文讨论中,对借贷互金企业风控评价的研究,综合从以下几个方面
进行研究
(1)选择几种常用的决策树分类算法并详细介绍其特点
(2)使用这几种决策树分类算法对同一批样本数据进行分析实验并形成系
列结论。

(3)对几种算法产生的结论进行对比分析,并得出既有的最优分类分析算
法。然后综合讨论几种算法的优劣分析。

1.3.2论文的结构

在本次论文讨论中将按照先提出问题,然后分析问题,最后解决问题的原则,
将论文分拆成如图1.2所示的几部分

万方数据
第1章绪论

图l-2文章结构图
Figl-2 Structure of the paper

第一部分为绪论。在绪论中主要是申明了研究的主要目标,阐述了背景、研
究的目标和方向及研究意义方法。
第二部分为理论基础与文献综述,风控评价指标的构建,风控评价模型的构
建。在第二部分首先引述与风控评价有关的理论依据和文献资料,之后在理论基
础之上从借贷互金企业实际业务中摘取一些脱敏处理过的借款人资信数据整理
成指标,最后在详细介绍下本次论文讨论中使用的几种风控评价模型。
第三部分为风控评价模型的应用,这一部分会在前文所提出的风控评价模型
基础上对数据进行分析,并对分析结果进行总结,并对未来的发展趋势进行展望,
并审视自身论文的有待完善之处。

1.4研究的平台.移动互联网

本次论文所讨论的互联网金融中的互联网即通过特定的网咯传输协议组织
而成的国际计算机网络,也就是广域网。经过多年的发展,随着手机类移动端设

备的崛起和移动网络的发展,慢慢形成了移动互联网这种新的联网方式,移动互
联网是将移动端设备(一般指的是手机,PDA,PAD之类的移动端设备)和互
联网相结合的概念,移动互联网从一诞生开始就具备了随身携带的便利性,随着

多年的移动网络发展,移动互联网已经具备了实时分享、实时互联以及交互性高

万方数据
北京化工大学

的优势和特点。据统计,通过移动设备上网的人群已经超过了使用PC上网的人

群,在互金借贷类产品中也是如此,基于移动互联网的借贷类产品和交易额已经
远远超出了基于PC的借贷类产品,因此在本次论文讨论中,也将限定在移动互
联网这一特定场景中。

移动互联网至少有两部分组成
●移动客户端:主要是用户的手机,PAD等移动类产品

●后端服务器:在借贷互金企业中,后端服务器提供的服务器除了有互金基础
借贷服务外,还有贷前风控等风控服务,而本次论文所讨论的贷前风控评价
就是服务于借贷互金贷前风控业务场景的风控评价模式。
在移动互联网中,移动客户端除了作为借贷互金应用的提供移动端程序载体
外,还因为移动客户端的特性为借贷互金应用提供了全新的功能,在移动客户端
上,移动客户端程序除了搜集用户主动提交的信审材料之外,还可以采集到用户
的手机型号,操作系统版本,GPS坐标等数据,从这些数据中可以提取出可以反
映出用户行为的结果,而这正是行为金融学所关注和讨论的范畴,举例来说,从

GPS数据中用户白天和晚上的比较规律出现的某些坐标可能是借款人工作的地
点或居住地,这些数据对于贷后风控流程是非常重要的。本次论文所展开的实验
和建模也主要是围绕着移动客户端上所采集的数据展开的研究。其研究结果对于
互金贷前风控是非常有价值和意义的。

1.5本文可能的创新

在本次论文讨论中,将会应用数据挖掘技术对借贷互金企业一般的借款人指
标进行决策树分类,除此之外还将在行为金融学理论基础上引入一部分借款人的
行为数据,这些行为数据都是借贷互金企业中的真实数据,由于涉及企业机密,
因此对一些像是姓名、身份证号和手机号做了处理,但处理之后的数据并不会影
响实验的最终结果。
因此在本次论文所涉及到的实验中,将会通过模型来对借款人的主要指标和
行为数据一起进行分类处理,期望能够进一步提升风控评价的准确度,通过实验
能够形成一套行之有效的风控评价模型,结合借贷互金企业的现状,能够将本次
论文成果应用于实际的工作场景中去。

万方数据
第2章互金贷前风控评价理论基础与文献综述

第2章互金贷前风控评价理论基础与文献综述

2.1互金贷前风控评价的关键理论和技术

风控评价是对控制企业财务损失的一种简称,即让财务部因意外因素造成损
失,可以理解为风险控制。而风险导致财务收益的不确定性,风险和收益是成正
比的,在金融实践中风险是无处不在又随处可见的。2004年的《新巴塞尔资本
协议》里提出了对银行风险进行量化的要求,而现代金融风险评价会借助于现代
金融工程的相关理论工具和方法,对金融交易数据进行分析整理,通过数据模型
来进行规避风险,通过计算机软件来减少人工步骤,通过人工智能和大数据分析
来让风险定价更加智能,所有的这些都在使得金融风控评价越来越专业化,智能
化。在本章中将会对风控评价的理论和实践过程进行详细的阐述。
风险在互金借贷场景中随处可见,互金借贷风控评价的核心在于平衡收益和
成本,将可控的风险利益最大化,将不可控的因素最小化是风控评价的核心要素,
风险不但会增加互金借贷产品的坏账率,而且还会造成投资人巨大的资金损失,
严重的甚至出现系统性风险,因此对风险进行评价,量化风险,并对量化后的风
险进行定价,对于金融行业是非常重要的,特别是对于具有互联网基因的互金借
贷行业来说更是如此。
在本次论文讨论范围中主要用到了以下的相关理论和技术。

网络借贷类互联网金融是互联网金融范畴内的一个重要组成部分,其主要包
含互联网金融点对点借贷平台(即P2P)和网络小额贷款。
P2P:主要表现形式是撮合借款人和出借人资金,服务商从中赚取服务费和
手续费。P2P的
网络小额贷款:消费贷主要是针对个人的,短期小额的货币无抵押信用贷款,
其特点是金额小(一般5000以内),周期短(一般两周以内)
对于借贷互金企业来说,有效且可靠的贷前风控是网络借贷类互联网金融产
品成功的关键,如何迅速的甄别出客户的潜在逾期可能是借贷类互金产品发展壮
大的关键要素也是其重要的核心竞争力之一。在本次论文讨论中,网络借贷类互
联网金融(以下简称借贷类互金)。

万方数据
北京化工大学

2.1.2互金贷前风控评价

互金贷前风控评价是指互联网金融中的贷前风控,一般来说,互金贷前风控
从风控技术特点主体,可以分成
●大数据和数据挖掘风控类:通过大数据的机制进行分析和建模,并形成

风控机制。比如蚂蚁金服,前海征信,拍拍贷等借贷类互金企业都是采
用此种贷前风控模式

・人机交互风控类:通过用户交互操作电脑或移动终端,输入和上报信审
材料,再有借贷互金企业信审人员进行后台审核和验证的风控方式。这

种模式也是一种较为常见的贷前风控形式。

・人工线下风控类:这种模式与传统金融的人工线下审核模式一样,完全
通过人工进行信审的风控模式。

互金贷前风控比较主流的是大数据风控或人机交互风控,而使用人工风控的
则相对较少。

按照平台特点,借贷互金贷前风控可以分成

●开放贷前风控平台:可以对外部提供风控服务的风控平台。
・封闭贷前风控平台:仅内部使用并不对外开放的贷前风控平台
但不论平台是开放或者封闭,其实现目标和价值都是一样的。在本次论文讨

论中,将重点讨论基于大数据和数据挖掘的贷前风控。

2.1.3行为金融学及行为金融学与互金贷前风控的关系

行为金融掣36-39】是在金融学的基础上融入了心理学、行为学和社会学相关知
识的一门新兴学科,其主要研究目标是是希望在金融领域中可以发掘出一些关于
人类行为的规律,发现人类非理性行为与金融决策之间的关系,行为金融理论认

为证券市场的价格很大程度上会受到市场交易参与者行为的影响,而不仅仅是一

般理解上的仅受价格因素左右。也就是说市场交易参与者的心理活动与行为取向
也会对证券市场的价格起到重大影响。

在1980年前后对金融市场的一系列研究与实践过程中,一些现代金融理论
无法解释的现象相继出现,一些金融学家为了解释这些现象另辟蹊径的采取了部
分认知心理学的理论,展开了对金融市场交易的参与者和参与者的行为的系列研

究,令人意想不到的是这些试验性的研究取得了不错的成果,之前的一些奇怪现
象从全新的角度得到了很好的解释,自此这个将心理学理论应用嫁到了金融领域

的全新研究领域由此诞生,到了上世纪末期,这个新领域中涌现出了一系列创新
性的理论和成果,也就慢慢的就形成了现在行为金融学派。
10

万方数据
第2章互金贷前风控评价理论基础与文献综述

行为金融学对于研究金融决策与人类行为关系和规律方面提供了一个全新
的视角,主要体现在以下几个方面。

(1)对市场参与者行为的假设:在传统金融场景中,一般会认同决策的形
成与市场参与者的效用最大化和理性预期和风险厌恶有关,决策在以上多种因素
的综合作用下产生。其中关于人的因素考虑的较少。但是经过系列的心理学实践

和研究,决策的产生要更加的复杂,特别是其中掺杂了人的因素后更使决策的产
生变得难以揣测,人们总是自信的相信自己的判断总是对的,或者根据主观判断
来盈利和亏损做出推断。而这种非理性的推断并非特别现象,并具有普遍性,其

影响并不能通过统计和平均而消弭。

(2)有效的市场竞争:在传统的金融知识中一般会认同,理性的市场参与
者相对非理性的市场参与者更能抓住盈利机会,因此在充分竞争中,只有理性的

市场参与者才能存活下来。但经过系列的时间证明,非理性的市场参与者也会能
抓住市场的机会。美国的华尔街曾经做过一个有趣的大猩猩选股的实验,一方是
代表理性的基金经理,另外一方是代表非理性的大猩猩,双方在持有相同资金的

条件下一起选择股票投资,基金经理们是采用理性的金融理论选股,而大猩猩则

是通过投掷飞镖来选择股票,但结果让人大跌眼镜,两组结果对比来看,盈利效
果基本持平,甚至有的基金经理还不如大猩猩获利高。这个实验结果正是传统金
融理论所无法解释的。

(3)人的非理性行为…:就像人性中存在着冲动的一面,理性并不总是左
右我们的决策,人性中的非理性行为同样左右着我们的金融决策。所以将人的非
理性因素也考虑到行为分析理论中内就变得很重要了,而这并不是传统经济学理

论所擅长的领域。
而传统的经济学一般假设人们做出的金融决策往往是理性的,是以追求物质

利益为目标的。在这样的假设下,人们往往可以综合的权衡和分析从而得出一个
最优选择,该选择是对所有可能出现的结果做的假设推理而得出的。认知心理学
认为人像是一个复杂的系统,其中有一些信息是明确的和可预测的,另外还有一

些信息是无法察觉和难以解释的,整个系统的运作收到了所有这些因素的综合影
响,其结果造成人类的行为被这些综合因素所左右,因此时而理性,时而非理性。

之前的理论一般的假设都是将市场参与者看作是没有情感的,无比理性的,

一切以利益为第一要务的机器人,但实际情况完全不是这样的,例如每次股市大
跌都会引起恐慌性抛售,这就是因为当看到其他人都在抛售的时候,投资人也会
非理性的抛售,这是人性的结果,是非理性的。而把人这个由主观情绪忽视后的
理论假设都是不准确的。而行为金融学通过心理博弈的知识和理论纠正了这一问

题,这就是行为金融学的价值【411。总之,行为金融学的出发点就是通过行为特

万方数据
北京化工大学

征数据的统计,来判断对金融市场现象的影响。
在行为金融学理论中一般将参与金融行为的参与者定义为非理性或者非完

全理性的,之所以这样认为是因为一般的理性思维中,在做风险决策时一般是由
贝叶斯规则进行决策的,而这些非理性或非完全理性的参与者们往往是采用简单
的推断法来做决策,这种推断法并不总是有效的,当个别人失败时对整个市场行

为的影响尚不明显,但当整个群体中的非理性判断人群超过一定阀值,很容易产
生羊群效应,从而造成影响全局的错误选择结果,也正因与此,市场选择的结果

也导致了这种非理性的不确定选择结果,因此需要引入更加有效的风控评价方法

来进行判断。
在风控评价方面,行为金融学从风险度量和心理决策两方面提供了有效的评

价方法,风险度量主要通过将金融资产定价,并评估市场参与者所能承受的最大
可能的损失,并将之量化。心理决策分析主要通过判断和分析市场行为参与者做
出决策的动机和原因,通过心理学的诸多特征来分析市场参与者的选择偏好和选
择易变的特点对最终决策的影响程度和决策的稳定性,并将产生的结论引入到金

融资产定价中来,经过研究发现包括易感性、认知缺陷、风险偏好、遗憾厌恶、
自控缺陷和趋利避害这些心理学特质都会对市场参与者的最终决策造成影响。通
过对借款者行为心理决策的分析,行为金融学成功地解释了传统金融理论中难以
解释的问题和现象。因此,将心理学和金融理论结合中是一次很有价值的创新,

将通过将行为金融学的相关知识引进到了互金风控评价措施之中可以进一步的

降低了借款人无法履约风险。
举例来说,以本人公司所统计的前海征信数据发现,发现手机入网时长不足
6个月的用户的逾期风险要远远高于入网时长超过2年的用户,半年内经常变更

城市(居住时间超过2月)的用户逾期风险较高,从表面上看手机入网时长和经

常搬家看上去是和借款逾期是不相关的,但统计结果上看两者是密切相关的,而
正是这种貌似不相关的可以反映出一定用户行为偏好的数据却可以反映出用户

真实的逾期风险。而这种对于用户行为数据的分析和挖掘也是本次论文所要讨论
的重点内容。

2.1.4数据挖掘

数据挖掘(DataMining,DM)是一种从大量结构化数据中寻找出之前未知
的有价值信息的技术和方法,由于一般是基于数据库中的数据进行分析,所以数
据挖掘又被叫做基于数据库里的知识发现技术。

数据挖掘是当下最热门的两大研究方向之一(人工智能和数据库领域),一
般来说,所谓的数据挖掘并不是一种编程语言或者一种或几种具体的软件,而是
12

万方数据
第2章互金贷前风控评价理论基础与文献综述

一种综合了理论、一系列相关软件和数学算法的软件过程,一般较多的用于决策

支持统计分析,它的应用领域广泛,当下比较多的用于人工智能和机器学习领域,
特别是在模式识别和决策支持领域中,数据挖掘有着较为成熟和广泛的应用场

景,通过数据挖掘,将大量的业务数据通过自动化的处理和分析,经过系列的推
理和分类,从而归纳和找出前所未有的全新模式,进而为决策者提供有价值的决
策支持。

经过多年的互联网加浪潮的推波助澜,业界已经越来越认识到了数据挖掘的
意义和重大价值,并不断的应用数据挖掘技术为企业和社会创造价值。
数据挖掘使用到了如下一些理论和方法
(1)统计学中的抽样方法、估计和假设检验方法。

(2)人工智能与模式识别算法。

(3)机器学习算法和建模。
(4)数据库海量数据统计查询优化技术:数据挖掘的样本数据量如果过大

会严重影响性能,通过优化技术可以提升查询效率。
(5)分布式技术和并行计算:通过并行计算和分布式技术来解决单服务器

性能不足的问题。
数据挖掘的相关方法主要包括分类,估计,预测,相关性分组,聚类,描述

和可视化。

(1)分类(classification)
首先要对数据进行分类,形成训练集,在训练集的基础上,通过数据

挖掘技术进行分类建模,然后用产生的模型对未分类的数据进行分
类。

比如现在有10万条借款人资料数据,其中的关键业务指标有100项,
其中有一些借款人是无法履约借款人,另有一些是优质的借款人,这

些数据就可以通过数据挖掘创建分类模型,然后抽取出无法履约借款

人的特征,形成劣质借款人模型,之后当新借款人提交资料后就可以
用这个劣质借款人模型去对新的借款人进行分类。

(2)估计(Estimation)
估计和分类的差异在于处理的数据类型不同,估计是处理的连续值,

其数量是不确定的,而分类是处理的离散值,其数量是固定的,除此
之外两者意义和用途是相同的。
估计可以根据一组连续的数据,通过估值来计算出下一个未知连续值
的变化。

(3)预测(Predication)

万方数据
北京化工大学

预测的目标是用于预测未知变量的技术,它的模型是通过分类或者估
计而来,其结果需要通过一定的时间来验证,也就是说只有过一段时

间之后才能验证预测结果的准确性。
4) 相关性分组(Affinity grouping)
相关性分组正如其字面的含义,用户计算事情的相关性,比如去超市

买婴儿奶粉的人有很大可能性会再买几包尿布。通过相关性分析就可
以得出婴儿奶粉和尿布是有相关性的。
5) 聚类(Clustering)
聚类是对数据进行分组,把相似程度较高的归为一组,将数据分成若
干组,每组内数据的相似程度最大,并且不同组数据之间的相似性最
小,聚类和分类有些接近,两者的区别在于分类需要实现训练得出分
类模型,而聚类则不需要事先训练。
,L,●\,L 6) 描述和可视化(Description and Visualization)

描述和可视化正如其字面的含义,是数据挖掘中经常用到的一种数据
可视化的工具,通过数据可视化可以更加直观的观察到实验的结果,

便于调整阀值和参数,是一种辅助建模的有效工具。

风控评价数据挖掘一般分成五个步骤
(1) 明确目标
在开始数据挖掘之前需要先了解数据的类型,表间关系,要得出最终
模型需要用到哪些指标数据,这些开始工作的前提条件。

(2)准备数据
一般情况数据可能是以不同形式存在的,可能是excel表格,也可能

是数据库中的表,甚至可能是一对纸质文件,所以在准备数据阶段需

要将这些格式多样,形式不同的数据都按照统一的规则进行整理,录

入到数据库里。这部分工作是最繁重的,根据本次论文所进行的实践
结果来看,大约有50%~70%的工作量都集中在数据整理阶段。

(3)浏览数据
通过查看数据对数据指标进行调整和清洗,比如部分指标数据是
null,这种数据需要设置个默认值,部分数据超过合理范围,需要进

行修正,通过调整数据值来保证数据的合理性和建模的准确性。
(4)数据建模

在先前定义的指标集合中选择出要使用的字段,应用适合的算法和阀
值,创建评价模型。

14

万方数据
第2章互金贷前风控评价理论基础与文献综述

(5)查看和验证模型
应用创建的评价模型对己知结果但未训练过的借款交易数据进行分

析,然后观测分析结果和实际借款的匹配程度。然后根据匹配结果修
正模型阀值,重新训练并在此验证,直到模型的准确度可以接受为止。

在互金风控评价领域,应用数据挖掘技术从互金交易数据中挖掘和分析风险
也是数据挖掘的一个重要应用场景,通过数据挖掘技术,寻找数据中的变化,利
用偏差分析技术在交易数据对风险进行定价,以及预测欺诈行为,并且通过为风

险分级和打分来对风险进行评估,估算风险爆发的可能性和如何有效的抑制风

险,降低风险成本,进而建立起一套风险评价的模型来自动的发现、预警、通告
风险的处理机制,以确保在风险到来之前能预警,能定位,能通知,能防范的监

督和避险机制。

2.1.5数据仓库

数据仓库之父比尔.恩f-J(Bill Inmon)提出:数据仓库[42舶]是一个面向主题的

(Subject Oriented)、集成的(Integrate)、相对稳健(Non-Volatile)、反应历史变
化的(Time Variant)数据集合,用于支持管理决策。从这可以看出数据仓库并

不是一种技术或者特指某个应用程序,数据仓库是一组把数据汇聚到一处,以提
供分析和决策的多种技术和应用的总称。
在本次论文讨论中,互金交易中,借款人提交的数据有格式化的数据库记录,
也有非结构化的证照扫描件,人脸识别照片甚至还有从第三方数据拉取的非结构
化数据,这些数据格式繁杂无法统一处理,必须要进行数据清洗和归一化处理之

后汇入数据仓库中(在这个场景中数据库仓库用数据库是比较合适的,但数据仓
库所使用的数据持久层并不要求一定是数据库)。之后才有数据挖掘工具进行分
析处理建模
数据仓库一般由下列工具组成

(1)数据库

一般来说数据都存入一个关系数据库就可以,mysql,oracle,sql server都可
以,从前面定义也可以看出,数据仓库并不限定数据的格式,存入数据库,excel,
文本文件都是可以的,但由于性能考虑,存入数据库性能会比较高,而且与第三

方的数据挖掘工具的兼容性也要好很多。
(2)数据抽取工具
数据抽取工具[删的主要作用是将来自多种数据源(数据库,excel,文件)

中的数据进行清洗、转换和加载处理,比如null字段要对其初始化默认值,一组
15

万方数据
北京化工大学

数据以万元为单位,另外一组数据以千元为单位,就需要对其做归一化处理,统
一处理成以元为单位。经过数据清洗和转换后的数据,就可以批量插入数据库了,

在实际工作实践中,业务数据是每天源源不断产生的,因此还要将数据的抽取过
程变为增量化和自动化,数据的清洗、转换、加载的工作量实际上是非常大的,
一般的数据挖掘项目中,有70%左右的时间都在处理数据,真正用于数据建模的
时间其实并不多。
(3)元数据集

元数据145l从定义上来讲是描述数据的数据,元数据的主要为了方便数据仓
库数据管理,数据仓库中汇集了大量的各种各样的数据,每个指标的来源、类型、
精度、是否允许空、默认值、更新时间、创建时间,访问权限、数据状态、删除
标志、处理异常情况和更新人这些都是元数据管理的范畴,元数据就像是数据仓
库中数据的身份证,有了元数据才能实现数据仓库中数据的更新,变更有章可循,
不会造成数据混乱。
(4)访问工具

访问工具是访问数据仓库的软件,一般来说如果数据仓库是数据库的话,一
般用个数据库连接工具当作访问工具就可以了,另外数据抽取工具和分析报表工

具也算是一种数据仓库的访问工具。
(5)数据闹市

数据闹市简单的说就是划分了业务场景的数据库模块,比如有一个风控评价
数据库,其中包含了多个渠道的数据:电商、借还款、认证、车险、手机运营商,
每个渠道都有一大堆表,那么可以就可以为每个渠道建立一个数据库,然后这些
数据库统称为风控评价数据库。数据仓库的构建方法和步骤如下
(1)确定事实表,事实和衍生事实字段
事实表即存放指标的表,里面都是一大堆的可以计算数字,事实数据一般都
要选择最小单位,比如金额就以元甚至分为单位,在用数据转换工具进行数据清
洗转换时要把数据做归一化处理。

(2)确定维度表,维度和衍生维度字段
所谓维度表一般是指日期维度(其中又要按照年,月,日,季度,半年来分
成多个子维度)地区(其中要分成国家,省份,市,区县,乡镇多个子维度),
手机归属地(国家,省份,市,区县,乡镇),用户所属行业(农业,林业,渔
业,政府,金融等)。

(3)创建事实表

事实表一般都是存储的度量,所谓度量都是可以计算的数值,创建事实表的
一个原则是为了性能不要添加约束字段,并且字段一律非空,需要注意的是事实

万方数据
第2章互金贷前风控评价理论基础与文献综述

表的列尽可能的少
(4)创建维度表
维度表需要根据实际业务来选择,一般来说,一个维度对应一张表,比如地

区维度表,手机归属地维度表,日期维度表等。在数据仓库中维度可能有很多,
但其中的维度行数要尽可能的少。
(5)数据抽取

数据抽取一般指的是需要对外部来源的数据进行数据清洗,数据转换和数据

加载,数据清洗是指将数据中的空值都赋予默认值,数字超出合理范围的数据要
进行矫正;转换是指需要对数据做一些额外的处理,像是一些衍生字段就需要在
转换步骤进行计算,例如根据日期时间计算出年,月,日,半年,季度等数值,
另外对于维度表的变更和演进所体现的类似慢速变化维字段等也需要在转换阶
段进行处理。转换除了对维度表做处理,也可以对事实表数据进行处理,比如一
些开关数据就需要在转换时进行处理。最后是加载,所谓加载就是将转换过后的
数据装载如维度表和事实表,随着互金业务的开展,数据藏虎的数据源数据会不
断的增加,这就需要在做数据抽取时需要将抽取流程自动化,定时进行数据清洗,
转换,加载,确保数据仓库定时能得到更新。
(6)生成报表

通过专用的商业智能报表工具来生成商业智能报表,可以通过商业智能提供
的切片,旋转,上卷下钻的功能,多维度多角度的审视数据,为商业决策提供支
持。

需要注意的是,在进行数据仓库建模时,应将数据仓库模型建成星型结构,
而非雪花结构,所谓雪花结构就是指维度表存在外键关联,需要另外一个表对维
度表的某个字段进行解释,星型结构表示,事实表关联维度表,维度表自身不存
在任何外键引用。之所以有这样一个设计原则,主要是因为数据仓库数据量一般
非常大,星型结构性能要远远超过雪花结构。
除此之外,如果服务器的性能有富余的话最好是独立的服务器做数据仓库,
而不要和其他服务器混用同一台服务器,当然如果性能比较紧张、数据量较小并
且算力不大的话,和其他服务合用一台服务器也是可以的,但这样可能会影响其
它服务。
在本次论文讨论中,将各类互金数据通过抽取工具载入到数据仓库,并为数
据挖掘工具提供数据支持。

2.1.6 ID3决策树算法

ID3算法【46】是一种用于生成决策树的算法,是J.RossQuinlan于1986年开发
17

万方数据
北京化工大学

完成,ID3算法的核心是“信息熵”,信息熵的本质是一组数据,其中包含了信息,

以及概率度量等,它的最大的作用就是表现数据的混乱程度,是种对数据混乱程
度的度量标准,・越是有序的数据其信息熵就越低,越乱熵就越高。
ID3算法首先从一组数据中算出每个数据的增长变化量,认为变化量较大的

认为是好的,变化较小的认为是坏的,然后挑出其中增长变化量最大的作为继续
划分的参考值然后再次划分,不断重复直到形成一棵树为止,

该树是由树干和树叶组成,最高节点是根节点,每一个子树都是由独立的一
次迭代而算出的决策节点,每个节点又表示了一个问题或者一个决策,同时每个

节点又表示了一种潜在的分类结果,在决策树自顶向下构建过程中,每个节点都
会做一遍测试,针对该节点的测试结果会造成分叉或者创建树叶节点。如果分叉

了循环就继续进行,如果创建了树叶节点就表示该迭代到了终点,继续从下一个

分叉继续迭代,直到穷尽了每一种可能。

例如现在有{dl,d2,...,dIl}-一组数据,这组数据之和SUm,那么信息熵的计算
公式如下:

nCD)一一∑II兰l092主≥………………………………………………铀露-1)
ID3决策树算法属于有指导学习算法,其应用原则是通过训练样本数据,并
且按照参考值对目标值的关系来对参考值分级处理,该种按照级别来构建和生成

决策树的方式的目的在于通过生成的树,形成某种规则,并通过树所形成的规则
来判断其余的数据。

ID3算法在数据挖掘中并不经常使用,主要原因是因为ID3需要多次遍历和

查询数据库,其执行效率不足以满足实际要求,因此在对性能要求较高并且数据
量较多的场合,该种算法并不适用。

2.1.7 C4.5决策树算法

C4.5算法[48]也是由J.Ross Quinlan于2011年所开发出决策树算法,C4.5算

法是对ID3算所做的改进和增强,一般来说C4.5决策树算法用来统计分类,在
这点上C4.5决策树算法是与ID3算法有着明显的不同。在C4.5决策树算法中,

也采用了信息熵,因此C4.5决策树算法也需要通过学习和训练来构造和生成决
策树。

在ID3算法基础上,C4.5算法主要做了如下改进:
(1)用信息增益比例来选择属性而不是取最大值。

万方数据
第2章互金贷前风控评价理论基础与文献综述

(2)在决策树的构造过程中对树进行裁剪,减小了数据量。
(3)不仅可以处理离散数据,对于非离散的数据同样也可以处理。
(4)能够容忍数据的残缺,及时样本数据有缺失也不影响处理结果。

C4.5算法计算信息增益率计算公式如下所示

孙躺料国=一鏊蔷p(ilO l092p(ilt)…………………………………。以-2)
其中的p010就表示节点t中对于i所占的比例,而其中的Entropy(t)就表示信
息增益率。

C4.5算法的优点主要是产生的规则容易理解,并且准确率比较高,其缺点是
在构造树的过程中,需要对数据集多次的循环的扫描和排序,其性能相对不高,

因此一般用C4.5处理数据时将数据都加载到内存来提高执行效率,但是当训练
样本较大时,这种将数据全部装入内存的做法会造成内存溢出,因此C4.5更多
的适用于数据样本较小的场景。

在Weka中采用了java实现的C4.5版本,并且算法已经重命名为J48。

Weka是一款开源的数据挖掘软件,是1997年由新西兰怀卡托大学开发的智

能分析系统(Waikato Environment for Knowledge Analysis)。Weka是用java编写,

因此具有跨平台使用的特点。并且Weka使用了一个数据可视化库来将分析结果

可视化,方便了观察和实验过程。另外Weka还提供了二次开发能力,可以很容
易的将Weka功能集成到其它应用中去,另外Weka还提供了分布式计算的功能,

在部分数据挖掘任务计算量较大时,可以通过分布式计算,将算力分布到多台服
务器上,从而提供较单台服务器更高的计算能力,缩短分析时间。
Weka提供了一个图形化的界面,集成了常用的机器学习/数据挖掘算法和各
种数据预处理功能,可以在实验过程中很容易的通过对比多个算法的处理结果作
为改进的依据,以便于找出实验的最佳算法。在本次论文讨论中所用到的ID3

和C4.5算法在Weka中都可以找到,并且在本论文的实践部分有用到Weka进行
实验。

另外Weka还提供了知识流(Knowledge Flow)功能,将数据挖掘的多步处
理可视化,方便了使用。
除此之外Weka提供了若干的过滤器,过滤器的主要功能在于数据的预处理
方面,这对于样本数据分析非常有用。

19

万方数据
北京化工大学

2.3风控评价国内外研究综述

在本章重点介绍国外和国内的集中信用评分系统,以美国的FICO评分系统
为例讲述其评分标准,数据来源以及评分有效性,最后讲述影响FICO评分的5
个维度,相对于美国的FICO这样的信用评分系统的全球性标杆企业来说,国内

的信用体系在2017年仍然处于一种各自为战的状态,全国一共8家持有临时个
人征信牌照的征信企业,他们各有各的专长,虽然这8家企业都是参考了FICO

的评分系统,但每家的统计指标和计算方法也不尽相同。
由于篇幅有限,在本章中会重点介绍两家比较典型的国内信用评分机构,前
海征信和芝麻信用,这两家信用评分机构也是国内的互金领域个人征信排前三的

机构,另外一家是腾讯征信。

2.3.1美国FICO评分系统

金融市场在美国的发展较早,也比较早的孕育出了信用评级机制,其评分机
制主要是由Fair Isaac Company推出的FICO评分系统,FICO是来自于该公司
的首字母缩写。时至今日FICO分数已经成了事实上的标准,一般来说提到信用
分就是说的FICO信用分。针对不同的适用场景Fair Isaac公司一共开发了三种

不同的FICO评分系统,这三种评分系统分别提供给美国的三大信用管理局使
用,这三种评分系统使用的评分算法是相同的,并且经过了严谨的测试和验证,
得到了市场的认可,即使客户的数据在三大信用管理机构中完全一致,从不同的

评分系统中算出的信用评分可能也不同。
FICO评分的分值介于300分~850分之间,分数越高说明客户的信用风险
越小,发生逾期的概率就越低,但FICO分数仅仅是一个参考指标,并不能作为

评判客户有好还是坏的标准依据,在金融机构进行贷前风控时除了参考FICO分
数之外,还会参考其他的一些资料信息,再综合所有情况最终得出最终决策结果。
根据美国金融机构的实践情况来看,FICO评分对于风控评价的结果如下表所示
表2-1 FICO评分和风控结果对照表
Table2・1 Comparison table for FICO score and risk control results

万方数据
第2章互金贷前风控评价理论基础与文献综述

FICO评分的最大价值在于提供了一种评估信用风险的度量模型【481,能够缩
短贷前风控时间,比较客观的反映了借款人的信用情况的同时,还不会把客户的

性别、种族、宗教等因素考虑进去,更不会掺杂贷前风控审核人员的主观意见,
相对来说是一种比较公正和客观的评分方法。FICO评分系统在美国的应用非常
普及,使用也很方便,通过线上接口调用FICO,几秒钟就能得到信用评分结果,
非常方便和快捷。
在FICO评分系统里的一条重要原则是针对历史交易数据进行评价,越早发
生的交易占用的评分权重就越低,对最终结果的影响也就越小。
下图2.1是一个FICO评分和人口占比及逾期率的统计结果
’,;1q;

|∞菇

80%


Z 60%

_
墓40%

20%

0%

300“‘499 S00“549 550“。599 600“。649 650%99 7006”749 750“799 5‘s007850


20%
FICO{孚分

一。久数菩分毙 一黍诗吾努吃 一违约率 ………线经{遗魏率}

图2-1 FICO评分和各项统计指标统计图

Fi92-1 Chart of FICO scores and various statistical indicators

从图2.1中可以看出两点结论
(1)FICO最高分人群和最低分人群占比数量都很小,大多数人群都集中
在中间区域。

(2)整个违约率随着信用评分的提升而成下降趋势,这也正是FICO评分
的重要价值之一。

在美国的金融市场中,不同的金融产品的贷前风控规则都有所不同,每种产

品都可以根据风险进行定价,其中的重要参考指标就是FICO信用评分。这也是
一种国际通行的贷前风控准则。
FICO评分主要从5个维度来评定借款人的信用评分,如图2.2所示

2l

万方数据
北京化工大学

O评分参考的五个要素

-偿雳酝声清譬历史

-售嗣鼗产数熏

-使嗣蕊角丕筻户豹每溅

*簧开烹熬毽嗣东宣

・正在爱霸约僖罱美耋

图2-2 FICO评分模型

Fi92-2 FICO scoring model

下面将详细介绍FICO的信用分参考要素的构成情况
(1)信用账户清偿历史
信用账户清偿历史是指的用户的信用卡、零售账户、分期贷款、抵押贷款、
信用贷款等以来信用的交易历史和清偿情况。这部分占比大约有35%,通过分析
该维度的历史交易数据可以判断借款人是否存在逾期还款情况。FICO的评判原
则是发生时间早的交易历史对于评分的影响因素越小,发生时间晚的交易对评分
的影响因素越大。

另外信用账户清偿历史还包含了公开记录历史、支票存款记录历史和逾期清
偿的具体情况,其中的公开记录历史主要包括与司法有关的破产清算记录、抵押
品赎回权丧失记录、司法诉讼记录和判决记录等,涉案金额越大对于FICO得分
越小。逾期清偿记录主要包括逾期的次数、逾期还款金额、未清偿的金额和发生
时间离当前时间的时长等因素。和前面的规则类似,早发生的对FICO评分的影
响小,晚发生的对FICO评分的影响大。
如图2.3所示

万方数据
第2章互金贷前风控评价理论基础与文献综述

9 僦
77%
8 泓

7 溉
6 僦
S 溉
4 溉
3 溉

2 僦

王 僦


狻袁浚籁 羧鬟30天 逾鬟60无戥主

逡甥90天隧主
麟 豁 77% So% 3溉 20%

图2-3 FICO评分与逾期率关系

Fi92—3 Relations between FICO scor.e and overdue rate

从图2.3的趋势线可以看出,随着逾期时间的延长,整体占比呈明显的下降
趋势,更有77%的人群从未逾期。这也与FICO信用分越高逾期风险越小的结论
相符合。
(2)信用账户数量

信用账户主要是用来分析借款人需要有多少个信用账户才能足够的匹配其

清偿贷款的水平,对于借款人来说,如果他存在需要清偿贷款并不意味着这个人
的信用一定很糟糕,有可能这个人收入非常高,正是有一笔小额的刷卡需要清偿,

其收入足以覆盖这笔小额刷卡。信用糟糕的情况主要是指这个用户的还款渠道已
经用完,其穷尽所有办法都难以清偿贷款的情况才会增加逾期风险。也就是说负
债的多少需要和还款能力进行适配,要保持负债水平和还款能力的微妙平衡才能
最准确的反映出一个接看人的信用风险情况,这也正是信用账户数量指标所关注
的情况,该维度约占信用分判定因素的30%。
(3)使用信用账户的年限
一般情况下,使用信用卡的时间越久,FICO的得分也越高,一个刚刚注册

的银行账户和一个使用了20年的从未逾期账户的信用分是有明显差异的。该维
度一方面要考虑信用账户的建档时间,另外还要考虑FICO的建档平均账龄,据
FICO统计分析结果看出,平均的建档账龄是14年,有不足5%的人群的账龄不
足两年,另有超过四分之一的用户建档账龄超过20年。该维度约占FICO信用

分判定因素的30%。
(4)新开立的信用账户
该项维度侧重考查客户设计的信用账户的数量,特别是短时间内开设的较多

万方数据
北京化工大学

信用账户的情况,这种情况意味着更高的信用风险,对于那些信用账户账龄较短
的客户来说更是如此。一般来说,短期内开设较多的信用账户,说明了客户的财
务状况突然恶化,或者生活存在重大变故,因此存在较大的信用风险。

该项维度的考查因素包括:新开设的信用账户的数量,新开设的信用账户建
档账龄、信用账户的申请数量和客户信用评分的被查询时问长度。

该维度约占FICO信用分判定因素的10%。
(5)正在使用的信用类型

该维度重在考查客户的多种信用账户的混合使用情况,除此之外还会分析信
用账户的类型和每种类型信用账户的数量。

其中的信用账户除了信用卡账户外,还包括了分期还款账户、金融企业账户

和抵押贷款账户等。该维度约占FICO信用分判定因素的10%。

2.3.2前海征信

前面说了美国的FICO评分系统,接下来谈谈中国的前海征信【49】,前海征信
是一家有银行背景的征信机构,其数据主要来自银行、保险等金融机构,依托着

强大的金融基因,前海征信的信用评分价值是非常让人信服的。其评分系统的原
则与FICO类似,风控评分来源主要来自如下五个方面

(1)平安集团的数据

平安集团下辖企业所从事业务有银行业务、租赁业务、消费金融业务、证券
和信托业务,基金业务,房地产业务等。这些企业每年会围绕着金融产生大量的
交易数据,前海征信数据来源中来自平安集团的数据始终是其中的重要一部分。

(2)政府部门的数据
前海征信会对接政府职能部门,并从中采集数据,目前对接的有

公安系统:获取公安系统身份证信息,用于核对借款人是否是本人,并且能

够用照片与公安系统预留的身份证网文照进行比对,核验是否是同一个人。
法院系统:获取司法被执行人数据,可以获取到法院公告、判决文书,可以

提取当事人,案件进展,状态,案件类型和判决结果等信息。
工商系统数据:获取企业工商注册信息,法人信息,税务系统数据。

(3)合作商业机构的数据
前海征信会采集众多公共事业单位和社会企业单位的业务数据,比如和移

动,联通,电信对接,采集手机运营商数据,与银联对接,采集银联刷卡交易数
据,与房管局对接,采集房产数据,与交管部门合作采集车辆数据和违章数据。

(4)机构上报的数据
前海征信会与借贷互金企业、小额贷款公司、众筹公司对接,这些企业在查
24

万方数据
第2章互金贷前风控评价理论基础与文献综述

询前海征信信用分的同时也会主动向前海上传逾期数据,优质用户白名单,劣质
用户黑名单以及各类欺诈数据。
(5)互联网C端采集的数据

与各大互联网企业对接,采集用户的行为数据,电商数据和出行数据。

前海征信搜集用户数据,通过数据挖掘和人工智能技术,从其中杂乱无章的
数据中分析出用户的行为模式,进而评判出用户的信用分。
相对与其他国内的征信评分系统来说,前海征信独有之处在于

依托平安集团这样一个金融背景的集团企业,天生具有金融属性,数据涵盖

了银行,投资和保险领域,对于信用这样一个天生具有金融基因的评价体系而言,
天生具有金融属性就像含着金汤匙出生一样,具有得天独厚的优势和价值。

正因与此,前海征信也成为了位列国内互金领域中三大征信体系之一,另外
两家是芝麻信用了腾讯征信。

前海征信覆盖的用户年龄段如图2.4所示

覆惹年龄段统计


25箩叛下

*25~40岁

*40箩强主

图2.4前海征信覆盖用户年龄段示意图

Fi92-4 Diagram of age intervals of users covered by Qianhai Credit

从图2-4中用户年龄段统计中可以看出,前海征信中覆盖的用户还是以年轻
群体为主,对于25~40岁的年龄段用户覆盖次之,最少的是40岁以上的用户。

在来看前海征信对于城市等级的覆盖情况如图2..

万方数据
北京化工大学

城市等级覆溢篱况

-一绞蠛南

#二线蠛毒

#兰缓域枣

w箕溲

图2-5前海征信城市等级覆盖示意图

Fi92—5 Diagram of city levels covered by Qianhai Credit

从图2.5可以看出,前海征信的城市等级覆盖情况还是比较均匀的,基本是
可以反映出城市人群的分布规律。其中最多的是三线以下的城市,占比有40%,
其次是二线城市占比31%,对于一线和二线城市的股改是29%和27%,从分布
情况上来看对城市等级的覆盖相对比较均匀。

前海征信的信用评分规则与FICO的评分规则类似,分数是从300~850分,
分数越高表示客户越优质。,从七个维度来判断和解析借款人的资质,如表2.2
所示
表2-2前海征信评分维度
Table2-2 Scoring dimensions of Qianhai Credit

维度 说明

身份特征 分值从0到100分,涵盖了身份信息、学业、就业和与信用相关的身份

特征。

履约能力 分值从0到100分,涵盖了与信用有关的金融交易、薪酬情况资产和负

债情况,综合判断履约能力。

消费偏好 分值从0到100分,判断在购物、消费、缴费行为中各行为类别消费情

况,分析和展现其表现出的消费特征。

行为特征 分值从0到100分,根据上网、购物、消费和使用手机等行为偏好数据,

判断其信用情况。

万方数据
第2章互金贷前风控评价理论基础与文献综述

社交信用 分值从0到100分,根据线上和线下的社交情况,判断其生活圈子和朋

友圈子,进而判断其信用状况。

成长潜力 针对借款人提供虚假资料和虚假信息的甄别方案,可以鉴别身份证真伪,

人脸识别,验证地址是否正确,手机号码验证、关系人验证和工作单位

验证。

前海征信除了信用分机制外,还包含了多个子产品,每个产品的侧重点各有
不同,讲述如下
(1)前海好信一鉴通

针对借款人提供虚假资料和虚假信息的甄别方案,可以鉴别身份证真伪,人
脸识别,验证地址是否正确,手机号码验证、关系人验证和工作单位验证。
(2)前海好信反欺诈

前海征信会通过大数据技术,深入挖掘手机和IP地址涉嫌欺诈的场景,防
范恶意注册、登录、交易,高风险手机号和高风险IP欺诈等。
并且反欺诈能根据身份信息判断信贷逾期情况,是否存在手机小号和多头借

贷风险。并且可以根据人员社交关系判断是否涉嫌团伙欺诈。
(3)前海好信法院通

前海征信会检索司法数据,查找借款人是否是涉案的被告,查看法院公告、
开庭公告、判决文书和执行情况等,及时的了解借款人在司法系统中是否涉案或

者是否是案件的被执行人,可以帮助借贷互金企业甄别各种劣质客户。
(4)前海好信常贷客
前海征信根据众多互金和小贷公司主动上报的逾期数据中提取出借款人在
多家互金和小贷公司的借款情况,综合分析出借款人的多头借贷情况。其中数据
来源涵盖了超过1 000家共享数据来源,在借贷互金企业实践中,常贷客数据是
非常重要的,根据实践经验,常贷客的逾期风险是一般客户的3~5倍,因此常

贷客数据是互金风控评价的一个重要考量因素。返回信息如表2-3表所示
表2-3前海征信风控评价考量因素表
Table2-3 Consideration factor table for Qianhai Credit’s risk control evaluation

结构所属行业

业务发生时间

命中机构数目

鱼史堡堑!鲨垒尘玺堕型!堑垫塑塑
机构总查询次数

近3个月机构总查询数

近6个月机构总查询数

万方数据
北京化工大学

(5)前海好信风险度
前海征信根据来自多个维度的数据中分析用户在未来一段时间中出现逾期

的可能性,其中数据来自于银行、政府部门、法院、网贷、交警、信用卡和消费
金融,之后给出一个介于10"-'50之间的评分。
其中分数区间如表2.4所示
表2-4前海征信风控评分区间和逾期情况表
Table2-4 Table of scoring interval and overdue situation of Qianhai Credit’S risk control

evaluation

(6)前海好信地址通
前海征信通过强大的地址覆盖和地址验证机制,判断地址是否存在伪造,精
度覆盖到具体楼盘,直接切中客填写地址不准确,信息缺失

并且可以从银行、保险公司、互金和小贷公司登记信息,从多个维度综合交
叉验证,判断出用户的实际地址,一般来说好信地址通对于贷后管理是非常有帮

助的,如表2.5所示,是地址通所提供的功能清单。
表2-5好信地址通对于贷后管理的功能清单
Table2—5 Haoxindizhitong’S funefion list for post—loan management

精确到区和街道楼盘的地址信息

GPS定位信息

地址真实性评估

估测小区

估测小区均价

估测小区周边房产均价

物业类型

是否匹配

地址属性

(7)前海好信手机综合资讯

综合评价借款人手机运营商数据,其中涵盖了移动,联通和电信的数据,采

28

万方数据
第2章互金贷前风控评价理论基础与文献综述

样指标包括了6个维度,如表2-6所示
表2-6好信手机综合资讯考评维度表
Table2-6 Table of Haoxin’s mobile comprehensive information evaluation dimension

通话情况 通话次数和时长

短信发送次数

漫游通话次数和时长

号码近3个月活跃情况

入网登记情况 是否实名验证

同一身份证下手机号码数

手机号状态

入网时长

历史行为情况 历史欠费次数

N年内换号不换机次数

N年内手机属地变化不换机次数

号码不换N年内更换设备次数

当前套餐 消费账单

流量情况

当前余额

当前套餐类型

风险提示 是否风险名单

风险名单类型

社交圈黑名单命中数量

终端设备 设备号

卡号

厂商

机型

价格

操作系统

前海征信通过众多产品提供了多个角度全方位的风控评价,为互金提供了重

要的参考数据,特别是前海信用分,根据实践,前海信用分的贷前风控原则。
表2.7前海征信信用分区间与风控结果
Table2-7 Qianhai Credit’s scoring intervals and risk control results

前海信用分 说明 风控结果

万方数据
北京化工大学

30

万方数据
第3章互金贷前风控评价指标构建和价值分析

第3章互金贷前风控评价指标构建和价值分析

自从上世纪七十年代起,随着全球的金融创新和交易的快速发展,各种新的
金融产品和衍生品也被开发了出来,金融市场空前繁荣,暴富神话不断涌现,造

成了经济泡沫不断出现,而金融的泡沫又导致了一次又一次的金融危机,虽然危
机的形式和危害程度有差异,但这种危害让有识之士开始把注意力焦点转移到了
金融机构的改革和管制方面上来了,其中改进和完善风控评价就是其中之一。迄
今为止,各国的金融机构对风控的建设都领先于我国,我国的风控评价体制与先
进国家比起来还是显得很落后,在2004年出台的《新巴塞尔资本协议》中指出,
应对于银行也进行全面风险管理,在其中可以看出,这份协议已经对于风险的管

理手段和方式已经提出了更高的要求。

风险管理其实不仅仅是对风险的识别、度量和控制,它更像是一门科学,需
要借助现代化的金融工具和技术,融合了现代先理论对大量金融数据进行分析和
整理,通过应用现代技术对风险建模,以此来来识别和确定各种风险指标。使得
现代的金融风险管理朝着产品化,市场化,专业化的方向稳步发展。而过去几十
年来在金融风险管理领域的飞速进步和发展也印证了这一点。
从另外的角度来说,虽然现代风险管理技术的飞速进步借助了现代金融理
论,大数据和人工智能等先进的计算机科技,但风险管理还距离一门真正意义上
的科学还有很多工作要做。特别是在行为金融学角度来看,因为人类本身存在的
行为不确定因素,这就造成了现代风险管理对这些存在不确定性因素的风险一方
面难以进行量化,另一方面也很难进行统计和归纳。从这个角度来说,现代风险
管理难以工程化,它更像是一门艺术,进行风险管理的艺术。因此在将现代风险
管理朝着专业化和科学化的发展之路上还任重道远。

3.1互金贷前风控评价指标的构建依据

在分析了美国FICO评分系统以及国内的前海征信的特点之后,结合着借贷
互金企业的风控评价过程,再来讨论下风控评价指标的构建原则和方法,这也是
本次论文讨论中的实践要点。
贷前风控评价的指标152‘545】构建需要遵从如下几点。

万方数据
北京化工大学

3.1.1业务场景

风控评价指标在选取时务必按照实际业务场景进行设计和选取【55】,一方面

指标选择要全面避免有疏漏,其中的全面包含两方面含义:
(1)业务场景相关的与风控评价有关的数据指标要全面。
例如在借款时,用户录入姓名的时间,录入地址的时间,录入地址修改的次

数等,这些行为数据看似与风控评价不相关,但从行为金融学的角度他们是有意

义的。
(2)业务场景的相关区分核心业务和非核心业务

在实践过程中,应当按照重要程度为每个核心业务和非核心业务设置不同的
权重阀值,在进行评价时需要参考此阀值,全面的、系统的对评分做出综合评判。

对移动客户

3.1.2指标的真实性和客观性

指标的选取必须符合科学性的目标,各项指标务必确保真实有效,杜绝错误
数据和不合理数据,防止对最终结果造成干扰。

首先,指标的选择要保持客观性,避免根据主观因素和个人品好对数据样本

有选择筛选。
其次,指标的选择要避免混入根据历史经验推导出来的经验数据,这些经验

数据有可能是准确的,但毕竟经验并不属于科学,在指标选取时还是要坚持科学

和严谨,以防混入的经验数据对最终结果造成不合理的干扰和影响。
最后,指标的选择可以参考成熟的第三方征信机构所使用的数据指标,在这
里,本人部分参考了前海征信的一些数据指标。前海征信作为国内个人征信领域

排名靠前的征信机构,其征信产品被广泛应用在了互金风控领域。因此对于本次
论文所讨论的互金贷前风控评价来说,前海征信是有相当强的参考和研究价值
的。

在采集数据时不但包含了和金融有关的交易类指标,比如多头借贷次数,多
头查询次数等,也包含了用户行为数据,比如IP地址,GPS定位信息和手机设
备信息,厂商,机型等。

万方数据
第3章互金贷前风控评价指标构建和价值分析

3.1.3指标的合法性

风控评价在设计的时候要考虑法律因素,一定不能违反国家法律和法规,特
别是在输出数据时关乎到一些涉及到用户隐私信息的数据,比如身份证号码,手

机号码,姓名等,务必先做脱敏处理然后返回。

3.4互金贷前风控评价指标构建

在本次论文讨论中,风控评价指标的选取时主要参考了前海征信的相关子产
品,对指标分成了5个大类,主要分成了

基本认证信息、高级认证信息、生物识别数据、借还款数据和行为数据五个

方面进行,在借贷互金企业实践过程中,风控评价一般都有几百个,数量比较多,
并且一大部分指标属于企业的核心机密,在进行构建时适度的进行了删减处理,

只展示了一些通用属性比较强的指标。

3.4.1基本认证信息及价值分析

基本认证信息主要涵盖借款人的个人基本信息,运营商数据等,主要用来标

识借款人的基础信息,数据来源自用户自己输入然后由借贷互金企业进行二次验
证真伪,确保数据真实有效,如表3.1所示。
表3-1基本认证指标构成
Table3—1 The composition of basic authentication indicators

身份证号 身份证号,18位长度

婚姻状况0表示未婚,l表示已婚

学历 学历数据来自与学历字典表,从0开始的数字表示,数字越大学

历越高

手机号 手机号,11位长度

省份 省份

城市 城市

区/县 区县/街道

年龄 用户年龄

万方数据
北京化工大学

基于基本认证,可以从中分析出用户的基本状况,并根据其身份证可以分析
出其居住地,再辅以GPS定位和手机号归属地手机运营商数据,可以从中判断
用户的常居地与户籍所在地是否一致,注册手机号归属地是否与常居地保持一
致,这对于分析用户的朋友圈子,生活圈子具有实际意义。

3.4.2高级认证信息及价值分析

高级认证主要是指诸如借款人的紧急联系人,手机通讯录,通话记录,GPS

定位信息等信息,如下表3.2所示。
表3-2高级认证指标构成
Table3・2 The composition of advanced anthentication indicators

紧急联系人1手机号 第一个紧急联系人的手机号

紧急联系人2姓名 第二个紧急联系人的名字

紧急联系人2手机号 第二个紧急联系人的手机号

借款人所属社群 借款人所属社群组织

借款人所在企业 借款人所在企业名称

借款人担任职务 借款人在企业内担任的职务,一般来说,职务越高逾期风险越

小,但也要参照企业人数,企业性质,收入状况。

借款人所在企业人数 借款人所在企业人数

借款人是否法人 借款人是否企业法定代表人

借款人所在企业性质 企业性质,一般政府机关和国营企业收入更稳定,而私营企业

和个体工商户收入不够稳定,相对来说在国企和政府机关部门

工作逾期风险相对小一点

借款人工作年限 借款人工作年限越久逾期风险越低

借款人收入范围 借款人收入越高,抵御风险能力越强,逾期率就越低

借款人住房情况 借款人如果名下有房,抵御风险能力就越强,逾期率就越低

高级认证数据的价值在于分析用户的社会地位,职务和收入状况以及紧急联

系人信息。根据其社会地位,职务和收入可以判断其偿债能力,根据其住房情况
可以判断该用户名下的房产情况及房产状态,在借贷类互金企业贷前风控实践过
程中,用户如果名下有房产,哪怕房产处于抵押状态也足以证明其经济实力。

万方数据
第3章互金贷前风控评价指标构建和价值分析

3.4.3生物识别数据及价值分析

生物识别数据主要涵盖的是人脸识别和活体检测的指标数据,用于分析通过
率,一般通过率过低的需要引起特别注意,一般需要人工介入分析。
表3-3生物识别指标构成
Table3-3 The composition of biometric indicators

指标 说明

人脸识别通过比率 人脸识别通过率统计,计算方法是通过次数/识别总次数

活体检测通过比率 活体检测通过率统计,计算方法是活体检测通过次数/总次数

生物识别数据的价值在于活体和人脸的通过率,如果一个人的人脸识别不通
过,要么是人脸识别时操作不当,或者对比照片不清晰或模糊,这都是正常的,

但如果失败次数超过均值的几倍就属于异常情况了,对于异常情况,则是需要引

起额外注意的,一般需要人工介入进行评判,到底是用户原因引起的异常还是人
脸识别机制失灵引起,甚至是用户存在恶意寻找脸识别系统漏洞的行为。对于最

后一种情况,是要特别引起额外重视的。

3.4.4借还款数据及价值分析

借款还款数据是借贷互金企业风控评价的重要参考指标,主要通过历史借款

和还款情况作为风控评价的参考。
表3-4借还款数据指标构成
Table3—4 The composition of loans and repayment data indicators

按期还款次数 当天还款次数,如果没有逾期就用0表示

逾期3日内还款次数 3天内逾期还款次数,如果没有逾期就用0表示

逾期7日内还款次数 7天内逾期还款次数,如果没有逾期就用0表示

借还款交易数据的价值在贷后数据调教,贷前风控模型的质量的优劣始终是

需要由最终的用户还款情况来提现的,贷前风控评价机制也需要不断的通过新的
还款情况数据来训练和调教贷前风控模型,让贷前风控模型始终保持最佳状态。

3.4.5行为数据及价值分析

在互金风控评价中发现借款人的一些行为反映的是其自身的一些性格特质,

万方数据
北京化工大学

而这种性格特质与其诚信度是正相关的,例如在实践过程中发现经常更换城市的
人逾期率较稳定性较高的用户的逾期率要高很多,这也是行为金融学所研究的方
向和目标之一,在之前行为数据的分析结果更多的是靠人工处理和经验积累,在
本次论文讨论中,希望这些行为数据的引入能够从中发掘出更加量化的规律,比

如经常换城市的次数界定,超过多少次换城市的人逾期较高等。
希望在本次论文讨论的结论能够作为借贷互金企业风控评价提供有参考意
义的模式。
表3-5行为数据指标构成
Table3—5 The composition of behavioral data indicators

是否以WIFI上网为主 如字面含义,用O和1表示

W1FI接入点一月内更换次数 一月内借款人变更WIFI热点次数,只在一月内

是否以WIFI上网为主是1时有效

手机电量低于20%以下次数 手机电量低于20%的次数

更换城市次数 6个月内更换城市的次数统计

借款人换手机次数 借款人换手机次数

手机入网时长 表示手机用了多久

7天内手机欠费次数 累计欠费不足7天的次数

15天内手机欠费次数 欠费不足15天的次数

手机近12个月通话记录 以json格式存储的12个月内的通话记录

手机高频联系人Top20 联系最频繁的前20个人

GPS定位信息 以ison格式存储的gps定位信息

来自运营商的用户实名 手机运营商提供的用户实名,可能会在名字中

有掩码(.1:不确定,O:不匹配,1:相似度

超过0.5,2:完全匹配)

36

万方数据
第3章互金贷前风控评价指标构建和价值分析

行为数据的价值在于通过分析已经逾期用户的行为表现,从中提取出逾期用
户的共性特征,进而为贷前风控评价模型提供一个新用户逾期的决策支持。行为
数据分析的有效性,已经得到了前海征信的印证,前海征信的7大评判维度中就
包含有行为分析维度,而前海的好信地址通中还包含了对地址和GPS坐标等反
应用户行为的数据的判断和处理。

万方数据
北京化工大学

38

万方数据
第4章互金贷前风控评价模型的构建

第4章互金贷前风控评价模型的构建

4.1构建数据仓库

创建数据仓库是进行数据挖掘过程中的重要步骤,也是确定风控评价指标之
后需要进行的步骤。在数据挖掘过程中数据仓库是最重要的一步,直接关乎了数
据结果的准确性和科学性,在本次论文实验期间这部分也是耗费时间最多的。在
本节范围中将重点应用前文中的数据仓库构建过程,将风控评价数据仓库创建完
成,以作为后续数据挖掘的基础。

4.1.1数据来源

在本次论文讨论中所使用的数据来源是借贷互金企业的线上业务数据库,数
据量较大,实验期间需要进行大量性能优化工作,而数据挖掘性能优化又不是本
次论文所讨论的方向,因此在本次风控评价模型构建过程中,只有针对性的建立

了一个包含了400条比较典型数据的样本数据仓库

4.1.2建立维度表

根据前面选择的风控指标和数据仓库理论基础之上,建立的维度表主要包
含,地区维度表,时间维度表,企业性质维度表,详细内容如下所示
(1)地区维度表
表4.1地区维度表字段清单

壁垒!堡!望!堕!塑!!!塑塑坚!竺竺!垫竺!苎垒生
字段 类型 说明

(2)时间维度表

表4-2时间维度表字段清单

Tahie4-2 FieId list of time dimension table

39

万方数据
北京化工大学

字段 类型 说明

4.1.3建立事实表

由于部分事实数据指标太少,因此在这里将部分事实数据做了合并,合并后
事实数据如下。

(1)基本认证事实表
表4-3基本认证事实表字段清单
Table4-3 Field list of basic authentieation fact纽ble

字段 类型 说明

字段 类型 说明

i生i垒 坠igi旦鲤Q)翌垡璺坚!! 壹堡丛重要塞!旦


!三一i璺 !igi2丛:Q2 1坚兰旦坚!! 旦塑12

万方数据
第4章互金贷前风控评价模型的构建

堕!翌世QY!!L!Q坚堕 迪(!呈)坠坐翌尘! 垡鏊△丛垄全些△塑


ia_job_title tinyintnotnull 借款人担任职务(取自职务字典表,

用数字表示,越大表示职级越高

i生堕!皇鳇!_P!垡Q望 !i翌Yi翌!望垡望坚!! 垡鏊△墨查鎏△!Q!丕量!!!垦!


ia__company_character tinyint not null 借款人企业性质(O:无,用数字表

示,数据取自企业性质字典)

i生旦虫翌!堕曼翌堕 !i型i坐翌堕里望!! 垡鏊△三堡生堡


i生翌!坚匕』翌鳇 !i望zi堕望坐望竺!! 垡鏊△堕△蔓垦
垫垒箜坠Q竺堕 !i望!i坐翌坐旦坚!! 垡鏊△墨E亘旦!Q!垂!!!查!
ia live check_passrate decimal(13,2) not借款人活体检测通过率

null

(3)借/还款事实表
表4-5借还款事实表字段清单
Table4-5 Fidd fist of loans and repayment fact table

字段 类型 说明

!!!鱼 鱼ig迪(垫)望坐璺望!! 垡至鏊蔓塞!里


鱼生j鱼 垒igi望!(2Q)翌堕旦坚!! 旦塑望2
1£』堡 垒igi堕垡呈Q)望垡望坠!! 垫堕!堡
!L坚皇■璺 !igi坐丝12翌坐2竺!! 旦生12
41

万方数据
北京化工大学

!£_19璺啦垒婴! i望垡!呈)里Q!望些 垡鏊塑量


!!.旦堡P型.曼Q塑! i亟!至)垒鱼!旦坠!! 当丞堑鏊达塑
!£.!—堡巳!L里旦坠望! i亟!圣)望Q!望坚!! 堕塑!旦凼堕鏊达塑 :

业上P!z』2竺坐 !巡!兰2翌坐型!! 垫塑:旦凼歪鏊盗垫.

(4)行为数据事实表
表4-6行为数据事实表字段清单
Table4,-6 Field list of behavioral data fact table

字段 类型 说明

bd wifi change count int(12)not null 借款人WIFI接入点一月内更换次数

bd city gnahc_数次i州
ecount 市1城
2)not
换更 null
内年半

bd mobile change count int(12)not null 借款人换手机次数

bd mobile reK sraey_长tinyint


时网入 机null
not 手人款借

bd mobile star level tinyint not null 手机星级(O:无星级,数字表示星级)

bd mobile package yd tinyint not null 移动套餐类型(0:无,l:全球通,2:

神州行)

垒堡—堡殳堕!£』!!盟婪生2鱼 熊(!型望堡堕蝴! 垡鏊△!丞囱签耋达塑


坠垒卫21i!尘∑型竺L!!璺 熊(!12翌笾旦竺!!. 垡鏊△!i丕直筌望达鏊.

42

万方数据
第4章互金贷前风控评价模型的构建

4.1.4数据处理

数据处理步骤需要将业务数据经过数据清洗步骤,转换步骤和加载步骤处理

后,将数据持久化到数据仓库。

在本次论文讨论中,使用开源的ETL工具kettle进行数据处理。
专用的ETL工具数据处理流程与通过数据库用脚本处理的差异在于以下几

点:

(1)ETL工具是逐行处理的,而通过数据库迁移脚本一般是批量进行

(2)ETL工具是可视化操作,而通过数据库迁移脚本一般都是非可视化的
(3)ETL工具支持一大堆内置函数和外置扩展类,定制性非常强,而数据
库迁移脚本只能用数据库内置函数和自己编写的存储过程,并不方
便。

在数据处理步骤又分成两部分,一部分是对维度表的数据处理,另外一部分
是对事实表的数据处理。

(1)维度表数据处理

一般来说,维度表的数据虽然与互金业务相关,但其数据并不是直接由业务
系统迁移过来,有两种方式来处理维度数据,

第一种是通过预先产生的数据进行初始化,比如地区数据就非常适合这种方

式,因为省,市,县这种行政区划是全国通行的,一般通过全国行政区划数据直
接导入到数据仓库就可以。
第二种就是时间维度表,这种数据是没有现成数据参考的,需要通过编程实

现对某年的每一天进行处理和计算,分别计算出每天的年、月、日、季度、上半
年和下半年然后逐一插入到维度表里去。由于业务系统的时间在不断变化,所以

一般的处理办法是在每年的年末初始化下一年全部的日期数据。
(2)事实表的数据处理

事实表的数据比较复杂,每天都在不断产生新的业务数据,通过脚本难以处
理,必须借助于Kettle这样的专业ETL工具才可以,以比较有代表意义的基本

认证数据为例,数据处理活动图如图4.1所示

43

万方数据
北京化工大学

葛磕嘲噔}蜀童览 盯暇 风控评致数搦仓库

mllm.

'r五受重正曷

‘p曩rall剖 生 摇拜处理

瞄1
^P-。’。一

f获鄹
I甩商 粼l
L √


(l.筵撇。糯|
【黝崩裂i端 l

。,———址一/———、、
}将日lli-ltilil 1
f将身经证号串{
1年.月。日.I I斡瞻瞳蹿分攫}
萋 l鼗.上辈广刁出.兰tllli-l-tl}
|年,下睾年l I出Wilt,币.1
、、。,一。,,,/ \区器 √


器 }l数据仓库霹叛夺麓昀当|、
L 式 』
f {

(赫一)



图4.1数据处理活动图

Fi94-1 Data processing activity diagram

从上图可以看出,首先数据需要经过清洗步骤对数据的空字段和不合理字段
进行预处理,然后在转换步骤将维度表数据进行扩展,比如日期扩产成年,月,

日,季度,上半年和下半年,最后在加载步骤将处理过的数据装载到数据仓库。
数据导入之后,需要对数据做下核验以确保没有问题。

另外,由于业务数据在不断产生新数据,所以需要通过增量迁移【56l数据功
能将每天的新数据通过ETL工具插入到数据仓库中去,由于这部分功能不是本
次论文讨论的数据挖掘范畴,因此不再赘述。

其余的高级认证数据都与基本认证流程类似。

万方数据
第4章互金贷前风控评价模型的构建

4.2创建并测试模型

在借贷类互金贷前风控中,业务场景有很多种,在本次论文讨论中,将针对
其中一种业务场景进行建模,其余场景不再赘述。在本次论文讨论的贷前风控建

模将以C4.5决策树算法为主要的评价模型算法,在Weka中C4.5已经改名成了
J48算法。

创建和测试步骤如下
(1)训练数据阶段

精选一部分数据作为训练数据集,这部分训练数据有400条,选取指标规则

是每个用户一条记录,涵盖本次论文所讨论的全部指标。
数据挖掘工具weka支持通过idbc直连数据仓库,并将数据作为决策器的数
据来源,下面是节选的几条数据样本,如图4.2所示

图4-2节选的样本数据表

Fi94-2 Excerpted sample datasheet

(2)使用weka训练数据并生成模型。
将数据导入到Weka后,将分类器类型切换到J48决策树算法,如图4.3所

Classifier

{Choose}a48.C D。25一M 2

图40分类器选择J48

Fig 4-3 Classifier selection:J48

配置参数如下表4.7所示
表4-7J48配置参数

45

万方数据
北京化工大学

Table4-7 J48 configuration parameters

参数选项 参数和选项

!!坠垦丝iQ翌! £翌!!:!垒!i垒堕iQ旦至Q!垡!

Cross-validation Folds 10

随后执行分类器,输出如下表4.8所示

表4-8第一次实验输出结果
Table4-8 Output resnits of first experiment

Correctly Classified Instances 328 97.9104%

Incorrectly Classified Instances 7 2.0896%

从输出结果中可以看出,J48决策树分类计算后的正确的分类实例数量328

个,分类错误的有7个,成功率是97.9104%,查看执行后的分类示意图,如图
4.4所示

固囱
图4-4实验分类示意图

Fi94-4 Classification diagram of experiment

从图4-4中可以看出,从样本数据中发现的规则主要包含如下

●年龄必须介于23 ̄40岁之间,否则直接拒掉
・来自运营商的用户名(有可能带掩码)必须和用户实名近似或完全匹配

・手机号开通必须超过一年
(3)保存模型文件

将处理结果保存成模型文件,之后可以在程序中引入weka相关类,并加载
这个模型文件就可以从过代码来为借贷互金企业进行风控决策了。

万方数据
第4章互金贷前风控评价模型的构建

4.3测试风控评价模型

为了验证借贷企业贷前风控模型的有效性,在这里准备了410个测试数据,
其中400个是被拒掉的用户,另外10个是通过的用户,部分数据节选如下

表4-9测试数据
T纽ble4-9 Tbst data

验证结果如表4.10所示
表4.10验证输出结果

!垒垒坦!:!壁Q竺虫竺!坚!坚!!1 21 111i璺苎塑2璺

Correctly Classified Instances 404 98.5366%

Incorrectly Classified Instances 6 1.4634%


■■■■■■■■■■■■■●■■一1■■■■●■■■■■■■■■■●■■●■■■■■■■■■■■■■■■●■■■■■■■■■■●●■■■■■■■■■■●●■■■■■■■■■■■■■●●■■■■■●■●■■■■■■■■■■●■■■■■■■■■■■■■■■■■■■■■■■●■■■■■■■■■■■一

从上表可以看出,成功的实例数是404个,占比98.5366%,失败的实例数,

是6个,结果比较令人满意。

到现在,借贷互金贷前风控评价模型已经初步建立完毕,剩下的后续工作是
按照互金企业质量好品控流程,安排测试和验证工作。

47

万方数据
北京化工大学

万方数据
第5章贷前风控评价模型对于借贷互金企业的启示和建议

第5章贷前风控评价模型对于互金企业的启示和建议

5.1贷前风控评价模型对于借贷互金企业管理上的价值和意义

借贷互金贷前风控评价模型变人工审核为自动审核,其在企业管理上可以带

来的价值主要来自多个方面

5.1.1有效降低企业成本

对于借贷互金企业来说,对贷前风控评价模型对企业成本的影响主要有以下
几个方面

(1)对企业成本的影响。
・将原有的人审流程改为机审,缩减甚至取消了人工信审岗位,可以降低

人力成本。
●缩减了人工审核审批流程,缩短了审批放款时间,降低了企业管理成本。

●加快了贷前审批时间,缩短了借款人的等待时间,提升了用户满意度,
客户满意度的提升也意味着用户留存成本的下降,据统计表明,获取一

个新用户的成本是留存一个老用户成本的6~8倍,从某种意义上说贷前
审批时间的缩短也降低了获客成本。
・减少了借款逾期所引起的贷后管理流程,降低了企业的贷后运营成本。
・减少了借款逾期,提升了投资人的满意度,降低了投资人客户管理成本。
(2)对企业时间成本的影响
对于企业来说,采用机审模式的贷前风控评价模型砍掉了非机审的步骤和环
节,缩短了用户等待领款的时间,不但提升了企业的时间成本也进一步的提升了
借款人和投资人的满意度,同时也缩短了借款人的等待审批的时间,并提升了顾
客的让渡价值。

5.1.2增加企业利润

贷前风控模型对于企业利润的影响也是显而易见的,拒掉劣质用户,留下优
质用户,可以有效减少借款逾期,为投资人打造优质投资环境,形成良性循环,
投资人也愿意将资金投入到安全可靠稳健的借贷互金平台,进而可以增加企业利

润。

49

万方数据
北京化工大学

5.1.3打造借贷互金企业的核心竞争力

对于借贷互金企业来说,风控是其核心竞争力,而贷前风控更是风控中的重
中之重,通过打造和完善优秀的贷前风控模型,可以有效的降低借款逾期率,提
升资金安全性。

5.1.4减少了贷前风控审批层级,促成组织效率提升和资金周转率的提升

互金借贷类企业通过建成贷前风控评价机制,通过自动化机审机制可以有效
的缩减贷前风控的审批层级,促成企业组织效率的提升。
由于自动化机审有效的提升了审批效率,也可以提升企业的资金周转率

5.1.5提升了企业贷前风控流程的客观性

对于互金贷前风控评价模型来说,其价值的另外一个方面就在于杜绝了风控
经验化和风控人情化因素的干扰,其高效和客观的表达了平台对于借款人的信用

风险情况,对借款的风险处置起到了很好的作用。

5.2贷前风控评价模型对于企业管理上的启示

5.2.1借贷类企业贷前风控的中立性

贷前风控的评价标准和体系的要保持中立包含如下几个含义
(1)数据和指标中立:所谓数据和指标中立是指数据和指标的选取过程
中,务必保持中立,选取期间无个人喜好或选择倾向性,并且无根据
经验推测选择因素。只有数据和指标无倾向性并保持中立,获得的风

控评价模型才具有良好的效果,否则其价值是让人怀疑的。
(2)杜绝了人情等主观因素影响:在进行贷前风控评价时的全机审,期间
并没有人的参与,其结果也不会掺杂人的主观好恶,所有被风控评价

审查人员在风控面前都一视同仁,有效的杜绝了人工审核的主观因素
干扰,也从一定程度上削弱了为防止人审主观因素干扰而增设的若干
行政审批环节。

万方数据
第5章贷前风控评价模型对于借贷互金企业的启示和建议

5.2.2对成本和效率的要求是企业管理中的一项重要目标

在企业管理中,成本和效率从来都是企业管理中所需要努力提升的方向。成
本是要尽可能的下降,而效率要尽可能的提升。

采用基于数据挖掘的贷前风控模型的自动机审机制,可以有效的兼顾两者,
一方面降低成本,另一方面可以提升效率。

5.2.3对企业管理中贷前风控监控有了更高要求

对贷前风控的监管要求主要分成两方面

(1)管理要求方面

管理上监控的要求是指,在组织层级上,需要有专人负责监控贷前风
控评价模型的风控评价情况,并落实其责任,当发现风控结果出现问
题则可以第一时间介入修正问题,并追责任人的相关责任。
(2)技术要求方面

在技术方面,监控需要提供自动监控机制,要实现24小时内随时都

有自动预警机制,当贷前风控出现问题的时候可以第一时间感知到。

万方数据
北京化工大学

5.3贷前风控评价在实验过程中的几个亟待解决的问题

在本次论文讨论及后续实验中,发现了几个小问题
(1)数据准确性非常重要,在实验阶段遇到了几个问题就是因为在采集阶
段有问题,在数据清洗阶段也没有处理就直接进入了数据仓库,造成
了统计结果的误差较大。

(2)在实验期间的数据量较少,时间仓促无法对更多采样数据进行实验,

这个问题将在后续的工作中进一步改进和加强。
(3)对于行为数据的采集还是过于粗糙,统计的指标粒度过大,但如果统
计精度提高了又会造成产品体验下降,如何平衡数据采集的粒度和产
品体验和性能将在后续的工作中进一步完善。
(4)对于算法的深入研究有缺失,在本次论文讨论中,重点研究了C4.5

决策树算法,但在实际业务中,风控评价涉及到的算法远远不止一个
C4.5算法,还有很多其它的理论和优秀算法,但笔者并未过多涉及
到。

5.4风控评价关于改进和改善的几点建议

5.4.1风控数据孤岛问题

在本次论文讨论中,互金领域风控评价最大的问题其实并不在于技术的缺失
和落后,而在于数据的不共享,每个借贷互金企业都需要进行风控评价,都希望
能全面的掌握每个借款人的风险定价能力,但与此矛盾的是大部分借贷互金企业
都不愿意共享自己的数据,这里面一方面担心自己的真实的营业数据和坏账率等
关键运营指标被外界获取,这是每个借贷互金企业所不愿意看到的,另外一方面
也不愿意将自己的业务数据特别是用户数据共享给别的企业,毕竟是自己买流量
做活动耗资不菲换来的,轻易的免费送人确实不甘心。

针对这个问题可以从以下几个方面来解决
(1)将数据脱敏处理来倒卖用户信息的问题,比如用户的四要素信息,采
用将名字和身份证号拼接然后取MD5码的方式就可以很好的实现信

息脱敏的问题。
(2)数据分享的是获取互金风控评价结果的前提条件,也就是说如果想获
取风控评价数据,就必须分享数据,并且要每天报送,每天自动核验,

52

万方数据
第5章互金风控评价在实践过程中的几点建议

发现数据核验失败就警告,超过一定时间不整改就停掉查询权限。
(3)有较有实力的借贷互金企业牵头组成企业联盟,功能拟定标准,包括
数据上报标准,数据查询标准,风控评价计算规则等。
现在的芝麻信用就是采用以上原则汇集和搜集了大量借贷互金企业

的信息,因为在互金领域特别是消费金融领域,芝麻信用几乎相当于
行业标准了,如果不对接芝麻信用带来的负面影响和损失要远远大于
共享数据带来的潜在风险。

5.4.2隐私问题

关于隐私一直是个比较重要的话题,特别是在国家的《中华人民共和国网络
安全法》【57】于2017年6月1日开始施行后更是如此。
对于隐私问题,有如下几个方面来解决
(1)首先需要划定范围,明确哪些数据属于隐私,然后将隐私数据脱敏处
理,这样才可以确保用户的隐私不受侵犯。这需要报送数据的借贷互
金企业和接受数据的提供风控评价服务的企业共同来制定,
(2)提供风控评价服务器的企业也需要遵守企业道德,不能将数据随便外
泄到企业范围外。目前国家已经通过牌照机制来约束,限定了全国一
共8家企业拥有征信牌照,有牌照的企业自然需要接受监管,一旦出
现隐私泄漏事件就需要企业承担相应法律责任。

(3)网络安全风险,具有征信牌照的企业无比做好网络安全加固,对于任

何来自外部的黑客行为和攻击都要做好应对,谨防出现服务器被入侵
造成的数据泄漏。

综合以上三种方法,可以妥善的解决隐私泄漏的问题。

5.4.3区块链技术的引入

在2009年由中本聪开发的比特币在2015年开始变得非常火爆,到了2017
年比特币价格已经超过了1万美元,在比特币火爆的同时,其背后的区块链技术
158-621也随之变得炙手可热,区块链技术的不可篡改,无法删除和去中心化的特点

为金融行业带来了一次技术上的洗礼【63】,各个行业都在思考一个问题,如何在
我的行业中应用区块链技术?
其实金融行业的风控评价场景正是区块链的最典型应用场景【删,原因如下
(1) 区块链具备的交易的不可篡改和不可删除特性
当互金交易发生后,在链上记录该笔交易,由于该笔交易写入链后无法删除

万方数据
北京化工大学

也无法修改,是不存在篡改的可能的。一方面防止了数据造假,另一方面在链上
的数据是公开的,其它借贷互金企业也可以看到该笔交易的信息,这对借贷互金

企业来说是个很有价值的功能。当借款人来找借贷互金企业借钱的时候,可以快
速的查询到她在别的互金平台上发生的历史交易和逾期情况,一方面借贷互金企
业可以看到他现在还有多少笔贷还交易,另外也可以看到他历史的逾期情况和信

用污点,以此作为风控评价的参考信息意义是非常重大的。
(2)区块链所具有的去中心化特性

区块链的去中心化特性就意味着不需要有一个类似人行征信这样的权威机
构来解读用户的信用状况了,每个人本地的账本中都可以快速查询到借款人的全
部交易和信用污点,参与的每个借贷互金企业通过共识机制来确保信息的准确性

和真实性,甚至都不用系统崩溃和数据丢失造成的业务停顿问题。因为区块链的
数据是无法摧毁的,这是有区块链的特质决定的。 ・

(3)区块链所具有的高度安全性
区块链革命性的安全性主要体现在使用共识机制解决了在网络条件不受信

任的条件下进行安全交易的难题,区块链的安全性需要从三个方面进行阐述

第一方面,区块链技术普遍采用了点对点网络传输协议(peer-to.peer)简称
P2P,这个和互金行业的P2P并不是一个含义,点对点网络又称对等网络,它的

核心价值在于将文件分成若干小块分散处理,多机互相冗余存储,当某个节点宕
机或下线,其余节点可以继续提供服务,确保整体不会缺少任何一块文件,最终

确保文件具有高度安全,在区块链中,区块文件就是以P2P技术进行存储的,

通过这种方式就算某一个节点下线其余节点依旧可以提供服务,并且就算全网的
电脑在一次全球性的灾难中99%的节点都受损无法修复,但只要靠这那1%的幸
存节点,整个网络依旧可以恢复如初,所有数据都不会丢失。

第二方面,网络条件比较糟糕,网络时断时续通讯不够稳定,这种情况下是
难以确保交易的准确性的,但区块链的异步机制就很好的解决了这一问题。只要
请求被链上的智能合约受理,后续的处理和结果反馈都是异步执行的,就算网络
断开也不会影响共识的达成。因此区块链对于糟糕网络的容忍性是很高的。

第三方面,网络中存在恶意程序伪造交易的行为,区块链网络部署在公网,
通过大范围的共识机制来确保交易的准确性,在全球分布的区块链节点中势必存
在心怀不良分子在从中破坏,比如伪造交易,假冒收款人等,在区块链中的共识

机制很好的克服了这一点,区块链有很多种,以比较有代表性的比特币为例,其
共识机制采用了拜占庭将军容错机制[65】(PBFT),简单来讲就是在全网络有1000
个节点,只要有超过51%的节点认同某笔交易那么该笔交易就算成立了,就算有

偶尔的几个假的交易来捣乱,PBFT算法还是可以容忍的。并且当比特币网络规

万方数据
第5章互金风控评价在实践过程中的几点建议

模达到了百万甚至千万级别的时候,这种对全网能成功伪造交易的可能性是几乎
不存在的,因为没有人能够纠集超过全网算力51%的节点一起来伪造交易,说白
了就是凑集几百万甚至几千万台电脑的算力难度极大,一方面成本太高,另一方

面以下凑齐那么多电脑实在是太难。全球范围内从2009年迄今每年都会发生多
起数据丢失问题或者资料被窃时间,但迄今为止比特币从来没有发生过被窃和交
易丢失问题,这也从现实角度证实了区块链的安全性。

5.4.4银行对于风控评价起到的作用

在互金风控领域,银行一直是个独特的存在,一方面银行是金融业的鼻祖也

是金融行业的标杆,其体量也是互金行业所无法相比的,在银行领域有最权威的
人行征信,但借贷互金企业是无法访问和调阅了,因为人行征信报告只对银行开
放。正因与此才催生了针对个人信用评分的前海征信、芝麻信用和腾讯征信等企
业。但数据对于互金行业不共享不公开的做法对于风控评价领域恐怕并不是什么
好事情,

所幸银行也意识到了这一点,在2018年1月4日成立的百行征信机构正是

一家有互联网金融学会和8家个人征信机构共同出资组建的个人征信机构。其中
的互金协会占36%股份,芝麻信和腾讯征信等8家机构分摊了剩余的64%的股
份。百行征信的主要作用就是针对互金风控领域,他一方面整合了8大个人征信
机构的数据,另一方面也具有人民银行发布的个人征信业务牌照,可以在银行、

证券、保险等金融机构之外的互金领域展开个人征信业务,与人民银行征信中心
数据互为补充,错位发展。百行征信的出现,从银行层面出发实现了对原本分散
在多处的个人征信数据做了整合,将原来的孤岛问题彻底解决了。

万方数据
北京化工大学

万方数据
第六章结论与展望

第6章总结和展望

6.1结论

在本次论文讨论中,首先界定了本次论文所讨论的互联网金融风控评价的讨
论范围仅限借贷类互联网金融的贷前风控,然后讨论了借贷互金贷前风控评价的
意义和重要性,紧接着引述了一些贷前风控评价的相关理论和前人的研究成果,
并阐述了互联网和移动互联网的关系和区别,之后讨论了国内和国外的风控评价

的发展和现状并用一系列实验验证了数据挖掘决策树算法的有效性,并从中证实
了行为数据确实是与风控评价结果确实相关的。

6.2研究不足及展望

由于作者水平有限,本次论文所讨论的方式和方法都尚存在诸多不足,不足
主要体现

(1)在决策树算法了解的仍然太少,并没有过多的涉及当下最新的风控评
价的研究成果和理论。

(2)本次论文所形成的模型的训练样本只有几百条,未能完全覆盖全部的
逾期情况,最终形成的模型也只能适用于特定场景,离全面覆盖所有
业务场景仍然有大量的工作要做,并且对异常数据的处理也不够完

善,对数据的容错性处理也没有做到尽善尽美,在以后的工作中让然
需要跟进研究和持续完善。
(3)本论文所涉及到的理论和算法也仅仅停留在初窥门径的肤浅阶段,所

得出的结论也尚显稚嫩,缺少系统性和全面性,并且由于编写时间仓

促,也无法对数据挖掘技术和行为金融学理论做更深入的研究。

所有以上这些不足都需要在作者以后的工作和学习中继续研究和探索。
随着借贷互金行业的发展和技术进步,关于借贷风控风控评价的系列问题正
在逐步解决,征信数据孤岛问题也正在随着国家政策的出台而慢慢消融。由银监
会牵头,在深圳成立的百行征信有限公司已经挂牌成立,百行征信的最大目的就
在于消除征信数据孤岛,打通互金风控评价的壁垒,建立具有个人征信牌照的个

人征信机构正规军,百行征信汇聚来自芝麻信用,腾讯征信,前海征信,鹏元征
信,中智城等8家规模较大的征信企业,另外对外对接了几百家借贷互金企业的
S7

万方数据
北京化工大学

借款数据,完全可以作为人行征信的有益补充,由此很大程度上解决了借贷互金

企业的征信孤岛问题,一个庞大的覆盖全国的共享的互金风控黑名单对于互金行
业有着里程碑似的作用。相信在不远的将来,在互金风控领域随着共享借款人风
控数据的深入开展,互金风控评价会得到更加健康和快速的发展和进步。

万方数据
参考文献

参考文献

[1] 谭清端;苏小霞.浅析传统金融与互联网金融【J】.企业改革与管理,2017:16.

【2】 桂杨;张梦圆.基于模糊层次分析法的互联网金融风险分析【J].上海立信会计金融学

院学报,2018:12.15

Z,Huang;J Xu;Y Yu;S Liu.A Preventing Fraud Trust Model in P2P Networks.IEEE

International Parallel&Distdbuted Proce[M].2012(14):205-21 1

David M Bholat;Ulrich Atz.Peer-to-Peer Lending and Financial Innovmion in the United

Kingdom【J】.Credit Card Management,2001 0):30-35

[5】 吴益君.互联网金融背景下的中小企业融资问题分析[J】.商业经济,2018(1):96—98

[6】6 潘一豪.互联网金融的信用风险及规制[J】.北方金融.2017(4):53—56

【7】 Sebasfiaan Poolab;Leo de Haanb;Jan P.A.M.Jacobsac.Loan loss provisioning,bank

credit and the real economy[J].Journal ofMacroeconomics.2015:124-136

虞小波.民间借贷信用风险的实证研究及其与商业信贷、FICO的比较

[D].2009:1 2・22

陈彩霞;石春;程明雄.基于FICO信用评分模型的电商小贷信用评价分析研究[J】.现

代商.2015:20.3 1

[10】黄鑫宇.拍拍贷:做中国版Lending Club+FICO[J].首席财务官.2015:12—17

[1l】刘新海;丁伟.大数据征信应用与启示-以美国互联网金融公司ZestFinance为例[J】.清

华金融评论.2014:35.41

[12】Milagros Vivel—Bfia;Rub6n Lado—Sestayo;Luis Otero—GonzAlez.Risk determinants in the

howl sector:Risk credit in MSMEs[J].20 1 8(70):1 1 0-1 1 9

【1 3】Dongheon Shin;Baeho Kim.Liquidity and credit risk before and after the global

financial crisis:Evidence from the Korean corporate bond market[J].Pacific-Basin

Finance Joumal.20 1 503):38—6 1

[14】Zanolini,Ken.Spotting the bad credit risk~ask before,during,and after the sale[J].

Business Credit.1 995(97):1 5

[15】孙福利.大数据时代的数据挖掘技术与应用【J】.电子技术与软件工程.2018(1):170

[16】郑杨.大数据技术与档案数据挖掘.中国管理信息化.2018(1):132-134

[17】柴艳妹,雷陈芳.基于数据挖掘技术的在线学习行为研究综述[J】.计算机应用研

究.20 1 8(5):34-40

[18】叶淑然.大数据时代数据挖掘技术与财务竞争情报获取[J】.电子技术与软件工

程.2018(1):147

59

万方数据
北京化工大学

[19】Hao Peng;Xiaoli Bai.Recovering area-to-mass ratio ofresident space objects through

datamining[J].ActaAstronautica.2018(142):75-86

[20]Marco Quaglio;Eric S.Fraga;Enhong CaoAsterios Gavriilidis;Federico Galvanin.A

model-based data mining approach for determining the domain ofvalidity of

approximated models[J].2018(172):58・67

[21]JoaquinAbellLq;Carlos J.Mantas;JavierGCastellano.AdaptativeCC4.5:CredalC4.5

with a rough class noise estimator[J].20 1 8(92):363-379

[22】商政淳.浅尝人工智能[J】.科技风.2018(3):76

[23】赵赛坡.人工智能-人工智能的过去和未来[J】.互联网经济.2016(9):32.37

【24】沈怡然.人工智能:风口与陷阱[J】.国际品牌观察.2016(12):44-45

[25】毛航天.人工智能中智能概念的发展研究[D】.华东师范大学.2016:23—50

[26】Lararnee,Francois Dominic.Design and implementation of a chess-playing program in

the Java programming language[D].Concordia University.2002:1 2—4 1

[27】Wang,Yikai.Credit risk pricing in single name corporate CDS・[D】.City University of

New York.20 1 0:22.23

[28】郭晓玉.基于Weka平台的关联分析算法研究[D].浙江工业大学.2015:43—52

[29】吴莹.Weka平台下电商系统的决策算法研究田】.武汉理工大学.2014:12-47

[30】Krieghbaum,Douglas Matthew.Using machine learning techniques for analyzing


educational dialogues and student responses[D].Northem Illinois.2014:33-58

[31】Janko Skok.On the presence and absence ofsuckling order in polytocous mammals[J].

Behavioural Processes.2018(148):10・15

【32】Hiba Asria;Hajar Mousarmifb;Hassan Ai Moatassimec;Thomas Noeld.Using Machine

Learning Algorithms for Breast Cancer Risk Prediction and Diagnosis[J].Procedia

Computer Science.2016(83):1064-1069

[33】Heredia,Diana;Amaya,Yegny;Barrientos,Edwin.Student Dropout Predictive Model

Using Data Mining Techniques[J].201 5(1 3):9

【34】廖芹.型镭蝴与数学碧衡M】.国防工业出版社.2010:115-212
【35]K.ESoman,Shyam Diwakar,VAj ay.戮摇挖掘基础裁秘M】.2009:130—194
[36】李爱婧.我国投资者证券投资行为现状及建议-基于行为金融学视角的分析【J】.福建

质量管理.2018(1):83

【37】杨东.行为金融学理论与实证.金融博览[J】.2018(1):36-37

【38】蔡欢.行为金融学的研究:理论、模型与运用【J】.经贸实践.2017(i 1):91

【39]暴龙.关于行为金融学基本问题分析【J].现代营销(下旬刊).2017(2):96—97

[40】孙德华.行为金融学视阈下证券市场非理性波动研究[J】.山东理工大学学报(社会科

万方数据
参考文献

学版1.2017(6):18-22

[41]李雪清.中国金融市场中行为金融学的研究【J】武汉金融.2017(15):53—55
[42】宋佳镁.应用数据仓库技术创建金融信息管理系统[J】.电子技术与软件工

程.2018(4):15-17

[43](美)金博尔;(美)罗斯著.数据仓库工具箱维度建模权威指南第3版[M】.清华

大学出版社.2015:121.159

[44】韩强飞;张国晨;张发光.基于Kettle构建企业数据仓库[J】.信息系统工程.201712]:108

[45】杨昌其阔靖力.基于元数据的空管运行数据挖掘方法及应用[J】.中国民用航
空.2016(8):99.102

[46】杨霖;周军;梅红岩;杜晶鑫.基于ID3决策树算法的非规则数据的规律【J】.软件导

刊.2017(8):21-24

[47】傅则恒.数据挖掘c4.5算法在市政工程造价的应用研究[J】.计算机与现代

化.2018(1):27-31

[48】徐玉萍.不同评估模型对中小企业信用风险度量的适用性分析【J]_商业时

代.2009(16):82

[491代萍.依托集团优势提升核心竞争力.访深圳前海征信中心股份有限公司总经理邱

寒[J】.中国信用卡.201 5(7):29-30

[50】王韦雯.数字普惠金融下的互联网个人征信业务探索——以芝麻信用为例

【J】.2017(11):12・15

[51】张岩;王晖;李宛娴;王欣妍.互联网信用评分机制的潜在缺陷与改进思路-基于“芝麻

信用”的调查研究[J].2017(9):48-65

[52】曾薇.互联网金融风险防范机制研究[J】.2017(12):33-37

[53】杜明鸣;刘司墨.我国互联网金融信用风险控制及监管研究.以P2P网络借贷模式为

例[J】.2017(4):9—15

[54】陈芬.规范互联网金融大数据风控至关重要【J】冲国经济信息.2016(11):10-20

[55】黄琦涵.浅谈商业银行风控体系4.0时代叨.商情.2016(8):12-17

[56】张杰.基于多种迁移策略的元数据驱动数据迁移研究【J】.电脑知识与技

术.2015(1):251-253

[57】中华人民共和国网络安全法.中华人民共和国最高人民检察院公报[-q.2017(2):1—9

【58】张珂瑜.区块链研究现状【J】.江苏商论.201 8(1):1-56

[59】唐屹;陈家豪;吴嘉熙.区块链上的通用钱包设计与实现【J】.软件导刊.201 8(1):205-207

[60]陈丽燕.银行资管业务的区块链应用探析[J】.经济师.2018(1):153.155

[61】王健;陈恭亮.比特币区块链分叉研究【J】.通信技术.2018(1):149.155

[62】韩裕光.互联网金融演化:比特币研究p】.安徽大学.2016

6l

万方数据
北京化工大学

【63】Akin Gump;Christopher Leonard.Blockchain::regulating the future of

finance[J].IEEE.2016(2):12-28

【64]周路菡.区块链6大金融应用[J】.2017(8):19-24

【65】Jiang,Jennifer Hongbo.How much does trust cost?:analysis ofthe consensus

mechanism of distributed ledger technology and use—cases in

securitization[D].S.M.20 1 7:28.30

万方数据
参考文献

致谢

非常感谢我的指导老师张文教授。

万方数据
北京化工大学

导师及作者简介

导师简介
张文,教授,毕业于日本北陆先端技术大学院。主持国家自然科学基金项目

等项目10余项;在《Knowledge—based Systems》,《Expert Systems with

Appl ications》、 《International Journal of Software Engineering and

Knowledge Engineering>>、《系统工程理论与实践》、《管理评论》等国内外期刊

及会议发表学术论文数十篇。主持过多个中央、国家各部门及重大科研项目和自
然科学基金项目,研究领域包括:大数据管理,数据挖掘,互联网舆情分析等。

作者简介
韩晓峰,男,1977年8月出生,汉族,山东省潍坊人,北京化工大学经济管

理学院工商管理专业硕士研究生,现工作于杭州顺兆科技有限公司。

万方数据
北京化工大学
专业学位硕士研究生学位论文答辩委员会决议书

研究生姓名: 韩晓峰 学科名称: 工商管理

论文题目: 基于数据挖掘的互联网余融风控评价研究

学校导师姓名: 张文 职称: 教授

企业导师姓名: 王栋 职称: ’高级工程师

论文答辩日期: 2018.11.30 地点: 电教楼201

论文答辩委员会成员
是否来自企业
姓名 职称 工作单位 本人签名
f^ 或工程部门

唐方成 教授 北京化工大学
]渗斌
7R

李想 教授 北京化工大学
/喀臻 硒
张英奎 教授 北京化工大学
刊涨 否

王淑慧 教授 北京化工大学 怠。矿


/ Z、

孙军 教授 北京化工大学
勿冢 否

注:此表用于存档,除本人签名务必用钢笔填写外,其余处必须用计算机打印。

万方数据
答辩委员会对论文的评语(选题是否来源生产实际且具有明确的生产背景和应用
价值、论文工作的技术难度和工作量;是否具备了解决工程实际问题的新思想、
新方法;是否创造了经济效益和社会效益;是否具备了综合运用科学理论、研究
方法和技术手段解决工程实践问题的能力,论文的不足之处):

韩晓峰同学的论文《基于数据挖掘的互联网金融风控评价研究》,选题具有一

定的现实意义。该文通过对互金风控评价的意义和重要性的研究,结合相关理论

及国内外风控评价的发展与现状,运用相关实验验证了数据挖掘决策树算法的准

确性,最终证实了行为数据确实是与风控评价结果的关系。

论文结构比较合理,资料比较详实,文献综述规范,表达通顺,重点突出。

韩晓峰同学在答辩过程中较好地回答了评委提出的问题。符合专业学位硕士

论文的要求。
建议授予韩晓峰同学石贞士学位。

对学位论文水 优秀 良好
平的总体评价

答辩委员会表决结果:

同意授予专业硕士学位5票,不同意授予专业硕士学位0票,

弃权0票。根据投票结果,答辩委员会做出建议授予该同学专业

硕士学位的决议。

答辩委员会主席签字: 拔 、I-Jr、

2018年11月30日

万方数据

You might also like