You are on page 1of 58

分 类 号:TP311 单位代码:10183

研究生学号:2021258128 密 级:公 开

吉 林 大 学
硕士学位论文
(专业硕士)

吉林农信大数据平台分析与优化设计
Analysis and Optimization Design of Big Data Platform
of Jilin Province Rural Credit Bank
作者姓名:刘凌志
类 别:工商管理硕士
领域(方向):战略与运营管理
指导教师:张世伟 教授
培养单位:商学与管理学院
2023 年 5 月 27 日
吉林农信大数据平台分析与优化设计
Analysis and Optimization Design of Big Data Platform
of Jilin Province Rural Credit Bank

作 者 姓 名:刘凌志

领域(方向):战略与运营管理

指 导 教 师:张世伟 教授

类 别:工商管理硕士

答 辩 日 期:2023 年 5 月 27 日
摘 要

吉林农信大数据平台分析与优化设计

近年来,在新一轮技术发展和产业变革的背景下,多数商业银行利用信息
系统建设使金融业务与大数据、云计算等新兴技术深度融合,为银行的经营与
业务的蓬勃发展提供了持续的创新动力。吉林省农村信用社(以下简称“吉林
农信”)是吉林省最大的地方性金融机构。随着业务快速发展,数据积累越来
越多,为了解决全行数据存储与计算能力不足的问题,吉林农信于 2019 年依托
Hadoop 架构搭建大数据平台,通过大数据平台搭建统一报表、监管报送、风险
控制、资产监测等数据集市,满足吉林农信的日常管理需求。
随着大数据平台系统逐步参与吉林农信的管理经营,在大数据平台的使用
中也出现了一些问题,主要包括:业务人员提取数据周期长,响应时效慢;业
务人员获取数据方式单一,数据服务能力弱,数据利用程度不高;缺失数据资
产管理,业务人员不能通过数据准确掌握吉林农信的实际经营水平等。
本文通过对吉林农信大数据经营管理中遇到的问题进行分析,发现吉林农
信大数据平台存在的问题包括:集群资源规划能力不足、缺乏统一数据加工流
程、数据应用架构缺失、数据组织架构不完善、数据管理制度缺失。
为了解决吉林农信大数据平台现存问题,本文给出吉林农信大数据平台在
集群资源管控、统一开发流程、数据团队建设、缺失制度建立等方面的优化设
计方案。通过结构化系统分析方法对大数据平台现有的应用架构进行整体设计,
提出了数据采集、数据模型、统一调度、统一数据开发、统一数据服务、统一
监控模块的优化设计方案,以提升吉林农信数据应用能力。通过建立沟通协调、
细节管控、资源保障机制对大数据平台优化设计方案的落地实施进行保障。
大数据平台优化设计方案的实施可以帮助吉林农信打通数据孤岛、统一数
据指标口径、形成数据资产、提升数据加工质效、提高数据服务能力。通过对

I
大数据平台的优化,可以让数据服务更好地融入吉林农信业务流程之中,辅助
管理层快速有效地分析决策,从而帮助吉林农信实现卓越运营,提升企业综合
竞争能力。
吉林农信在大数据平台建设过程中遇到的问题,我国其他中小银行可能也
会遇到,本研究沉淀出的大数据平台优化设计方案对这些银行的大数据应用探
索具备一定的参考价值。

关键词:
大数据平台,大数据架构设计,金融科技,银行管理

II
Abstract

Analysis and Optimization Design of Big Data Platform of

Jilin Province Rural Credit Bank

In recent years, in the context of a new round of technological development and


industrial transformation, most commercial banks have used information system
construction to deeply integrate financial services with emerging technologies such as
big data and cloud computing, providing continuous innovation impetus for the
vigorous development of banks' operations and businesses. Jilin Rural Credit Union
(hereinafter referred to as "Jilin Rural Credit Union") is the largest local financial
institution in Jilin Province. With the rapid development of business, data
accumulation is increasing. In order to solve the problem of insufficient data storage
and computing capacity throughout the bank, Jilin Rural Credit established a big data
platform based on Hadoop architecture in 2019. Through the big data platform, Jilin
Rural Credit established a unified reporting, regulatory submission, risk control, asset
monitoring, and other data mart to meet the daily management needs of Jilin Rural
Credit.
As the big data platform system gradually participates in the management and
operation of Jilin Rural Credit, some problems have also arisen in the use of the big
data platform, mainly including: long data extraction cycle and slow response time
for business personnel; Business personnel have a single way of obtaining data, weak
data service capabilities, and low data utilization; There is a lack of data asset
management, and business personnel cannot accurately grasp the actual operating
level of Jilin Rural Credit through data.
This article analyzes the problems encountered in the operation and management

III
of Jilin Rural Credit Big Data Platform, and finds that the existing problems of Jilin
Rural Credit Big Data Platform include: insufficient cluster resource planning
capabilities, lack of unified data processing processes, lack of data application
architecture, incomplete data organization architecture, and lack of data management
systems.
In order to solve the existing problems of the Jilin Rural Credit Big Data
Platform, this article provides an optimized design plan for the Jilin Rural Credit Big
Data Platform in terms of cluster resource management and control, unified
development process, data team construction, and missing system establishment.
Through the structured system analysis method, the existing application architecture
of the big data platform is designed as a whole, and an optimized design scheme for
data collection, data model, unified scheduling, unified data development, unified
data service, and unified monitoring module is proposed to improve the data
application capability of Jilin Rural Credit. Ensure the implementation of the
optimized design scheme for the big data platform by establishing communication
and coordination, detail control, and resource assurance mechanisms.
The implementation of the optimization design scheme for the big data platform
can help Jilin Rural Credit to break through data silos, unify the caliber of data
indicators, form data assets, improve the quality and efficiency of data processing,
and improve data service capabilities. Through the optimization of the big data
platform, data services can be better integrated into the business process of Jilin Rural
Credit, assisting the management to quickly and effectively analyze and make
decisions, thereby helping Jilin Rural Credit achieve excellent operations and
improve the comprehensive competitiveness of the enterprise.
Other small and medium-sized banks in China may also encounter problems
encountered by Jilin Rural Credit in the construction of big data platforms. The
optimized design scheme of big data platforms precipitated by this study has certain

IV
reference value for the exploration of big data applications in these banks.

Keywords:
Big data platform, Big data architecture design, Financial technology, Bank
management

V
目 录

第 1 章 绪论............................................................................................... 1
1.1 研究背景 ........................................................................................... 1
1.2 研究意义 ........................................................................................... 2
1.3 研究方法 ........................................................................................... 3
1.4 文献综述 ........................................................................................... 4
第 2 章 吉林农信大数据平台现状 .......................................................... 9
2.1 吉林农信数据资源现状................................................................... 9
2.2 吉林农信大数据平台概况 ............................................................ 11
2.3 吉林农信大数据管理经营难点 .................................................... 15
第 3 章 大数据平台存在的问题分析 .................................................... 18
3.1 集群资源规划能力不足................................................................. 18
3.2 缺乏统一开发标准管控流程 ........................................................ 19
3.3 大数据平台应用架构缺失 ............................................................ 20
3.4 数据团队组织架构不完善 ............................................................ 21
3.5 大数据平台管理制度缺失 ............................................................ 23
第 4 章 大数据平台优化设计 ................................................................ 24
4.1 大数据集群资源管控优化设计 .................................................... 24
4.2 大数据平台统一开发管控流程优化设计 .................................... 26
4.3 大数据平台应用架构优化设计 .................................................... 27
4.4 数据团队组织架构优化设计 ........................................................ 37
4.5 大数据平台缺失制度建立设计 .................................................... 41
4.6 大数据平台优化实施保障设计 .................................................... 44
结论........................................................................................................... 46
参考文献................................................................................................... 48
第1章 绪论

第1章 绪论

1.1 研究背景

近年来,在新一轮技术发展和产业变革的背景下,以大数据、人工智能、
云计算为代表的新兴技术不仅改变了我们过去经济社会的运行模式,也改变了
我们的思维方式。2014 年,“大数据”专业名词首次写入中华人民共和国中央
人民政府工作报告;2015 年,中国共产党第十八届中央委员会第五次全体会议
正式提出“实施国家大数据战略,推进数据资源开放共享”;2017 年,《大数
据产业发展规划(2016-2020 年)》实施;2020 年《关于构建更加完善的要素市场
化配置体制机制的意见》中,大数据被正式列为新型生产要素;2021 年“十四
五”规划中,大数据标准体系的完善成为发展重点。大数据应用的迅猛发展对
各行各业来说既是机遇也是挑战。
对于银行业来说,大数据云计算等信息技术与金融业务深度融合,为金融
发展提供了源源不断的创新活力。2022 年 1 月,央行印发《金融科技发展规划
(2022—2025 年)》对“十四五”新时期金融科技的发展提出的新愿景是:以 “数
字、智慧、绿色、公平”为原则提供高质量金融服务,将数字元素注入金融服
务全流程,将数字思维贯穿业务运营全链条,走出有中国特色并与国际接轨的
金融数字化道路,实现金融创新科技驱动和数据赋能,力争到 2025 年实现金融
数字化转型整体水平和核心竞争力的跨越提升。规划的发布,标志着金融科技
稳中求进,即将开启新一轮增长点,对金融与科技行业价值重大。
吉林农信是吉林省地方性金融机构,下辖 52 家县级行社(农村商业银行、
农村合作银行)。在吉林省全省金融机构中,吉林农信资产规模、存贷款余额、
营业网点数量、客户总量、县域金融地位、拨备前利润、纳税总额位列第一。
随着吉林农信各类业务快速发展,数据积累越来越多,数据的统一存储和数据
分析处理面临硬件成本和计算能力不足等问题。为解决上述问题,吉林农信 2019

1
第1章 绪论

年依托 Hadoop 架构搭建大数据平台,目前已接入数据源系统有五十余个,设计


面向主题数据仓库模型二百余个,配套建立监管报送、统一报表分析,大数据
风控、风险资产监测四个主要数据集市,满足行内监管类系统和管理类系统的
数据需求。大数据平台下游建有银行经营管理类系统领导驾驶舱、统一报表平
台、历史数据查询平台等,并为各家分行提供数据下发服务,成为全行数据加
工与数据流转中心。
由于大数据平台起步较晚,在吉林农信大数据探索与实践的过程中,也出
现了数据架构不合理、监控能力薄弱、数据质量不佳、数据人才稀缺、数据应
用能力不足、流程和制度滞后等问题。例如目前吉林农信大数据平台的数据来
源是通过夜间抽取核心、信贷、理财等源系统的 T+1 批量数据,对于一些实时
大屏,实时监控,实时预警等实时场景无法满足;又如目前大数据平台吸收上
游 50 余个源系统数据,不同源系统的数据标准不统一,数据质量也存在参差不
齐的情况,这对行内报表,监管报送等下游用数系统来说,会造成数据不准确,
统计偏离事实等风险;再如目前吉林农信大数据平台数据应用能力较为薄弱,
仅停留在把数据存好,对于如何把数据用好,实现数据价值,通过数据帮助吉
林农信提高行业综合竞争力的规划还未完善,缺少数据模型架构师等专业岗位
人员的统一规划,目前依托吉林农信大数据平台建立的数据集市共有 4 个,监
管报送集市,统一报表集市,大数据风控集市,风险资产检测集市,但每个数
据集市由不同开发公司设计,为了项目进度,直接使用贴源数据,未使用数据
仓库整合好的模型数据进行开发,这种模式与源系统耦合性大,源系统的变动
会直接影响集市模型的变动,不同的数据集市对于一些公用数据模型也存在重
复开发的情况,这直接导致吉林农信大数据平台软硬件及人力成本的浪费。

1.2 研究意义

大数据与商业银行经营管理的结合绝非偶然,而是有着深刻的时代背景和
实践意义,用好大数据技术,可以激活沉淀数据,实现数据创新赋能。本文将
结合吉林农信大数据平台的自身情况,从大数据平台的现存问题入手,对大数

2
第1章 绪论

据平台提出优化设计方案。大数据平台的优化设计对吉林农信存在以下重要意
义:
(1)提升吉林农信数据加工质效。通过对吉林农信大数据平台组织架构、
制度架构、数据加工流程的优化设计,统一大数据平台开发团队,明确大数据
平台各责任方的分工职责,优化大数据平台数据加工链路,减少不必要的数据
加工环节,从而减少开发与沟通成本,提升吉林农信数据加工质效。
(2)打通吉林农信数据孤岛。通过对大数据平台数据采集,数据汇聚,数
据模型的优化设计,更好地跨系统、跨部门进行数据整合。通过数据统一管理,
形成企业有效数据资产,从而辅助管理层快速有效地分析决策。
(3)提升吉林农信数据服务的灵活性与实效性,实现企业级数据服务体系。
通过对业务系统进行数据服务,解决数据参与业务运营最后一公里问题。逐步
实现吉林农信“数据服务中台化”、“数据应用产品化”、“数据资产价值化”、
“数据分析智能化”、“数据治理常态化”的数据架构愿景目标。通过精准有
效的数据服务提升吉林农信精准营销、风险防控能力,从而帮助吉林农信实现
卓越运营,提升企业综合竞争能力。

1.3 研究方法

本文在对吉林农信大数据平台的分析与设计的研究过程中运用了如下研究
方法:
(1)文献分析法
本文通过校内图书馆、期刊、网络、电子媒体、业内文件等渠道进行文献
的搜集并深入分析研究,形成较为科学合理的研究理论体系,对吉林农信大数
据平台的发展和运营状况做系统地调查和研究,力求理论方面的科学严谨性和
数据方面的全面准确性。
(2)个案研究法
本文作者为吉林农信大数据平台建设参与者,对吉林农信大数据平台有较
长时间的分析与研究,并将利用管理信息系统相关知识深入挖掘吉林农信大数

3
第1章 绪论

据平台在设计和运营方面存在的问题,从组织,管理,技术等角度提出吉林农
信大数据平台的优化设计方案。
(3)结构化系统分析方法
本文在对吉林农信大数据平台应用架构进行分析和优化设计时,从现有应
用架构存在的问题切入,从整体和全局考虑,自顶向下地进行需求分解,形成
对大数据平台数据采集、数据模型、统一调度、数据开发、数据服务、统一监
控,六大模块的优化设计方案,根据设计的要求,先实现各个具体的功能模块,
然后自底向上逐步优化整个系统。

1.4 文献综述

(1)商业银行大数据平台设计相关研究
银行机构大数据转型发展是大势所趋,也是银行高质量发展的战略需要。
赵毅(2017)从基础设施组件、平台架构、数据层次架构三方面对如何构建商
业银行数据仓库的研究中指出,商业银行大数据平台需要设计成为一个可以低
成本线性扩展的统一数据处理平台。基础设施组件上,可以使用 Hadoop/Spark
架构,这种设计不但可以提高大规模数据处理能力,还可以降低企业数据应用
的总体硬件的投入成本和数据库使用许可费用;在平台架构上,应采用高模块
化和松耦合的架构,通过组件灵活组合,定制化提供数据服务;在数据层次架
构设计上可以参考源数据缓存区 ODM、源数据历史层 HDM、基础数据模型层
FDM、公共数据模型层 CDM、数据服务接口 DSI。通过合理的数据分层设计,
可以加强数据存储加工的逻辑性,帮助企业解决数据资源难以共享、数据标准
不一、存在大量冗余数据的问题。王岗(2021)在对大数据平台功能框架设计
的研究中总结,大数据平台的基本功能框架共分四层:可以支持实时采集、预
处理的数据采控层;支持数据存储计算的数据处理层;支持人工智能算法,机
器学习的数据服务层;支持快速数据组织、有效信息展示的数据可视化层。敦
宏程(2022)对大数据平台数据分层、数据体系、数据建设能力建设方面进行
了研究,他指出商业银行大数据平台的设计思路应分为三点:一是建立贴源数

4
第1章 绪论

据、处理数据、提取数据的分层数据体系;二是构建企业层面的数据治理体系
和大数据资产管理体系;三是构建全面、开放的企业级数据服务能力。在依托
数据湖和数据仓库将分散的信息整合为可共享、可使用的企业级集成型汇总数
据的基础上,平台的设计还应围绕元数据、主数据、数据标准、数据质量、数
据安全等,通过强大计算能力支撑银行数据转型。张晓东和陈来宽(2022)聚
焦商业银行大数据平台的建设模式,对大数据平台模块化设计进行了研究,他
们认为大数据平台的设计思路是可以从“建生态、搭场景、扩用户”的理念出
发,通过模块化开发设计的理念,在平台上设计全方位数据采集模块、高效能
存储计算模块、在线数据管理模块、智能化调度模块、敏捷数据开发模块、多
样化分析可视化模块、灵活数据服务模块,每个模块相互配合,各自发挥作用,
更好发挥数据的价值。
在对农村商业银行的大数据平台的设计方面,崔怀雷(2021)提出农村商
业银行大数据平台的设计可以依照数据云的思路进行规划,体现“大平台”“小
租户”的理念。省联社作为总行,搭建统一平台提供数据和资源服务,各农商
行作为分行,以租户的形式使用大数据平台,无需考虑底层平台建设,仅需专
注自身大数据应用。这种设计的好处是可以降低全省资源投入,加快全省大数
据平台建设速度,增强数据服务能力。另一方面当前金融科技门槛进一步降低,
诸多新技术在头部银行得以实践,技术统一化及输出趋势明显,区域银行可以
借鉴成熟经验,加快自身金融科技发展实现弯道超车,有效提升效率(章澍,
2021;李明贤,2022)。
(2)商业银行大数据转型中管理与组织机构调整研究
伴随着大数据的技术的变革,商业银行在实际经营中积累了客户信息、交
易明细、内部经营等大量真实数据。袁顺义(2022)针对如何对这些数据进行
管理提出了以下策略:一是培育数据治理的企业文化。在银行高层的高度重视
下,全行上下、各条工作线的员工都树立“数据是重要资产”的理念和原则,
数据要真实客观。二是建立适合自身的数据治理组织架构,按照银保监会 2018
年发布的《银行业金融机构数据治理指引》明确董事会、监事会、高管层职责,

5
第1章 绪论

设立集中的数据管理部门和落实部门。三是制定全面可行的数据治理体系,制
定与组织架构相适应的全面可执行的管理办法,如元数据、数据模型、数据标
准、数据质量、数据生命周期等管理办法,明确工作流程、职责分工、工作方
法和工作要求。四是加强数字化人才队伍建设,加大科技研发投入支持,拓宽
科技人才引进渠道,制定符合金科岗位特点的绩效考核机制。
我国传统商业银行数字化转型还存在组织适应性问题,谢治春(2022)对
此现象进行了研究并给出以下建议 ,一是考虑增加首席创新官(或首席技术官、
首席数字官等),在总行层面设立负责数字化转型和创新的部门;二是精简组
织层级,向更扁平、更敏捷的组织形态转型。林德锋和贾慧芳(2022)在对商
业银行金融科技人才队伍建设的研究中也指出,在传统商业银行数字化转型中
存在金融人才紧缺、金融科技人才受重视程度不足地情况下,可以通过广泛扩
展新增人才、优化转型存量人才、提升外部招录质效的方式做好“选人才”工
作;通过畅通金融科技人才职业发展通道、构建智能化人才信息管理系统、推
行综合化数据运营管理做优“用人才”工作;通过优化金融科技劳动用工组合、
金融科技人才分层分类培训做精“育人才”工作;通过完善人才考核激励机制、
优化人才保障保有机制做深“留人才”工作。在数据人员管理方面,金融科技
作为新兴行业,人才队伍现阶段主要集中以 90 后、00 后人才为主,这些年轻
人往往表现出激情四射和独立自主的个性特征,传统的管理模式和绩效考核模
式已不能满足金科人才的需求,需要以更加灵活的管理方式发挥青年员工自身
的创造性和主观能动性(蔡葵,2022;陈刚,2022)。
(3)商业银行大数据应用相关研究
大数据在商业银行经营与管理活动中的具体应用,主要涉及实现精准营销、
风险管理、提升质效三个方面(项晞,2018;沈正华,2021)。
在精准营销方面,现代营销学之父菲利普·科特勒提出了精准营销的概念:
在精准定位的基础上,依托现代信息技术手段建立个性化的客户沟通服务体系,
企业才能实现可测量的低成本扩张之路。应用大数据技术实现用户画像和数据
挖掘正是商业银行实现精准营销的切入点。冯薇(2018)在对中国农村金融大

6
第1章 绪论

数据应用创新的研究中指出,通过大数据客户画像,农商行不仅可以全面了解
三农和小微客户的历史信用情况,对客户进行全面评估,精准确定客户群体,
还可以帮助银行实现精准营销,个性化地进行客户产品设计,高效化地进行金
融服务。
在深化风险治理方面,Hauswald & Marquez(2003) 认为,信息技术给商
业银行带来了显著的正向技术溢出效应。在信息收集和处理方面,大数据技术
可以让出借人更好地获取有效信息,并将其标准化、可视化,提高信息使用效
率,更好地分析用户行为,使信用评级更加可靠。在信息披露方面,数字化转
型让商业银行能够更好地利用行业间、供应链上下游的信息,通过不同渠道获
取更可靠的商业信息。同时,基于更丰富数据和更复杂模型的风控,将进一步
降低商业银行的风险水平。邱志刚等 (2020) 对 Holmström &Tirole (1997)
的模型进行了扩展,从理论上证明了大数据信贷模型能够收集和利用传统银行
信贷流程中的信息,有助于解决银行信贷过程中的信息不对称问题。实证研究
还发现,基于大数据技术的贷款获得批准的速度更快,平均违约率相比传统模
式也更低 (Fuster et al.,2019)。谢治春等(2018)认为在数字化风险识别的
基础上建立差异化定价体系,可以帮助银行从“风险控制”向“风险管理”转
变,更好地帮助商业银行进行风险防控。
在提升运营效率、实现盈利方面,大数据技术使商业银行的经营管理决策
变得高效化、科学化和规范化。依托大数据可视化报表系统可以为银行运营管
理提供数据支撑,相关绩效指标的统计也可以为管理者的决策提供依据。罗煜
(2022)从营销渠道结构、贷款信用结构、信贷行业结构三个维度探究了数字
化与商业银行经营转型的关系,证实金融科技可以帮助商业银行在传统业务方
面实现深度转型。李志辉和陈海龙(2022)使用双重差分估计(DID)、Heckman
两阶段模型、工具变量等方法对 2011-2020 年 308 家的商业银行发明专利数据和
宏观经济数据进行分析,证明了以大数据为代表的金融科技收益效应大于成本
效应,大数据等技术可以通过提高结算效率等“节流”措施、创新业务模式等
“开源”措施帮助银行实现盈利能力的提升。

7
第1章 绪论

(4)小结
综上所述,国内外相关学者对商业银行大数据平台的设计、管理、组织、
应用等领域进行分析与研究。在大数据平台的设计方面,大部分银行采用分布
式架构提高平台可扩展性;利用数据分层模型提升数据存储与加工的逻辑性;
通过模块化开发设计理念,打造数据采集,加工,管理,服务,开发,可视化
等模块,更好激发数据潜能;在大数据管理与组织方面,应从高层做起,将数
据治理提升至企业战略高度。培育企业数据治理文化,建立符合自身特点的数
据治理组织架构和制度体系。重视金融科技人才队伍建设,通过优化科技人员
管理模式和考核方法,激发员工创造性与主观能动性;在商业银行大数据应用
方面,大数据应用降低了银行与客户之间的信息不对称程度、增强内外部风控
能力,扩大了客户覆盖面,更有效地识别客户需求,提高银行运营效率并实现
盈利。
随着数字化转型的推进,国内外中大型商业银行已经通过打造新型数字基
础设施,建设以大数据平台为代表的分布式数据中心和智能计算中心,激活了
数字化经营新动能,并为区域性小型银行的数字化转型发展提供经验。但商业
银行在大数据转型中仍面临很多不确定性挑战,并且大数据平台建设相关的经
验的总结也具有一定局限性,针对不同环境,不同场景,不同架构的银行,大
数据平台的建设也不尽相同,不可盲目照搬,一定要结合自身的特点和实际情
况合理建设。文章将借鉴商业银行发展大数据平台的优秀案例,并结合吉林农
信运营和科技发展自身特点,优化吉林农信大数据平台,提升平台数据运营能
力,更好利用大数据平台对吉林农信进行数据赋能。

8
第2章 吉林农信大数据平台现状

第2章 吉林农信大数据平台现状

2.1 吉林农信数据资源现状

2.1.1 吉林农信信息化建设情况

吉林农信信息科技中心负责吉林农信全系统科技信息系统建设与管理工作,
承担吉林农信科技建设规划、产品研发、应用系统开发与优化、软硬件维护、
安全运行管理等职能。吉林农信信息科技中心下设八个分中心:需求管理中心、
应用研发中心、运行维护中心、质量保障中心、数据管理中心、架构管理中心、
信息安全中心、综合服务中心。
吉林农信 2005 年启动建设第一代综合业务系统,2006 年完成项目建设与上
线工作,实现全省数据大集中,迈出了吉林农信业务系统信息化建设道路的第
一步,随后几年里,吉林农信信息化建设发展迅速,建设完成的人民银行大小
额支付、银联卡支付、农信银支付、信贷管理、中间业务、办公自动化、网上
银行、手机银行、短信银行等均取得良好效果。2022 年吉林农信科技赋能步伐
进一步加快,新数据中心机房试运行,集中实施“科技架构加固工程”,推动
新渠道平台、大数据平台迁移等重大项目建设,全系统布放智慧柜台 1973 台1,
手机银行、网上银行、自助缴费平台等线上渠道功能持续完善,电子渠道交易
替代率达到 97.3%。截止到 2022 年末,吉林农信已正式上线运行总计 129 套信
息系统,包括业务支撑类系统 64 套,管理提升类系统 33 套,风险内控类系统
32 套,助力吉林农信数字化转型,为实体经济和百姓民生提供有力金融支持。

2.1.2 吉林农信数据管控现状

吉林农信 2021 年上线了数据管控平台,通过整合跨条线、跨系统各项数据,


初步达成全行数据资源共享、来源一致、标准统一、质量可靠的目标,实现了

1
数据来源于论文写作时,作者对吉林农信数字化设备和大数据建设相关指标的统计,下同。

9
第2章 吉林农信大数据平台现状

数据标准线上管理与数据质量管理的自动化,构建了全行级信息系统元数据管
理知识库,并以监管发文和国际、国内标准为切入点,保障了监管报送和内外
审计数据的准确性和一致性。
在数据管控制度方面,为了保证数据管控流程的合法化以及规范化,吉林
农信数据管理中心于 2022 年 7 月发布了数据标准、数据质量、元数据管理三项
管理办法。
在数据标准方面,为了保证内外部之间、内部不同部门之间、不同应用系
统之间的开发一致性,形成了企业级开发统一规范。数据管控平台依据银保监
会下发的《银行业金融机构监管数据标准化规范(2021 版)》,制定了吉林农
信数据标准 3975 条,新系统贯标率达 68%。
在数据质量方面,为了提高 EAST 监管报送的数据质量,对 EAST 报送系
统进行了监管报送指标溯源,并通过对源系统进行数据质量剖析,定期形成数
据质量报告。
在数据字典方面,为了明确各系统数据字典的真实业务含义,提升我社数
据资产质量,数据管控平台已对 39 套业务系统数据字典进行检核,并形成数据
字典校核报告。
吉林农信在数据管控推广中也遇到了一些难点与不足,一是吉林农信数据
管控工作由信息科技中心牵头,业务人员参与程度低。以 EAST 数据质量为例,
若报送数据有缺失,需要业务牵头,联系各网点进行数据补录,若报送数据不
准确,也需要业务部门推进源系统进行升级改造,并且缺失数据业务标准定义
和主数据定义;二是数据管控制度层级不够,已发布的三项数据管控管理办法
由信息科技中心发布,由数据管理中心的分管副总进行推进,对于与吉林农信
信息科技中心同级的其他业务部门约束能力不足;三是目前数据管控团队由 1
名行内产品经理,1 名行外项目经理与 2 名技术人员组成,人力不足,应对全系
统的数据管控推广,缺少有力的人力保障。

10
第2章 吉林农信大数据平台现状

2.2 吉林农信大数据平台概况

吉林农信大数据平台系统于 2019 年正式投产使用,目前已成为全行数据汇


总、计算分析的数据中枢。大数据平台共由两个集群构成:离线计算集 群
FusionInsight HD(以下简称“HD 集群”)和联机分析 GaussDB 集群,其中离
线计算 HD 集群利用大数据 Hadoop 技术实现了海量历史数据的统一存储与计算,
用较低的成本高效地满足司法查询、行内报表、冠字号查询、社员行社数据下
发等海量数据查询业务场景,较好地实现各应用系统间数据和计算资源的共享。
联机分析 GaussDB 集群利用分布式数据架构技术实现数据标准化整合,支撑数
据集市应用建设,提供高质量的数据服务能力。

2.2.1 大数据平台系统架构现状

吉林农信大数据平台系统架构如图 2.1 所示。

图 2.1 吉林农信大数据平台系统架构图

数据平台采集模块负责源系统的数据采集工作,采集后的数据文件通过文
件传输平台发送到大数据平台的数据计算存储区。计算存储区分为离线分析 HD

11
第2章 吉林农信大数据平台现状

集群和联机分析 GaussDB 集群。大数据平台将收到的数据存入这两大集群中,


通过统一调度平台调用数据分析计算程序对两大集群中的数据进行数据加工,
将加工后的结果导出成数据文件,并通过文件传输平台传输给数据应用系统。

2.2.2 数据采集现状

大数据平台数据采集的方式主要有三种,一是通过 CDC 工具读取数据库日


志,增量抓取数据;二是通过 ETL 工具连接源端数据库,直抽数据库表数据;
三是通过 FTP 工具连接前置机,获取推送数据文件。当前大数据平台采集模块
对接源系统 64 个,采集源系统表数量 1500 余个,大数据平台数据采集架构如
下图 2.2 所示。

图 2.2 大数据平台数据采集架构图

大数据平台数据采集功能主要包括:
 数据采集:通过 CDC/DATASTAGE/FTP 等工具采集源系统业务数据。
 增量剥离:为提高每日数据处理效率并为下游系统提供增量数据,对源
系统采集数据时进行增量剥离操作,获取每日增量数据。
 数据校验:针对必要的数据采集表,对源系统进行数据采集后,进行数
据校验过程,确保在数据采集,处理和传输的过程中保持数据的一致性
和完整性。

12
第2章 吉林农信大数据平台现状

 标识文件:制作数据文件的握手文件(.ok 结尾的文件),便于文件传输
平台判断文件标识进行数据传输,下游系统以可通过标识文件内容进行
数据校验。
 文件压缩:对数据文件进行压缩管理,以便于数据传输与备份,备份方
式采用统一的备份脚本,使用 gzip 命令进行处理为.gz 结尾的数据文件和
标识文件。
 系统调度:鉴于系统功能要求及稳定运行,调度服务采用平台级调度应
用服务。
 调度监控:日常运行过程中的各类监控与必要的预警,例如调度任务报
错预警,CDC 服务异常预警等。

2.2.3 数据存储加工现状

数据存储方面:大数据平台离线计算 HD 集群主要采用 Hive、HBase 等大


数据组件构建,数据架构分层包括:文件区、ODM 区、FDM 区、SMY 区、ODS
区、ADM 区和 HDM 区。离线计算集群采用管理节点、控制节点和数据节点分
开部署模式,可提供 1188TB 存储和 1800vcpu、12.5TB 内存算力。集群网络规
划为双平面并采用物理隔离方式部署,保证了业务、管理各自网络安全性。

图 2.3 数据分层架构图

13
第2章 吉林农信大数据平台现状

大数据平台联机分析 GaussDB 集群采用国产分布式数据库构建,数据架构


分层包括:DELTA 区、SOR 区、HIS 区、SMY 区和 OMRS 区。联机分析 GaussDB
集群采用管理节点和数据节点分开部署模式,可提供 100TB 存储和 432vcpu、3TB
内存算力。大数据平台数据分层架构图如图 2.3 所示。
在数据加工方面:大数据平台完成了跨平台系统的数据采集、数据加工和
数据服务,实现了数据统一管理的目标。大数据平台数据仓库将源系统业务数
据通过模型化整合后,有效地为下游应用系统屏蔽了源系统改造的影响,节省
了大量代码开发工作量,为下游应用系统稳定运行提供了有效支撑,但目前数
据仓库应用率不高,大部分下游系统仍选择通过接入贴源数据进行数据加工。
在数据指标加工方面,大数据平台系统已有指标体系 6 个大类、17 个子类,合
计 119 个指标 52 张报表,主要包括经营类指标、财务类指标、电子银行类指标、
人事类指标及绩效指标等。

2.2.4 数据服务现状

大数据平台目前对接上游 64 个源系统,接入源系统表 1500 余张,目前提


供的数据服务主要有三类。第一类数据服务是以数据文件的形式提供行内应用
系统间的数据流转功能,例如大数据平台的夜间批量,会将核心、信贷等系统
产生的客户信息数据,抽取并存储到大数据平台的数据存储区,然后将这些客
户信息数据按照一定的筛选条件导出成数据文件,传输给客户关系管理系统。
客户关系管理系统在拿到这些客户信息数据后,就可以进行吉林农信全系统的
客户信息的整合。应用系统间的数据流转服务大部分是通过贴源数据文件接口
进行的,截止 2022 年末,大数据平台已为行内 48 套系统提供数据文件接口 2000
余个。第二类数据服务是为吉林农信的社员行社提供数据拆分,数据下发服务。
吉林农信的社员行社办理业务使用的都是全省统一的系统,各社员行社的交易
数据都汇集在省联社各应用系统中。随着数字化转型的深入,为满足绩效考核,
优化经营等需求,各社员行社开始自建应用系统,遂向省联社申请与自建应用
相关的业务数据。大数据平台负责将这些业务数据,按照一定的拆分规则,分
离出属于各家社员行社的数据,按照数据下发标准规范,以数据文件的方式下

14
第2章 吉林农信大数据平台现状

发给社员行社,截止 2022 年末,已为 8 家社员行社下发数据接口 400 余个。第


三类数据服务是数据集市的建设。大数据平台一共建立了金融基础数据报送集
市、统一报表、历史数据查询、风险资产监测四大集市,在大数据平台上利用
数据集市层满足监管报送系统,报表系统、数据查询类系统,风险指标监测预
警系统的个性化指标加工需求。

2.3 吉林农信大数据管理经营难点

随着大数据平台系统在吉林农信管理经营中的应用,也发现了该系统在使
用中存在业务提取数据周期长,数据质量不佳,数据服务单一等难点问题。

2.3.1 大数据平台经营管理应用场景

大数据平台是吉林农信数据集散地,将数据进行有效整合后为领导驾驶舱
系统、监管报送等系统提供数据服务,大数据平台在吉林农信经营管理中的应
用场景如图 2.4 所示。

图 2.4 大数据平台经营管理应用场景

如上图所示,利用大数据平台支撑吉林农信的经营管理场景主要包括如下

15
第2章 吉林农信大数据平台现状

几类:
 经营分析决策:高层领导、部门经理、业务分析人员通过领导驾驶舱、
统一报表或者自主查询方式了解并掌握全行经营状况,辅助进行决策分
析;
 监管报送管理:监管专员通过大数据平台提供数据报送内容,监控识别
和管理各类经营风险,及时做出风控举措;
 业务运营与营销:业务专员基于大数据平台提供数据接口服务,在各自
应用系统的支撑下,通过各类终端方式进行客户拓展、服务、营销等业
务活动。

2.3.2 业务人员提取数据周期长

因为大数据平台拥有吉林农信全系统最全的业务数据,所以业务人员经常
使用大数据平台统计全省存款、贷款、账户等数据信息。以账户信息统计为例:
大数据平台经常会统计全省单位账户,个人账户的余额、交易次数、用户活跃
度等信息,涉及的指标众多,例如银行卡账户、个人结算存折户、个人支票户
等单个正常账户发生业务平均次数、超过平均次数账户的情况、低于平均次数
账户情况等上百个指标,因为业务人员要掌握全省业务状况,形成材料,进行
分析,每次要数都非常着急。大数据平台目前无法满足这种快速取数的需求,
主要原因一是大数据平台具备银行业务知识的人员较少,需要花较长的时间才
能够将业务需求整理成为技术需求;二是大数据平台资源不足,大数据集群的
计算资源无法支撑快速查询;三是大数据平台的加工流程繁琐,需简化流程提
高效率。

2.3.3 业务人员提取数据质量不佳

例如业务人员想要掌握吉林农信本代他业务(我行代理他行业务)的情况,
查询我行 POS 机、ATM 机等终端设备代刷他行银行卡的情况,从而制定我行跨
行手续费的收取策略。但这个指标的加工口径不统一,既可以根据核心系统的
交易码进行本代他交易的确定,也可以根据卡前置系统的交易码进行判断,两

16
第2章 吉林农信大数据平台现状

种方法加工出的数值不相同,导致业务人员在使用数据的时候犯难,不知道该
采用哪个数据,缺少统一的数据加工口径,导致业务人员无法真实掌握吉林农
信业务发展情况。

2.3.4 业务人员获取数据服务方式单一

目前业务人员只能通过报表或数据文件的方式从大数据平台获取吉林农信
经营类数据。大数据平台的数据服务能力并未完全开放,没有建立统一的数据
服务平台,搭建数据门户、数据超市,让业务人员自己随时选取想要的数据,
通过智能 BI 等系统辅助业务人员进行数据挖掘,从而使业务人员通过数据分析
更好地了解吉林农信在客户获取、风险控制等方面真实情况,提高数据分析效
率,让数据多跑路,帮助领导进行科学有效的管理决策。

17
第3章 大数据平台存在的问题分析

第3章 大数据平台存在的问题分析

吉林农信在利用大数据平台进行管理决策时遇到的难点,其本质在于大数
据平台存在集群资源不足,无法满足大规模计算能力的要求;数据开发流程繁
琐,数据开发质效低,缺乏统一数据开发标准流程;应用架构不完善,数据服
务能力弱;大数据平台组织架构不完善,制度存在缺口等问题。接下来本文将
对大数据平台存在的这些问题进行分析。

3.1 集群资源规划能力不足

大数据平台的离线分析 HD 集群于 2019 年上线,采用 3 个管控节点和 13


个数据节点独立部署方式搭建。该集群最大数据存储容量为 463.32T,可以提供
728 vCPU、 6.38T 内存的计算能力。随着数据集市等应用的不断上线,集群在
凌晨 5 点高峰时段出现了资源抢占问题,导致批量任务运行缓慢甚至失败。在
2022 年 1 月,吉林农信进行了 HD 集群扩容,新增 12 个数据节点,集群存储容
量达到 1188T,可以提供 1800vCPU、12.5T 内存的计算能力。扩容后虽然 HD
集群资源暂时满足了业务需求,但随着业务应用不断扩展,集群处理和存储能
力还将受到新的挑战。大数据平台联机分析 GaussDB 集群采用管理节点和数据
节点独立部署方式搭建,包含 2 个管理节点和 6 个数据节点。该集群最大数据
存储容量为 100T,可以提供 432vCPU、 3T 内存的计算能力,随着集群上数据
应用的迅猛增加,目前已使用 90T 的数据存储空间。本集群支撑着行内数据仓
库、数据门户、金融基础数据报送、利率报备、同一存款人、统一报表、风险
监控等系统的批量和查询服务。目前存在的瓶颈,一是存储容量不足,已用 90%,
二是集群数据盘采用 SATA 盘,集群 IO 居高不下。目前夜间批量与日间业务操
作出现资源争抢,导致整体任务运行缓慢。大数据集群资源的不足已严重影响
到大数据平台夜间批量的执行效率,延缓了全行夜间批量的数据流转,资源严
重不足时会影响一些银行开门业务的办理。

18
第3章 大数据平台存在的问题分析

大数据平台集群资源不足的主要原因是因为数据管理团队对大数据集群资
源规划程度不够。一是大数据技术属于新兴技术,相比于成熟的 DB2 数据库,
研发及运维人员对大数据集群的了解程度不够,缺少相应配套的集群管理规范,
缺少大数据平台集群管控机制,没有形成常态化的资源扩容规划,未对集群资
源做到系统级的精准管控;二是吉林农信大数据平台是一个平台级系统,系统
用户非常多,各个用户都在使用平台资源进行数据分析和数据加工服务,目前
并没有使用有效手段规划、限制各个用户的平台资源,没有做到统一的资源把
控;三是没有制定长期的集群资源监控机制,定时分析集群资源健康情况,缺
少研发运维的协调机制,在集群资源告警之前提出明确合理的集群扩容需求。

3.2 缺乏统一开发标准管控流程

吉林农信数据管理中心共有两个科室利用大数据平台进行数据加工。数据
一室负责贴源数据入湖,统一数据仓库指标模型开发,行内系统及社员行社数
据下发等服务。数据二室主要负责大数据平台应用集市的建立,利用大数据平
台进行数据加工为数据应用服务。数据一室研发人员对贴源数据的数据信息、
存储算法和数据表的使用方法较为擅长,数据二室研发人员对各自应用系统数
据加工的逻辑更为熟悉。
两个条线同时利用大数据平台进行开发,但对彼此开发的内容都并不知情,
数据二室内部各应用之间也不清楚其他应用开发了哪些内容。这种分散的数据
开发方式,造成了一些数据模型的重复加工,对于一些需要跨系统的数据开发,
更是需要协调各系统人员共同分析讨论,增加了人力成本,加大了沟通成本,
降低了平台的性能,也加大了平台管理难度。分散的加工模式也使各系统只对
自己系统数据开发内容进行评审,并没有站在大数据平台全局角度进行可行性
和技术分析,加之目前大数据平台没有统一的大数据平台开发规范和管控流程,
各系统的开发模式、代码格式五花八门,代码的可读性、可扩展性、健壮性都
无法保证,对大数据平台稳定性造成风险。由于各自开发,各系统利用大数据
平台加工形成的数据资产也没有统一的归处,这也对大数据平台数据资产的梳

19
第3章 大数据平台存在的问题分析

理造成障碍。
吉林农信大数据平台开发质效低的主要原因是大数据平台缺乏统一开发标
准管控流程。一是大数据平台开发团队不统一,造成了全责不清,遇到问题推
诿扯皮的情况;二是没有平台整体规划、制度规范落后、烟囱式开发也造成平
台应用不合理使用的情况;三是因为大数据平台数据开发能力体系不健全,缺
少统一数据开发平台的支撑,没有建立项目-任务-模型-开发-测试-上线的全流程
管理流程。

3.3 大数据平台应用架构缺失

当前大数据平台主要应用功能包括数据采集、数据整合、统一调度、数据
服务等模块,存在如下一些问题:
(1)数据采集能力待完善
大数据平台的数据采集模块主要负责数据采集工作,随着业务和技术的不
断发展,现有数据采集能力逐步出现了一些力有未逮的情况,例如对于新型分
布式以及非关系型数据库的适配、对于海量数据的采集效率、数据采集过程的
监控等场景,还需要继续对采集能力的广度和深度进行优化。
(2)数据仓库规划不健全
由于缺少对数据仓库的优化完善,弱化了数据仓库管理对全局数据管控的
影响,不利于为数据资产化,服务化,业务化,价值化建立基础。数据仓库还
需要继续深化设计。
(3)统一调度不好用
大数据平台统一调度模块是负责让数据计算任务按照事先规划好的顺序执
行,起到调度员的作用,但现有的调度平台在功能灵活性方面仍有缺失,需要
优化设计。
(4)缺失统一数据开发模块
大数据平台数据开发主要还是以数据研发工程师手动编码形式进行开发,
编码质量的高低更多的取决于工程师开发经验和技术水平,对开发人员技术能

20
第3章 大数据平台存在的问题分析

力要求较高,不同工程师开发的代码风格各异,代码可读性不强,很难形成数
据资产。
(5)缺失统一数据服务模块
大数据平台与各应用系统的数据交互都是通过文件传输平台以数据文件的
形式进行交互,并没有通过数据门户,数据订阅服务,API 数据接口等方式对外
提供服。这大大削弱了大数据平台数据服务的灵活性与实效性,导致大数据平
台数据服务能力较弱。
(6)缺失统一监控模块
大数据平台无法通过可视化实时大屏,从数据管控,数据应用,平台管理,
资源管理等视角进行监控,动态掌握集群资源情况,数据管控情况,任务执行
情况和平台管理情况等信息。
大数据平台应用架构能力较弱的主要原因是因为没有从数据管理组织架构、
流程设计、业务场景、平台落地等维度进行整体规划。大数据平台应用架构完
善的主要目的就是为了更好地帮助管理人员和开发人员进行数据管理、提升数
据开发质效,提高大数据平台数据服务能力。结合吉林农信数字化转型整体实
施路径,以元数据为基础打通各模块之间的关联,通过数据采集开发、数据仓
库、统一调度、数据服务等模块的落地,持续提升我行数据能力,不断满足多
样化的数据服务需求。

3.4 数据团队组织架构不完善

数据管理中心由吉林农信信息科技中心的分管副总直接领导并设有中心经
理 1 名。数据管理中心下设 2 个科室,数据一室和数据二室。数据一室设有条
线经理 1 名,行员 6 名,外包科技公司人员 14 名,主要负责基础平台管理,数
据仓库加工和数据管控工作;数据二室设有条线经理 1 名,条线副经理 1 名,
行员 5 名,外包科技公司人员 50 名,主要负责数据挖掘与数据应用,满足监管
报送、反洗钱、历史数据查询、统一报表等数据应用场景。数据管理中心共 15
名行内员工负责全系统 20 套数据类系统的研发及管理工作,人员短缺和高水平

21
第3章 大数据平台存在的问题分析

人才招聘难是吉林农信面临的问题。加之目前数据管理中心设置的岗位只有数
据管理工程师岗和数据研发工程师岗,缺少数据管控、数据架构、数据运营等
关键岗位的设置与招聘,缺少数据管理决策小组等机构统筹吉林农信数据应用
架构、评审数据管控标准规范,决策吉林农信数据管理工作等重大事项,从而
导致数据管理中心在数据应用时出现数据加工的边界不明、全责不清、无法界
定数据的管控责任等问题。
金融科技人才招聘和培育过程中的艰难成为制约农村中小银行数字化转型
发展的最大问题。商业银行很难打造出与业务发展相匹配的科技人才队伍,尤
其是拥有金融业务知识、数字化技能和大数据分析能力的复合型人才团队。吉
林农信在金融科技人才队伍建设中存在问题的原因有以下几点:
(1)金融科技创新重视不够
金融科技尚未上升到企业战略和企业文化层面,尚未真正形成以金融科技
为引领的发展理念,尚未普遍形成重视金融科技创新的氛围。
(2)缺乏有针对性的培训制度
金融科技专业人才的培养路径和培训方案尚未建立,员工金融科技能力增
长慢。
(3)金融科技专业人才成长内生动力不足
尚未建立人才的金融科技职业能力认证与评价体系,尚未建立不同技术领
域、不同层次的职业能力标准和认证程序,导致金科人才内部成长缓慢,缺少
动力。
(4)岗位绩效考核激励机制不健全
现有的激励考核体系政策导向不明确,不能全面科学地评价人才通过科技
手段对银行经营带来的贡献,不能及时量化价值并给予回报,容易造成激励不
到位的情况,人才获得感不足。
(5)地理因素人才吸引力较弱
处于东北地区的长春气候寒冷,相比北京、上海、深圳等一线城市并不具
备互联网科技土壤,受经济发展约束,也很难提供一线城市的薪资待遇。大部

22
第3章 大数据平台存在的问题分析

分计算机和软件毕业生大多会选择北上广深作为就业目的地。在面对大城市和
大银行的“虹吸效应”时,在不具备市场化薪酬体系的背景下,吉林农信很难
招募金融科技复合型人才。这也直接导致本地化具有金科技能的复合型人才十
分缺少。

3.5 大数据平台管理制度缺失

吉林农信数据管理中心所负责的应用系统在使用大数据平台进行数据加工
时,存在着一定的数据重复加工、科室之间缺乏清晰定位、职责边界划分不清、
缺乏统一的数据架构和应用架构等问题,其突出表现为:
(1)大数据平台数据归属权不清,数据解释责任人缺失。
(2)大数据平台缺乏清晰定位,职责边界划分不清,降低工作效率,不利
于统一数据管控。
(3)大数据平台各系统和应用竖井式建设,相互割裂,缺乏统一的数据架
构,应用架构管控。
(4)数据一室和数据二室都在大数据平台做数据建模和数据加工,各自为
战,难以制定统一的数据建模标准,缺乏统一的协同的数据运营体系。
吉林农信大数据平台数据归属不明、加工边界不清的主要原因在于数据管
理制度的缺失。数据管理中心当前仅有一项《数据应用架构管理办法》制度,
还需建立数据确权、数据安全、数据管理、以及数据研发等制度,用来支撑大
数据平台以及周边业务系统的有序化、规范化、流程化、标准化运营,从而有
效降低沟通成本,提高工作质效。

23
第4章 大数据平台优化设计

第4章 大数据平台优化设计

4.1 大数据集群资源管控优化设计

根据大数据平台集群资源规划能力不足现状,采用信息化战略规划方法,
对整体集群进行规划设计,包括战略规划设计、资源评估设计、租户模型设计。

4.1.1 大数据平台战略规划设计

通过启动战略咨询规划,明确吉林农信大数据离线计算集群、大数据联机
分析集群、大数据准实时计算集群未来 3-5 年规划,界定各个集群的分工界面、
未来平台建设范围、支撑数据应用范围、数据存储规模等。根据咨询规划成果
有序进行集群资源扩充。

4.1.2 大数据平台资源评估模型设计

大数据平台资源评估模型的设计参考了行业先进经验,通过对吉林农信存
量业务数据以及新增业务数据进行充分评估,以此建立常态化扩容计划。按照
数据库华为原厂工程师给出的评估模型,根据业务场景,设计如下两类评估模
型:
(1)新增业务数据存储评估模型
퐙 = ∑퐍퐢=ퟏ 퐀 × 퐁 × 퐂 × 퐓 ÷ ퟐퟑퟎ (4.1)

其中,Z 表示新增业务数据存储容量(单位:GB),N 表示新增业务的数


据库个数,A 表示单个数据库中的表个数,B 表示数据库表中每个周期的平均记
录数,C 表示单条记录平均占用的存储大小(单位:Byte),T 表示数据库表存
储的切片个数或者数据复制周期(单位:天)。
(2)存量业务数据存储评估模型
퐙 = ∆퐙 × 퐓 × 퐗 (4.2)

其中,Z 表示存量业务的数据量(单位:GB),∆ Z 表示两个周期内数据存


储占用的增长量(单位:GB),T 表示数据库表存储的切片个数或者数据复制

24
第4章 大数据平台优化设计

周期(单位:天),X 为数据膨胀系数表示数据自然增长系数,参考建议值为
5%。

4.1.3 大数据平台租户模型设计

多租户技术(multi-tenancy technology),是一种软件架构技术,它是解决
如何在多用户共同使用相同的系统或程序组件的情况下,仍可确保各用户之间
数据的安全性与资源的隔离性的一种技术手段。
吉林农信大数据平台最初的定位是做历史数据的查询和报表的加工,由于
历史原因,最初平台数据应用很少,所以大数据平台只设计了 1 个用户,使用
整个大数据集群的资源进行数据加工,并没有做到资源的隔离与有效控制,随
着吉林农信大数据平台的发展,平台上的应用越来越多,数据应用间由于未进
行资源隔离,导致资源抢占,影响数据应用的运行。
笔者利用多租户技术结合吉林农信大数据平台实际情况,做出如下租户设
计,如下图 4.1 所示。

图 4.1 租户设计图

通过对租户的设计,可以满足以下需求:
(1)合理配置和隔离资源
不同租户间的可用资源是相互隔离的,一个租户对自己资源的使用不影响

25
第4章 大数据平台优化设计

其它租户,保证了每个租户可以根据业务需求去定制化地配置相关的资源,可
提升资源利用效率。
(2)测量和统计资源消费
平台的资源以租户为单位进行管理和分配,租户既是平台资源的申请者也
是平台资源的消费者,通过对资源的监控,可以对各租户消耗的资源进行统计。
(3)数据安全
在多租户场景下,不同租户只能将数据文件存储在系统划分的指定目录下。
通过权限的控制保证数据安全,通过控制用户对租户资源的访问权限,以保证
数据只对指定用户开放。
多租户设计更好地实现了大数据平台资源的合理分配与精准管控。

4.2 大数据平台统一开发管控流程优化设计

大数据平台统一开发管控流程优化设计最重要的一点是将大数据平台的数
据应用加工交由统一数据开发团队进行开发。数据开发团队负责统筹规划大数
据集群的资源配置,开发规范与数据模型设计。数据应用系统向大数据平台开
发团队提数据加工需求,大数据平台数据开发团队根据需求进行数据准备工作,
最终以数据服务的方式提交给数据应用系统如下图 4.2 所示。

图 4.2 大数据平台统一开发管控流程优化设计图

26
第4章 大数据平台优化设计

大数据平台数据加工的现状是,数据二室既负责前端数据应用的开发,又
负责大数据平台后端数据集市的建设。按照统一数据开发管控流程的优化设计,
数据二室不再负责大数据平台的集市模型开发,这部分工作交由数据一室来完
成,数据一室负责大数据平台数据采集、数据加工、模型管理、数据管控等规
范的制定,并结合需求和规范,统筹进行大数据平台数据模型的开发。统一数
据开发管控流程设计的优势在于一是可以帮助数据一室更全面地掌握基于大数
据平台的数据需求,更好的进行数据模型设计,减少重复开发,降低开发成本,
使数据一室更专注于大数据平台的平台运营与数据运营;二是可以为数据二室
减压,使其更专注于前端数据产品的运营,更好的服务业务需求。

4.3 大数据平台应用架构优化设计

根据吉林农信当前应用架构问题现状,结合未来应用规划,对大数据平台
应用架构整体设计如 4.3 图所示, 新增统一数据开发模块、统一数据服务模块、
统一监控模块,完善统一数据采集模块、统一调度模块和数据仓库模型模块。

图 4.3 大数据平台应用架构整体设计图

4.3.1 统一数据采集模块优化功能点设计

为提升大数据平台数据采集能力,需要对大数据平台采集模块进行必要的
优化设计。统一采集模块的优化设计主要是在新型数据库的适配、采集过程中

27
第4章 大数据平台优化设计

的自动化应急处理、采集监控和采集约束方面的设计。具体的数据采集优化功
能点,详见如下表 4.1。
表 4.1 采集优化功能点

序号 功能分类 功能优化点

1 数据库适配 适配主流非关系数据源,例如:TDSQL、MongoDB、HBASE 等

2 数据库适配 数据同步的控制粒度包括库级、表级、行级等

3 数据库适配 支持大字段数据同步,例如 blob、clob

4 采集处理 优化增量数据处理

5 采集处理 优化数据内容中的回车换行处理

6 采集处理 优化字符集设置,可以进行批量设置

7 采集处理 千万级数据采集时间控制在 1 小时以内

8 采集处理 优化支持字段级函数

9 采集处理 优化多路输出,当数据出错后可通过日志快速定位问题

10 采集监控 优化 API 接口,供用户调用获取相关信息用于数据采集过程的监控

11 采集约束 优化读取日志方式,不需要保持与源端数据库的连接

12 采集约束 优化采集数据落地文件条件,可选择不同落地条件

13 采集约束 优化多队列数据采集

14 采集约束 优化数据采集任务的停止方式,当人工触发停止时,可以立即停下来

15 采集约束 优化上游系统异常情况下可用性

4.3.2 统一数据模型模块优化设计

(1)数据模型分层设计
数据仓库模型优化设计的核心是数据分层,建设数据仓库犹如创造一个新
的系统,分层架构是逻辑框架,建模则决定了系统的强弱。合理的数据分层可
以使数据结构更加清晰,更好地进行数据血缘追踪,减少数据开发,将数据关
系条理化,屏蔽数据影响。在数据分层方面,依据数据加工流向,将数据仓库

28
第4章 大数据平台优化设计

设计 5 级数据层次,分别是 ODS 数据接入层,SOR 数据标准层,SMY 数据汇


总层,DM 应用集市层,APP 数据服务层。ODS 数据接入层主要用于保存从各
数据源获取的数据,无论是结构化还是非结构化数据。数据不做处理直接保存,
或只经过简单的清洗和过滤,每晚批量将源系统增量或全量数据同步到 ODS 数
据接入层,使大数据平台数据与源系统全量数据保持一致;SOR 标准数据层主
要负责数据标准化(数据清洗),侧重明细数据预 JOIN,维度补全,保存贴源
数据区中的经过清洗、加工、转换后的明细数据,按面向应用的业务主题进行
分类存储;SMY 汇总数据层负责综合应用需求进行数据汇总加工,一次加工,
多应用复用,按数据粒度和应用主题进行划分,包括客户汇总,客户经理汇总、
卡片层汇总、账户层汇总、产品层汇总和机构层汇总等,侧重面向应用可复用
维度和指标的汇总;根据业务划分为不同的数据集市,包含在汇总层内。SMY
汇总层中数据可以被应用集市层和数据服务层直接使用,SMY 层的设计可以减
少数据复用,简化数据关系,降低技术团队的开发量,降低开发门槛,降低上
游源系统的变更对下游集市影响;DM 应用集市层主要负责个性化指标加工(不
公用性,复杂性)。跨业务场景大宽表集市数据组装,横表转纵表;APP 数据
服务层主要负责面向业务提供服务,数据服务层可以使应用对底层数据存储透
明,更好的性能和体验为客户服务,实现数据加工层和展示层的隔离。
(2)数据模型主题分类
在数据分层的基础上,按照金融行业特点以及业务数据场景细化模型分类
领域,更好支撑业务需求,满足更多的数据使用场景,模型分类主要包括:
 多维模型:依据明确业务关系,建立基于维度、事实表以及相互间连接
关系的模型,实现多角度、多层次数据查询和分析;
 指标模型:用以衡量目标总体特征的统计数值,是能表征企业某一业务
活 动中业务状况的数值指示器;
 标签模型:根据业务场景需求,通过对目标对象运用抽象、归纳、推理
等算法得到的高度精练的特征标识,用于 差异化管理与决策;
 图模型:型由节点和边组成,节点表示实体或概念,边则由属性或关系

29
第4章 大数据平台优化设计

构成,在智能推荐、决策分析等方面有着广泛的应用;
 数据连接主题模型:将业务主题相关的指标、维度、属性关联在一起的
数据模型,用于提高开发效率、提高数据质量、统一指标口径等;
 主题域模型:根据业务关注点,在较高层次上将业务系统数据进行综合
归类和分析利用,是对数据完整且一致的描述,能准备刻画各个分析对
象所涉及的各项数据,以及数据之间的联系。
(3)数据模型迭代设计
传统模型设计流程方式是从规划、建设、运营的串行模式,不但实施过程
中看不到项目价值,而且容易导致最终落地的体系或系统不可用、不好用。只
有以应用实践为出发点,规划与应用推广同步进行,持续优化迭代,才能保证
并体现模型价值, 图 4.4 为两种设计模式的对比。通过迭代式构建方法,让模
型开发更高效、模型价值更显著。

图 4.4 串行设计模式与迭代设计模式的对比图

数据模型迭代式构建方法主要优势:
 价值早体现:不必等到项目结束后才知道模型有什么用,效果如何;
 规划更有效:以模型应用实践为基础,能够有效保证模型体系规划和流
程梳理的实用性、完备性;
 模型更有价值:通过模型实践与优化的持续迭代,使模型对客户的洞察
更加精准,能够更好发挥其价值。

30
第4章 大数据平台优化设计

此外,还需要建立模型评价结果的后续处理流程及机制,不断完善和提升
模型规则、计算口径等模型体系,以持续提升模型的准确性和有效性。主要措
施包括:
 模型优化:模型评价不高,则需要进行模型的优化;
 模型下线:模型评价不高,主要是长时间没有人使用,考虑是否将模型
下线;
 模型升级:模型在局部多次试用效果较好,考虑将模型升为全域模型;
 模型推广:新产生的模型在小范围内使用效果较好,考虑在大范围内推
广。
(4)数据汇聚加工设计
数据模型落地过程就是数据汇聚加工的过程,主要以数据映射和数据整合
为主,图 4.5 为数据汇聚流程。

图 4.5 数据汇聚流程图

如上图所示,数据汇聚过程主要包括数据抽取、数据验证及清洗、数据转
换、数据聚合和数据加载等过程,各流程设计策略包括:
 数据抽取:流程包括全量数据抽取和增量数据抽取;
 数据验证及清洗:处理数据二义性、记录重复、数据缺失或不完整、违
反业务规则、时间戳处理等;
 数据转换字段映射:处理数据字段的拆分、多字段的混合运算、跨库或
跨表的关联、自定义函数、数据类型转换、时间类型转换、去重复记录、
记录间合并等计算;
 数据聚合:针对不同系统中定义不一致、或在同一系统内部定义不一致

31
第4章 大数据平台优化设计

的业务对象,进行数据聚合。常见的整合对象包括:客户、产品、机构
等;
 数据加载:包括同步加载、追加加载、覆盖加载、去重加载、增量加载
等。

4.3.3 统一调度模块优化设计

吉林农信大数据平台统一调度系统的设计首先是要实现调度的统一管理,
统一管理各应用系统基于大数据平台开发的各自作业任务,实现调度作业的统
筹规划,减少因分散开发出现调度依赖配置不合理、跨系统任务依赖沟通成本
较高,测试困难、不能统筹设置优先级、批量运行期间不能统一灵活操作的问
题。其次统一调度系统需要兼容不同类型技术栈,不同类型操作系统,不同类
型的任务调度及触发方式,满足大数据平台对各类调度任务的统一标准化开发
与集中管控的功能。并且统一调度平台可按分系统,项目进行隔离,支持分布
式高可用部署,保障一个系统的故障无法影响其它系统,可以通过二次开发和
数据管控平台打通,建立完整的数据血缘关系视图;和数据中台进行整合,构
建数据开发交付一站式自动化流水线,和统一监控平台连接,实时准确掌握调
度的执行情况。
在调度管理方面的设计,通过设立调度管理员,对调度平台用户,角色,
权限,系统,项目,工单,数据库服务器,ETL 服务器,应用服务器等公共基
础信息进行管理,由调度管理员梳理大数据平台各任务间的依赖关系,科学合
理进行大数据平台各应用系统任务编排,进行调度任务统一开发,统一部署,
统一运维。统一开发、部署、运维的设计降低了大数据平台各应用系统各自开
发调度,由于信息不对称所造成的技术风险,也降低了各应用系统学习调度开
发的人力成本。图 4.6 为大数据平台调度模块优化设计图。

32
第4章 大数据平台优化设计

图 4.6 大数据平台调度模块优化设计图

4.3.4 统一数据开发模块优化设计

为解决大数据平台分散式数据开发,缺乏统一开发标准管控流程,导致数
据开发代码质量不高,数据资产管控难度大等问题,大数据平台决定设计统一
数据开发模块。
统一数据开发模块的设计是打造一个集成项目管理、数据建模、任务开发、
投产发布等一系列数据能力的统一开发平台。该平台提供可视化开发主界面,
赋予用户智能代码开发、工作流协同编排、规范化投产发布的能力。利用该平
台可以帮助研发人员高效完成大数据计算的核心业务开发,帮助大数据平台实
现快速、共享、可复用的一站式数据开发管控目标。
统一数据开发平台共设计四大模块,管理中心模块,开发中心模块,测试
中心模块,数据资产模块。在管理中心模块中,管理人员和研发人员可以查看
和自己相关的项目及工单开发进度,管理人员可以进行审批和上线管理。在开
发中心模块,研发人员可以进行开发模板的设计和管理,并可以利用发布的模
板进行统一的数据开发;在测试中心模块,研发和测试人员可以对数据开发内
容进行迭代测试,并可以进行测试审计,缺陷管理等操作。在数据资产模块,
支持对数据开发过程中的产生的模型、作业程序、指标程序以及数据资产地图

33
第4章 大数据平台优化设计

进行全貌展示。支持数据资产快速搜索,帮助研发和管理人员进行数据资产的
发布和管理。统一数据开发平台的总体架构图如图 4.7 所示。

图 4.7 统一数据开发平台的总体架构图

统一开发模块的技术架构设计如图 4.8 所示,通过微服务网关技术,采用


Eureka 实现全局服务的注册与发现,将统一开发模块中涉及的项目工单管理、
离线数据开发、数据资产查询等服务在注册中心进行注册。用户登录进行鉴权
后可以灵活调用各种服务,以实现统一开发模块的功能。

图 4.8 统一开发模块的技术架构图

统一开发平台支持多个团队在不同项目空间里面进行数据开发,通过该平
台,各数据应用团队可以通过基于数据标准,开发规范及开发规则配置的统一
的数据开发模板进行标准化开发,从而使开发过程规范化,提高开发质量,提

34
第4章 大数据平台优化设计

升开发效率。通过数据资产模块,管理人员也可以全局掌握大数据平台的数据
资产,统一规划,避免应用架构的不合理和重复开发。

4.3.5 统一数据服务模块优化设计

为解决大数据平台数据应用少,数据服务能力弱的问题,大数据平台建设
数据服务模块对外提供服务。数据服务平台设计的初衷是将大数据平台的数据
能力进行服务化包装,以接口的方式对业务系统提供服务。解决数据参与业务
运营最后一公里问题。
数据服务平台将原来散布各处的数据服务进行整合,统一经由此平台对外
提供,实现数据服务的统一接入及统一出口。通过统一接入、统一管理的方式,
实现数据服务的发布、申请、对接调用、鉴权、监控,从而实现数据服务的统
一管控。通过建设数据服务门户,实现自助检索、注册、申请数据服务产品等
功能,引入评价及贡献机制,促进数据服务持续完善。
统一数据开放平台主要设计了三大模块,数据服务门户模块、数据服务支
撑模块、数据服务运营管理模块。
数据服务门户模块以门户的形态,将大数据平台数据服务的详细信息,以
产品的方式,提供给其他需要数据服务的系统。数据服务门户模块包括以下关
键功能,一是用户管理功能,提供个人信息维护、证书管理、所申请数据及服
务的维护、所订阅的产品或产品包的维护、充值续费等一系列功能,将与用户
直接相关的产品进行入口整合。二是产品市场功能,用户可以通过产品市场中
的目录快速找到自己关注的产品,使用产品订阅功能获取产品使用权限,对产
品进行客观评价,产品市场还可以通过产品定制的方式发起产品定制需求,由
开发者根据定制需求完成产品的开发及市场发布。三是公共服务功能,公共服
务的核心是提供留言、知识库、智能搜索功能。通过留言的方式提高用户的活
跃度,通过知识库的方式让用户快速了解系统,熟悉数据开放服务平台,通过
智能搜索快速获取产品信息的内容。
数据服务支撑模块主要包括访问控制和服务接入两大核心功能,基于微服
务网关,实现对服务消费方系统的接入、鉴权、流控、路由控制、加密解密、

35
第4章 大数据平台优化设计

证书验签等功能,实现服务的正常接入和支撑的同时,实现灰度发布和路由控
制等功能。
数据服务运营管理模块包括运营看板、产品管理、审批管理等功能,以产
品生命周期管理模式,实现产品从定义、配置、发布、审批、下线、计次、计
费等全流程的产品管控。支持对产品、服务、开发者、应用、审批等进行管理
和监控功能,保证系统的正常业务流转运营,实现产品统计分析,服务统计分
析,反馈评价统计分析,需求接单及处理,API 发布、产品上线、应用发布等
流程审批。

4.3.6 统一监控模块优化设计

大数据平台统一监控的优化是通过基于不同视角,定义监控场景;基于监
控场景,定义监控指标;通过监控指标,赋能数据运营决策,从而达到大数据
平台运营过程数字化,度量指标精准化。让数据说话,通过度量指标的达成,
提升平台数据运营水平。
优化大数据平台统一监测模块的设计是从数据管控,数据应用,平台管理,
资源管理等视角出发。在数据管控视角下监控入湖系统的数据质量和贯标情况,
数据模型资产使用情况,数据服务和用户评价情况等内容,通过监控这些指标
为数据管控,数据治理工作的开展提供数据支撑;在数据应用视角下通过监控
批量任务等场景,跟踪任务执行情况的指标,找到耗时时间变长的任务,对其
进行优化,提前控制由于任务时间变长,影响下游业务正常开展的风险。针对
报表等 T+1 分析类产品,通过交易场景的监控,采集用户访问信息,记录哪个
用户在什么时间访问了哪张报表,建立报表访问量排名,对于长时间没有用户
访问的报表,进行成本核算,考虑报表下线,对于长时间访问量少的报表分析
具体原因,采取针对性的策略;通过精细化运营实现成本和价值的最优化;在
平台管理视角,从项目,工单,人员绩效等场景进行监控统计,建立各项监控
指标汇总聚合明细视图,为大数据平台人员管理和工单进度的管理提供有力抓
手;在资源管理视角,对大数据平台使用分布式集群,数据库,中间件,调度
平台产品,文件存储等场景进行资源监控,实时掌握底层支撑设备的资源使用

36
第4章 大数据平台优化设计

情况,及时更换易损设备,及时对资源进行有效扩容,避免因资源问题引发的
平台故障。对使用平台资源的用户进行资源流量监控,及时准确掌握平台各用
户资源使用情况,合理分配资源,提高平台资源利用率。图 4.9 为大数据平台监
控优化设计图。

图 4.9 数据平台监控优化设计图

4.4 数据团队组织架构优化设计

4.4.1 数据管控组织架构设计

结合吉林农信数据管理中心现状,优化数据管控组织架构,建立数据管理
决策小组、数据管理办公室,负责统筹吉林农信数据应用架构、数据管控等标
准规范,决策吉林农信数据标准管理等重大工作事项。
数据管理决策小组负责整体数据架构、质量、运营等方面管理的决策,成
员包括数据管理中心分管副总、数据管理中心经理、按管理需要涉及的其他中
心经理,主要分工职责包括:
(1)审核相关管理办法和规范。
(2)对重大数据架构事项进行协调与决策。
(3)定期召集会议并听取数据管理部门关于数据应用、质量、运营管理的

37
第4章 大数据平台优化设计

整体执行情况。
数据管理办公室成员为数据管理中心各条线经理、各条线副经理、数据管
理工程师,主要分工职责包括:
(1)负责制定、解释、修订数据相关管理办法。
(2)组织进行相关规范的审核及发布执行,提供制度规范的实施意见和咨
询。
(3)定期收集数据架构、质量、运营等管理办法的执行情况并进行报告。

4.4.2 数据应用组织架构设计

为进一步解决数据管理中心在数据应用时出现数据加工的边界不明、全责
不清、无法界定数据的管控责任等问题,设立 6 个管理团队 29 个专项岗位角色,
主要包括:
(1)平台运营团队:包括平台架构师、数据中台运营工程师、调度平台运
营工程师、监控平台运营工程师、平台工具开发工程师等专项岗位角色。
(2)数据开发团队:包括数据架构师、数据模型师、数据工程师等专项岗
位角色。
(3)数据管控团队:包括数据标准管理专员、元数据管控专员、数据质量
管控专员、数据血缘管理专员、运营平台管理专员、数据需求管理专员等专项
岗位角色。
(4)数据产品运营团队:包括历史数据查询运营专员、司法查询运营专员、
监管报送运营专员、大数据风控运营专员、统一报表平台运营专员、自助报表
运营专员、风险实时识别与查控运营专员等专项岗位角色。
(5)业务领域专家组:包括监管领域专家、风险领域专家、银行业务领域
专家、其它领域专家等专项岗位角色。
(6)产品支持专家组:包括据底座产品专家、数据中台产品专家、调度平
台产品专家、监控平台产品专家等专项岗位角色。

38
第4章 大数据平台优化设计

4.4.3 人才储备优化设计

(1)扩大金科人才招聘规模
通过校园招聘和社会招聘相结合的方式,在市场上招聘高素质的高校毕业
生和成熟的行业领军人物。通过招聘应届毕业生,加速吉林农信科技人才的结
构转型,增加具有相应金融科技专业背景的人才占比,持续加大金融科技人才
引进力度,重点引进商业银行短期内无法内部产生或培训的高端人才,重点引
进创新能力卓越、技术水平前沿的科技人才,给予与能力相匹配的市场化薪酬
待遇。
(2)优化转型存量人才
充分利用金融科技培训和项目实践资源,总行金融科技主管部门设计金科
人才培养计划和培训课程。通过培训和考核方式定向培训、转化、认证金科人
才,充实行内金科人才队伍。或通过轮岗、项目实践等其他方式培养科技岗位
或非科技岗位人员接触金融科技业务,提升条线内员工金融科技能力水平。
(3)提升外部招录质效
一是引入市场化机制,对标先进同行,积极创新招聘方式、标准、流程,
适应金科新需求。加强与高校招生合作,针对金融科技类专业人才紧缺的情况,
提前锁定专业对口的优秀毕业生。二是优化金科人才学选拔体系。建立符合吉
林农信实际情况的人才能力模型评价体系,准确识别和选拔优秀人才。三是优
化招聘模式,借助网络招聘等新兴招聘方式,打通快速入场通道,提高招聘质
效。建立完备的招聘机制。通过线上线下立体化宣传模式,无缝衔接各阶段各
类金融科技人才。

4.4.4 人才培养优化设计

(1)完善金融科技人才培养与评价体系。总行金融科技部门与培训部门合
作,设计金融科技人才培养方案,引进金融科技通识和专业课程,通过考核认
证金融科技人才。
(2)组织数字化管理专业培训。联合国内重点院校、互联网企业、金融机

39
第4章 大数据平台优化设计

构定期开展数字化管理专业培训。开展线上线下综合培训项目,根据不同的培
训导向和培训目标,根据数字化领导者、数字化专业人才、数字化应用人才等
不同岗位、不同职责差异化设计培训体系和培训课程,更注重金融科技人才专
业技术与银行业务融合的能力,实现培训方案与银行数字化转型计划的有机结
合。

4.4.5 绩效激励优化设计

人才激励是金融科技团队建设的重要支撑。商业银行要在考核激励、发展
渠道等方面构建配套机制,让想干事、能干事的金科人才踏实工作,解决他们
的后顾之忧。
(1)完善金融科技人才的考核激励机制
一是建构金科人才特色的评价机制。建立多角度的资格评价规则,不但注
重个人表现,也要注重团队贡献,不但考核工作业绩,也要评价发展潜力。二
是强化薪酬资源激励机制。根据市场化薪酬设计行内金科人员的薪酬体系,评
估投入产出,使银行在金科人才的争抢中具有市场竞争力的薪酬水平。三是优
化绩效分配模式。探索项目制、派驻制等劳动组合方式,配合构建适宜的考核
分配模式,绩效工资和项目开发质效挂钩,合理进行二次分配,鼓励金科人才
主动创新。
(2)畅通金融科技人才职业发展通道
一是为金科人才职业发展通道提供支持。研究增设与数字化转型相匹配的
岗位。充分考虑业务能力、综合贡献、稀缺价值等维度,放宽金科人才的晋升
条件。激励能力、业绩、贡献突出人才优先发展,形成差异化晋升标准,打造
与金融科技队伍相匹配的灵活多样的岗位发展体系。加强专家骨干队伍建设,
激发金融科技人才活力。二是多维度培养综合化金融科技人才。通过融合技术
与业务团队工作,综合运用金融科技认证体系、项目制等方式培养金融科技骨
干人才。在金融科技管理人员选拔、交流、培养等方面,优先考虑具有金融科
技背景的人才,给予金融科技人才更广阔的职业发展空间。三是推动优秀外包
员工转岗。发挥派遣外包员工更熟悉行内系统运行和操作的优势,将绩效优秀、

40
第4章 大数据平台优化设计

符合招聘要求的优秀派遣员工按招聘程序转为正式员工,补充金融科技部门的
人员力量。

4.5 大数据平台缺失制度建立设计

在大数据平台缺失制度建立设计方面,笔者通过盘点大数据平台的数据资
产,梳理数据流转流程和数据使用场景的方式,结合资产、流程、场景找出为
满足吉林农信数据管理运营缺失的制度,通过建立相关制度,完善相关标准规
范,将相关标准规范落实到数据使用的相关场景中。

4.5.1 盘点数据资产

盘点资产涉及软件资源、物理资源、平台资源、数据资源。在软件资源方
面,梳理了大数据平台使用的数据库,中间件,开发工具,部署工具等技术栈
信息,并明确好这些软件的管理条线、使用条线、使用场景。大数据平台技术
栈梳理表如下表 4.2 所示。
表 4.2 大数据平台技术栈梳理表

序号 技术栈 管理条线 使用条线 使用场景

1 db2 数据一室 数据一室/二室 数据存储/数据查询

2 WAS 数据一室 数据一室/二室 应用发布

3 java 数据一室 数据一室/二室 应用开发

4 Python 数据一室 数据一室/二室 应用开发

5 Firefly 数据一室 数据一室/二室 版本管理

在物理资源方面笔者梳理了大数据平台所有的服务器类型,配置,用途,
物理部署架构等信息,并明确好这些服务器的使用范围(包括服务器管理条线,
服务器使用条线,服务器的使用场景(开发环境、测试环境、生产环境)。大
数据平台物理资产梳理表如下表 4.3 所示。

41
第4章 大数据平台优化设计

表 4.3 大数据平台物理资产梳理表

在平台资源方面梳理了数据采集模块、数据仓库模块、数据管控模块、统
一调度模块、统一开发模块、统一开放模块管理及使用的相关场景和相关流程。
表 4.4 平台资源梳理表

序号 平台资源 使用场景 承建方 使用方

1 数据采集模块 统一数据采集 数据一室 数据一室

统一数据汇聚和加工、统一数
2 数据仓库模块 数据一室 数据一室/二室
据建模

统一数据标准管理、质量管理、
3 数据管控模块 数据一室 数据一室
元数据管理等

4 统一调度模块 统一任务调度管理 数据一室 数据一室/二室

5 统一开发模块 统一数据开发、应用开发等 数据二室 数据一室/二室

6 统一开放模块 统一数据服务管理等 数据二室 数据一室/二室

在数据资源方面梳理了业务源系统数据,大数据平台加工的模型、指标、

42
第4章 大数据平台优化设计

标签、接口数据,整理了平台各用户的资源使用情况及使用场景,明确数据交
换方式,调度任务,数据库及表访问权限等。
整理流程包括整理数据业务管理系统和组织架构,明确系统的归属与边界,
人员的分工与职责。

4.5.2 数据管理制度优化设计

根据以上资产和流程的梳理,优化吉林农信数据管理团队的组织分工、职责
定位、组织间职责边界与流程、数据确权制度流程、数据服务的发布及使用、
数据产品生命周期管理、数据产品的分类,分级管理等方面的制度。并形成物
理资产管理办法、软件资产管理办法、平台资源管理办法、数据资源管理办法、
数据质量管理办法、数据血缘分析流程规范、元数据信息管理办法、数据质量
管理办法、数据建模流程规范、调度任务开发流程规范、数据资产管理办法、
数据指标标签分级分类管理办法、数据指标标签开发及发布管理规范、数据入
湖管理办法、数据生命周期管理办法等相关标准规范。下图为大数据平台缺失
制度建立的相关设计。

图 4.10 大数据平台缺失制度建立设计

43
第4章 大数据平台优化设计

4.6 大数据平台优化实施保障设计

吉林农信大数据平台优化项目要优化的模块较多,包括数据采集、加工、
监控等多方面对大数据平台进行优化。项目建设周期较长,涉及开发人员也较
多,必须通过有效的控制手段才能对项目的实施进行掌控。本文通过建立沟通
协调、细节管控、资源保障机制对大数据平台优化项目的实施进行保障。

4.6.1 建立沟通协调机制

建立决策层、管理中心层、项目经理,项目实施团队的沟通协调机制,定
期进行项目进度汇报:
 高层汇报协调机制:本优化方案完成后,需向吉林农信科技中心领导汇
报,取得领导支持,定期向领导层汇报实施情况,申请领导协调资源,
支持规划实施。
 横向沟通协同机制:定期在科技中心例会汇报实施情况,对建设事项进
行评审,听取高层领导对建设过程的指示,并协调解决行内资源冲突问
题。
 内部计划协调机制:分管中心领导定期召开现场办公会,听取项目实施
进度情况,对较大事项进行决策,并协调解制定下一步部门工作计划。
 项目站会周会沟通机制:每天上午 8:00 至 8:15,项目组进行站会,项
目组成员如遇问题,汇报项目推进遇到的困难,由项目经理协调资源。
每周五下午召开项目组全员例会,由项目经理介绍本周项目进展,然后
每个人介绍本周解决的问题,和现在存在的问题,由专人进行会议记录
并发送给项目组成员,建立项目知识库,避免相同问题重复分析。

4.6.2 建立细节管控机制

在建立协调汇报机制的基础上,还需要严格控制项目中的各个环节,保障
实施的有序性和合规性,各阶段主要工作包括:
 需求阶段:认真完成业务需求的收集、整理及业务需求说明书编写,严

44
第4章 大数据平台优化设计

格控制需求范围,控制需求变更。
 开发测试阶段:组织人员对技术人员进行业务需求解释答疑,共同评审
设计方案,控制需求范围,控制需求变更,仲裁测试阶段有争议的缺陷
等。
 投产阶段:组织协调上线演练,参与上线方案评审,编写投产应急预案,
负责业务试点及推广工作。
 运营阶段:控制好日常业务参数维护,生产问题报告,业务事件跟踪处
理,及时提交投产后的评估报告。

4.6.3 建立资源保障机制

充足的资源对项目的顺利实施至关重要,主要包括人力资源保障和关联资
源协调保障:
 人力资源保障机制:项目实施人员要听从甲方的工作安排,实施团队的
项目经理不得擅自对人力资源计划表的人员进行变动。甲方有权更换能
力不达标的项目实施人员。项目经理应加强团队人员技能培训,以提高
整体人员技术能力水平。
 关联资源协调保障:由乙方项目经理收集汇总项目过程中存在或可能存
在的资源风险,及时将项目的资源瓶颈与甲方沟通,对于行内资源问题,
由甲方协调行内各部门解决,对于建设方资源问题,由乙方项目经理协
调解决,并定期汇报处理进展。

45
结 论

结 论

本论文通过对吉林农信大数据平台参与银行经营管理中存在的难点进行梳
理,调查分析大数据平台在组织架构,应用架构,管理制度等方面存在的问题
与成因,给出对应优化设计方案,得出以下研究结论:
吉林农信大数据平台在参与吉林农信管理经营中存在业务人员提取数据周
期长、数据质量不佳,数据服务单一,无法让业务人员随时利用大数据平台服
务能力进行分析决策等难点问题。吉林农信大数据平台目前存在问题主要包括:
一是吉林农信大数据平台缺乏对集群资源的有效评估和数据扩容规划;二是吉
林农信大数据平台缺乏合理的统一数据加工流程;三是吉林农信大数据平台服
务能力不足,应用架构中已存在的数据采集、统一调度、数据仓库模型模块需
要优化,缺失的统一数据开发,统一数据服务、统一监控模块需要新建;四是
吉林农信数据团队组织架构不完善,缺少数据相关科技人才;五是吉林农信大
数据平台管理制度缺失。
本文针对吉林农信大数据平台存在的问题进行分析,并给出大数据平台优
化设计方案主要包括:一是对大数据平台资源管控进行设计,优化了资源评估
模型和租户模型,提升了吉林农信数据管理团队对大数据集群资源掌控程度;
二是对大数据平台开发管控流程进行优化设计,整合大数据平台数据开发人员,
统筹规划大数据平台数据应用开发,优化了数据加工流程;三是对大数据平台
应用架构进行优化设计,对统一数据采集模块、统一数据开发模块、统一数据
服务模块、统一调度模块、统一监控模块做了优化,以提升大数据平台数据服
务能力;四是对大数据平台组织架构和人才储备进行优化设计,明确了数据管
控和数据应用组织架构的职责与边界,提出了人才储备、人才培养、人才激励
的设计方案;五是对吉林农信大数据平台缺失制度的建立进行设计,归纳出缺
失制度与建设路径。六是对吉林农信大数据平台优化的实施过程进行设计,通
过建立沟通协调,细节管控,资源保障机制对优化的实施进行保障。

46
结 论

吉林农信大数据平台优化的顺利实施,可以提升吉林农信数据研发质效,
降低资源投入和人力成本,帮助大数据平台更好地跨系统、跨部门整合数据,
打通吉林农信数据孤岛,提升吉林农信数据服务能力,将数据能力融入业务流
程之中,辅助管理层快速有效地分析决策,把握市场动向,提高吉林农信精准
营销与风险防控能力水平。
大数据平台的优化是一个持续的过程,需要在设计方案实施的过程中,不
断发现新问题,不断调整、不断优化,通过提升大数据平台数据加工与数据服
务能力,助力吉林农信数字化转型。此外本研究会将理论研究成果应用到吉林
农信大数据平台实际管理工作中,并进行效果验证。本次研究沉淀出的大数据
平台优化设计方案对我国中小银行的大数据应用探索也具备一定的参考意义。

47
参考文献

参考文献

[1] 蔡葵. 落实金融科技发展规划推动金融业数字化转型[J]. 金融科技时代,

2022, 30(07): 84-86.

[2] 陈刚, 曾翔, 黄锐生, 林沣. 乡村振兴战略背景下中小银行金融科技发展研

究[J]. 金融科技时代, 2022, 30(08): 27-34.

[3] 陈来宽, 辛帅, 华雯君. 大数据在商业银行经营管理中的应用研究[J]. 现代

金融, 2022(01): 13-19.

[4] 崔怀雷. 农村商业银行大数据平台建设探索与实践[J]. 信息技术与标准化,

2021(06): 35-38+68.

[5] 敦 宏程. 工商 银行 大数 据 驱动的经 营 管 理体 系建 设 [J]. 中国金 融 电脑 ,

2022(02): 30-33.

[6] 范佩朕, 徐冰雪, 赵钟伟. 大数据在商业银行的技术实现和应用[J]. 现代商

业, 2020(03): 43-44.

[7] 冯薇. 农村金融大数据应用创新[J]. 中国金融, 2018(13): 57-58.

[8] 李明贤, 何友. 农村普惠金融目标下金融科技的工具价值及实现困境[J]. 华

南师范大学学报(社会科学版), 2019(01): 59-65+190.

[9] 李明贤, 李琦斓. 金融科技发展对农村商业银行效率的影响[J]. 湖南农业大

学学报(社会科学版), 2022, 23(03): 19-27.

[10] 李志辉, 陈海龙, 张旭东. 金融科技对商业银行盈利能力的影响[J]. 中南财

经政法大学学报, 2022(05): 56-68.

[11] 林 德 锋 , 贾 慧 芳 . 商 业 银行 金 融 科 技 人才 队 伍 建 设 探讨 [J]. 现 代 商 业 ,

2022(24): 91-95.

[12] 罗煜, 崔书言, 旷纯. 数字化与商业银行经营转型——基于传统业务结构变

48
参考文献

迁视角[J]. 国际金融研究, 2022(05): 34-44.

[13] 孟娜娜, 粟勤, 雷海波. 金融科技如何影响银行业竞争[J]. 财贸经济, 2020,

41(03): 66-79.

[14] 邱志刚, 罗煜, 江颖, 伍聪. 金融科技会颠覆传统金融吗?——大数据信贷的

经济解释[J]. 国际金融研究, 2020(08): 35-45

[15] 沈正华. 商业银行大数据战略管理与核心竞争力研究[J]. 全国流通经济,

2021(03): 159-161.

[16] 王岗, 吴勇. 光大银行科技运营数据平台建设实践[J]. 金融电子化, 2021(09):

74-75.

[17] 项晞, 董迎永. 大型商业银行一级分行大数据平台建设探讨[J]. 国际金融,

2018(01): 25-32.

[18] 谢治春, 赵兴庐, 刘媛. 金融科技发展与商业银行的数字化战略转型[J]. 中

国软科学, 2018(08): 184-192.

[19] 谢治春, 赵兴庐, 刘云燕. 传统商业银行数字化转型下的组织适应性问题与

组织创新[J]. 当代经济管理, 2022, 44(12): 81-88.

[20] 袁顺义. 中小商业银行数据治理保障机制问题分析及应对策略[J]. 商场现代

化, 2022(08): 132-134.

[21] 张 连 明 , 王 喆 . 大 数 据 平台 数 字 化 运 营探 索 与 实 践 [J]. 中 国 金融 电 脑 ,

2022(04): 69-72.

[22] 张晓东. IT 架构赋能金融数字化转型——建行分布式架构实践与思考[J]. 金

融电子化, 2022(05): 23-24.

[23] 章 澍 . 区 域 银 行 如 何实 现 金 融科 技 弯道 超车 [J]. 金 融电 子 化, 2021(03):

80-81.

[24] 赵 毅. 基于 大数 据 平台构 建 数据仓 库的研究与实践 [J]. 中国金 融 电脑 ,

2017(05): 37-42.

[25] 朱太辉, 张彧通. 农村中小银行数字化转型研究[J]. 金融监管研究, 2021(04):

49
参考文献

36-58.

[26] Andreas Fuster. The Role of Technology in Mortgage Lending [J]. The Review of

Financial Studies, 2019, 32(5): 1854-1899.

[27] Bengt Holmstrom, Jean Tirole. Financial Intermediation, Loanable Funds, and

the Real Sector [J]. The Quarterly Journal of Economics, 1997, 112(3): 663-691.

[28] Cornelli Giulio, Doerr Sebastian, Gambacorta Leonardo, Tissot Bruno. Big Data

in Asian Central Banks [J]. Asian Economic Policy Review, 2021, 17(2):

255-269.

[29] Dmytro Holod, Herbert F. Lewis. Resolving the Deposit Dilemma: A New DEA

Bank Efficiency Model [J]. Journal of Banking and Finance, 2011, 35(11):

2801-2810.

[30] Robert Hauswald, Robert Marquez. Information Technology and Financial

Services Competition [J]. The Review of Financial Studies, 2003, 16(3):

921-948.

50

You might also like