You are on page 1of 1

智能风控

01-智能风控是一套包含智能风控方法、智能算法和工具的完整体系 02-智能风控详细体系架构 03-智能风控平台交互逻辑 04-数据层详解 05-特征画像层详解 06-模型算法层详解 07-决策应用层详解 08-未来发展趋势展望

源数据分析 中间数据 特征设计 欺诈风险 信用风险 数据预处理 EDA 特征选择 集成算法 准入决策 欺诈拦截 风险点识别 样本设计 规则生成 规则算法
风险点识别
准入决策 欺诈拦截 样本设计 规则生成 规则算法 基础数据 交易数据 数据采集 数据校验 数据清洗 实时计算 身份特征 交易特征 NLP特征
风险识别和规避
决策引擎 模型平台
和清洗 模型平台 决策引擎
目标:风控效果与效率 策略层 决策引擎 数据平台
构造 生成
特征平台
营销风险 内容风险 模型训练 模型评估 模型监控 深度学习 营销风险 内容风险 策略评估 A/B试验 决策监控 最优化算法
营销风险 内容风险 策略评估 A/B试验 决策监控 最优化算法 数据存储 数据缓存 数据监控 离线计算
关系数据 三方数据 关系特征 融合特征 特征评估 特征回溯 特征监控 图特征
规则策略部署、A/B试验、 模型结果 模型构建、模型部署、
决策流程执行 模型计算

模型内容

模型算法

策略内容

决策算法
应用:业务流程各个环节

数据类型

数据处理
欺诈风险 信用风险 数据预处理 EDA 特征选择 集成算法 身份信息 SDK数据 交易记录 社交数据 营销评分 反欺诈评分 贷中行为评分 决策树 XGBoost 评分卡 欺诈识别 准入拦截 贷中风险
实时计算 流式计算
模型层 决策树 异常点检测

特征内容

特征算法
模型平台 性别/年龄 额度使用占比 ID关联特征
RFM聚合方法 时序特征方法 贷后催收评分 申请信用评分 作弊风险评分 随机森林 LightGBM SVM 作弊风险 营销风险 贷后风险
营销风险 内容风险 模型训练 模型评估 模型监控 深度学习 学历信息 设备指纹 还款记录 多头数据
孤立森林 最优化算法
策略应用
离线计算 批量计算 居住区域 最大逾期天数 收入指数
模型特征 App行为 授信记录 黑灰名单 征信信息 NLP特征方法 图特征方法 流失预警分 内容风险评分 神经网络 图神经网络 K-Means 内容风险 运营风险

智能
借款次数 二度联系人数量 消费能力 补充自动识别不足
源数据分析 中间数据 特征设计
智能风控方法论:模型 智能算法:机器学习、 身份特征 交易特征 NLP特征 规则特征 机器学习模型
人工风控
和清洗 构造 生成
特征层 特征平台 数据处理步骤 数据采集 数据校验 数据清洗 数据存储 标准输出 数据监控 模型建立 样本定义 模型架构 数据准备 模型训练 风险点
搭建、数据挖掘、策略 深度学习、关系网络 问题定义 特征选择 模型监控 策略建立流程 样本设计 规则生成

风控
源数据分析 中间数据 特征设计 规则评估 试验设计 效果监控
关系特征 融合特征 特征挖掘流程 特征评估 特征回溯 特征监控 流程 及划分 设计 与EDA 与评估 识别
特征评估 特征回溯 特征监控 图特征 和清洗 构造 和生成
搭建
数据平台
数据平台 特征画像挖掘 专家
数据平台 特征平台 实现外部数据接入标准化
特征平台
特征平台 特征配置和生成 模型平台 决策引擎
规则编写和执行
替代大部分人工识别
数据采集 提供统一的内部数据服务接口服务 模型平台 模型训练和调优 决策引擎 执行流配置和管理
基础数据 交易数据 数据校验 数据清洗 实时计算
数据层 数据平台 数据接入、数据存储、 特征构建、特征部署、 保证数据规范存储和顺畅流转 特征实时计算/批量计算 模型推理计算和存储 分流实验设计和执行
工程技术实现:自动化架构和工具平台 关系数据 三方数据 数据存储 数据缓存 数据监控 离线计算 数据查询 基础数据 特征计算 外部数据
接入模块
数据管理
服务模块
数据校验
模块 保证数据质量,支持数据校验和监控 特征回溯管理、特征存储 模型任务管理 审批权限管理 内部数据 三方数据
特征挖掘 特征计算 特征管理 特征监控服务 自动建模 模型引擎 模型管理 规则集配置 决策流配置 审批管理
模型效果和监控 策略监控和预警
关键内容 流程步骤 算法方法 工具平台

用户画像

01-用户画像定义 02-用户画像(产品)八要素 03-用户画像(用户)类型 04-用户画像(用户)常用维度 05-用户画像(用户)周期 06-用户画像(用户)开发流程 07-用户画像(用户)开发流程

01 P代表基本性 (Primary) 02 E代表同理性 (Empathy)


03
指该用户角色是否基于对真实用户的情景访谈; 指用户角色中包含姓名、照片和产品相关的描 01 基础属性 02 平台属性
述,该用户角色是否能引发同理心; 社会属性、账号信息、LBS; 平台属性、位置信息; 数据收集
用户画像(用户) 用户画像(产品) 实时画像 通过实时技术进行收集的用户实时兴趣 01
07
画像标签 个性化推荐&搜索
03 行为属性 04 产品偏好 标签服务化 用户分群
系统通过用户自行上传或 又称用户角色,作为一种勾 03 R代表真实性 (Realistic) 04 S代表独特性 (Singular)
登录注册激活、浏览、点击、购买、投诉; 精品偏好、内部产品偏好;
体系设计
指对那些每天与顾客打交道的人来说,用户角 每个用户是否是独特的,彼此很少有相似性; 05
埋点上报收集记录了用户 画目标用户、联系用户诉求 色是否看起来像真实人物; 短期画像 通过统计收集的用户短期兴趣(一般3天)
标签生产 产品分析
的大量信息,为便于各业 与设计方向的有效工具。 05 兴趣偏好 06 敏感度
广告投放
品牌偏好、类目偏好、标签偏好; 活动敏感度、优惠券敏感度、热点敏感度;
务应用,将这些信息进行 05 O代表目标性 (Objectives) 06 N代表数量性 (Number)
直采型 统计型 挖掘型 预测型 中期画像 通过统计收集的用户中期兴趣(一般14天)
沉淀、加工、抽象,形成
该用户角色是否包含与产品相关的高层次目标, 用户角色的数量是否足够少,以便设计团队能 精准营销 风控反欺诈
是否包含关键词来描述该目标; 记住每个用户角色的姓名,以及其中的一个主
直接从用户基础信息表内取 利用用户日志数据,按照一 利用用户行为数据或者文本 算法标签的一种,原理与挖
07 消费属性 08 用户生命周期
要用户角色;
一个以用户标志为主key的 消费能力、消费行为、消费意愿、消费偏好; 生命周期;
04
到的用户信息,不需要统计 定的规则进行简单统计的标 数据,结合业务规则机型算 掘型标签相似,区别在于预 06
标签树,用于全面刻画用 长期画像 通过统计收集的用户长期兴趣(一般30天)
07 A代表应用性 (Applicable) 08 L代表长久性 (Long) 和计算。 签。 法加工,输出对应的属性值 测型重点应用于典型的预测 02 数据验证 标签落地
用户画像应用场景
户的属性和行为信息。 设计团队是否能使用用户角色作为一种实用工 用户标签的长久性。 09 用户价值: 活跃价值、VIP等级;
或分值。 场景。 数据源确认
具进行设计决策。

推荐系统
数据应用

01-排序技术 02-用户理解 03-召回技术 04-召回技术

模型 冷启动策略
显式 Trigger-Selection(U2X)
用户召回排序用的Trigger选择,
意图推断(U2Intent) 隐式
单/多模态表征 传统召回 知识召回
购买力预测
召回池

理解
可以是物料、类目等 类目、品牌、属性等偏好预测
适配策略 价格等 短/长/超长行为表征 热门召回 协同过滤(1) 内容
标签抽取(U2Tag)
召回 粗排 精排 重排 通过NLP等进行标签挖掘
算法举例:MUVCOG
商品表达 Item 1 全局热门 UserCF 基于物品的属性 √ 兴趣实体
多样性 用户生命周期理解
分类目/标签热门 基于U-I共线关系得到 通过图谱基于物品的其他关联信息
√ 兴趣标签
日志 一致性 端侧
新颖性
生命周期行为表征
商品特征 Item 2
分人群(性别、年龄、职业等)热门
ItemCF
物品内容标签
alibaba 全链路 准实时 群体理解(U2U) 通过用户行为理解,对整个用户浏览/购 √ 基于路径
高性能 算法举例: 流行性 通过聚类、looklike等群体理解 买生命周期进行理解,围绕整个用户行 协同过滤(2) √ 基于逻辑
EdgeRec 疲劳度控制
为周期建模用户周期内意图感知&偏好 单场景/全链路行为表征 用户表达 .... SVD
业务 算法法举例:RALM

传统 知识
√ 基于语义
特征 模型 分页&曝光过滤等 推荐商品 Swing
目标 匹配&检索 Item k
列表 行为日志 Slim&gSlim
离线 近实时 准实时 用户 行为 生命
E&E策略 T购买力与消费等级 偏好 周期 状态预测 流失预测 Adamic-Adar

召回 召回
价值 模式 周期

洞察
离线训练 在线预测 在线
需求强度 关系 敏感度 意图推理
数据 离线

表示 匹配
用户信息 特征工程 用户特征
LTV等长期价值 行为序列模式 时间序列模式 表示召回 匹配召回
客户端实时 属性、行为、社交等维度 KV 存储
归一化
数据处理

商品向量

相似矩阵

弱个性化
商品信息 匹配得分

召回 召回
离散化 商品特征

U相关
流处理平台 召 动态检索 TDM
非线性变换 商品特征 DR
Blink/Flink/Porsche 匹配层

场景信息 特征组合 属性、标签、热度、内容等维度


基础 行为 时空 端
回 .... 检索
服务端实时

表示层 表示层
人口统计学属性 物料类型行为特征 时间类特征 页面相关特征

数据
数据处理 ID类特征编码 特征存储 年龄、职业、性别等 点击、收藏、点赞等 点击时间、天气、季节等 位置、页面类型等
(BOW/CNN/RNN) (BOW/CNN/RNN)
√ DeepWalk √ TransE √ GCN
ID类特征向量化 场景&端特征 用户特征 型 输入层 输入层 √ Node2Vec √ KGAT √ GraphSage
端信息
数值类特征 端、时空、页面等维度 人群标签
亲子、情侣等
搜索类特征
搜索词、时间等
空间类特征
LBS轨迹、城市等
端相关特征
客户端、类型等 user item
√ EGES √ RippleNet 模型 索引
全面 实时 双塔模型(DSSM) Graph-base模型 用户兴趣 最优索引
其他 其他特征 多通道召回引擎
常住地、购买力等 类目、营销、品牌等 行为日志 显式行为建模 隐式行为建模 多兴趣表征 超长行为建模
GRU4Rec SDM XDM MIND LimaRec NCF
工程通用模式 召回技术四大类 DUPN
BERT4Rec
SASNet ComiRec
SASNet(fliggy) 更复杂的匹配函数,兼顾全量候选集大规模召回时效性

离线 在线 端计算

05-排序技术 06-排序技术 07-其他技术方向 08-评估

初代 二代 三代 四代 未来

整体指标
全局热门 DropoutNet metric-based meta epsilon-greedy 转化类指标 推荐质量类指标 消费满意度指标
分标签的热门 MetaEmbedding learning 汤普森采样
面临问题: 特征交叉 性能考虑 SSB问题
MLR XGBOOST Deep 基于时空相关热门 Meta Warm Up MeLU UCB CTR类 多样性类 留存率
PNN Crossing ONN AutoInt FiBiNet CAN HashGNN
Framework MetaHIN LinUCB CVR类 新颖性类 停留时长
基于人工规则策略、或者基于日志进
α(x) 与精排进行更深层的融合和统一
样本分组LR 引入Product Layer 引入ResNet结构 引入Multi Head Attention 引入特征重要性 引入特征之间协同关系 引入GNN+Hash 引入transform
Knowledge-based SMINet ECPM类 时效性类 播放完成率
双线性特征交互
行后验相关的概率统计 实时性 特征选择 CDR
真正的和最终优化的目标一致性的 Online LR GBDT BST 客单类 可解释性类 平均阅读时长
多行为推荐
静态质量分 粗排模型 Learning DAU类 热门内容比例 沉浸度(Engagement)
物品历史CTR/CVR等 1 后验概率统计群体反馈 高效地利用属性信息 充分利用少量交互数据 启发式探索
工程效率的优化,性能提升更多 树形模型特征选择
DIN Deep Neural Network(MLP) DRN 冷启动(商品) 点击个数等 高质量内容比例 惊喜度(Serendipity)
类目历史表现平滑 实时性+稀疏性
物品热门预估
Concat Concat Concat 特征交叉 加入GRU来对
用户兴趣演进建模 保留DNN同时加入LR 利用FM进行预训练 利用AutoEncoder 热门推荐 Side Information 少行为建模 E&E
FTRL GBDT+LR 引入强化学习
销量预测
偏置建模 推荐系统线上指标,与所推荐的内容类型、展现方式、推荐所满足的用户需求,都有莫大的关系,而且这种关系体现的有时还很微妙
x PLOY2 DIEN Wide & Deep FNN AERec NCF
SE Block 流式衰减
0 多通道兴趣建模 seq化为多个Session建模
向量进行降噪处理 引入CNN

XFTRL
特征交叉+稀疏性表达 可解释性 Click models heuristic-based strategy Regularization strategy A/B Test
Wide 侧改进 Deep 侧改进
DAE ConvNCF Propensity Score Sampling strategy Adversarial learning
FM MIMN DSIN
user features ad features CrossNet 融入FM 加入attention Bi-interaction
加入用户Embedding 引入Graph结构 others Exposure-based model Causal graph
基于搜索超长行为建模
引入域信息 代替MLP others others

整体指标
SIM CDAE Graph NCF
user features ad features cross features
DCN DeepFM AFM NFM
FFM
Linear&CIN结构 位置偏差 曝光偏差 热度偏差
LR(逻辑回归) 引入域权重 DCN-V2 XDeepFM FM
DSSM双塔模型 TopK Recall
FTRL(XFTRL)等 AUC/GAUC
三塔模型 COLD模型 FwFM AUC/GAUC AUC/GAUC
多模块 多任务 多目标 多模态 is similar to who like
FSCD模型 SE Block特征优选与工程优化 Users 与精排分数/序一致性 类目/人群(AUC&GAUC)
特征交叉组合 特征域 稀疏性 类目/主题多样性
AutoFAS MMOE 帕累托最优 MMGCN
like similar to MAP(mean average precision) 相关性指标
粗排场景自动特征与结构选择
PLE LOGO
Items Item …
相关性指标 RPM(ad)
like
后验统计 线性模型 双塔深度模型 轻量高精度深度模型 端到端深度粗排模型 传统模型时代 深度模型时代 Features present in 实时性(性能)

模型目标 模型表达 特征&信息扩充


技术栈: User/Item/Content-based Text/Visual-based Social-based
深度匹配模型 大规模负采样 向量召回 模型蒸馏 全链路一致性 熵、KL散度、长尾判断
可解释性推荐是在给用户提供推荐的同时,也给用户解释为什么的一种个性化推荐方法,能够帮助提升推荐系统的效果、
Matching Pre-Ranking Ranking Reranking
粗排技术迭代图 精排模型技术 效率、说服性以及用户满意度

预训练

02-预训练模型研究框架
01-预训练模型技术 03-近十年NLP重要发展(预训练相关) 04- 知识增强让模型学习更丰富的知识

用一套机制(预训练+微调)解决所有语言、主要场景的NLP任务,解决了原有的碎片化问题,大大提升开发效率。标志着NLP进入工业化实施阶段。 知识图谱增强 基于语言学知识增强 特定数据增强

针对不同任务 任务应用 文本摘要 智能对话 内容生成 认知推理 融合实体信息的表示


算力 T5
成分句法 基于成分的预训练方法 领域相关知识
进行微调 完成任务 任务接口 Word2vec Attention BERT chatGPT
基于图谱的推理强化
语义角色 语言表示融合增强 任务相关知识
技术路线

Exploring the Limits of


(BERT/GPT-2) Efficient Estimation of neural machine translation BERT: Pre-training of Deep Transfer Learning with a Optimizing Language 依存关系 自注意力权重约束和剪枝 多语言知识

超大规模 +
Word Representations in by jointly learning to align Bidirectional Transformers Unified Text-to-Text Models for Dialogue
语言模型 单语语言模型 多语语言模型 多模态模型 Vector Space and translate for Language Understanding performer
Transformer
预训练
English

海量文本数据 超大规模算力 模型训练


language
The
Shins

语言模型 2014年 2017年 2019年 2020年 language of

无需微调
work or name

训练目标 自监督 自回归 额外训练模式


算法
Spork
(GPT-3) 完成任务 2013年 2014年 2018年 2019年 2022年
EP
知识获取 1995 instance
of

+
Seq2seq Transformer GPT-2 GPT3 publication
模型架构 编码器 解码器 编码器-解码器 date Extended
play
Sequence to sequence Attention Is All You Need Language models are Language Models are
learning with neural unsupervised multitask Few-Shot Learners
networks learners

T₁ T₂ ....
Tₙ T₁ T₂ ....
Tₙ OUTPUT I am a student 数据源 数据 Model: https://github.com/Langboat/Mengzi
自由文本 结构数据 多语言 多模态
Report: Zhang Zhuosheng, et al. Mengzi: Towards Lightweight yet Ingenious Pre-trained Models for Chinese. https://arxiv.org/abs/2110.06696.
Zhang Z, Zhao H, Zhou M. Instance Regularization for Discriminative Language Model Pre-training[J]. arXiv preprint arXiv:2210.05471, 2022.
主要模型

Trm Trm ....


Trm Trm Trm ....
Trm
ENCODERS DECODERS

Trm Trm .... Trm 05- 训练优化让模型更高效地学习知识 06-多样化的应用场景


Trm Trm .... Trm

E₁ E₂ .... Eₙ INPUT Je suis etudiant 语义相似度( SBERT )


E₁ E₂ .... Eₙ 模型尺寸优化,减少结构冗余 训练校正策略,实现更准确的训练 对话生成( PLATO-XL ) 文本摘要(pegasus) 图像(MAE) 多模态(CLIP)
新的训练目标,加强语义学习能力 对抗样本预训练,提升模型鲁棒性

Encoder(BERT-Style) Decoder(GPT-Style) Encoder-Decoder(T5/BART-Style) 训练加速策略,分布式大批次训练

Original Corrupted Restored Input


Sentence Ennoising Denoising Sentence W’ H
Sentence
Thanks you for [MASK] [MASK] to your [MASK] last week

更大的模型和更多的数据 更高效的预训练方法 知识增强的预训练模型 小样本学习及统一微调 Original


H
>

W
Thanks you for inviting me to your party last week PrLM
Discriminative Training
研究重点

Model Size 10³ Predicted


10⁶ 95
P ~

Data Size H
Electra-Large
Thanks you for inviting us to your home last week
ALBERT T5-3B T5-11B
90
10⁵ RoBERTa
XLNet Human A cute [MASK] is [MASK] on the [MASK] ...
argmax Pre-training Objectives
10² 85 SBERT architecture SBERT architecture at inference Self-attention Visualization Input Representation
Bert-Large The base architecture of PEGASUS MAE architecture Summary of CLIP
10⁴
T5-Base
Pred Tokens: {inviting, us, home}
80 MobileBERT
Electra-Small
[MASK] cute dog [MASK] playing on the [MASK] ...
BERTBase

DistilBERT (dev set) GPT


(Original Sentence) Gold Tokens: {inviting, me, party} Reimers N, Gurevych I. Sentence-bert: Sentence embeddings using siamese bert-networks[J]. arXiv preprint arXiv:1908.10084, 2019.
10³ 75 Bao S, He H, Wang F, et al. Plato-xl: Exploring the large-scale pre-training of dialogue generation[J]. arXiv preprint arXiv:2109.09519, 2021.
10¹
Radford A, Kim J W, Hallacy C, et al. Learning transferable visual models from natural language supervision[C]//International Conference on Machine Learning. PMLR, 2021: 8748-8763.
70
10² 50 100 500 1000 5000 10000 Model: https://github.com/Langboat/Mengzi He K, Chen X, Xie S, et al. Masked autoencoders are scalable vision learners[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 16000-16009.
Report: Zhang Zhuosheng, et al. Mengzi: Towards Lightweight yet Ingenious Pre-trained Models for Chinese. https://arxiv.org/abs/2110.06696. Zhang J, Zhao Y, Saleh M, et al. Pegasus: Pre-training with extracted gap-sentences for abstractive summarization[C]//International Conference on Machine Learning. PMLR, 2020: 11328-11339.

知识图谱

01-知识图谱 02-知识图谱模式 03-实体抽取 04-关系抽取 05-事件抽取


知识图谱技术是知识生产、知识表示存储和知识应用等众多技术的总和。这类似于,搜索引擎是信息的爬取采集、信息存储和信息检索等多种技术的总和。 (Knowledge Graph Schema),简称模式(Schema),也称类图谱(Class Graph)或概念图谱(Concept Graph),是面向知识图谱内容的一种抽象的、语义化的且概念化的规范。在知识图谱模式中,实体类型 命名实体识别(Named Entity Recognition,NER)是指从非结构化的文本中识别出符合定义的实体,并将其分类到某个恰当实体类型中。在知识图谱领域,广义的命名实体识 (Event Extraction)是指从文本中提取出有关特定事件的信息,包括主题、客体、地点和时间等等要素。通过对文本中出现的实体和关系进行分析,可以提取出有意义的知识,
以语义化的方式对实体进行分类,关系类型则以语义化的方式对关系三元组进行分类。实体类型的属性名列表和关系类型的属性名列表则是对实体类型和关系类型的多维特征的表示。在语义网中,知识图谱模式往往也 别通常又称为实体抽取。实体抽取是构建知识图谱的关键技术之一。 进而构建出事件图谱。事件图谱是知识图谱的一个细分领域,知识图谱中的存储、计算和推理等技术都可以用到事件图谱上。但事件图谱有其自己的特点,进而衍生出一系列事件
被称为本体(Ontology),表示知识的概念化的规范。 图谱独特的计算和推理方法。
——《知识图谱:认知智能理论与实战》P33

模式设计与管理 原则 方法论 工程模型


类 别 方 法 特 点
关系三元组与语言的语法结构关系密切, 关系分类本质上就是一个给定文本序列和 监督学习
可视化与 词典匹配 常用于有大量词表的专业领域 语音
知识计算
交互式分析 由于词法分析和句法分析工具愈加成熟, 实体信息作为输入的分类问题,分类的目
生成式方法
场景 清晰、明确地定义场景 基于规则的方 正则表达式 最常用的规则编写方法,正则表达式几乎为所有编程语言所支持,熟悉一种或多种编程语 基于语法结构的关系抽取的方法表现愈加 标是判断其是否属于 所有可能的关系类 序列标注方法
法 言的工程师很容易根据语言和文本特点编写规则
优秀,应用场景也愈加广泛。 型之一,或者不是任何一种关系类型。 分类方法
慢应用
事件
完整性 智能问答
映射式构建技术
约束
模板 常用于有固定结构的文本上,比如由数据库生成的网页、制式合同等 基于 基于 阅读理解方法 多模态
事务 评价
查询
复用 考虑复用是非常好的习惯 决策树 简单、直接,可解释性非常强
规则的 深度学 事件抽取
抽取
语言 约束
获得反馈︐迭代演进︐螺旋式上升

知识推理 推荐系统 最大熵 复杂,通用性比较强


场景
实体抽取
图数据库 支持向量机 广泛用于各类机器学习任务中,在实体抽取上表现不错 关系抽 习的关系 弱监督学习
事件抽取 文本 视觉
定义合适的实体类型,明确、清晰、 联系
机器学习 朴素贝叶斯 最简单的概率图方法,可解释,有坚实的数学理论基础 取方法 分类方法 半监督

关系
分布式图数据库
事物 复用
远程监督
知识融合

关系抽取
知识检索 数据分析 无歧义地描述一类事物 隐马尔可夫模型 比CRF更简单,计算效率高,在低计算资源年代应用非常广泛
复用
自然语言处理 事务
Janus 事务 传统机器学习中最常用的实体抽取方法,至今依然是很强的基准方法,并且经常和深度神

抽取
Graph 向量数 事务 条件随机场
据库 根据场景和应用的需要, 经网络结合构建深度学习模型,应用非常广泛
快应用 知识溯源 联系
计算机视觉 定义实体类型间的关系 场景 联系 联系 BiLSTM-CRF 深度学习中最常用的实体抽取算法 弱监 实体- 11月29日神舟十五号载人飞船发射取得圆满成功。 11月29日神舟十五号载人飞船发射取得圆满成功。
复用 深度学习 BERT 预训练模型+微调的深度学习方法的典型代表
督学 关系联
声音处理 属性图 分布式 约束
知识探索 辅助决策 确定图谱模式整体和局部的约束条件, 其他深度学习模型 模型千千万,百花齐放,各具特色
模型 分布式 存储 约束 通常包括数据类型、取值范围和权限控制 习的 合抽取 触发词识别 发射
计算 场景 自动标注样本 自动生成训练语料,核心在于解决噪声问题
11月29日 神州十五号 发射
抽取式构建技术
评价 部分标注样本 降低标注成本
弱监督学习的目的有三,一是充分挖
方法 方法
弱监督学习 掘少量已标注样本的潜力;二是通过专 触发词分类
载人飞船
迁移学习 减少模型所需的训练语料 实体-关系联合抽取的方法在一个模型中 航天器发射
构建技术 存储技术 应用技术 用户接口与界面 评价
系统评估所设计的模式
家编写业务规则自动生成标注数据,提升
是否满足场景的需要 远程监督 通常和关系抽取一起使用 同时实现对实体和关系的抽取,其输入 要素 触发词
用于实体抽取 将实体抽取建模为马尔可夫决策模型 专家经验的复用性,降低专业数据的标注 为文本序列,输出是抽取出来的实体和 要素
事件要素识别 11月29日 神州十五号载人飞船
——《知识图谱:认知智能理论与实战》P10 深度强化学习 提升样本质量,或者在样本质量存在一定问题的情况下,联合实体抽取模型实现高精度的 成本;三是利用知识库来指导监督标注数 关系,既直观,又简洁。
用于样本处理 据的生成,实现无标注数据下的关系抽取
实体抽取 时间 航天器发射
——六韬瀑布模型 ——六韬螺旋模型 要素角色分类 时间 主体 主体
——《知识图谱:认知智能理论与实战》P136
《知识图谱: 认知智
06-知识存储 能理论与实战》 管道模式 联合抽取
属性图数据库,简称图数据库。图数据库完全和知识图谱契合,从底层的存储模型到支持的查询语言,甚至相关的概念都完全匹配。它们就是天造
地设的一对,图数据库是知识图谱存储的首选。

JanusGraph Neo4j Dgraph NebulaGraph 07-知识计算 08-知识推理 09-智能问答 10-认知推荐系统


首次发布 2017年 2007年 2016年 2019年 (Knowledge Computing)是指在图论的指导下,使用图论中的定理、推论、模型、算法,以及相应的工具来计算、处理、分析、理解和挖掘知识图谱的方法。 推理(Reasoning)是与人类思维和认知相关的心智能力,是符合逻辑的、明智的思维方式,是一种有意识地进行思考、计算、权衡与逻辑分析的能力。 知识推理是实现类似于人类推理能力的人工 (Question Answering,QA),是指使用自然语言提问的方式检索所需的知识,其目标是直接获取问题的答案。在基于行业知识图谱的智能问答中,用户在查询业务知识时,不需要精挑细选关键词,而是如同向专家咨询一样,使 (Cognitive Recommendation System)是指以知识图谱为核心,以知识为依据,利用知识图谱中无处不在、无时不有的连接给用户推
智能技术。 用自然语言的方式描述清楚所要解决的问题,系统就会通过一系列复杂的语义理解、信息检索、知识推理和答案生成等步骤给出准确的答案或者答案的候选集合。 荐所需知识的方法与系统。
开发语言 Java Java Go C++
认知推荐系统的目标是像行业专家一样工作,即在特定的场景下,基于对用户的先验认知(如用户的工作职责、所在的部门与角色、过往
属性图模型 完整的属性图模型 完整的属性图模型 类RDF存储 完整的属性图模型 工作经历、所贡献的知识等)来推荐知识。在大多数情况下,用户本身就是行业知识图谱的组成部分。也就是说,认知推荐系统可以充分
利用知识与知识、知识与用户、知识的版本更新和新陈代谢等丰富的关联,并基于应用场景进行精准的知识推荐。
架构 分布式 单机 分布式 分布式
智能问答 Z 形框架 使
存储后端 Hbase、Cassandra、 自定义文件格式 键值数据库BadgerDB 键值数据库
遍历与查询 模块度 PageRank 文本理解 意图识别 知识链接 模板匹配 用系统性方法来实现
BerkeleyDB RocksDB 最短路径 GN 中介中心性 概率推理 演绎推理
能够面对不同业务、 ①通用
(Probabilistic Reasoning) (Deductive Reasoning)
高可用性 支持 不支持 支持 支持 全路径 Louvain 特征向量中心性 归纳推理 因果推理 解决各种各样问题的 ⑩知识
推荐
②交互与
高可靠性 支持 不支持 支持 支持 亲密中心性 (Induction Reasoning) (Causal Reasoning) 全能型的基于知识图 保密 人机协同

一致性协议 Paxos等 无 RAFT RAFT 谱共通的智能问答应


子图检索 用
路径分析 社区分类 中心性
跨数据中心复制 支持 不支持 支持 不支持 ⑨社区化 ③多样性
运营 推荐

认知
事务 ACID或BASE 完全的ACID Omid修改版 不支持

分区策略 随机分区,支持显式指定分区策略 不支持分区 自动分区 静态分区

大数据平台集成 Spark、Hadoop、Giraph Spark 不支持 Spark、Flink


演绎推理 几何嵌入方法 深度学习 推荐
⑧主动 ④权威性
查询语言 Gremlin Cypher GraphQL nGQL
推荐
专业模型 复杂问题处理 重排序 答案生成
推送
全文检索 ElasticSearch、Solr、Lucene 内置 内置 ElasticSearch
基于演绎规则 欧式空间平移变换 卷积网络
基于描述逻辑 复数空间旋转变换 胶囊网络
多个图 支持创建任意多图 一个实例只能有一个图 一个集群只能有一个图 支持创建任意多图
定性时空推理 双曲空间嵌入 图神经网络 ⑦给出 ⑤多模态
属性图模式 多种约束方法 可选模式约束 无模式 强制模式约束 NetworkX igraph SNAP JGraphT GraphX Gremlin Cypher SparQL 推荐理由 推荐
⑥说服式
客户端协议 HTTP、WebSockets HTTP、BOLT HTTP、gRPC等 HTTP ——《知识图谱:认知智能理论与实战》P392 推荐

客户端语言 Java、Python、C#、Go、Ruby Java、Python、Go等 Java、Go、Python、等 Python、Java等


——上表开源图数据库,节选自《知识图谱:认知智能理论与实战》P246,完整的请参考原书

隐私计算知识体系

01-隐私计算发展历程 02-隐私计算知识体系 03-隐私计算技术对比 04-通用隐私计算框架

香农发表《保密系统的通信理论》《密码学 随着非对称加密算法RSA出现,同态加
业务研发使用友好
用户界面
数学理论》正式开启现代密码学时代 密的概念被首次提出
可视化操作界面 开放编程接口
萌芽期 第一层:计算安全
代理计算方A 平台开发接入成本低
MPC
(1949年 - 1981年) TEE
随机数 梯度
优势
1949 1976 1978 1981 概念前瞻 密态时代与隐私计算展望 隐私计算技术全局概览 MPC MPC 计算节点 计算节点
中等 代理计算方B 代理计算方C
MPC MPC AI&BI 隐私保护算法使用友好
多方安全计算 联邦学习 可信执行环境
隐私算法
劣势
密码学概念 Diffie和Hellman提出公钥密码思想, 隐私计算
多方安全计算 同态加密 隐私求交
提升算法开发效率
Rabin首次提出不经意传输协议
萌生,技术路 是现代密码学里程碑 基础理论
匿踪查询 零知识证明 差分隐私
线尚不明确 数据 数据 数据 数据 数据 数据 数据 数据
基础技术 联邦学习 拆分学习 针对Node分类的纵向联邦图神经网络
隐私保护
经典MPC模式 经典联邦学习 经典TEE模式 MPC代理(类华控清交4方代理)
明密文 调度/编译器开放合作
机器学习 设备计算图 分布式调度引擎
混合调度
基于多方安全计算的机器学习 纵向联邦XGB算法
共建明密文混合编程能力
硬件技术 机密计算与可信执行环境
Gentry首次提出一种基于理想格的全同 Goldreich对安全多方计算进行讨论,
安全性 学术界严谨安全证明支撑,目前实现多局限于半诚实 需融入其它技术联合使用以实现数据安全保护效果 宿主机存在侧信道攻击风险,需关注RA和安全加固 无法抵御代理计算方共谋,代理方执行逻辑无法验证
态加密算法;OMTP提出首个TEE标准 提出安全多方计算协议
开发成本 满足通用运算能力,需研发投入,目前主要实现ML/SQL 支持部分运算能力,需算法/研发投入,目前主要支持ML 理论上满足通用运算能力,可复用已有应用能力 满足通用运算能力,需研发投入,目前主要实现ML/SQL
探索期 高性能多方安全数据分析SCQL 可信密态计算 Occlum技术架构和设计思想
密文计算设备 明文计算设备 隐私保护原语
(1982年 - 2016年)
应用技术 运维成本 离线态和在线态均需服务化 离线态和在线态均需服务化 离线态接入成本低,在线态需服务化 离线态接入成本低,在线态需服务化

2016 2009 2001 1987 1982 隐私计算安全攻防: 系统攻防 隐私计算安全攻防:算法攻防


计算精度 精度有微小损失,ML场景影响不大 精度有微小损失,ML场景影响不大 计算精度高,与明文一致 精度有微小损失,ML场景影响不大

计算性能 百万/千万/亿级规模(带宽依赖) 千万/亿级规模(带宽依赖) 支持大规模,性能损失小 千万/亿级规模(带宽依赖) 明密文 密码/TEE/硬件/AI开放合作


MPC HE TEE TECC Python SQL 差分
框架基础 “隐语”框架概览及设计思想 “隐语”密态计算设备SPU背景与原理
计算设备与 脱敏

数据参与方 数据提供方增多后性能有所下降,适用5方以下 数据提供方增多后性能有所下降,垂直场景适用10方以下 数据提供方增多后不会有明显性能下降 数据提供方增多后不会有明显性能下降 共建密文计算能力和


国内发布的《隐私计算研究范畴及发 姚期智院士提出“百万富翁”问题 设备 设备 设备 设备 解释器 执行环境 隐私


原语
国际学术正式提出“隐私增强技术”概
主流技术相继 展趋势》正式提出“隐私计算”一词 ,奠定了多方安全计算的理论基础 上手实践 明密文混合编程实践 通过OpenAPI快速集成“隐语”开展联合项目 数据控制力 数据控制力强 数据控制力强 数据控制力较弱 数据控制力较弱
隐私保护原语
开发实践
出现,应用方案 ;
硬件成本 不依赖特殊硬件 不依赖特殊硬件,部分算法可使用已有GPU资源 硬件依赖,已有机器资源不可用 不依赖特殊硬件
尚待探索 谷歌提出联邦学习概念并使用安卓手 隐语开放平台 低门槛实践隐私计算

信任根 无硬件信任根,国密化方案较为可控 无硬件信任根,国密化方案较为可控 硬件信任根,国产化硬件成熟度待市场验证 无硬件信任根,国密化方案较为可控

智慧医疗
业务交付运维友好
2021 中国信通院大数据“星河”-隐私计算优秀案例: DRGS付费体系下的隐私计算实践

行业案例 资源管理 数据管理 计算管理 网络管理


金融风控 2021IDC 国际金融创新奖: 联合建模扩大低风险客群,增强普惠信贷服务能力
大规模高可用,部署运维成本低
增长期 《关于构建更加完善的要素市场化配置体制机制的意
(2017年 - 2025年) 百度发布MesaTEE解决方案 应用规模稳定增长…… 保险查勘 2022IDC 中国金融行业技术应用场景创新奖: 多方安全分析 智能理赔系统
见》首次提出数据作为一种新型生产要素参与分配
可证明可衡量的保护个体隐私的技术(保护强度可调节,有严谨数学证明)
经典MPC模式、联邦学习模式的重要基石组成,是隐私计算性能加速的关键
政策标准细化 差分隐私 与上面所有技术路线可独立叠加 同态加密
完善,落地场景 PHE/LHE结合具体算法确实有成效,但通用FHE方案性能挑战大,硬件加速还在发展中
第二层: AI安全/系统安全 后门攻击 数据投毒 存证审计 运维安全 认证安全 网络安全 对抗样本 推断攻击 计算精度和明文比会有所下降;需结合具体算法流程设计;不保护数据使用价值
逐步实施 2017 2018 2019 2020 2022 2025

稳定期
2025年~ 国际同态加密标准委员会成立,标志 杨强教授团队提出联邦迁移学 《要素市场化配置综合改革试点总体方案》提出探索“原始
着同态加密在全球进入高速发展阶段 习并发布FATE开源系统 数据不出域、数据可用不可见”的交易范式; 第三层:生态安全 可解释性 算法公平 互联互通 权属界定 市场机制
*注: 数据控制力强:数据提供方对数据的计算过程有强管控,细粒度的数据计算需要数据提供方介入,数据提供方可以随时停止数据使用
数据控制力弱:全量数据以加密/分片组合等形式集中式存储在远端,自己无法强管控,比如TEE突发漏洞泄漏密钥,数据提供方因为数据已经上传,无法即时止损
蚂蚁集团牵头,发布隐私计算开源框架“隐语SecretFlow”
应用规模 离线态:指训练阶段、大数据分析等,数据任务粒度较大,整体耗时较长
稳定增长 在线态:如联合预测,一般特征值需从机构方的某个在线服务/数据库实时获取,这些特征值的最新值可能有变动,则需按需读取
数据能力

05-隐私计算应用场景 06-隐私计算技术标准与白皮书

营销应用 信用风控应用 安全风控应用 保险应用 医疗应用 政务


技术理念 功能框架 安全分级 互联互通 软硬结合产品
人群筛选 画像 授信 提额 反欺诈 反洗钱 核保 核赔 诊断分类 诊断分析 信用 风控
医疗 金融
积极参与北京金融科技产业联盟和中国信通院隐私计算联盟18项白皮 积极主导和参与40+项隐私计算标准,覆盖国际标准、金融行业标准、通标协行业标准、地方
数据智能知识地图

联合营销 联合风控 联合风控 联合风控 联合诊断 一网通办


帮助医院降低核保工作量 参与银行普惠信贷探索 书的撰写工作,推进行业技术研究和产业发展 标准、团体标准等

服务某医院搭建运营管理数据融合平台, 浦发银行通过多方数据的安全协同联合风 隐私计算金融应用调研报告 ITU IEEE


提升疾病诊断分组管理效能,优化医保结 控,阻止数十亿高风险贷款发放,增加识 隐私计算白皮书 F.748.13, Technical framework for shared machine P2830, Standard for Technical Framework and
learning system Requirements of TEE based sharedm achine
应用场景 算,降低医保反馈分析工作量。 别30+万名低风险客户,扩大普惠信贷服 联合建模技术与应用研究报告
H.DLT-TEE, TEE based confidential computing on
learning
金融行业隐私计算应用风险与问题研究
务范围。 联邦学习技术金融应用白皮书
distributed ledger technology system P3156, Standard for Requirements of Privacy-pre-
serving Computation Integrated Platform
多方安全计算金融应用现状及实施指引 P2952, Standard for Secure Computing Based on
Trusted Execution Environment
金融行业隐私计算技术与应用研究报告
隐私计算与区块链技术融合研究报告 ISO P3181, Standard for Trusted Environment Based
Cryptographic Computing
互联网平台 数据价值释放和隐私保护计算应用研究报告 ISO/IECPWI4922-3, Information security — Secure
保险公司 政府 multiparty computation — Part3: Mechanisms based P3169, 《Standard for Security Requirement of
隐私计算技术金融应用研究报告 Privacy-preserving computation》
政务
on garbled circuit
保险 隐私计算法律与合规研究白皮书
隐私计算应用研究报告(2022)
推动保险公司提高理赔效率 助力政务平台提升管理效率 可信隐私计算研究报告(2022年)
隐私计算安全验证技术研究
TC260,TC28 CCSA
银行
分布式数智网络 商家 提供“多方医疗数据联合分析”解决方
案,支持某保险公司覆盖全国10+省份
智慧城市建设带来大规模数据集中,支持
某政务平台各方数据全链路安全输出至政
隐私计算互联互通技术研究报告
金融数据要素流通技术与应用研究
隐私计算技术应用指南标准草案
人工智能隐私计算机器学习系统技术要求
隐私计算一体机技术要求
基于可信执行环境的安全计算系统技术框架
互联网广告隐私计算平台技术要求
医疗数据,提升其医疗理赔数字化水平 府大数据部门,助力城市便利安全双效提 隐私计算技术在金融应用研究-以个人金融信息保护和金融反欺诈为例 隐私计算系统技术规范
机密计算金融应用研究报告
及核赔效能,提高用户理赔体验。 升。
支付机构 医疗机构
数据供应商 零售企业 医药企业

AB实验

01-AB实验 02-实验流程概述 03-实验核心原理与要素 04-实验方案设计 05-实验分析

3 4 实验运行分析
8个关键环节 实验原理 实验三要素 实验价值 目标人群选择:精准性 VS 影响面 唯一变量原则
抽样方式:无差别抽样VS 定向抽样 正交分层、层域嵌套 流量分析 指标校验 样本量分析 指标监测预警
总述&架构 实验流程
2个关键支撑 1 实验假设 实验运行 实验观察 实验沉淀 实验参与单元互不干扰 哈希随机分桶、分组
实验流量 实验参与单元 AA测试 埋点、计算pipline验证 最小实验流量 阈值、异常监控
实验原理

定量效果
实验参与单元合理随机化
2 5 实验结果分析
AB实验基本原理、要素、特性
足够的实验参与单元
随机
AB实验的设计 实验设计 流量选择 实验结果分析 实验决策 因果推断 实验目标确定 样本选择 实验分组设计 流量预估 实验上线 显著性分析 实验短期有效性
实验精度/敏感度
实验长期有效性
分流 (最小检测变化)
实验错误率

AB实验的分析
多重测试

实验控制参数可分配
AB实验 6
SRM

T检验 Z检验
细分架构&流程 实验特性
新奇效应

学习效应

网络效应

延迟效应

生态效应

实验组 对照组 实验控制参数


测试

AB实验中统计学知识 方差计算 指标选择


实验控制参数容易改变
关键支撑1:实验平台支撑 实验目标选择原则 实验指标3个基本条件 评估实验指标 最小流量预估 白名单测试 序贯检验 Delta方法
AB实验决策 先验性
实验天数预估 产品走查
参与单元选择

组间差异消除

指标当前水平

数据分析
指标方差

AB实验平台 关键参数 数据观测 非参数检验


实验指标可测

实验指标易测
能反映意图

长期有效性

多目标融合
可重复性

信息增益

因果关系
目标性

可归因

时间交错实验

关键支撑2:团队、制度和实验文化支撑
I类错误

局限性
长周期实验

后期分析法

实验指标能反映实验者的意图
Fallback

保留实验

反转实验

II III
类错误

类错误

并行性
FDR

Holm

实验指标
修正

应用&特定领域 前沿、高阶实验

实验指标可测、易测

实验决策
相关领域 CUPED

06-实验中统计学拓扑图 07-实验决策流程 08-实验平台讯线索评级标杆项目介绍腾讯线索评级标杆项目介绍 09-实验局限、前沿、相关技术

产品服务

均值、方差 概率密度函数 样本均值、方差、置信水平


通过 请求AB实验服务 返回AB实验ID和参数 传输实验日志数据
传统AB局限性 高阶实验 相关技术
是否
公众号「大话数智」 重复 正态分布 实验AA测试 AB实验 SRM检验 AB实验结果 AB实验服务
抽样 抽样分布 置信区间 方差估计 均值类 通过 日志存储与计算
实验管理 流量管理 指标与分析
大话数智,是 DataFun 策划的智库类公众号, 不通过 策略空间有限 因果推断
显著提升
核心指标

无显著变化
核心指标

显著下降
核心指标

实验创建 实验标签 哈希函数:murmur、MD5、 指标配置 指标分级


智能调优MAB实验

内容实验

双边市场实验

智能调参实验

包括但不限于知识地图、深度访谈、直播、课程 增加样本容量n 比率类 SHA、JDB...


是否 实验配置:流量大小、人 指标权限 异常剔除 请求
等学习资料,旨在为广大数据智能从业者、数据
interleaving实验

根因分析 实验
方差 提升 根因分析 代码异常 异常 群选择、实验策略、 层域管理、层 流量管理、流 日志传输
分析 AI算法
智能团队提供一个日常学习成长的平台。 域发布、发布 量申请、流量
指标计算: 计算
最小样本容量 置信水平1-α 用户投诉
实验测试:白名单、接口
审核 回收
均值、比例类、分位类 结果
实时、天级、累积、分桶
误差ε 关键指标大幅异动 是 实验权限:功能、实验、 因果分析 因果学习
增加区间宽度 反转实验 特性开关 指标方差缩减
策略好坏决定
实验通知:下线、全量等
长期实验 共享流量 日志存储
没有显著下降
保护指标

修复 实验告警:数据、服务等
指标敏感性、检出精度
实验效果
停止实验 最小样本量估计 uplift
回传
工具变量法

人为定义的小概
中断时间

断点回归

实验操作:停止、放量、 实验
显著性水平α OLAP分析 HTE分析
匹配法

面板法

重启、全量发布 计算 实时计算
率事件发生的概 AA测试 SRM测试 自助查询 SQL分析 结果 流spark

修复 ML
实验类型:web、H5、APP
参数检验:T检验...
实验类型:前端、后端
老虎机实验 interleaving 有一定机会成本
H0为真时小概率 双边实验 内容实验 非参数检验:jackknife... 离线计算流 DeepL
I类、II类错误、 假设检验 P值 优化策略 沉淀总结 全量实验 下线实验 实验对象:设备、页面、 hadoop
power 事件发生的概率 会话、元素 社交网络实验 ...
实验报告
服务方式:SDK、微服务...

公众号「DataFunTalk」 实验沉淀

DataFunTalk是专注于大数据、人工智能领域的
技术分享与交流技术分享平台。有超过2000位
分享嘉宾,已累计发布原创技术文章800+,累
计阅读量超500W。
因果推断

01-什么是因果推断从因到果 vs. 从果到因 02-为什么要做因果推断相关 ≠ 因果 03-因果推断 vs. 传统机器学习相同点和区别 04-因果推断 vs. 传统机器学习相同点和区别 05-因果推断适合解决的问题因果推断在社科领域的应用 06-因果推断的主流框架Potential Outcome Model & Structure Causal Model 07-因果推断的三大基本假设

在观测样本上,由于混淆因子(confounder)的存在,使得样本呈现违背常识现象 机器学习 因果推断 领域 存在问题 问题类型 解决方法 假设名称 解释


例如左下图,在全量人群上,随着运动量升高,胆固醇居然也升高了: 机器学习 因果学习 从以上医学、经济学领域中的例子,我们不难看出,因果推断的主流应用有两个方向:
机器学习的本质:机器学习拟合的是从历史数据上观测到的 因果推断模型: U 医学 • 不同用户对药剂的敏感程度不同 群体因果效应预估: 做临床控制变量实验:对相似的患者提供
• 如何给用户搭配最合适的服药剂量,达到治愈率最大 Average Treatment 不同的药剂,观测两组用户的群体治疗结 方向一:因果效应预估,e.g. 药剂分配优化/发券分配优化 对于个体来说,他接受到某一个Treatment后产生的结果不能受其他个体影响,也就是说个体
表达式 P(Y=1|X) P(Y=1|do(X))
直接用这样的样本建模会得到错误的相关性结论 相关关系,但基于相关关系的拟合是不可靠的,甚至很多时 的目标 Effect Estimation 果 预估施加了干预后的效果:一个用户在同一时间内仅能观测到一种干预下的效果,需要通过潜在输出框架预估反事实效果
SUTVA: Stable Unit 间是独立的,没有交互。比如说如果存在一个撸口子群,里面的人互相知道彼此是什么额度/
已知因: 推断果: 而当我们对年龄这一混淆因子进行控制之后,就能得到正确结论 候是伪相关
√ 拆分因变量T(例如是否发券)和协变量X( 解法 贝叶斯定理 后门准则 Treatment Value 利率/优惠券,那么里面的人是否用信就会受到他人影响,这种情况就不满足条件。
因果效应预估 用户特征) 方向二:因果关系分析,e.g. 教育是否影响收入
e.g.抽烟 e.g.肺癌 Assumption
企业需求:支持决策,不仅仅是预测 经济学 • 2021年诺贝尔经济学奖 教育时长与收入的关系
- 因果关系分析: 找到一组年龄和用户资质水平都近似的样 在观测数据中发现变量间的因果关系 并且同一个Treatment不能有多个版本:比如说一个Treatment叫万1优惠券,一个版本是可
√ 构建不同用户在不同实验下产生不同行为
X Y • 经济学领域较难做类似医学领域的临床实验,而受教 Causal Analysis 本,这两组样本在其他特征相似的情况下, 以用两期,一个是只能用一期,那这就是两种版本
的因果模型 育程度往往跟人本身的年龄和智商有关,因此在观测 仅教育时长改变,之后观测两组样本的群
传统机器学习模型:
数据中无法直接证明教育时长与收入有因果关系 体收入差异

如果您有任何问题,或者也想参与知识地图创作, √用高维相关特征对预测目标做拟合
潜在输出框架
依赖三大基本假设
对于同样特征的用户,Treatment跟结果是正交的。也就是说如果有两个人特征完全一样,那
已知果: 推断因: √ 问题:无法建模实验前后对业务目标带来的增益 T:实验变量 1 因果效应预估 Ignorability/Unconfound-
请联系小助手微信号。 e.g.用户流失了 什么原因造成的
根因分析 度小满 • 不同用户对于不同权益 优惠券
( 的敏感程度不同
)
• 如何在控制成本的情况下,给用户搭配最适合的权益,
个体因果效应预估:
Individual Treatment
设计线上A/B 实验, 通过因果推断算法对用
户在实验前后的个体业务增量进行预估 不依赖三大基本假设 edness Assumption
么无论给这两个人发万1券还是其他券,T+30的激活率都应该是一样的
达到效率最高的目标 Effect Estimation
因果推断
相关性 当已知结果发生了(Y=1),想分析引起结果的原因Xk。通过贝叶斯公 在控制了U的情况下,阻断了U→X这条后门路径 特征不能完全决定Treatment的分发策略,例如如果贷前只给额度三万以上的样本发万1优惠
X:全量特征 Y:预测目标 X:用户特征 Y:预测目标 式,这个概率与P(Xk)这个先验概率强相关:也就是说Xk本身概率越 是不是所有变量都可以拿来do? 券,那么就不能把额度三万以下的样本放到集合里面评估,因为这些样本不可能有其他优惠券
年龄
运动 胆固醇 高,引起Y的概率越高? 如果是无法做干预的变量(例如性别),评估它的 • 需要从观测样本中分析某些变量是否与结果具有因果 因果关系分析: 在观测样本上进行特征空间矫正和对齐, 因果关系发现 Positivity Assumption 下的表现
2 概率图框架
但这个概率是非因果的 因果效应有意义吗? 关系:即改变了这个变量,是否能改变业务结果? Causal Analysis 找到一组除了需要分析的变量,其他变量
运动 胆固醇
都近似的样本

参与团队
10-因果

网易数帆大数据团队 08-Treatment Effect ATE/CATE/ITE 09-因果推断算法分类 按照处理Confounders的方法,Potential Outcome类算法可以分为以下几类: 11-因果推断在度小满的应用 场景一:随机流量建模 12-因果推断在度小满的应用 线上系统设计
Meta-Learners框架:在随机样本上建模 Neyman-Orthogonality框架:去除混淆因子
火山引擎云原生计算团队 2. Tlearner:干预变量分组建模 3. Xlearner:干预变量分组交叉建模
1. Slearner:干预变量视为一维特征 4. DoubleML:两阶段机器学习模型
假设名称 解释 表达式 应用 处理方法 算法大类 代表算法
隐语开源社区 实验组 对照组 f 实验组 f₁
实验组 对照组
Features
无法处理 Meta Learning Methods S/T/X/ClassTransformation 流量划分 数据收集 决策&模型 数据分析
假设有两个绝对一致的平行空间,对于同一个样本,在平行 对照组 f₀
ITE: Individual 无法真正预估到个人 θ (X)=f(X,1)−f(X,0) 实验组 对照组 Step 1: Step 2:
Treatment Effect
空间A里面施加一个Treatment T, 在平行空间B里面不施加 Y(1)−Y(0)
级别 Re-weighting Methods IPW/DR θ (X)=f_1(X,1)−f_0(X,0)
Treatment Outcome 随机试验 模型迭代 主流量 数据中心 分析平台
Treatment,那么ITE就可以通过计算Y(1)-Y(0)获得 线上保留一定比例的随机流量, 依据随机流量进行因果建模和 Model
τ₁ τ₀ +
>

>

online

Stratification Methods Equal Frequency/Tree Based 用于模型迭代和效果验证 效果验证,支持业务决策 在线变量:在线调用接口 在线分析:业务指标监控

参与专家
├ θ (X)=g(X)τ _0(X)+g^− (x)τ _1(X) Representation Learning框架:在观测数据上学习因果关系
系统设计

样本对齐:消除 离线变量:离线计算入库 在线监控:异常情况报警


因为无法观测同一个样本在两个平行空间下的是否施加 Confounders Matching Methods IPW+KNN 5. DRNet:Multi-Valued干预建模 6. VCNet + UMNN网络 留白流量
ATE: Average Treatment的差异,因此可以用两组近似的样本,通过计算 常用的A/B实验就是 + 随机决策
E[Y(T=1)−Y(T=0)]
Treatment Effect 两组样本平均Outcome差异,来代替个体ITE:Y(W=1) 在预估ATE
Representation Learning DR Net/DR-CFR
张超 业务决策 动态决策调整

用ATE代表个体ITE会有较大偏差,CATE可以说是ATE的
Apache InLong PMC Chair,腾讯大数据InLong团队负责人
subgroup版本,通过X把整体样本划分为小组,然后将ATE Step 1: 数据中心 分析平台
通过对特征矩阵X求积分得到 E[Y(T=1)│X=x]− 预估Confounders
CATE: Condition- DML DML, CausalForestDML 业务根据模型提供人群包/策略 线上样本:离线落表 离线分析:离线效果分析
offline

精细化运营/策略 对Y的影响
al Average 现实问题的解决方案是,将整体样本划分为subgroups(e.g. E[Y(T=0)|X=x] 线上特征:离线落表 实验分配:离线实验分配
屈世超 Treatment Effect Causal Trees),这些subgroups中的用户特征近似,因此整
组合进行决策,预留实验组和对
特征回溯:支持数据回溯
Model迭代
和效果评估
照组,用于验证模型效果提升
体ATE可以通过Condition on X得到 → CATE 离线决策调整
快看漫画数据研发负责人

徐前进
腾讯数据湖研发高级工程师

陈玉兆 数据中台 云原生大数据


阿里云开源大数据平台技术专家

刘玉凤 5.1-架构拆解一
01-数据中台概述 02-数据中台内容体系 03-数据中台建设流程 04-数据中台架构体系 01-云原生大数据带来大数据使用和运维方式变化 02-云原生大数据功能架构图
腾讯 CSIG 高级数据科学家
云原生大数据是大数据平台新一代架构和运行形态。是一种以平台云原生化部署,计算云原生调度,存储统一负载为特 三层(平台服务层、核心引擎层、资源调度层)一平台(运维管理平台)
数据采集参考大数据平台数据采集部分 点,可以支持多种计算负载,计算调度更弹性,存储效能更高的大数据处理和分析平台。

李东晨 定义:数据中台是基于大数据平台提供的底层平台能力、以及数仓提供的结构化数据环境,搭 技术体系是构建数据中台的基础支撑,主要包括:大数据存储计算技术、数据中台工具技 1.理现状 2.立架构 3.建资产 4.用数据 5.做运营


技术中台工具

App 人资 决策
应用类型

业务应用

技术体系 术组件两部分。大数据存储计算包含:Hadoop、spark、Flink、Clickhouse等技术;数
建的面向业务的统一的数据应用服务 微服务管理 DevOps 传统模式 云原生模式
度小满数据智能应用部资深算法专家 据中台技术包含:数据集成、数据资产管理、平台服务管理工具等。 组织现状 组织架构 数据集成 数据安全 监控审计 5.2-架构拆解二 元数据管理 数据源管理 数据网关服务 作业开发 任务调度 插件化计算引擎是多场景集成的关键
SaaS PC端 财务 计量 运维管理平台
业务现状 业务架构 资产萃取 价值评估 Docker 业务1 业务2 业务3 业务4 业务1 业务2 业务3 业务4 n 平台服务层 计算引擎可插拔化设计,灵活配置选用
通用组件 租户和用户
开源组件插件化集成设计
数据现状 数据标准 质量评估 虚拟化 项目管理 权限管理 生态整合服务
华菁云 价值:为业务提供便捷的数据应用产品能力,提升业务对数据的应用水平和应用深度
数据体系
企业数据通过各种方式汇总到数据中台,按照一定的建模方式进行加工处理,并进行体
技术现状 数据质量 资产排名
小程序 基建 营销 大数据平台架构参考大数据平台架构体系部分 资源独占,峰值不满足,平时有空闲 资源按需调用,资源池统一调度 管理 集群管理
统一计算资源调度
系化的管理,形成企业的数据资产体系。 场景服务
澜舟科技算法研究员 Flink 集群 Spark 集群 Kafka 集群
统一 Portal 组件管理 跨云资源配额管理,跨域业务高可用
技术架构 计算负载统一调度,在离线混部
云原生消息 实时服务分析 云原生日志 兼容YARN资源负载,平滑迁移Hadoop负
应用架构 5.3-架构拆解三:数据资产管理 云原生 Flink 云原生 Spark
数据中台工具

Mpp 引擎 引擎 搜索 日志审计 载
王文广 数据中台与大数据平台最主要的区别是,数据中台数据能便捷的以服务化的形式支持业 集群搭建耗时耗力,运维孤岛和数据孤岛
服务能力

数据模型

数据资产
客户标签 业务模型 标签管理 核心引擎层 统一引擎云原生生命周期管理
服务体系 务,服务体系是通过中台的服务组件能力,把数据变成一种服务能力,让数据能够方便 管理 统一存储(HDFS 或对象存储)
DaaS 服务化 运维1 运维1 运维1 监控报警
达观数据副总裁 《知识图谱:认知智能理论与实战》作者 的应用到业务中为业务带去价值。
开放共享
兼容 HDFS 语义 TOS 透明加速 缓存加速 数据湖管理 统一存储资源负载
客户画像 跨域融合 BI工具 数据管理 数据管理 数据管理 一键开通,按需部署,统一运维
中心 容灾管理 增强HDFS服务,适配对象存储,跨多云
技术体系 数据体系 服务体系 运营体系 API
容灾增强
运营体系是数据中台的守护者,通过运营体系保障整个中台的健康、持续运转。运营体
蒋宏 运维管理 运维管理 运维管理 云原生大数据组件管理和发布
消息队列、数据湖,数据仓,日志服
运营体系 系包含资源占用监控、数据质量监控、数据价值评估等,其目标是让中台持续健康运转 资源调度层 多云部署和调度 统一资源池 云原生 YARN 云原生 Operator 多环境管理 务,存算分离统一存储,减少数据复制

狮桥集团高级风控总监 《智能风控实践指南:从模型、特征到决策》作者 ,产生持续价值。 节点 节点 节点


Hadoop 时序数据库
数据流向 财务域 用户域 数据资产目录 主数据管理
运维管理系统 元数据管理
存储和计算能力

重度汇总层
李凯东 公共云 容器服务 私有云 开源 K8s
数据模型

数据平台支撑工具

流式数据 Mpp 流量域 营销域 数据标准管理 系统安全管理


轻度汇总层
5.6-架构拆解六:元数据管理体系
某媒体公司大数据总监 中间层
PaaS
流式计算 交互计算 会员域 广告域 数据质量管理 人工智能平台 03-平台服务层:开放和插件化集成,尊重用户使用已有工作习惯
数据存储层

陈祖龙 5.4-架构拆解四:主数据管理实施步骤 5.5-架构拆解五:数据质量管理工作流程


统一元数据管理库 离线计算 时序计算
数据接口层
增长域 内容域 数据安全管理 数据开发平台 统一标签 元数据管理
体系 信息门户 数据工程 数据科学 04-核心引擎层:计算引擎和云原生深度融合,向自动调优方向演进
阿里巴巴企业智能高级算法专家 数据资产管理
Web服务 用户群 采集 离线文件 实时文件 数据库 数据库 时序数据 ETL调度管理 Paas资源管理
能力 采集 采集 采集 同步 采集
基础数据标准 门户访问 业务分析师 开源大数据探索分析、可视
一款基于 Web的Notebook
数据科学集成环境。
理需求 画蓝图 定职责 HTTP/HTTPS 产品,能够交互式数据分析。
1、制定数据标准 访问层
化报表平台。

接口服务 WebService 系统架构师


1 2 3
指标数据标准 IaaS 基础 存储资源 计算资源 网络资源 非结构化 虚拟化 资产管理 云平台

审核专家
设施 Hadoop 集群权限框架,管 用于并行和分布式 Python 全局自动容灾:实现跨机房自动调度
访问控制 数仓工程师
业务模型 数据标准 理基于 YARN 的 Hadoop 一站式元数据治理平台。
的开源项目 虚拟队列:支持跨集群和机房作业 和容灾
配置 管理 生态圈的所有数据权限。
自动调度
检核维度大类 业务 业务 分布式数据工作流任务调度
营销系统 人资系统 资产系统 财务系统 运营系统 管理系统 系统,主要解决数据研发 端到端开源机器学习平台 资源池化:对底层k8s资源无感知 资源自动优化:没有负载的时候资源
2、建立检核体系 元模型管理 分析应用 元数据管理 元数据核验
系统 系统
ETL 错综复杂的依赖关系。 资源混部:在离线作业共享集群 利用闲置资源:利用超发和驱逐机
雷小平 搭平台 洗数据 定标准 使用可以减低到0;毫秒级的冷启动延
检核维度小类 内置元模型(遵循CWM) 血缘分析 元数据维护 一致性核验 资源 制,利用空闲资源 时
腾讯云大数据产品中心副总经理 功能层
开源工作流管理平台。 只关注作业资源的额度和并行度
6 5 4 数据质量 自定义元模型 数据地图 变更订阅 属性填平率检验 部署和管理 K8s 集群 平滑演进:YARN作业和K8s作业 引擎半自动调优:利用智能团队推 引擎自动调优:混合不使用AI技术优
管理工作流程 制定业务规则 元模型发布 关联度分析 版本管理 重复率检验 开源大数据元数据管理和数 应用自己管理容器和镜像 混部 荐任务配置参数,人工确认下发 化使用资源,包括计算网络和内存
巴川
据治理平台。
3、制定整改规则 导入导出 属性值差异分析 元数据检索 元数据检查 5.7-架构拆解七:数据产品矩阵与业务应用
竞技世界首席数据科学家 Phase 3
接服务 建体系 促运用 制定技术规则 Phase 1 Phase 1 Phase 3

存储发布 分析
5.8-数据中台的成熟度评估
7 8 9 规则级评估 数据服务的形式分为几种:BI报表/仪表盘、OLAP自定义查询/Ad-hoc(即席查询)、
李奘 元数据存储
特定数据产品、数据服务化 05-核心引擎层:存算分离,统一存储,多种负载
4、制定评价机制 访问层 元模型存储 业务 技术 管理 操作
腾讯科技PCG技术副总经理 统一管理和调度 存储能力共用 存算分离负载
体系级评估 元数据采集
BI报表 OLAP自定义查询/Ad-hoc(即席查询) 数据服务化 统一数据权限,降低安全风险 统一数据 Copy,减少数据卸载 降低扩缩容和数据 Rebalance 时间
采集适配器 使用数据中台服务的业务数量和比例
统一资源调度和复用 统一数据容灾,保证高可靠要求 增强对请求响应能力
数据源类别 数据加工 发布 业务应用广度
常用的三方平台有帆 灵活的自助查询数据能力。 业务通用的数据产品
采集元模型配置 是对数据相关服务做 使用数据中台服务种类的数量
软BI、观远BI、 基于HUE、Zeppelin能够实现自助查询;
业务管理 QuickBI等 API封装,支持实时查
数仓源 采集周期定义 底层的查询引擎可以是Impala、Presto、
(板块数据域主题域) 询 AB实验平台
clickhouse、StarRocks、hive、flink等;
(离线hive/PG;实时
kafka) 画像平台 使用报表辅助业务决策
采集元数据合并 也可以基于Impala、clickhouse、Presto
流程责任管理 DMP平台
机制(一次全量) 等查询引擎做了二次封装.
(流程权限、数据权限、 广告投放平台
数据对象层 负责人、角色) Ad-hoc,支持使用者选择特定的筛选条件,
业务应用深度 通过实时数据引擎驱动业务做实时策略优化
渠道投放数据监控平台
采集日志查看 自动生成所需要的报表.
业务源 个性化推荐平台等
(各类关系、非关系、 采集 (技术相关)
3
数据操作管理
建立智能分析引擎,驱动业务做出运营策略调整
1
实时库、非结构化) (集成、开发、质检、安全)
采集实例查看 为业务的系统提供服 需要针对各个业务的需求提
使用要求最低的数据 需要业务方掌握一定的SQL能力,同时数据中
务接口和数据服务功 炼成通用需求,并开发特定
数据存储参数
服务形式 台也需要对数据有较好的治理体系,以便于业
采集实例采集 能API接口,以供业 数据产品系统支持这类通用
各类数据源连接协议、 务使用者便捷的检索和查询数据
存储、环境、分层规范、 内容查看 务系统打通数据在业 需求。
务系统内的灵活应用
管理和调度
时间周期等信息
云原生数据湖 云原生数据仓 云原生消息队列 云搜索引擎

大数据平台 2

资源池1 资源池2 磁盘1 磁盘2 资源池3 磁盘3


数据仓库和大数据平台、数据中台的关联性 02-大数据平台架构体系 2.1-Lambda架构 --- 离线数仓+实时数仓 2.2-Kappa架构 --- 纯实时架构

数据中台 = 大数据平台 + 数据仓库 + 数据应用和服务 离线数仓 数据源 Kubernetes 集群 A Kubernetes 集群 B 对象存储(S3) Kubernetes 集群 C
可视化
开发工具
离线数据采集 离线处理 数据导出 BI报表 数据发布
OLAP查询分析 实时查询 自研平台 Sugar 实时数仓 可视化
数据查询 监控报警 业务库数据 数据发布
(Impala/Presto/Clickhouse/Doris) (Hbase/Kylin/Druid/TiDB) Kettle Sqoop MySQL 实时数据采集
数据源 Hive Hive Hive Hive Hive 数据发布接口 FineBi OLAP分析工具 自研平台 Sugar
注解: DataV
ODS DWD DWM DataX Oracle Flume 数据发布接口 FineBi
平台工具 SpringBoot 用户日志 DataV
01 Sqoop DWS DM 数据挖掘 Kafka Kafka Kafka Kafka Kafka
大数据平台位于最底层,是包括服务器集群、Hadoop服务体系、离线和实时计算框架等软硬件的集 业务库数据 Hive DIM Druid Kylin Clickhouse
OLAP分析工具 SSM Maxwell ODS DWD DWM SpringBoot
合,是搭建数据仓库、数据中台的底层基础 调度系统 线性回归 罗辑回归 数据挖掘
DWS DM
流式计算 离线批计算 数据挖掘/AI (Azkaban/ DataX MapReduce HQL lmpala Spark Impala Presto Kylin MyBatis 爬虫数据 DIM Hbase + Phoenix + Redis
SSM
Airflow/ 用户日志 推荐算法 FlinkCDC 线性回归 罗辑回归
02
KMeans++ Doris es Presto
数据仓库是基于大数据平台的存储引擎、存储格式(Hive、Delta Lake等),基于维度建模方法建设的 数据存储 (Flink/Spark Streaming (Spark/MapReduce/ (SparkML/sklearn/
DolphinScheduler) SparkStrea StructuredSt MyBatis
/Storm/Beam) Hive/Beam) TensorFlow)
与计算 Storm Flink KMeans++ 推荐算法
结构化数据集合,目的是为所有类型的数据支持提供数据环境 系统日志数据 Canal ming reaming
实时数仓 可视化
爬虫数据
流式数据存储(Kafka) 离线数据存储 湖仓一体存储 资源管理 数据发布
(YARN)
实时数据采集 OLAP分析工具 Sugar
自研平台
03 数据中台是基于大数据平台提供的底层平台能力、以及数仓提供的结构化数据环境,搭建的面向业务的
系统日志数据 Flume 数据发布接口 DataV FineBi
统一的数据应用服务 Kafka Kafka Kafka Hive Hive Druid Kylin Clickhouse
06-云原生调度层1:两种不同的云原生化演进方式
实时采集 离线采集 运维工具 SpringBoot
(Sqoop/Flume/LogStash/ Maxwell ODS DWD DWM 数据挖掘
(DataX/Cannel)
04 数据采集 FileBit) 埋点上报 DWS DM
在建设企业级数据环境时,一般都会搭建起大数据平台和数据仓库,而数据中台并不是必须,需要根据 (Http/Https)
系统监控
FlinkCDC DIM Hbase + Phoenix + Redis
SSM
线性回归 逻辑回归 2.3-湖仓一体架构 --- 流批一体
企业的业务需求来综合决策 Doris es Presto
业务数据库 业务日志 爬虫数据 第三方数据 SparkStrea StructuredSt MyBatis
(MySQL/Mongo) (半结构化) (半结构化) (结构化/半结构化) 自动化运维 Canal Storm
ming reaming
Flink KMeans++ 推荐算法 Serverless YARN,兼容 YARN 提交方式,业务平滑演进 云原生 Operator

数据源
计算引擎Flink,Spark全生命周期管理,支持
YARN 和 K8s 混合调度
离线+实时数仓 可视化 批量作业重启策略
业务库数据 数据发布 原有大数据作业少量修改,平滑业务迁移
01-大数据平台概述 实时数据采集 OLAP分析工具 Sugar 更精细的采集日志信息,跟踪作业运行状态
自研平台
3.3-离线调度框架选型对比 3.4-架构拆解四:数据查询
数据发布接口 FineBi
定义:支持海量数据存储,并支持实时流数据计算、离线批量计算、数据挖掘、交互式查询等 用户日志 Flume
Kafka hudi hudi hudi hudi hudi
DataV
Druid Kylin Clickhouse
场景的一套基础平台设施 Maxwell ODS DWD DWM SpringBoot
数据挖掘
DWS DM
OLAP查询 实时KV查询 爬虫数据 SSM
Xxl-job DolphinScheduler Azkaban Airflow Oozie FlinkCDC
DIM Hbase + Phoenix + Redis
线性回归 逻辑回归
Doris es Presto
SparkStrea StructuredSt MyBatis
Storm Flink KMeans++ 推荐算法
3.1-架构拆解一:数据采集 一个轻量级分布式的任务 解决数据处理流程中错综复杂的依赖关系 为了解决Hadoop的任务 通用的批量数据处理 管理Hadoop作业(job)的工作流程调度
系统日志数据 Canal ming reaming
定位
调度框架 依赖关系问题 管理系统 Impala、Presto、 IHBase、Kylin、Druid、
Clickhosue、Doris、 Redis、MySQL
将各种形式的数据从多种存储介质中收集上来,传输存储到大数据平台的数据存储介质 StarRocks、TiDB、
支持传统的shell任务,同时支持大数据 Command、Hadoop- Python、Bash、HTTP、 统一调度hadoop系统中常见的mr任务启动、
平台任务调度:MR、Spark、SQL Shell、Java、HadoopJa- Mysql等,支持Operator的 Java MR、Streaming MR、Pig、Hive、 GreenPlum、SparkSQL
任务类型支持 Java (mysql、postgresql、 va、Pig、Hive等,支持插 自定义扩展。 Sqoop、Spark、Shell等
数据源端 采集工具 目标端 hive/sparksql)、python 件式扩展

按照数据源分类 日志采集工具 实时数据目标位置


是 否 否 否
业务DB、业务日志、埋点 Flume/LogStash/File- Kafka/Pulsar/Rocket-
数据、三方数据等 Beat/Fluentd MQ/ElasticSearch/HBa-
se/MySQL 所有流定时操作都是可视化的,通过拖拽 通过自定义DSL绘制DAG并 通过python代码来绘制 配置相关的调度任务复杂,依赖关系、时间触
可视化流程定义 无,可配置任务级联触发 来绘制DAG,配置数据源及资源,同时对 打包上传 DAG,使用不便 发、事件触发使用xml语言进行表达
数据架构

DB实时采集 于第三方系统,提供api方式的操作。
按照数据类型分类
Canal/BitSail/MaxWell 离线数据目标位置 3.4-OLAP查询引擎选型对比
结构化数据(MySQL/Ora-
HDFS 任务状态、任务类型、重试次数、任务运 只能看到任务状态 不能直观区分任务类型 任务状态、任务类型、任务运行机器、创建时
cle)、半结构化数据
(json/xml)、非结构化 任务监控支持 无 行机器、可视化变量等关键信息一目了然 间、启动时间、完成时间等。
数据(TXT、jpeg)等
DB批量采集
Sqoop/Kettle/DataX

自定义任务类型支持 是 是 是 是
需要java先开发具体执行器 Presto Druid Kylin Doris Clickhouse GreenPlum Impala
否 否 支持启动/停止/暂停/恢复/重新运行:
暂停/恢复/补数 支持暂停、恢复操作 支持暂停、恢复 补数操作
一个 MPP 的 OLAP 系统,对多维查询分
只能先将工作流杀死再重新运行 只能先将工作流杀死再重新运行 Oozie支持Web,RestApi,Java API操作
位图索引查询、编码。预聚合 析提供支持,主要整合了 Google Mesa 一个开源的大规模并 是一种 SQL on Hadoop 解决
3.2-架构拆解二:数据存储与计算 3.3-架构拆解三:大数据资源管理与调度 支持HA 支持HA 通过DB支持HA 通过DB支持HA MPP系统,SQL 完全预聚合立方体 明细动态聚合查询 方案,使用 MPP 数据库技术来
高可用支持 定位 技术,但是只聚合最细的维度 (数据模型),Apache Impala(MPP
物化视图
行数据分析引擎
调度中心HA和执行器HA 去中心化的多Master和多Worker -但Web Server存在单点故障 -但Scheduler存在单点故障 通过DB支持HA on Hadoop 提高查询速度
组合,在此基础进行聚合 Query Engine) 和 Apache ORCFile (存
风险 风险
数据存储 数据计算 储格式,编码和压缩) 的技术
支持 07-云原生调度层2:统一资源管理形成全局资源湖
资源管理 调度系统 dolphinscheduler上的用户可以通过租
户和hadoop用户实现多对一或一对一的
相较于Clickhouse,Doris还能支持各种 明细查询较低,单表查询性能 一般,小查询会极大
离线数据存储 离线计算 多租户支持
YARN、Mesos

映射关系,这对大数据作业的调度是非常
否 否 否
查询延时 一般 低 非常低 主流分布式join,不仅支持大宽表模型,还 高,Join在一些情况下性能不佳 消耗集群资源,无法 一般
HDFS、Hive、HBase Spark、Hive、
MapReduce
重要。 支持星型模型和雪花模型 物化视图查询延迟非常低 实现高效并发查询
Oozie、Azkaban、
实时数据存储 Airflow、DolphinSched- 任务队列机制,单个机器上可调度的任务
实时计算 uler、Xxl-job 过载处理能力 任务队列机制,轮询 数量可以灵活配置,当任务过多时会缓存 任务太多时会卡死服务器 任务太多时会卡死服务器 调度任务时可能出现死锁
SQL支持程度 非常完善 较完善 非常完善 较完善 较完善 非常完善 较完善
Kafka、Pulsar
Storm、Flink、 大数据集群运维 在任务队列中,不会操作机器卡死
SparkStreaming 生产数据成本 低 中 高 中 中 中 低
流批一体存储 Cloudera Manager、Ambari 是 是 是 是
IceBerg、Delta、Hudi 集群扩展支持 新注册执行器即可
调度器使用分布式调度,整体的调度能力
-只Executor水平扩展 -只Executor水平扩展 是 支持join 支持 不够成熟,维度lookup支持 支持 支持 有限支持 支持 支持
会随集群的规模线性增长,Master和
Worker支持动态上下线

数据仓库 数据湖

01-数据仓库概述 01-数据湖物理存储层 02-数据湖文件格式 03-数据湖表格式-功能特点

定义:数据仓库是基于大数据平台的存储引擎、存储格式(Hive、Delta Lake等),基于维度建模方法建设的结构化数据集合,目的是为所有类型的数据支
数据湖文件格式更面向列,并使用附加功能压缩大文件。这里的主要参与者是 Apache Parquet、Apache Avro 和 Apache ORC 直接在分布式文件上提供 Merge Into、Update 和 Delete 操作。除了 SQL,有些还支持 Scala/Java 和 Python API。
持提供数据环境 DML和SQL支持
ORC。它是物理存储,实际文件分布在存储层的不同 Bucket 中。文件本身支持 split 拆分和 schema evolution。
资源池管理 全局资源湖

Avro Parquet ORC


Schema Evolution 队列属性:设置资源池 Min-Max 属性 ResLake 具有资源的全局视图、全局资源池和 Quota
02-数据仓库技术选型 Table format 的一个关键特性,意味着在不破坏任何内容甚至扩大某些类型的情况下添加新列。
更强的调度策略:任务优先级调度、GANG 调度和 DRF 调度
Schema 管控
Data Storage 更好的隔离控制:限制每个 Pod 的 CPU 时间片和内存使用量
Evolution 不限机房、不限集群,以最优化资源利用率为最终的调
ACID 事务、回滚、 ACID 事务确保所有更改都成功提交或回滚。确保永远不会以不一致的状态结束。有不同的并发控制,例如保证读取和写入 更灵活的资源使用方式:空闲资源利用和队列抢占
S3 GCS Azure Blob 度目标
Compression 并发控制 之间的一致性。

适用于 产品特点 应用目标 数据处理速度 性能拓展 适用数据类型 实施难度 运维难度 性能优化 成本 OSS COS Ceph MinIO
Decomposable 数据湖表格式会将存储在数据湖中的大数据版本化并形成多版本。可以访问该数据的任何历史版本,在意外写入或删除错
时间旅行
误的情况下回滚数据。
在复杂关联、汇总、 优化的大致原理有2个: And more ...
传统数仓 利用处理过程的中间 Kafka、Druid、Spark、 Spark、Presto、Trino、 Hive、 Presto、Trino、
事务处理方面能力 基于Oracle、 面向主题设计的,为 一是数据分块存储,便 Platforms
表,分析查询速度可 单表上亿,性能断崖 多适用于结构化数据 难度普通, 软件费用+实施费用, Presto、Trino、Arrow Arrow、 Druid Spark、 Druid
(SQLServer、Oracle 强,适合数据量小、 SQLServer、MySQL 分析数据而设计 相对简单 于数据的存储和管理; 随着时间的推移摄入的小文件会增加,但查询数千个小文件很慢,文件布局优化可以将文件碎片重新整理为更大的文件,
比原有速度提高3~5 式下跌,拓展性能差 技术比较成熟 成本较低 文件布局优化
等关系型数据库) 高可靠、数据价值密 等关系型数据 二是中间处理,提高数 Row column column 从而在许多方面提高性能。
倍 Row or Column
度高的应用 据提供的速度。
数据架构无需在批处理和流式中区分——它们都以相同的表视图对外暴露,复杂性更低,速度更快。无论是从流还是批处
08-运维管理平台 09-用户场景和价值1:多种计算业务资源混合部署调度,提升资源利用率
Read or Write Write Read Read 统一批流处理
在传统数仓之上搭建 关系数据方面有优 技术角度:模型优化、 每2~3TB一个节 理中读取都能获取一致的数据快照。
适合结构化数据的深 MPP架构、TB级处 性能可随着硬件的扩
并行数据库系统。充 势,比较适合比如电 难度中等, 查询执行计划。业务角 点,硬件配置不用太
MPP数仓 度分析、复杂查询以 理,支持大量运算; 相比传统数仓,速度
分发挥计算机的优 容呈线性增加,拥有 信、银行这类数据主 较成熟 中等 度:全量刷新改增量刷 高,GP产品免费,
(以GreenPlum为例) 及多变的自助分析类 关系型数据库 为几倍至几十倍
势,提高数据库系统 非常好的可扩展性, 要以结构化存储的企 新,减少计算量;充分 但实施优化单价较
应用、数据集市等 扩展上限为几百
的整体性能 业或组织 利用已计算的指标 高,成本中等
监控 日志 告警 异常监测 审计 全链路监测 业务场景 在线 流式 (近线) 离线训练 查询分析 批处理

分布式数据库系统主 Hadoop性能调优不仅 需要大量的节点支 04-数据湖、数据仓库和Lakehouse的区别 05-业界进展(Databricks 2.0)-湖上建仓 运行时长 长期运行 长期运行 天级 分钟小时级 分钟小时级
用户场景

Hadoop架构、
要目的在于实现场地 相比传统Oracle数 可以基于Hadoop开 涉及Hadoop本身的性 持,实施人员需要专
适合海量数据存储查 HDFS、MR和 实施难度高, 开源组件管理 服务生命周期管理 集群管理 容灾管理 核心指标 响应时间 消费积压 吞吐量 运行时长 吞吐量
Hive,支持海量运 自治和数据的全局透 仓,速度为几倍至几 支持量高的动态扩 发处理结构或非结构 较难 能调优,还涉及更底层 业对口,同时需要对 Lakehouse是数据湖和数据仓库的组合,与数据湖相比,Lakehouse集成了计算框架和SQL查询引擎,
Hadoop数仓 询、批量数据ETL、 要求较高 业务特点
明共享,而不要求利 十倍(瓶颈阈值高于 容,扩展上限为几千 化数据的应用,适用 的硬件、操作系统和 应的非通用sql支 添加了数据治理能力,支持Catalog表管理和先进的作业编排。
非结构化数据分析等 算;非关系型数据 Task模型 平铺 DAG DAG DAG DAG
用网络中的各个节点 MPP数仓) 于互联网领域 Java虚拟机等系统的 持,成本较高
库;TB或更大数据
来提高系统处理性能 调优 Helm Chart 服务组件渲染 集群扩缩容 容灾设置
量,并发多的场景 优先级 高 高 中/低 中/低 中/低
Databricks 依托Delta Lake 提供湖上建仓的能力
Lakehouse Platform Spark作为统一引擎提供批流一体处理能力 Operator 服务发布管理
集群信息统计 容灾切换
Lakehouse 提供各数据处理场景化需求
高效资源切换 利用率提升 在离线统一
Data Data Data Data
开放式存储/格式

容器日志采集 多环境管理
客户价值

Warehousing Engineering Streaming Science and ML


Data Lake Spark Platform 服务状态管理

03-数据仓库架构体系 OLAP/HTAP数仓 (Databricks、Amazon EMR)


Unity Catalog Web Shell 降低 Overhead,带来单机 2% 在离线资源全量共池,Quota
Delta、Tabular/Iceberg、Hudi 数万核离线资源分钟级出让
Fine-grained governance for data and AI 数据仓库 数据工程 数据科学 …… 场景化构建 利用率提升 管控、调度、运行、机器运维统一
SQL Query Engine
Lakehouse Streaming
(Starbust/Presto/Trino、Hive、 云原生计算运维增强
Warehouse
Parquet、ORC、Avro Delta Lake

Dremio、 Databricks Photon) ……
Data reliability and performance Spark Photon MLFlow Redash 批流一体引擎
数据实时 精细化
湖 流
DS/ML Platforms
数仓应用 BI报表 Dashboard OLAP分析
查询服务 运营系统
…… S3、GCS、ABS、HDFS (Pandas、Dask、Anyscale/Ray、 Unity Catalog 统一元数据
PyTorch、……) Cloud Delta Lake
Hadoop数据湖 Streaming All structured and unstructured data
Processing Delta Lake 数据湖格式
Microsoft 10-用户场景和价值2:多云部署和调度,实现多云成本最优复用,跨云队列容灾
Azure
ADLS S3 GCS 数据湖存储
分层建模
元数据管理
DM/APP(数据集市/数据应用层)

数据血缘管理
DWS(聚合数据层) 提供全局虚拟队列
数据 数仓 06-Lakehouse - 演进路线 07-Lakehouse-设计原则 08-DB 数据入仓/湖
仓库 管理
DWD(明细数据层) 权限管理
虚拟队列,对应不同机房和集群的多个队列
3种主流开源技术 Unifed Data Infrastructure (2.0) 自动分发到合适的机房/集群/队列
Databricks
弹性高可用
Tabular 数据湖
资源管理 ICEBERG Sources
Ingestion
Storage
Query and
Transformation
Analysis and
一体化架构 加强的 (1)
CDC
业务建模 数据治理
业务模型 业务模型 业务模型 Onehouse
and Transport Processing Output
MySQL

2019 Delta Lake


2017 Iceberg T+1 数据新鲜度提升到 5 分钟。
尽量少的
存算分离 用户可选择 cdc-connector 直接将 DB 数据
2016 Hudi 数据冗余
导入数据湖,不依赖任何第三方 service;
2021年Lakehouse技术首次进入Gartner成熟度曲线 功能性 非功能性
业务数据库 (2) 数据湖
异构数据源 MySQL/MongoDB
业务日志 CRM/ERP 埋点上报数据 三方数据 …… 设计要素 设计要素 也可消费消息队列(Kafka)中的数据将数据
入湖。
Flink CDC
MySQL
事务和数据
DataLake 高并发支持
一致性

(3)
数据湖
全数据类型 运维可观测 CDC
MySQL
高开放性 DTS

04-数仓建设流程

业务过程和指标梳理 - 逻辑分层建模 - 物理建模 应用按多因子综合选择流量分配

09-近实时OLAP 10-近实时 ETL 11-构建湖仓一体 考虑多种负载因素,机房负责情况,响应时间,成本等


自动分发到合适的机房/集群/队列

1.调研业务过程 2.建立业务指标体系 3.划分数据域 4.定义维度与总线矩阵 5.数仓分层 6.数据建模 7.数据治理


分钟级数据新鲜度,开放的查询引擎 全链路增量ETL,中间表可查,可增量导出到 service 存储。

数据源
根据业务需 根据主要业务 根据主要业务 明确业务过程与 定义清晰的数 依据建模规范 持续提升数据
求,梳理业务 过程,梳理必 过程,抽象提 哪些维度相关, 仓分层规范: 和总线矩阵, 的准确性、一 第三方数据
API服务
集市结果库
的主要过程, 须的指标体 炼出一个个的 并定义每个数据 一般将数仓分 实现对数据分 致性,提升可 MySQL Pulsar
快照查询 流任务
梳理用户核心 系、维度和属 业务主题,对 域下的业务过程 为 层建模 用性 ODS DWD DWS
数据湖
路径 性 数据做好归类 和维度 ODS/DWD/ Oracle Kafka
贴源层 汇总层 集市层
批任务
JOIN AGG 增量查询
DWS/D- 数据湖 数据湖 数据湖 ODS DWS ADS
自助取数
M/APP多层 Redis ……

分析服务

数据集成

01-数据集成概念 02-数据集成应用场景 03-数据集成企业案例 04-数据集成技术——数据采集 05-数据集成技术——数据采集 06-数据集成技术——数据建模

数据集成:数据集成是指将来自不同来源的数据合并到一个统一视图中的过程,该视图应用在下游数据分析和数据应用

全链路数据平台 企业云原生数据湖构建
实现企业各应用系统之间共享的数据,强调单一数据视图,通过整合多个数据源,形成主数据的单 文件采集 数据库同步 国外:Dtb labs(已成默认技术选择) 国内:QuickTable 快表格
主数据应用 一视图,保证单一视图的准确性、一致性以及完整性,从而提供数据质量。一般统一业务实体的定 离线数仓与数据同步 多种同步方式,多种数据源快速搭建
数据上报
义,简化改进业务流程并提升业务的响应速度。 离线数据开发与调度 云数据湖 方案 架构 特点 方案 DataX Canal Sqoop Kettle Debezium 将数据处理逻辑拆分在多个SQL文件中 使用电子表格的界面
元数据、数据资产管理与治理 实时数据秒级同步iceberg,完成冷 使用测试来提前发现数据质量问题 无代码
由source,channel、sink组成。 支持一个Agent中有多个不同类型的channel和sink, 采集机制 查询 日志 查询 查询 日志
热数据计算 Apache Flume 生成文档&数据的依赖关系图
大数据 快速迁移云下数据至云上存储,解决业务数据上云中遇到的技术、成本、人力等问题。上云迁移过 多个Agent可以组成调用链 可以选择把Source的数据分发给不同的目的地
迁移上云 程支持全量、增量方式,具备数据源类型丰富、简单易用、安全可靠、轻量灵活等优势。
数据分发 数据库同步 增量同步 × ×
某小型互联网客户:构建数据平台 某传统企业客户:构建数据湖 LogStash 包含input、Filter、output组成 灵活性高,支持很多插件

断点续传 × × ×
方案架构

方案架构

基于大数据云服务的弹性和按需能力,通过快速连接云下自建/云上数据源进行采集同步、清洗转 包含Input、Parser、 Output、


数据入仓入湖 Fluentd fluentd设计简洁,pipeline内数据传递可靠性高。
换、开发分析、治理及建模,帮助用户轻松快速完成数据入仓入湖和业务数据分析,有效实现数据 match、Formatter、Buffer
/交互分析 全量同步 ×
数据清洗 价值最大化。
Filebeta prospector和 harvesters 没有任何依赖,占用资源极少,可靠性高
全量+增量 × × ×
应用场景

应用场景

数据集成提供了开放的技术能力,可与统一调度、元数据管理等技术/产品服务深度融合,为企业 个性化推荐
数据工程 阿里云日志服务的生产者, 采用C++语言实现,对稳定性、资源控制、
数据平台提供可靠技术底座和核心能力支撑,帮助企业搭建先进灵活的平台架构以更好应对快速变 用户洞察 信息采集 日志分析 logtail
为阿里公有云用户提供日志收集服务 管理等下过很大的功夫,性能良好 生态
数据集成价值:消除企业信息孤岛,实现数据集中共享,进而实现数据治理和数据应用的重要手段。 与科学平台构建 实时数据入湖 业务预测
化、日益增长的业务数据需求 商品/订单/库存数仓数据开发

07-数据集成技术——消息队列 08-数据集成市场 09-数据集成商业模式 10-数据集成挑战 11-数据集成趋势

多云和跨云数据源
比较项 TubeMQ Kafka Pulsar Fivetran Airbyte dbt Labs
国内市场 云原生技术和云市场不断成熟,多云、跨云、多集群部署已经成为常态
数据时延 非常低,10ms 比较低,250ms 非常低,10ms
阿里云 Data Integration、腾讯云 DataInLong、华为云 ROMA、DataPipeline
14天的免费试用 作为开源产品,企业客户可以自己安装部署 dbt CLI(开源):本地运行的命令行程序( 成本和实效 数据链路管理 数据质量
按量计费:以从数据源转移到目标数据的行数 云上版本:采用credit方式,按照同步所用 开源)
TPS 高,14W+/s 一般,10W+/s 高,14W+/s (高性能场景)
作为计价的依据。每一个数据等级上又定价分 时间进行计费——其竞争策略之一,不做用 dbt Cloud(非开源):SaaS云版本,个人 从 ETL 向 ELT 发展

过滤消费 支持服务端过滤和客户端过滤 客户端过滤 客户端过滤 为5个等级,在安全、扩展性、还有支持的待遇 量上的限制客户体验更好。 版本免费,团队版本的定价为50美金一个开 ETL:每条ETL管道都是一个复杂的、定制的解决方案,敏捷性低,维护成本高


无,通过RAID10磁盘备份 + 国外市场 上都有提升 发者席位。 海量数据 数据源兼容 异构数据源 ETL:数据建模从一次性操作变得越来越即时和高频,转换的步骤被移到最后
数据副本同步策略 多机异步备份 多机异步备份(高性能场景)
低时延消费解决 多目标存储 任务隔离、容错 丰富的数据格式
一般(单机磁盘故障未消费数据 一般(主机磁盘故障未同步的 Google Data Fusion、Google Data Fusion、AWS Glue、Fivetran、Azure Data- 批流一体的数据集成
数据可靠性
存在丢失风险) 数据存在丢失风险)
高 Factory、DBT、Airbyte 时效性要求 数据对账 多阶段数据链路
使用同一套 API、同一套开发范式统一离线与实时数据集成,简化数据链路,
高,已线上运营近7年,每天33万亿的
一般,性能随Topic数增多出现不稳定 一般,高压下存在性能下降、 降低系统/人力成本
系统稳定性 数据量,已做到单集群400台Broker
情况,没有超大数据运营规模场景 服务受阻等情况 开源
数据采集与治理

的线上运营规模 行业百家争鸣
一般,热备存储,中心化管理, 一般,基于zk配置管理, 一般,基于zk配置管理,
配置可管理性 Apache InLong、Apache Seatunnal、Apache Gobblin、DataX、Flink CDC、 云厂商专注生态方案 中心化的自治能力
API或页面操作 API或页面操作 API或页面操作
FlinkX (chunjun)
开源项目齐头并进 更加标准化、一体化,提供更多数据工具降低使用门槛
易用性 一般,只提供Java和C++的Lib 高,有很多配套插件使用 高,有很多配套插件使用

数据治理

01-数据治理解决的问题 02-数据治理体系 03-数据治理工具 – 整体方案 04-数据治理工具 – 开发与治理一体化 05-数据治理流程 – 规范建模 06-数据治理流程 – 元数据资产治理
数据开发与治理一体化强调“先设计、后开发、先标准、后建模”,通过指标和数据标准的定义实现“规范即设计,设计即开发,开发即治 设计阶段,进行标准化的规范建模保证数据模型的规范化、提高数据资产化水平、提升数据质量。
在元数据管理中将业务元数据、技术元数据、管理元数据补充完整,然后根据元数据的治理发布流程将元数据发布上线。同时配合
理”的开发治理一体化理念。
数据资产中心的资产健康诊断以及基于ROI的数据资产精细化管理,对数据资产的健康情况和使用情况进行实时的观察,识别并了
产品工具层面,将整个数据治理流程贯穿各个子产品,沉淀一套全链路的数据治理工具体系。 解有价值的资产。

01 数据开发与数据治理脱节 02 烟囱式的数据开发
管理 用户视角 数据消费者 资产责任人 项目负责人 治理负责人 开发治理一体化 大数据健康评估与优化
数据安全等级 稽核规则定义
稽核规则推荐
(个人视角) (管理者视角) (治理视角) 表、字段命名、分类、数据 字段类型映射规范 业务元数据 指标域 金融产品条线
安全中心 数据质量
业务指标定义 格式规范 (快速建表)

根据数据治理的需求场景、结 “先设计” “再开发” 数据治理工作台 财富域 财富与机构条线 数据治理管理员


数据资产地图 国家标准 模型设计中心
制度 数据处理规范
资管域 模型设计 业务元数据

03 04 治理过程缺少可量化的 合数据治理产品工具,将流程 (字段映射、按格式处理)


风险管理总部
风险管理
不同平台缺少统一的管控 元数据管理 数据资产目录 数据地图 我的数据 行业标准 采集 注册 发布 展示
监控 建立在工具的基础上,制度建
(注册/采集/变更等)
数据标准 模型设计 数据传输 数据开发 成本治理 规范治理 质量治理 数据调研 数据标准 指标设计 模型设计 数据传输 自助分析 离线开发 数据服务
数据元/标准字典 原子指标/派生指标/复合指标
市场营销 数据开发 技术元数据 元数据 新建态 草稿态 发布态 数据资产展示
数据健康 资金清算 交易风控条线 数据治理360
流程 元数据中心(仓内/仓外) 评估体系 现状需求分析 元模型、词根 业务指标 维度 数据汇集 服务开发 企业标准 …
立在流程的基础上,管理建立 业务调研 数据元、数据字典 原子指标 事实 数据集成 服务编排 数据质量 管理元数据
信息披露 数据资产费用 数据资产健康分
分层、流程、主题、 资源分类 衍生指标 模型关系 服务治理 金融市场部
在制度的基础上,形成全链路 指标管理 主数据等… 数据质量 数据安全等 安全治理 价值治理 专题治理… 设计 引入或设计 复合指标
监管报送
业务部门核心数据
05 对数据的成本和价值缺少
06
流程引擎 企业组织架构 消息通知 数据安全
数据治理缺少闭环 方法论、工具 治理流程和消息通知
… ...
精细化的管理 的数据治理体系。 需求阶段 设计阶段 开发阶段 交付阶段
流程设计 流程审批 …

07-数据治理流程 – 湖外数据治理 08-数据治理流程 – 湖内数据治理 09-数据治理制度 – 开发规范制度 10-数据治理制度 – 指标管理制度 11-数据治理制度 – 数据质量管理制度 12-数据治理管理 – 组织架构 13-数据治理管理 – 运营与沉淀

数据质量管理制度包括事前规则定义、事中质量监控、事后量化分析和问题追溯。 数据治理不是一个临时性要做的工作,从数据生命周期的全过程到治理体系的健康运行,需要一个长效的治理机制来保证体系化的数
开发规范制度为企业内部应用团队、业务团队、中台团队提供设计开发依据。 指标管理制度明确指标模版,定义指标名称、类型、口径等录入规范。 在管理层面,建立了专门的部门来负责数据治理工作,完善组织架构、权责分担机制。
据治理。

湖内的数据治理流程
湖外的数据治理流程

数据产品 数据治理管理员 数据治理专员 业务人员 XX数仓设计开发规范


数据治理专员 (业务/技术部门) 配套专题优化工具:推荐下线、
IT中台运维团队 数据治理管理员 业务人员 事前需求和规则定义 事中质量监控 事后量化分析和问题追溯 信息技术治理委员会
(业务/技术部门) XX物流:指标管理制度 解决手段
生命周期管理、任务优化等
新建注册元数据 评估数据接入要求(表范围、存储、时效、频次、资源要
登记数据源 提交数据治理需求 数据汇聚准备 求)数据目录规划,人员职责确认、权限要求,数据链路打 实体唯一性:证件类型+证件号码+姓名,表示同一客户
通(数据库类型、权限、网络开通)
等值一致性:身份证号码倒数第2位(奇数是男偶数是女) 数据治理管理工作组
是否需要补全
创立元数据采集任务
否 业务/技术信息 是 元数据梳理:按照模板梳理元数据(数据管理组提供) 制度保障体系化管理 数据治理团队
元数据梳理
采集的表注册为元数据 发起元数据 发起元数据 模版规则 采样结果
梳理需求和规范定义

接收治理工单
发布申请 治理申请 建模:按照中台模型设计要求配置主题域、新建表。包括表
接收发布申请工单 数据治理管理员 数据治理专员
质量监控任务

数据建模 分层分域要求、表命名、字段命名要求。(数据管理组提供
资产治理闭环
质量报告

问题追踪

问题改进

绩效考核

是否需要治理 否 规范)
内容支持自定义
否 是 完善元数据信息
是否通过 数据传输:数据源配置、目标表配置、监控规则配置、作业 自定义规则 期望范围
接收治理工单 数据调度
发起发布申请 发起治理申请 上线(源端团队负责人审批)
提交完成治理工单 业务治理专员 技术治理专员 多维度的资产健康评估体系, 持续运营 持续有抓手:至上而下推送公
完善元数据信息 是 涵盖成本、标准、质量、安全 发现问题 司/项目/个人资产账单、治理红
运营监控
指标基本信息 指标口径定义 指标血缘查询 和价值
持续沉淀
黑榜、资产分与任务优先级&
运营监控:源端运维人员负责日常监控 标准推荐规则 异常数据
发布至资产门户 浏览搜索资产 预算申请挂钩
提交完成治理工单
指标名称/指标类型/ 计算指标依赖基础指标等,
发布至资产门户 浏览搜索资产 技术口径/业务口径等 证券部 风险管理总部 合规管理部 …… 金融产品条线 IT部 持续运营:数据治理大赛、业
发现问题,发起治理申请 模型开放 模型开放:使用方发起模型使用申请,由源端团队模型负责 指标域/责任部门等 指标树的管理 精度有效性:证券市值精度取值范围应等于2
务线专项治理活动
人审批,数据中心赋权 标志取值有效性:退市标志的取值只能是1或0
发现问题,发起治理申请

You might also like