2022数据智能知识地图

智能风控
01-智能风控是一套包含智能风控方法、智能算法和工具的完整体系 02-智能风控详细体系架构 03-智能风控平台交互逻辑 04-数据层详解 05-特征画像层详解 06-模型算法层详解 07-决策应用层详解 08-未来发展趋势展望
源数据分析中间数据特征设计欺诈风险信用风险数据预处理 EDA 特征选择集成算法准入决策欺诈拦截风险点识别样本设计规则生成规则算法
风险点识别
准入决策欺诈拦截样本设计规则生成规则算法基础数据交易数据数据采集数据校验数据清洗实时计算身份特征交易特征 NLP特征
风险识别和规避
决策引擎模型平台
和清洗模型平台决策引擎
目标：风控效果与效率策略层决策引擎数据平台
构造生成
特征平台
营销风险内容风险模型训练模型评估模型监控深度学习营销风险内容风险策略评估 A/B试验决策监控最优化算法
营销风险内容风险策略评估 A/B试验决策监控最优化算法数据存储数据缓存数据监控离线计算
关系数据三方数据关系特征融合特征特征评估特征回溯特征监控图特征
规则策略部署、A/B试验、模型结果模型构建、模型部署、
决策流程执行模型计算
模型内容
模型算法
策略内容
决策算法
应用：业务流程各个环节
数据类型
数据处理
欺诈风险信用风险数据预处理 EDA 特征选择集成算法身份信息 SDK数据交易记录社交数据营销评分反欺诈评分贷中行为评分决策树 XGBoost 评分卡欺诈识别准入拦截贷中风险
实时计算流式计算
模型层决策树异常点检测
特征内容
特征算法
模型平台性别/年龄额度使用占比 ID关联特征
RFM聚合方法时序特征方法贷后催收评分申请信用评分作弊风险评分随机森林 LightGBM SVM 作弊风险营销风险贷后风险
营销风险内容风险模型训练模型评估模型监控深度学习学历信息设备指纹还款记录多头数据
孤立森林最优化算法
策略应用
离线计算批量计算居住区域最大逾期天数收入指数
模型特征 App行为授信记录黑灰名单征信信息 NLP特征方法图特征方法流失预警分内容风险评分神经网络图神经网络 K-Means 内容风险运营风险
智能
借款次数二度联系人数量消费能力补充自动识别不足
源数据分析中间数据特征设计
智能风控方法论：模型智能算法：机器学习、身份特征交易特征 NLP特征规则特征机器学习模型
人工风控
和清洗构造生成
特征层特征平台数据处理步骤数据采集数据校验数据清洗数据存储标准输出数据监控模型建立样本定义模型架构数据准备模型训练风险点
搭建、数据挖掘、策略深度学习、关系网络问题定义特征选择模型监控策略建立流程样本设计规则生成
风控
源数据分析中间数据特征设计规则评估试验设计效果监控
关系特征融合特征特征挖掘流程特征评估特征回溯特征监控流程及划分设计与EDA 与评估识别
特征评估特征回溯特征监控图特征和清洗构造和生成
搭建
数据平台
数据平台特征画像挖掘专家
数据平台特征平台实现外部数据接入标准化
特征平台
特征平台特征配置和生成模型平台决策引擎
规则编写和执行
替代大部分人工识别
数据采集提供统一的内部数据服务接口服务模型平台模型训练和调优决策引擎执行流配置和管理
基础数据交易数据数据校验数据清洗实时计算
数据层数据平台数据接入、数据存储、特征构建、特征部署、保证数据规范存储和顺畅流转特征实时计算/批量计算模型推理计算和存储分流实验设计和执行
工程技术实现：自动化架构和工具平台关系数据三方数据数据存储数据缓存数据监控离线计算数据查询基础数据特征计算外部数据
接入模块
数据管理
服务模块
数据校验
模块保证数据质量，支持数据校验和监控特征回溯管理、特征存储模型任务管理审批权限管理内部数据三方数据
特征挖掘特征计算特征管理特征监控服务自动建模模型引擎模型管理规则集配置决策流配置审批管理
模型效果和监控策略监控和预警
关键内容流程步骤算法方法工具平台
用户画像
01-用户画像定义 02-用户画像（产品）八要素 03-用户画像（用户）类型 04-用户画像（用户）常用维度 05-用户画像（用户）周期 06-用户画像（用户）开发流程 07-用户画像（用户）开发流程
01 P代表基本性 (Primary) 02 E代表同理性 (Empathy)

03
指该用户角色是否基于对真实用户的情景访谈; 指用户角色中包含姓名、照片和产品相关的描 01 基础属性 02 平台属性
述，该用户角色是否能引发同理心; 社会属性、账号信息、LBS；平台属性、位置信息；数据收集
用户画像（用户）用户画像（产品）实时画像通过实时技术进行收集的用户实时兴趣 01
07
画像标签个性化推荐&搜索
03 行为属性 04 产品偏好标签服务化用户分群
系统通过用户自行上传或又称用户角色，作为一种勾 03 R代表真实性 (Realistic) 04 S代表独特性 (Singular)
登录注册激活、浏览、点击、购买、投诉；精品偏好、内部产品偏好；
体系设计
指对那些每天与顾客打交道的人来说，用户角每个用户是否是独特的，彼此很少有相似性; 05
埋点上报收集记录了用户画目标用户、联系用户诉求色是否看起来像真实人物; 短期画像通过统计收集的用户短期兴趣（一般3天）
标签生产产品分析
的大量信息，为便于各业与设计方向的有效工具。 05 兴趣偏好 06 敏感度
广告投放
品牌偏好、类目偏好、标签偏好；活动敏感度、优惠券敏感度、热点敏感度；
务应用，将这些信息进行 05 O代表目标性 (Objectives) 06 N代表数量性 (Number)
直采型统计型挖掘型预测型中期画像通过统计收集的用户中期兴趣（一般14天）
沉淀、加工、抽象，形成
该用户角色是否包含与产品相关的高层次目标，用户角色的数量是否足够少，以便设计团队能精准营销风控反欺诈
是否包含关键词来描述该目标; 记住每个用户角色的姓名，以及其中的一个主
直接从用户基础信息表内取利用用户日志数据，按照一利用用户行为数据或者文本算法标签的一种，原理与挖
07 消费属性 08 用户生命周期
要用户角色;
一个以用户标志为主key的消费能力、消费行为、消费意愿、消费偏好；生命周期；
04
到的用户信息，不需要统计定的规则进行简单统计的标数据，结合业务规则机型算掘型标签相似，区别在于预 06
标签树，用于全面刻画用长期画像通过统计收集的用户长期兴趣（一般30天）
07 A代表应用性 (Applicable) 08 L代表长久性 (Long) 和计算。签。法加工，输出对应的属性值测型重点应用于典型的预测 02 数据验证标签落地
用户画像应用场景
户的属性和行为信息。设计团队是否能使用用户角色作为一种实用工用户标签的长久性。 09 用户价值: 活跃价值、VIP等级；
或分值。场景。数据源确认
具进行设计决策。
推荐系统
数据应用
01-排序技术 02-用户理解 03-召回技术 04-召回技术
模型冷启动策略
显式 Trigger-Selection(U2X)
用户召回排序用的Trigger选择，
意图推断(U2Intent) 隐式
单/多模态表征传统召回知识召回
购买力预测
召回池
理解
可以是物料、类目等类目、品牌、属性等偏好预测
适配策略价格等短/长/超长行为表征热门召回协同过滤（1）内容
标签抽取(U2Tag)
召回粗排精排重排通过NLP等进行标签挖掘
算法举例:MUVCOG
商品表达 Item 1 全局热门 UserCF 基于物品的属性 √ 兴趣实体
多样性用户生命周期理解
分类目/标签热门基于U-I共线关系得到通过图谱基于物品的其他关联信息
√ 兴趣标签
日志一致性端侧
新颖性
生命周期行为表征
商品特征 Item 2
分人群（性别、年龄、职业等）热门
ItemCF
物品内容标签
alibaba 全链路准实时群体理解（U2U) 通过用户行为理解，对整个用户浏览/购 √ 基于路径
高性能算法举例：流行性通过聚类、looklike等群体理解买生命周期进行理解，围绕整个用户行协同过滤（2） √ 基于逻辑
EdgeRec 疲劳度控制
为周期建模用户周期内意图感知&偏好单场景/全链路行为表征用户表达 .... SVD
业务算法法举例：RALM
传统知识
√ 基于语义
特征模型分页&曝光过滤等推荐商品 Swing
目标匹配&检索 Item k
列表行为日志 Slim&gSlim
离线近实时准实时用户行为生命
E&E策略 T购买力与消费等级偏好周期状态预测流失预测 Adamic-Adar
召回召回
价值模式周期
洞察
离线训练在线预测在线
需求强度关系敏感度意图推理
数据离线
表示匹配
用户信息特征工程用户特征
LTV等长期价值行为序列模式时间序列模式表示召回匹配召回
客户端实时属性、行为、社交等维度 KV 存储
归一化
数据处理
商品向量
相似矩阵
弱个性化
商品信息匹配得分
召回召回
离散化商品特征
U相关
流处理平台召动态检索 TDM
非线性变换商品特征 DR
Blink/Flink/Porsche 匹配层
场景信息特征组合属性、标签、热度、内容等维度

基础行为时空端
回 .... 检索
服务端实时
模
表示层表示层
人口统计学属性物料类型行为特征时间类特征页面相关特征
数据
数据处理 ID类特征编码特征存储年龄、职业、性别等点击、收藏、点赞等点击时间、天气、季节等位置、页面类型等
(BOW/CNN/RNN) (BOW/CNN/RNN)
√ DeepWalk √ TransE √ GCN
ID类特征向量化场景&端特征用户特征型输入层输入层 √ Node2Vec √ KGAT √ GraphSage
端信息
数值类特征端、时空、页面等维度人群标签
亲子、情侣等
搜索类特征
搜索词、时间等
空间类特征
LBS轨迹、城市等
端相关特征
客户端、类型等 user item
√ EGES √ RippleNet 模型索引
全面实时双塔模型（DSSM） Graph-base模型用户兴趣最优索引
其他其他特征多通道召回引擎
常住地、购买力等类目、营销、品牌等行为日志显式行为建模隐式行为建模多兴趣表征超长行为建模
GRU4Rec SDM XDM MIND LimaRec NCF
工程通用模式召回技术四大类 DUPN
BERT4Rec
SASNet ComiRec
SASNet(fliggy) 更复杂的匹配函数，兼顾全量候选集大规模召回时效性
离线在线端计算
05-排序技术 06-排序技术 07-其他技术方向 08-评估
初代二代三代四代未来
整体指标
全局热门 DropoutNet metric-based meta epsilon-greedy 转化类指标推荐质量类指标消费满意度指标
分标签的热门 MetaEmbedding learning 汤普森采样
面临问题：特征交叉性能考虑 SSB问题
MLR XGBOOST Deep 基于时空相关热门 Meta Warm Up MeLU UCB CTR类多样性类留存率
PNN Crossing ONN AutoInt FiBiNet CAN HashGNN
Framework MetaHIN LinUCB CVR类新颖性类停留时长
基于人工规则策略、或者基于日志进
α（x）与精排进行更深层的融合和统一
样本分组LR 引入Product Layer 引入ResNet结构引入Multi Head Attention 引入特征重要性引入特征之间协同关系引入GNN+Hash 引入transform
Knowledge-based SMINet ECPM类时效性类播放完成率
双线性特征交互
行后验相关的概率统计实时性特征选择 CDR
真正的和最终优化的目标一致性的 Online LR GBDT BST 客单类可解释性类平均阅读时长
多行为推荐
静态质量分粗排模型 Learning DAU类热门内容比例沉浸度（Engagement）
物品历史CTR/CVR等 1 后验概率统计群体反馈高效地利用属性信息充分利用少量交互数据启发式探索
工程效率的优化，性能提升更多树形模型特征选择
DIN Deep Neural Network(MLP) DRN 冷启动（商品）点击个数等高质量内容比例惊喜度(Serendipity)
类目历史表现平滑实时性+稀疏性
物品热门预估
Concat Concat Concat 特征交叉加入GRU来对
用户兴趣演进建模保留DNN同时加入LR 利用FM进行预训练利用AutoEncoder 热门推荐 Side Information 少行为建模 E&E
FTRL GBDT+LR 引入强化学习
销量预测
偏置建模推荐系统线上指标，与所推荐的内容类型、展现方式、推荐所满足的用户需求，都有莫大的关系，而且这种关系体现的有时还很微妙
x PLOY2 DIEN Wide & Deep FNN AERec NCF
SE Block 流式衰减
0 多通道兴趣建模 seq化为多个Session建模
向量进行降噪处理引入CNN
XFTRL
特征交叉+稀疏性表达可解释性 Click models heuristic-based strategy Regularization strategy A/B Test
Wide 侧改进 Deep 侧改进
DAE ConvNCF Propensity Score Sampling strategy Adversarial learning
FM MIMN DSIN
user features ad features CrossNet 融入FM 加入attention Bi-interaction
加入用户Embedding 引入Graph结构 others Exposure-based model Causal graph
基于搜索超长行为建模
引入域信息代替MLP others others
整体指标
SIM CDAE Graph NCF
user features ad features cross features
DCN DeepFM AFM NFM
FFM
Linear&CIN结构位置偏差曝光偏差热度偏差
LR（逻辑回归）引入域权重 DCN-V2 XDeepFM FM
DSSM双塔模型 TopK Recall
FTRL(XFTRL)等 AUC/GAUC
三塔模型 COLD模型 FwFM AUC/GAUC AUC/GAUC
多模块多任务多目标多模态 is similar to who like
FSCD模型 SE Block特征优选与工程优化 Users 与精排分数/序一致性类目/人群（AUC&GAUC）
特征交叉组合特征域稀疏性类目/主题多样性
AutoFAS MMOE 帕累托最优 MMGCN
like similar to MAP（mean average precision) 相关性指标
粗排场景自动特征与结构选择
PLE LOGO
Items Item …
相关性指标 RPM（ad)
like
后验统计线性模型双塔深度模型轻量高精度深度模型端到端深度粗排模型传统模型时代深度模型时代 Features present in 实时性（性能）
模型目标模型表达特征&信息扩充

技术栈： User/Item/Content-based Text/Visual-based Social-based
深度匹配模型大规模负采样向量召回模型蒸馏全链路一致性熵、KL散度、长尾判断
可解释性推荐是在给用户提供推荐的同时，也给用户解释为什么的一种个性化推荐方法，能够帮助提升推荐系统的效果、
Matching Pre-Ranking Ranking Reranking
粗排技术迭代图精排模型技术效率、说服性以及用户满意度
预训练
02-预训练模型研究框架
01-预训练模型技术 03-近十年NLP重要发展（预训练相关） 04- 知识增强让模型学习更丰富的知识
用一套机制（预训练+微调）解决所有语言、主要场景的NLP任务，解决了原有的碎片化问题，大大提升开发效率。标志着NLP进入工业化实施阶段。知识图谱增强基于语言学知识增强特定数据增强
针对不同任务任务应用文本摘要智能对话内容生成认知推理融合实体信息的表示

算力 T5
成分句法基于成分的预训练方法领域相关知识
进行微调完成任务任务接口 Word2vec Attention BERT chatGPT
基于图谱的推理强化
语义角色语言表示融合增强任务相关知识
技术路线
Exploring the Limits of

（BERT/GPT-2） Efficient Estimation of neural machine translation BERT: Pre-training of Deep Transfer Learning with a Optimizing Language 依存关系自注意力权重约束和剪枝多语言知识
超大规模 +
Word Representations in by jointly learning to align Bidirectional Transformers Unified Text-to-Text Models for Dialogue
语言模型单语语言模型多语语言模型多模态模型 Vector Space and translate for Language Understanding performer
Transformer
预训练
English
海量文本数据超大规模算力模型训练

language
The
Shins
语言模型 2014年 2017年 2019年 2020年 language of
无需微调
work or name
训练目标自监督自回归额外训练模式

算法
Spork
（GPT-3）完成任务 2013年 2014年 2018年 2019年 2022年
EP
知识获取 1995 instance
of
+
Seq2seq Transformer GPT-2 GPT3 publication
模型架构编码器解码器编码器-解码器 date Extended
play
Sequence to sequence Attention Is All You Need Language models are Language Models are
learning with neural unsupervised multitask Few-Shot Learners
networks learners
T₁ T₂ ....
Tₙ T₁ T₂ ....
Tₙ OUTPUT I am a student 数据源数据 Model： https://github.com/Langboat/Mengzi
自由文本结构数据多语言多模态
Report: Zhang Zhuosheng, et al. Mengzi: Towards Lightweight yet Ingenious Pre-trained Models for Chinese. https://arxiv.org/abs/2110.06696.
Zhang Z, Zhao H, Zhou M. Instance Regularization for Discriminative Language Model Pre-training[J]. arXiv preprint arXiv:2210.05471, 2022.
主要模型
Trm Trm ....

Trm Trm Trm ....
Trm
ENCODERS DECODERS
Trm Trm .... Trm 05- 训练优化让模型更高效地学习知识 06-多样化的应用场景

Trm Trm .... Trm
E₁ E₂ .... Eₙ INPUT Je suis etudiant 语义相似度（ SBERT ）

E₁ E₂ .... Eₙ 模型尺寸优化，减少结构冗余训练校正策略，实现更准确的训练对话生成（ PLATO-XL ）文本摘要（pegasus）图像（MAE）多模态（CLIP）
新的训练目标，加强语义学习能力对抗样本预训练，提升模型鲁棒性
Encoder(BERT-Style) Decoder(GPT-Style) Encoder-Decoder(T5/BART-Style) 训练加速策略，分布式大批次训练
Original Corrupted Restored Input

Sentence Ennoising Denoising Sentence W’ H
Sentence
Thanks you for [MASK] [MASK] to your [MASK] last week
更大的模型和更多的数据更高效的预训练方法知识增强的预训练模型小样本学习及统一微调 Original

H
>
W
Thanks you for inviting me to your party last week PrLM
Discriminative Training
研究重点
Model Size 10³ Predicted

10⁶ 95
P ~
Data Size H
Electra-Large
Thanks you for inviting us to your home last week
ALBERT T5-3B T5-11B
90
10⁵ RoBERTa
XLNet Human A cute [MASK] is [MASK] on the [MASK] ...
argmax Pre-training Objectives
10² 85 SBERT architecture SBERT architecture at inference Self-attention Visualization Input Representation
Bert-Large The base architecture of PEGASUS MAE architecture Summary of CLIP
10⁴
T5-Base
Pred Tokens: {inviting, us, home}
80 MobileBERT
Electra-Small
[MASK] cute dog [MASK] playing on the [MASK] ...
BERTBase
DistilBERT (dev set) GPT

(Original Sentence) Gold Tokens: {inviting, me, party} Reimers N, Gurevych I. Sentence-bert: Sentence embeddings using siamese bert-networks[J]. arXiv preprint arXiv:1908.10084, 2019.
10³ 75 Bao S, He H, Wang F, et al. Plato-xl: Exploring the large-scale pre-training of dialogue generation[J]. arXiv preprint arXiv:2109.09519, 2021.
10¹
Radford A, Kim J W, Hallacy C, et al. Learning transferable visual models from natural language supervision[C]//International Conference on Machine Learning. PMLR, 2021: 8748-8763.
70
10² 50 100 500 1000 5000 10000 Model： https://github.com/Langboat/Mengzi He K, Chen X, Xie S, et al. Masked autoencoders are scalable vision learners[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 16000-16009.
Report: Zhang Zhuosheng, et al. Mengzi: Towards Lightweight yet Ingenious Pre-trained Models for Chinese. https://arxiv.org/abs/2110.06696. Zhang J, Zhao Y, Saleh M, et al. Pegasus: Pre-training with extracted gap-sentences for abstractive summarization[C]//International Conference on Machine Learning. PMLR, 2020: 11328-11339.
知识图谱
01-知识图谱 02-知识图谱模式 03-实体抽取 04-关系抽取 05-事件抽取

知识图谱技术是知识生产、知识表示存储和知识应用等众多技术的总和。这类似于，搜索引擎是信息的爬取采集、信息存储和信息检索等多种技术的总和。（Knowledge Graph Schema），简称模式（Schema），也称类图谱（Class Graph）或概念图谱（Concept Graph），是面向知识图谱内容的一种抽象的、语义化的且概念化的规范。在知识图谱模式中，实体类型命名实体识别（Named Entity Recognition，NER）是指从非结构化的文本中识别出符合定义的实体，并将其分类到某个恰当实体类型中。在知识图谱领域，广义的命名实体识（Event Extraction）是指从文本中提取出有关特定事件的信息，包括主题、客体、地点和时间等等要素。通过对文本中出现的实体和关系进行分析，可以提取出有意义的知识，
以语义化的方式对实体进行分类，关系类型则以语义化的方式对关系三元组进行分类。实体类型的属性名列表和关系类型的属性名列表则是对实体类型和关系类型的多维特征的表示。在语义网中，知识图谱模式往往也别通常又称为实体抽取。实体抽取是构建知识图谱的关键技术之一。进而构建出事件图谱。事件图谱是知识图谱的一个细分领域，知识图谱中的存储、计算和推理等技术都可以用到事件图谱上。但事件图谱有其自己的特点，进而衍生出一系列事件
被称为本体（Ontology），表示知识的概念化的规范。图谱独特的计算和推理方法。
——《知识图谱：认知智能理论与实战》P33
模式设计与管理原则方法论工程模型

类别方法特点
关系三元组与语言的语法结构关系密切，关系分类本质上就是一个给定文本序列和监督学习
可视化与词典匹配常用于有大量词表的专业领域语音
知识计算
交互式分析由于词法分析和句法分析工具愈加成熟，实体信息作为输入的分类问题，分类的目
生成式方法
场景清晰、明确地定义场景基于规则的方正则表达式最常用的规则编写方法，正则表达式几乎为所有编程语言所支持，熟悉一种或多种编程语基于语法结构的关系抽取的方法表现愈加标是判断其是否属于所有可能的关系类序列标注方法
法言的工程师很容易根据语言和文本特点编写规则
优秀，应用场景也愈加广泛。型之一，或者不是任何一种关系类型。分类方法
慢应用
事件
完整性智能问答
映射式构建技术
约束
模板常用于有固定结构的文本上，比如由数据库生成的网页、制式合同等基于基于阅读理解方法多模态
事务评价
查询
复用考虑复用是非常好的习惯决策树简单、直接，可解释性非常强
规则的深度学事件抽取
抽取
语言约束
获得反馈︐迭代演进︐螺旋式上升
知识推理推荐系统最大熵复杂，通用性比较强

场景
实体抽取
图数据库支持向量机广泛用于各类机器学习任务中，在实体抽取上表现不错关系抽习的关系弱监督学习
事件抽取文本视觉
定义合适的实体类型，明确、清晰、联系
机器学习朴素贝叶斯最简单的概率图方法，可解释，有坚实的数学理论基础取方法分类方法半监督
关系
分布式图数据库
事物复用
远程监督
知识融合
关系抽取
知识检索数据分析无歧义地描述一类事物隐马尔可夫模型比CRF更简单，计算效率高，在低计算资源年代应用非常广泛
复用
自然语言处理事务
Janus 事务传统机器学习中最常用的实体抽取方法，至今依然是很强的基准方法，并且经常和深度神
抽取
Graph 向量数事务条件随机场
据库根据场景和应用的需要，经网络结合构建深度学习模型，应用非常广泛
快应用知识溯源联系
计算机视觉定义实体类型间的关系场景联系联系 BiLSTM-CRF 深度学习中最常用的实体抽取算法弱监实体- 11月29日神舟十五号载人飞船发射取得圆满成功。 11月29日神舟十五号载人飞船发射取得圆满成功。
复用深度学习 BERT 预训练模型+微调的深度学习方法的典型代表
督学关系联
声音处理属性图分布式约束
知识探索辅助决策确定图谱模式整体和局部的约束条件，其他深度学习模型模型千千万，百花齐放，各具特色
模型分布式存储约束通常包括数据类型、取值范围和权限控制习的合抽取触发词识别发射
计算场景自动标注样本自动生成训练语料，核心在于解决噪声问题
11月29日神州十五号发射
抽取式构建技术
评价部分标注样本降低标注成本
弱监督学习的目的有三，一是充分挖
方法方法
弱监督学习掘少量已标注样本的潜力；二是通过专触发词分类
载人飞船
迁移学习减少模型所需的训练语料实体-关系联合抽取的方法在一个模型中航天器发射
构建技术存储技术应用技术用户接口与界面评价
系统评估所设计的模式
家编写业务规则自动生成标注数据，提升
是否满足场景的需要远程监督通常和关系抽取一起使用同时实现对实体和关系的抽取，其输入要素触发词
用于实体抽取将实体抽取建模为马尔可夫决策模型专家经验的复用性，降低专业数据的标注为文本序列，输出是抽取出来的实体和要素
事件要素识别 11月29日神州十五号载人飞船
——《知识图谱：认知智能理论与实战》P10 深度强化学习提升样本质量，或者在样本质量存在一定问题的情况下，联合实体抽取模型实现高精度的成本；三是利用知识库来指导监督标注数关系，既直观，又简洁。
用于样本处理据的生成，实现无标注数据下的关系抽取
实体抽取时间航天器发射
——六韬瀑布模型 ——六韬螺旋模型要素角色分类时间主体主体
——《知识图谱：认知智能理论与实战》P136
《知识图谱: 认知智
06-知识存储能理论与实战》管道模式联合抽取
属性图数据库，简称图数据库。图数据库完全和知识图谱契合，从底层的存储模型到支持的查询语言，甚至相关的概念都完全匹配。它们就是天造
地设的一对，图数据库是知识图谱存储的首选。
JanusGraph Neo4j Dgraph NebulaGraph 07-知识计算 08-知识推理 09-智能问答 10-认知推荐系统

首次发布 2017年 2007年 2016年 2019年（Knowledge Computing）是指在图论的指导下，使用图论中的定理、推论、模型、算法，以及相应的工具来计算、处理、分析、理解和挖掘知识图谱的方法。推理（Reasoning）是与人类思维和认知相关的心智能力，是符合逻辑的、明智的思维方式，是一种有意识地进行思考、计算、权衡与逻辑分析的能力。知识推理是实现类似于人类推理能力的人工（Question Answering，QA），是指使用自然语言提问的方式检索所需的知识，其目标是直接获取问题的答案。在基于行业知识图谱的智能问答中，用户在查询业务知识时，不需要精挑细选关键词，而是如同向专家咨询一样，使（Cognitive Recommendation System）是指以知识图谱为核心，以知识为依据，利用知识图谱中无处不在、无时不有的连接给用户推
智能技术。用自然语言的方式描述清楚所要解决的问题，系统就会通过一系列复杂的语义理解、信息检索、知识推理和答案生成等步骤给出准确的答案或者答案的候选集合。荐所需知识的方法与系统。
开发语言 Java Java Go C++
认知推荐系统的目标是像行业专家一样工作，即在特定的场景下，基于对用户的先验认知（如用户的工作职责、所在的部门与角色、过往
属性图模型完整的属性图模型完整的属性图模型类RDF存储完整的属性图模型工作经历、所贡献的知识等）来推荐知识。在大多数情况下，用户本身就是行业知识图谱的组成部分。也就是说，认知推荐系统可以充分
利用知识与知识、知识与用户、知识的版本更新和新陈代谢等丰富的关联，并基于应用场景进行精准的知识推荐。
架构分布式单机分布式分布式
智能问答 Z 形框架使
存储后端 Hbase、Cassandra、自定义文件格式键值数据库BadgerDB 键值数据库
遍历与查询模块度 PageRank 文本理解意图识别知识链接模板匹配用系统性方法来实现
BerkeleyDB RocksDB 最短路径 GN 中介中心性概率推理演绎推理
能够面对不同业务、 ①通用
（Probabilistic Reasoning）（Deductive Reasoning）
高可用性支持不支持支持支持全路径 Louvain 特征向量中心性归纳推理因果推理解决各种各样问题的 ⑩知识
推荐
②交互与
高可靠性支持不支持支持支持亲密中心性（Induction Reasoning）（Causal Reasoning）全能型的基于知识图保密人机协同
一致性协议 Paxos等无 RAFT RAFT 谱共通的智能问答应

子图检索用
路径分析社区分类中心性
跨数据中心复制支持不支持支持不支持 ⑨社区化 ③多样性
运营推荐
认知
事务 ACID或BASE 完全的ACID Omid修改版不支持
分区策略随机分区，支持显式指定分区策略不支持分区自动分区静态分区
大数据平台集成 Spark、Hadoop、Giraph Spark 不支持 Spark、Flink

演绎推理几何嵌入方法深度学习推荐
⑧主动 ④权威性
查询语言 Gremlin Cypher GraphQL nGQL
推荐
专业模型复杂问题处理重排序答案生成
推送
全文检索 ElasticSearch、Solr、Lucene 内置内置 ElasticSearch
基于演绎规则欧式空间平移变换卷积网络
基于描述逻辑复数空间旋转变换胶囊网络
多个图支持创建任意多图一个实例只能有一个图一个集群只能有一个图支持创建任意多图
定性时空推理双曲空间嵌入图神经网络 ⑦给出 ⑤多模态
属性图模式多种约束方法可选模式约束无模式强制模式约束 NetworkX igraph SNAP JGraphT GraphX Gremlin Cypher SparQL 推荐理由推荐
⑥说服式
客户端协议 HTTP、WebSockets HTTP、BOLT HTTP、gRPC等 HTTP ——《知识图谱：认知智能理论与实战》P392 推荐
客户端语言 Java、Python、C#、Go、Ruby Java、Python、Go等 Java、Go、Python、等 Python、Java等

等
——上表开源图数据库，节选自《知识图谱：认知智能理论与实战》P246，完整的请参考原书
隐私计算知识体系
01-隐私计算发展历程 02-隐私计算知识体系 03-隐私计算技术对比 04-通用隐私计算框架
香农发表《保密系统的通信理论》《密码学随着非对称加密算法RSA出现，同态加
业务研发使用友好
用户界面
数学理论》正式开启现代密码学时代密的概念被首次提出
可视化操作界面开放编程接口
萌芽期第一层:计算安全
代理计算方A 平台开发接入成本低
MPC
(1949年 - 1981年) TEE
随机数梯度
优势
1949 1976 1978 1981 概念前瞻密态时代与隐私计算展望隐私计算技术全局概览 MPC MPC 计算节点计算节点
中等代理计算方B 代理计算方C
MPC MPC AI&BI 隐私保护算法使用友好
多方安全计算联邦学习可信执行环境
隐私算法
劣势
密码学概念 Diffie和Hellman提出公钥密码思想，隐私计算
多方安全计算同态加密隐私求交
提升算法开发效率
Rabin首次提出不经意传输协议
萌生，技术路是现代密码学里程碑基础理论
匿踪查询零知识证明差分隐私
线尚不明确数据数据数据数据数据数据数据数据
基础技术联邦学习拆分学习针对Node分类的纵向联邦图神经网络
隐私保护
经典MPC模式经典联邦学习经典TEE模式 MPC代理(类华控清交4方代理)
明密文调度/编译器开放合作
机器学习设备计算图分布式调度引擎
混合调度
基于多方安全计算的机器学习纵向联邦XGB算法
共建明密文混合编程能力
硬件技术机密计算与可信执行环境
Gentry首次提出一种基于理想格的全同 Goldreich对安全多方计算进行讨论，
安全性学术界严谨安全证明支撑，目前实现多局限于半诚实需融入其它技术联合使用以实现数据安全保护效果宿主机存在侧信道攻击风险，需关注RA和安全加固无法抵御代理计算方共谋，代理方执行逻辑无法验证
态加密算法；OMTP提出首个TEE标准提出安全多方计算协议
开发成本满足通用运算能力，需研发投入，目前主要实现ML/SQL 支持部分运算能力，需算法/研发投入，目前主要支持ML 理论上满足通用运算能力，可复用已有应用能力满足通用运算能力，需研发投入，目前主要实现ML/SQL
探索期高性能多方安全数据分析SCQL 可信密态计算 Occlum技术架构和设计思想
密文计算设备明文计算设备隐私保护原语
(1982年 - 2016年)
应用技术运维成本离线态和在线态均需服务化离线态和在线态均需服务化离线态接入成本低，在线态需服务化离线态接入成本低，在线态需服务化
2016 2009 2001 1987 1982 隐私计算安全攻防: 系统攻防隐私计算安全攻防:算法攻防

计算精度精度有微小损失，ML场景影响不大精度有微小损失，ML场景影响不大计算精度高，与明文一致精度有微小损失，ML场景影响不大
计算性能百万/千万/亿级规模(带宽依赖) 千万/亿级规模(带宽依赖) 支持大规模，性能损失小千万/亿级规模(带宽依赖) 明密文密码/TEE/硬件/AI开放合作

MPC HE TEE TECC Python SQL 差分
框架基础 “隐语”框架概览及设计思想 “隐语”密态计算设备SPU背景与原理
计算设备与脱敏
荐
数据参与方数据提供方增多后性能有所下降，适用5方以下数据提供方增多后性能有所下降，垂直场景适用10方以下数据提供方增多后不会有明显性能下降数据提供方增多后不会有明显性能下降共建密文计算能力和

推
国内发布的《隐私计算研究范畴及发姚期智院士提出“百万富翁”问题设备设备设备设备解释器执行环境隐私

原语
国际学术正式提出“隐私增强技术”概
主流技术相继展趋势》正式提出“隐私计算”一词，奠定了多方安全计算的理论基础上手实践明密文混合编程实践通过OpenAPI快速集成“隐语”开展联合项目数据控制力数据控制力强数据控制力强数据控制力较弱数据控制力较弱
隐私保护原语
开发实践
出现，应用方案；
硬件成本不依赖特殊硬件不依赖特殊硬件，部分算法可使用已有GPU资源硬件依赖，已有机器资源不可用不依赖特殊硬件
尚待探索谷歌提出联邦学习概念并使用安卓手隐语开放平台低门槛实践隐私计算
信任根无硬件信任根，国密化方案较为可控无硬件信任根，国密化方案较为可控硬件信任根，国产化硬件成熟度待市场验证无硬件信任根，国密化方案较为可控
智慧医疗
业务交付运维友好
2021 中国信通院大数据“星河”-隐私计算优秀案例: DRGS付费体系下的隐私计算实践
行业案例资源管理数据管理计算管理网络管理

金融风控 2021IDC 国际金融创新奖: 联合建模扩大低风险客群，增强普惠信贷服务能力
大规模高可用，部署运维成本低
增长期《关于构建更加完善的要素市场化配置体制机制的意
(2017年 - 2025年) 百度发布MesaTEE解决方案应用规模稳定增长…… 保险查勘 2022IDC 中国金融行业技术应用场景创新奖: 多方安全分析智能理赔系统
见》首次提出数据作为一种新型生产要素参与分配
可证明可衡量的保护个体隐私的技术（保护强度可调节，有严谨数学证明）
经典MPC模式、联邦学习模式的重要基石组成，是隐私计算性能加速的关键
政策标准细化差分隐私与上面所有技术路线可独立叠加同态加密
完善，落地场景 PHE/LHE结合具体算法确实有成效，但通用FHE方案性能挑战大，硬件加速还在发展中
第二层: AI安全/系统安全后门攻击数据投毒存证审计运维安全认证安全网络安全对抗样本推断攻击计算精度和明文比会有所下降；需结合具体算法流程设计；不保护数据使用价值
逐步实施 2017 2018 2019 2020 2022 2025
稳定期
2025年~ 国际同态加密标准委员会成立，标志杨强教授团队提出联邦迁移学《要素市场化配置综合改革试点总体方案》提出探索“原始
着同态加密在全球进入高速发展阶段习并发布FATE开源系统数据不出域、数据可用不可见”的交易范式；第三层:生态安全可解释性算法公平互联互通权属界定市场机制
*注：数据控制力强：数据提供方对数据的计算过程有强管控，细粒度的数据计算需要数据提供方介入，数据提供方可以随时停止数据使用
数据控制力弱：全量数据以加密/分片组合等形式集中式存储在远端，自己无法强管控，比如TEE突发漏洞泄漏密钥，数据提供方因为数据已经上传，无法即时止损
蚂蚁集团牵头，发布隐私计算开源框架“隐语SecretFlow”
应用规模离线态：指训练阶段、大数据分析等，数据任务粒度较大，整体耗时较长
稳定增长在线态：如联合预测，一般特征值需从机构方的某个在线服务/数据库实时获取，这些特征值的最新值可能有变动，则需按需读取
数据能力
05-隐私计算应用场景 06-隐私计算技术标准与白皮书
营销应用信用风控应用安全风控应用保险应用医疗应用政务

技术理念功能框架安全分级互联互通软硬结合产品
人群筛选画像授信提额反欺诈反洗钱核保核赔诊断分类诊断分析信用风控
医疗金融
积极参与北京金融科技产业联盟和中国信通院隐私计算联盟18项白皮积极主导和参与40+项隐私计算标准，覆盖国际标准、金融行业标准、通标协行业标准、地方
数据智能知识地图
联合营销联合风控联合风控联合风控联合诊断一网通办

帮助医院降低核保工作量参与银行普惠信贷探索书的撰写工作，推进行业技术研究和产业发展标准、团体标准等
服务某医院搭建运营管理数据融合平台，浦发银行通过多方数据的安全协同联合风隐私计算金融应用调研报告 ITU IEEE

提升疾病诊断分组管理效能，优化医保结控，阻止数十亿高风险贷款发放，增加识隐私计算白皮书 F.748.13, Technical framework for shared machine P2830, Standard for Technical Framework and
learning system Requirements of TEE based sharedm achine
应用场景算，降低医保反馈分析工作量。别30+万名低风险客户，扩大普惠信贷服联合建模技术与应用研究报告
H.DLT-TEE, TEE based confidential computing on
learning
金融行业隐私计算应用风险与问题研究
务范围。联邦学习技术金融应用白皮书
distributed ledger technology system P3156, Standard for Requirements of Privacy-pre-
serving Computation Integrated Platform
多方安全计算金融应用现状及实施指引 P2952, Standard for Secure Computing Based on
Trusted Execution Environment
金融行业隐私计算技术与应用研究报告
隐私计算与区块链技术融合研究报告 ISO P3181, Standard for Trusted Environment Based
Cryptographic Computing
互联网平台数据价值释放和隐私保护计算应用研究报告 ISO/IECPWI4922-3, Information security — Secure
保险公司政府 multiparty computation — Part3: Mechanisms based P3169, 《Standard for Security Requirement of
隐私计算技术金融应用研究报告 Privacy-preserving computation》
政务
on garbled circuit
保险隐私计算法律与合规研究白皮书
隐私计算应用研究报告（2022）
推动保险公司提高理赔效率助力政务平台提升管理效率可信隐私计算研究报告（2022年）
隐私计算安全验证技术研究
TC260，TC28 CCSA
银行
分布式数智网络商家提供“多方医疗数据联合分析”解决方
案，支持某保险公司覆盖全国10+省份
智慧城市建设带来大规模数据集中，支持
某政务平台各方数据全链路安全输出至政
隐私计算互联互通技术研究报告
金融数据要素流通技术与应用研究
隐私计算技术应用指南标准草案
人工智能隐私计算机器学习系统技术要求
隐私计算一体机技术要求
基于可信执行环境的安全计算系统技术框架
互联网广告隐私计算平台技术要求
医疗数据，提升其医疗理赔数字化水平府大数据部门，助力城市便利安全双效提隐私计算技术在金融应用研究-以个人金融信息保护和金融反欺诈为例隐私计算系统技术规范
机密计算金融应用研究报告
及核赔效能，提高用户理赔体验。升。
支付机构医疗机构
数据供应商零售企业医药企业
AB实验
01-AB实验 02-实验流程概述 03-实验核心原理与要素 04-实验方案设计 05-实验分析
3 4 实验运行分析
8个关键环节实验原理实验三要素实验价值目标人群选择：精准性 VS 影响面唯一变量原则
抽样方式：无差别抽样VS 定向抽样正交分层、层域嵌套流量分析指标校验样本量分析指标监测预警
总述&架构实验流程
2个关键支撑 1 实验假设实验运行实验观察实验沉淀实验参与单元互不干扰哈希随机分桶、分组
实验流量实验参与单元 AA测试埋点、计算pipline验证最小实验流量阈值、异常监控
实验原理
定量效果
实验参与单元合理随机化
2 5 实验结果分析
AB实验基本原理、要素、特性
足够的实验参与单元
随机
AB实验的设计实验设计流量选择实验结果分析实验决策因果推断实验目标确定样本选择实验分组设计流量预估实验上线显著性分析实验短期有效性
实验精度/敏感度
实验长期有效性
分流 (最小检测变化）
实验错误率
AB实验的分析
多重测试
实验控制参数可分配
AB实验 6
SRM
T检验 Z检验
细分架构&流程实验特性
新奇效应
学习效应
网络效应
延迟效应
生态效应
实验组对照组实验控制参数

测试
AB实验中统计学知识方差计算指标选择

实验控制参数容易改变
关键支撑1：实验平台支撑实验目标选择原则实验指标3个基本条件评估实验指标最小流量预估白名单测试序贯检验 Delta方法
AB实验决策先验性
实验天数预估产品走查
参与单元选择
组间差异消除
指标当前水平
数据分析
指标方差
AB实验平台关键参数数据观测非参数检验

实验指标可测
实验指标易测
能反映意图
长期有效性
多目标融合
可重复性
信息增益
因果关系
目标性
可归因
时间交错实验
关键支撑2：团队、制度和实验文化支撑
I类错误
局限性
长周期实验
后期分析法
实验指标能反映实验者的意图
Fallback
保留实验
反转实验
II III
类错误
类错误
并行性
FDR
Holm
实验指标
修正
应用&特定领域前沿、高阶实验
法
实验指标可测、易测
法
实验决策
相关领域 CUPED
06-实验中统计学拓扑图 07-实验决策流程 08-实验平台讯线索评级标杆项目介绍腾讯线索评级标杆项目介绍 09-实验局限、前沿、相关技术
产品服务
均值、方差概率密度函数样本均值、方差、置信水平

通过请求AB实验服务返回AB实验ID和参数传输实验日志数据
传统AB局限性高阶实验相关技术
是否
公众号「大话数智」重复正态分布实验AA测试 AB实验 SRM检验 AB实验结果 AB实验服务
抽样抽样分布置信区间方差估计均值类通过日志存储与计算
实验管理流量管理指标与分析
大话数智，是 DataFun 策划的智库类公众号，不通过策略空间有限因果推断
显著提升
核心指标
无显著变化
核心指标
显著下降
核心指标
实验创建实验标签哈希函数：murmur、MD5、指标配置指标分级

智能调优MAB实验
内容实验
双边市场实验
智能调参实验
包括但不限于知识地图、深度访谈、直播、课程增加样本容量n 比率类 SHA、JDB...

是否实验配置：流量大小、人指标权限异常剔除请求
等学习资料，旨在为广大数据智能从业者、数据
interleaving实验
根因分析实验
方差提升根因分析代码异常异常群选择、实验策略、层域管理、层流量管理、流日志传输
分析 AI算法
智能团队提供一个日常学习成长的平台。域发布、发布量申请、流量
指标计算：计算
最小样本容量置信水平1-α 用户投诉
实验测试：白名单、接口
审核回收
均值、比例类、分位类结果
实时、天级、累积、分桶
误差ε 关键指标大幅异动是实验权限：功能、实验、因果分析因果学习
增加区间宽度反转实验特性开关指标方差缩减
策略好坏决定
实验通知：下线、全量等
长期实验共享流量日志存储
没有显著下降
保护指标
修复实验告警：数据、服务等
指标敏感性、检出精度
实验效果
停止实验最小样本量估计 uplift
回传
工具变量法
人为定义的小概
中断时间
断点回归
实验操作：停止、放量、实验
显著性水平α OLAP分析 HTE分析
匹配法
面板法
重启、全量发布计算实时计算
率事件发生的概 AA测试 SRM测试自助查询 SQL分析结果流spark
率
修复 ML
实验类型：web、H5、APP
参数检验:T检验...
实验类型：前端、后端
老虎机实验 interleaving 有一定机会成本
H0为真时小概率双边实验内容实验非参数检验:jackknife... 离线计算流 DeepL
I类、II类错误、假设检验 P值优化策略沉淀总结全量实验下线实验实验对象：设备、页面、 hadoop
power 事件发生的概率会话、元素社交网络实验 ...
实验报告
服务方式：SDK、微服务...
公众号「DataFunTalk」实验沉淀
DataFunTalk是专注于大数据、人工智能领域的
技术分享与交流技术分享平台。有超过2000位
分享嘉宾，已累计发布原创技术文章800+，累
计阅读量超500W。
因果推断
01-什么是因果推断从因到果 vs. 从果到因 02-为什么要做因果推断相关 ≠ 因果 03-因果推断 vs. 传统机器学习相同点和区别 04-因果推断 vs. 传统机器学习相同点和区别 05-因果推断适合解决的问题因果推断在社科领域的应用 06-因果推断的主流框架Potential Outcome Model & Structure Causal Model 07-因果推断的三大基本假设
在观测样本上，由于混淆因子(confounder)的存在，使得样本呈现违背常识现象机器学习因果推断领域存在问题问题类型解决方法假设名称解释

例如左下图，在全量人群上，随着运动量升高，胆固醇居然也升高了：机器学习因果学习从以上医学、经济学领域中的例子，我们不难看出，因果推断的主流应用有两个方向：
机器学习的本质：机器学习拟合的是从历史数据上观测到的因果推断模型： U 医学 • 不同用户对药剂的敏感程度不同群体因果效应预估: 做临床控制变量实验：对相似的患者提供
• 如何给用户搭配最合适的服药剂量，达到治愈率最大 Average Treatment 不同的药剂，观测两组用户的群体治疗结方向一：因果效应预估，e.g. 药剂分配优化/发券分配优化对于个体来说，他接受到某一个Treatment后产生的结果不能受其他个体影响，也就是说个体
表达式 P(Y=1|X) P(Y=1|do(X))
直接用这样的样本建模会得到错误的相关性结论相关关系，但基于相关关系的拟合是不可靠的，甚至很多时的目标 Effect Estimation 果预估施加了干预后的效果：一个用户在同一时间内仅能观测到一种干预下的效果，需要通过潜在输出框架预估反事实效果
SUTVA: Stable Unit 间是独立的，没有交互。比如说如果存在一个撸口子群，里面的人互相知道彼此是什么额度/
已知因：推断果: 而当我们对年龄这一混淆因子进行控制之后，就能得到正确结论候是伪相关
√ 拆分因变量T(例如是否发券)和协变量X( 解法贝叶斯定理后门准则 Treatment Value 利率/优惠券，那么里面的人是否用信就会受到他人影响，这种情况就不满足条件。
因果效应预估用户特征) 方向二：因果关系分析，e.g. 教育是否影响收入
e.g.抽烟 e.g.肺癌 Assumption
企业需求：支持决策，不仅仅是预测经济学 • 2021年诺贝尔经济学奖教育时长与收入的关系
- 因果关系分析: 找到一组年龄和用户资质水平都近似的样在观测数据中发现变量间的因果关系并且同一个Treatment不能有多个版本：比如说一个Treatment叫万1优惠券，一个版本是可
√ 构建不同用户在不同实验下产生不同行为
X Y • 经济学领域较难做类似医学领域的临床实验，而受教 Causal Analysis 本，这两组样本在其他特征相似的情况下，以用两期，一个是只能用一期，那这就是两种版本
的因果模型育程度往往跟人本身的年龄和智商有关，因此在观测仅教育时长改变，之后观测两组样本的群
传统机器学习模型：
数据中无法直接证明教育时长与收入有因果关系体收入差异
如果您有任何问题，或者也想参与知识地图创作， √用高维相关特征对预测目标做拟合
潜在输出框架
依赖三大基本假设
对于同样特征的用户，Treatment跟结果是正交的。也就是说如果有两个人特征完全一样，那
已知果: 推断因: √ 问题：无法建模实验前后对业务目标带来的增益 T:实验变量 1 因果效应预估 Ignorability/Unconfound-
请联系小助手微信号。 e.g.用户流失了什么原因造成的
根因分析度小满 • 不同用户对于不同权益优惠券
( 的敏感程度不同
)
• 如何在控制成本的情况下，给用户搭配最适合的权益，
个体因果效应预估:
Individual Treatment
设计线上A/B 实验, 通过因果推断算法对用
户在实验前后的个体业务增量进行预估不依赖三大基本假设 edness Assumption
么无论给这两个人发万1券还是其他券，T+30的激活率都应该是一样的
达到效率最高的目标 Effect Estimation
因果推断
相关性当已知结果发生了(Y=1)，想分析引起结果的原因Xk。通过贝叶斯公在控制了U的情况下，阻断了U→X这条后门路径特征不能完全决定Treatment的分发策略，例如如果贷前只给额度三万以上的样本发万1优惠
X:全量特征 Y:预测目标 X:用户特征 Y:预测目标式，这个概率与P(Xk)这个先验概率强相关：也就是说Xk本身概率越是不是所有变量都可以拿来do? 券，那么就不能把额度三万以下的样本放到集合里面评估，因为这些样本不可能有其他优惠券
年龄
运动胆固醇高，引起Y的概率越高？如果是无法做干预的变量（例如性别），评估它的 • 需要从观测样本中分析某些变量是否与结果具有因果因果关系分析：在观测样本上进行特征空间矫正和对齐，因果关系发现 Positivity Assumption 下的表现
2 概率图框架
但这个概率是非因果的因果效应有意义吗？关系：即改变了这个变量，是否能改变业务结果？ Causal Analysis 找到一组除了需要分析的变量，其他变量
运动胆固醇
都近似的样本
参与团队
10-因果
网易数帆大数据团队 08-Treatment Effect ATE/CATE/ITE 09-因果推断算法分类按照处理Confounders的方法，Potential Outcome类算法可以分为以下几类： 11-因果推断在度小满的应用场景一：随机流量建模 12-因果推断在度小满的应用线上系统设计
Meta-Learners框架：在随机样本上建模 Neyman-Orthogonality框架：去除混淆因子
火山引擎云原生计算团队 2. Tlearner：干预变量分组建模 3. Xlearner：干预变量分组交叉建模
1. Slearner：干预变量视为一维特征 4. DoubleML：两阶段机器学习模型
假设名称解释表达式应用处理方法算法大类代表算法
隐语开源社区实验组对照组 f 实验组 f₁
实验组对照组
Features
无法处理 Meta Learning Methods S/T/X/ClassTransformation 流量划分数据收集决策&模型数据分析
假设有两个绝对一致的平行空间，对于同一个样本，在平行对照组 f₀
ITE: Individual 无法真正预估到个人 θ (X)=f(X,1)−f(X,0) 实验组对照组 Step 1: Step 2:
Treatment Effect
空间A里面施加一个Treatment T, 在平行空间B里面不施加 Y(1)−Y(0)
级别 Re-weighting Methods IPW/DR θ (X)=f_1(X,1)−f_0(X,0)
Treatment Outcome 随机试验模型迭代主流量数据中心分析平台
Treatment，那么ITE就可以通过计算Y(1)-Y(0)获得线上保留一定比例的随机流量，依据随机流量进行因果建模和 Model
τ₁ τ₀ +
>
>
online
Stratification Methods Equal Frequency/Tree Based 用于模型迭代和效果验证效果验证，支持业务决策在线变量：在线调用接口在线分析：业务指标监控
参与专家
├ θ (X)=g(X)τ _0(X)+g^− (x)τ _1(X) Representation Learning框架：在观测数据上学习因果关系
系统设计
样本对齐：消除离线变量：离线计算入库在线监控：异常情况报警

因为无法观测同一个样本在两个平行空间下的是否施加 Confounders Matching Methods IPW+KNN 5. DRNet：Multi-Valued干预建模 6. VCNet + UMNN网络留白流量
ATE: Average Treatment的差异，因此可以用两组近似的样本，通过计算常用的A/B实验就是 + 随机决策
E[Y(T=1)−Y(T=0)]
Treatment Effect 两组样本平均Outcome差异，来代替个体ITE：Y(W=1) 在预估ATE
Representation Learning DR Net/DR-CFR
张超业务决策动态决策调整
用ATE代表个体ITE会有较大偏差，CATE可以说是ATE的
Apache InLong PMC Chair，腾讯大数据InLong团队负责人
subgroup版本，通过X把整体样本划分为小组，然后将ATE Step 1: 数据中心分析平台
通过对特征矩阵X求积分得到 E[Y(T=1)│X=x]− 预估Confounders
CATE: Condition- DML DML, CausalForestDML 业务根据模型提供人群包/策略线上样本：离线落表离线分析：离线效果分析
offline
精细化运营/策略对Y的影响
al Average 现实问题的解决方案是，将整体样本划分为subgroups(e.g. E[Y(T=0)|X=x] 线上特征：离线落表实验分配：离线实验分配
屈世超 Treatment Effect Causal Trees)，这些subgroups中的用户特征近似，因此整
组合进行决策，预留实验组和对
特征回溯：支持数据回溯
Model迭代
和效果评估
照组，用于验证模型效果提升
体ATE可以通过Condition on X得到 → CATE 离线决策调整
快看漫画数据研发负责人
徐前进
腾讯数据湖研发高级工程师
陈玉兆数据中台云原生大数据

阿里云开源大数据平台技术专家
刘玉凤 5.1-架构拆解一
01-数据中台概述 02-数据中台内容体系 03-数据中台建设流程 04-数据中台架构体系 01-云原生大数据带来大数据使用和运维方式变化 02-云原生大数据功能架构图
腾讯 CSIG 高级数据科学家
云原生大数据是大数据平台新一代架构和运行形态。是一种以平台云原生化部署，计算云原生调度，存储统一负载为特三层（平台服务层、核心引擎层、资源调度层）一平台（运维管理平台）
数据采集参考大数据平台数据采集部分点，可以支持多种计算负载，计算调度更弹性，存储效能更高的大数据处理和分析平台。
李东晨定义：数据中台是基于大数据平台提供的底层平台能力、以及数仓提供的结构化数据环境，搭技术体系是构建数据中台的基础支撑，主要包括:大数据存储计算技术、数据中台工具技 1.理现状 2.立架构 3.建资产 4.用数据 5.做运营

技术中台工具
App 人资决策
应用类型
业务应用
技术体系术组件两部分。大数据存储计算包含:Hadoop、spark、Flink、Clickhouse等技术;数
建的面向业务的统一的数据应用服务微服务管理 DevOps 传统模式云原生模式
度小满数据智能应用部资深算法专家据中台技术包含:数据集成、数据资产管理、平台服务管理工具等。组织现状组织架构数据集成数据安全监控审计 5.2-架构拆解二元数据管理数据源管理数据网关服务作业开发任务调度插件化计算引擎是多场景集成的关键
SaaS PC端财务计量运维管理平台
业务现状业务架构资产萃取价值评估 Docker 业务1 业务2 业务3 业务4 业务1 业务2 业务3 业务4 n 平台服务层计算引擎可插拔化设计，灵活配置选用
通用组件租户和用户
开源组件插件化集成设计
数据现状数据标准质量评估虚拟化项目管理权限管理生态整合服务
华菁云价值：为业务提供便捷的数据应用产品能力，提升业务对数据的应用水平和应用深度
数据体系
企业数据通过各种方式汇总到数据中台，按照一定的建模方式进行加工处理，并进行体
技术现状数据质量资产排名
小程序基建营销大数据平台架构参考大数据平台架构体系部分资源独占，峰值不满足，平时有空闲资源按需调用，资源池统一调度管理集群管理
统一计算资源调度
系化的管理，形成企业的数据资产体系。场景服务
澜舟科技算法研究员 Flink 集群 Spark 集群 Kafka 集群
统一 Portal 组件管理跨云资源配额管理，跨域业务高可用
技术架构计算负载统一调度，在离线混部
云原生消息实时服务分析云原生日志兼容YARN资源负载，平滑迁移Hadoop负
应用架构 5.3-架构拆解三：数据资产管理云原生 Flink 云原生 Spark
数据中台工具
Mpp 引擎引擎搜索日志审计载
王文广数据中台与大数据平台最主要的区别是，数据中台数据能便捷的以服务化的形式支持业集群搭建耗时耗力，运维孤岛和数据孤岛
服务能力
数据模型
数据资产
客户标签业务模型标签管理核心引擎层统一引擎云原生生命周期管理
服务体系务，服务体系是通过中台的服务组件能力，把数据变成一种服务能力，让数据能够方便管理统一存储（HDFS 或对象存储）
DaaS 服务化运维1 运维1 运维1 监控报警
达观数据副总裁《知识图谱：认知智能理论与实战》作者的应用到业务中为业务带去价值。
开放共享
兼容 HDFS 语义 TOS 透明加速缓存加速数据湖管理统一存储资源负载
客户画像跨域融合 BI工具数据管理数据管理数据管理一键开通，按需部署，统一运维
中心容灾管理增强HDFS服务，适配对象存储，跨多云
技术体系数据体系服务体系运营体系 API
容灾增强
运营体系是数据中台的守护者，通过运营体系保障整个中台的健康、持续运转。运营体
蒋宏运维管理运维管理运维管理云原生大数据组件管理和发布
消息队列、数据湖，数据仓，日志服
运营体系系包含资源占用监控、数据质量监控、数据价值评估等，其目标是让中台持续健康运转资源调度层多云部署和调度统一资源池云原生 YARN 云原生 Operator 多环境管理务，存算分离统一存储，减少数据复制
狮桥集团高级风控总监《智能风控实践指南:从模型、特征到决策》作者，产生持续价值。节点节点节点

Hadoop 时序数据库
数据流向财务域用户域数据资产目录主数据管理
运维管理系统元数据管理
存储和计算能力
重度汇总层
李凯东公共云容器服务私有云开源 K8s
数据模型
数据平台支撑工具
流式数据 Mpp 流量域营销域数据标准管理系统安全管理

轻度汇总层
5.6-架构拆解六：元数据管理体系
某媒体公司大数据总监中间层
PaaS
流式计算交互计算会员域广告域数据质量管理人工智能平台 03-平台服务层：开放和插件化集成，尊重用户使用已有工作习惯
数据存储层
陈祖龙 5.4-架构拆解四：主数据管理实施步骤 5.5-架构拆解五：数据质量管理工作流程

统一元数据管理库离线计算时序计算
数据接口层
增长域内容域数据安全管理数据开发平台统一标签元数据管理
体系信息门户数据工程数据科学 04-核心引擎层：计算引擎和云原生深度融合，向自动调优方向演进
阿里巴巴企业智能高级算法专家数据资产管理
Web服务用户群采集离线文件实时文件数据库数据库时序数据 ETL调度管理 Paas资源管理
能力采集采集采集同步采集
基础数据标准门户访问业务分析师开源大数据探索分析、可视
一款基于 Web的Notebook
数据科学集成环境。
理需求画蓝图定职责 HTTP/HTTPS 产品,能够交互式数据分析。
1、制定数据标准访问层
化报表平台。
接口服务 WebService 系统架构师

1 2 3
指标数据标准 IaaS 基础存储资源计算资源网络资源非结构化虚拟化资产管理云平台
审核专家
设施 Hadoop 集群权限框架，管用于并行和分布式 Python 全局自动容灾：实现跨机房自动调度
访问控制数仓工程师
业务模型数据标准理基于 YARN 的 Hadoop 一站式元数据治理平台。
的开源项目虚拟队列：支持跨集群和机房作业和容灾
配置管理生态圈的所有数据权限。
自动调度
检核维度大类业务业务分布式数据工作流任务调度
营销系统人资系统资产系统财务系统运营系统管理系统系统，主要解决数据研发端到端开源机器学习平台资源池化：对底层k8s资源无感知资源自动优化：没有负载的时候资源
2、建立检核体系元模型管理分析应用元数据管理元数据核验
系统系统
ETL 错综复杂的依赖关系。资源混部：在离线作业共享集群利用闲置资源：利用超发和驱逐机
雷小平搭平台洗数据定标准使用可以减低到0；毫秒级的冷启动延
检核维度小类内置元模型（遵循CWM）血缘分析元数据维护一致性核验资源制，利用空闲资源时
腾讯云大数据产品中心副总经理功能层
开源工作流管理平台。只关注作业资源的额度和并行度
6 5 4 数据质量自定义元模型数据地图变更订阅属性填平率检验部署和管理 K8s 集群平滑演进：YARN作业和K8s作业引擎半自动调优：利用智能团队推引擎自动调优：混合不使用AI技术优
管理工作流程制定业务规则元模型发布关联度分析版本管理重复率检验开源大数据元数据管理和数应用自己管理容器和镜像混部荐任务配置参数，人工确认下发化使用资源，包括计算网络和内存
巴川
据治理平台。
3、制定整改规则导入导出属性值差异分析元数据检索元数据检查 5.7-架构拆解七：数据产品矩阵与业务应用
竞技世界首席数据科学家 Phase 3
接服务建体系促运用制定技术规则 Phase 1 Phase 1 Phase 3
存储发布分析
5.8-数据中台的成熟度评估
7 8 9 规则级评估数据服务的形式分为几种：BI报表/仪表盘、OLAP自定义查询/Ad-hoc（即席查询）、
李奘元数据存储
特定数据产品、数据服务化 05-核心引擎层：存算分离，统一存储，多种负载
4、制定评价机制访问层元模型存储业务技术管理操作
腾讯科技PCG技术副总经理统一管理和调度存储能力共用存算分离负载
体系级评估元数据采集
BI报表 OLAP自定义查询/Ad-hoc（即席查询）数据服务化统一数据权限，降低安全风险统一数据 Copy，减少数据卸载降低扩缩容和数据 Rebalance 时间
采集适配器使用数据中台服务的业务数量和比例
统一资源调度和复用统一数据容灾，保证高可靠要求增强对请求响应能力
数据源类别数据加工发布业务应用广度
常用的三方平台有帆灵活的自助查询数据能力。业务通用的数据产品
采集元模型配置是对数据相关服务做使用数据中台服务种类的数量
软BI、观远BI、基于HUE、Zeppelin能够实现自助查询；
业务管理 QuickBI等 API封装，支持实时查
数仓源采集周期定义底层的查询引擎可以是Impala、Presto、
（板块数据域主题域）询 AB实验平台
clickhouse、StarRocks、hive、flink等;
（离线hive/PG；实时
kafka）画像平台使用报表辅助业务决策
采集元数据合并也可以基于Impala、clickhouse、Presto
流程责任管理 DMP平台
机制（一次全量）等查询引擎做了二次封装.
（流程权限、数据权限、广告投放平台
数据对象层负责人、角色） Ad-hoc，支持使用者选择特定的筛选条件，
业务应用深度通过实时数据引擎驱动业务做实时策略优化
渠道投放数据监控平台
采集日志查看自动生成所需要的报表.
业务源个性化推荐平台等
（各类关系、非关系、采集（技术相关）
3
数据操作管理
建立智能分析引擎，驱动业务做出运营策略调整
1
实时库、非结构化）（集成、开发、质检、安全）
采集实例查看为业务的系统提供服需要针对各个业务的需求提
使用要求最低的数据需要业务方掌握一定的SQL能力，同时数据中
务接口和数据服务功炼成通用需求，并开发特定
数据存储参数
服务形式台也需要对数据有较好的治理体系，以便于业
采集实例采集能API接口，以供业数据产品系统支持这类通用
各类数据源连接协议、务使用者便捷的检索和查询数据
存储、环境、分层规范、内容查看务系统打通数据在业需求。
务系统内的灵活应用
管理和调度
时间周期等信息
云原生数据湖云原生数据仓云原生消息队列云搜索引擎
大数据平台 2
资源池1 资源池2 磁盘1 磁盘2 资源池3 磁盘3

数据仓库和大数据平台、数据中台的关联性 02-大数据平台架构体系 2.1-Lambda架构 --- 离线数仓+实时数仓 2.2-Kappa架构 --- 纯实时架构
数据中台 = 大数据平台 + 数据仓库 + 数据应用和服务离线数仓数据源 Kubernetes 集群 A Kubernetes 集群 B 对象存储（S3） Kubernetes 集群 C
可视化
开发工具
离线数据采集离线处理数据导出 BI报表数据发布
OLAP查询分析实时查询自研平台 Sugar 实时数仓可视化
数据查询监控报警业务库数据数据发布
（Impala/Presto/Clickhouse/Doris） (Hbase/Kylin/Druid/TiDB) Kettle Sqoop MySQL 实时数据采集
数据源 Hive Hive Hive Hive Hive 数据发布接口 FineBi OLAP分析工具自研平台 Sugar
注解： DataV
ODS DWD DWM DataX Oracle Flume 数据发布接口 FineBi
平台工具 SpringBoot 用户日志 DataV
01 Sqoop DWS DM 数据挖掘 Kafka Kafka Kafka Kafka Kafka
大数据平台位于最底层，是包括服务器集群、Hadoop服务体系、离线和实时计算框架等软硬件的集业务库数据 Hive DIM Druid Kylin Clickhouse
OLAP分析工具 SSM Maxwell ODS DWD DWM SpringBoot
合，是搭建数据仓库、数据中台的底层基础调度系统线性回归罗辑回归数据挖掘
DWS DM
流式计算离线批计算数据挖掘/AI （Azkaban/ DataX MapReduce HQL lmpala Spark Impala Presto Kylin MyBatis 爬虫数据 DIM Hbase + Phoenix + Redis
SSM
Airflow/ 用户日志推荐算法 FlinkCDC 线性回归罗辑回归
02
KMeans++ Doris es Presto
数据仓库是基于大数据平台的存储引擎、存储格式（Hive、Delta Lake等），基于维度建模方法建设的数据存储（Flink/Spark Streaming （Spark/MapReduce/ (SparkML/sklearn/
DolphinScheduler) SparkStrea StructuredSt MyBatis
/Storm/Beam） Hive/Beam） TensorFlow)
与计算 Storm Flink KMeans++ 推荐算法
结构化数据集合，目的是为所有类型的数据支持提供数据环境系统日志数据 Canal ming reaming
实时数仓可视化
爬虫数据
流式数据存储（Kafka）离线数据存储湖仓一体存储资源管理数据发布
（YARN）
实时数据采集 OLAP分析工具 Sugar
自研平台
03 数据中台是基于大数据平台提供的底层平台能力、以及数仓提供的结构化数据环境，搭建的面向业务的
系统日志数据 Flume 数据发布接口 DataV FineBi
统一的数据应用服务 Kafka Kafka Kafka Hive Hive Druid Kylin Clickhouse
06-云原生调度层1：两种不同的云原生化演进方式
实时采集离线采集运维工具 SpringBoot
（Sqoop/Flume/LogStash/ Maxwell ODS DWD DWM 数据挖掘
（DataX/Cannel）
04 数据采集 FileBit）埋点上报 DWS DM
在建设企业级数据环境时，一般都会搭建起大数据平台和数据仓库，而数据中台并不是必须，需要根据（Http/Https）
系统监控
FlinkCDC DIM Hbase + Phoenix + Redis
SSM
线性回归逻辑回归 2.3-湖仓一体架构 --- 流批一体
企业的业务需求来综合决策 Doris es Presto
业务数据库业务日志爬虫数据第三方数据 SparkStrea StructuredSt MyBatis
（MySQL/Mongo）（半结构化) （半结构化）（结构化/半结构化）自动化运维 Canal Storm
ming reaming
Flink KMeans++ 推荐算法 Serverless YARN，兼容 YARN 提交方式，业务平滑演进云原生 Operator
数据源
计算引擎Flink，Spark全生命周期管理，支持
YARN 和 K8s 混合调度
离线+实时数仓可视化批量作业重启策略
业务库数据数据发布原有大数据作业少量修改，平滑业务迁移
01-大数据平台概述实时数据采集 OLAP分析工具 Sugar 更精细的采集日志信息，跟踪作业运行状态
自研平台
3.3-离线调度框架选型对比 3.4-架构拆解四：数据查询
数据发布接口 FineBi
定义：支持海量数据存储，并支持实时流数据计算、离线批量计算、数据挖掘、交互式查询等用户日志 Flume
Kafka hudi hudi hudi hudi hudi
DataV
Druid Kylin Clickhouse
场景的一套基础平台设施 Maxwell ODS DWD DWM SpringBoot
数据挖掘
DWS DM
OLAP查询实时KV查询爬虫数据 SSM
Xxl-job DolphinScheduler Azkaban Airflow Oozie FlinkCDC
DIM Hbase + Phoenix + Redis
线性回归逻辑回归
Doris es Presto
SparkStrea StructuredSt MyBatis
Storm Flink KMeans++ 推荐算法
3.1-架构拆解一：数据采集一个轻量级分布式的任务解决数据处理流程中错综复杂的依赖关系为了解决Hadoop的任务通用的批量数据处理管理Hadoop作业（job）的工作流程调度
系统日志数据 Canal ming reaming
定位
调度框架依赖关系问题管理系统 Impala、Presto、 IHBase、Kylin、Druid、
Clickhosue、Doris、 Redis、MySQL
将各种形式的数据从多种存储介质中收集上来，传输存储到大数据平台的数据存储介质 StarRocks、TiDB、
支持传统的shell任务，同时支持大数据 Command、Hadoop- Python、Bash、HTTP、统一调度hadoop系统中常见的mr任务启动、
平台任务调度：MR、Spark、SQL Shell、Java、HadoopJa- Mysql等，支持Operator的 Java MR、Streaming MR、Pig、Hive、 GreenPlum、SparkSQL
任务类型支持 Java (mysql、postgresql、 va、Pig、Hive等，支持插自定义扩展。 Sqoop、Spark、Shell等
数据源端采集工具目标端 hive/sparksql)、python 件式扩展
按照数据源分类日志采集工具实时数据目标位置

是否否否
业务DB、业务日志、埋点 Flume/LogStash/File- Kafka/Pulsar/Rocket-
数据、三方数据等 Beat/Fluentd MQ/ElasticSearch/HBa-
se/MySQL 所有流定时操作都是可视化的，通过拖拽通过自定义DSL绘制DAG并通过python代码来绘制配置相关的调度任务复杂，依赖关系、时间触
可视化流程定义无，可配置任务级联触发来绘制DAG,配置数据源及资源，同时对打包上传 DAG,使用不便发、事件触发使用xml语言进行表达
数据架构
DB实时采集于第三方系统，提供api方式的操作。
按照数据类型分类
Canal/BitSail/MaxWell 离线数据目标位置 3.4-OLAP查询引擎选型对比
结构化数据（MySQL/Ora-
HDFS 任务状态、任务类型、重试次数、任务运只能看到任务状态不能直观区分任务类型任务状态、任务类型、任务运行机器、创建时
cle）、半结构化数据
（json/xml）、非结构化任务监控支持无行机器、可视化变量等关键信息一目了然间、启动时间、完成时间等。
数据（TXT、jpeg）等
DB批量采集
Sqoop/Kettle/DataX
是
自定义任务类型支持是是是是
需要java先开发具体执行器 Presto Druid Kylin Doris Clickhouse GreenPlum Impala
否否支持启动/停止/暂停/恢复/重新运行：
暂停/恢复/补数支持暂停、恢复操作支持暂停、恢复补数操作
一个 MPP 的 OLAP 系统，对多维查询分
只能先将工作流杀死再重新运行只能先将工作流杀死再重新运行 Oozie支持Web，RestApi，Java API操作
位图索引查询、编码。预聚合析提供支持，主要整合了 Google Mesa 一个开源的大规模并是一种 SQL on Hadoop 解决
3.2-架构拆解二：数据存储与计算 3.3-架构拆解三：大数据资源管理与调度支持HA 支持HA 通过DB支持HA 通过DB支持HA MPP系统，SQL 完全预聚合立方体明细动态聚合查询方案，使用 MPP 数据库技术来
高可用支持定位技术，但是只聚合最细的维度（数据模型），Apache Impala（MPP
物化视图
行数据分析引擎
调度中心HA和执行器HA 去中心化的多Master和多Worker -但Web Server存在单点故障 -但Scheduler存在单点故障通过DB支持HA on Hadoop 提高查询速度
组合，在此基础进行聚合 Query Engine) 和 Apache ORCFile (存
风险风险
数据存储数据计算储格式，编码和压缩) 的技术
支持 07-云原生调度层2：统一资源管理形成全局资源湖
资源管理调度系统 dolphinscheduler上的用户可以通过租
户和hadoop用户实现多对一或一对一的
相较于Clickhouse，Doris还能支持各种明细查询较低，单表查询性能一般，小查询会极大
离线数据存储离线计算多租户支持
YARN、Mesos
否
映射关系，这对大数据作业的调度是非常
否否否
查询延时一般低非常低主流分布式join，不仅支持大宽表模型，还高，Join在一些情况下性能不佳消耗集群资源，无法一般
HDFS、Hive、HBase Spark、Hive、
MapReduce
重要。支持星型模型和雪花模型物化视图查询延迟非常低实现高效并发查询
Oozie、Azkaban、
实时数据存储 Airflow、DolphinSched- 任务队列机制，单个机器上可调度的任务
实时计算 uler、Xxl-job 过载处理能力任务队列机制,轮询数量可以灵活配置，当任务过多时会缓存任务太多时会卡死服务器任务太多时会卡死服务器调度任务时可能出现死锁
SQL支持程度非常完善较完善非常完善较完善较完善非常完善较完善
Kafka、Pulsar
Storm、Flink、大数据集群运维在任务队列中，不会操作机器卡死
SparkStreaming 生产数据成本低中高中中中低
流批一体存储 Cloudera Manager、Ambari 是是是是
IceBerg、Delta、Hudi 集群扩展支持新注册执行器即可
调度器使用分布式调度，整体的调度能力
-只Executor水平扩展 -只Executor水平扩展是支持join 支持不够成熟，维度lookup支持支持支持有限支持支持支持
会随集群的规模线性增长，Master和
Worker支持动态上下线
数据仓库数据湖
01-数据仓库概述 01-数据湖物理存储层 02-数据湖文件格式 03-数据湖表格式-功能特点
定义：数据仓库是基于大数据平台的存储引擎、存储格式（Hive、Delta Lake等），基于维度建模方法建设的结构化数据集合，目的是为所有类型的数据支
数据湖文件格式更面向列，并使用附加功能压缩大文件。这里的主要参与者是 Apache Parquet、Apache Avro 和 Apache ORC 直接在分布式文件上提供 Merge Into、Update 和 Delete 操作。除了 SQL，有些还支持 Scala/Java 和 Python API。
持提供数据环境 DML和SQL支持
ORC。它是物理存储，实际文件分布在存储层的不同 Bucket 中。文件本身支持 split 拆分和 schema evolution。
资源池管理全局资源湖
Avro Parquet ORC

Schema Evolution 队列属性：设置资源池 Min-Max 属性 ResLake 具有资源的全局视图、全局资源池和 Quota
02-数据仓库技术选型 Table format 的一个关键特性，意味着在不破坏任何内容甚至扩大某些类型的情况下添加新列。
更强的调度策略：任务优先级调度、GANG 调度和 DRF 调度
Schema 管控
Data Storage 更好的隔离控制：限制每个 Pod 的 CPU 时间片和内存使用量
Evolution 不限机房、不限集群，以最优化资源利用率为最终的调
ACID 事务、回滚、 ACID 事务确保所有更改都成功提交或回滚。确保永远不会以不一致的状态结束。有不同的并发控制，例如保证读取和写入更灵活的资源使用方式：空闲资源利用和队列抢占
S3 GCS Azure Blob 度目标
Compression 并发控制之间的一致性。
适用于产品特点应用目标数据处理速度性能拓展适用数据类型实施难度运维难度性能优化成本 OSS COS Ceph MinIO
Decomposable 数据湖表格式会将存储在数据湖中的大数据版本化并形成多版本。可以访问该数据的任何历史版本，在意外写入或删除错
时间旅行
误的情况下回滚数据。
在复杂关联、汇总、优化的大致原理有2个： And more ...
传统数仓利用处理过程的中间 Kafka、Druid、Spark、 Spark、Presto、Trino、 Hive、 Presto、Trino、
事务处理方面能力基于Oracle、面向主题设计的，为一是数据分块存储，便 Platforms
表，分析查询速度可单表上亿，性能断崖多适用于结构化数据难度普通，软件费用+实施费用， Presto、Trino、Arrow Arrow、 Druid Spark、 Druid
（SQLServer、Oracle 强，适合数据量小、 SQLServer、MySQL 分析数据而设计相对简单于数据的存储和管理；随着时间的推移摄入的小文件会增加，但查询数千个小文件很慢，文件布局优化可以将文件碎片重新整理为更大的文件，
比原有速度提高3~5 式下跌，拓展性能差技术比较成熟成本较低文件布局优化
等关系型数据库）高可靠、数据价值密等关系型数据二是中间处理，提高数 Row column column 从而在许多方面提高性能。
倍 Row or Column
度高的应用据提供的速度。
数据架构无需在批处理和流式中区分——它们都以相同的表视图对外暴露，复杂性更低，速度更快。无论是从流还是批处
08-运维管理平台 09-用户场景和价值1：多种计算业务资源混合部署调度，提升资源利用率
Read or Write Write Read Read 统一批流处理
在传统数仓之上搭建关系数据方面有优技术角度：模型优化、每2~3TB一个节理中读取都能获取一致的数据快照。
适合结构化数据的深 MPP架构、TB级处性能可随着硬件的扩
并行数据库系统。充势，比较适合比如电难度中等，查询执行计划。业务角点，硬件配置不用太
MPP数仓度分析、复杂查询以理，支持大量运算；相比传统数仓，速度
分发挥计算机的优容呈线性增加，拥有信、银行这类数据主较成熟中等度：全量刷新改增量刷高，GP产品免费，
（以GreenPlum为例）及多变的自助分析类关系型数据库为几倍至几十倍
势，提高数据库系统非常好的可扩展性，要以结构化存储的企新，减少计算量；充分但实施优化单价较
应用、数据集市等扩展上限为几百
的整体性能业或组织利用已计算的指标高，成本中等
监控日志告警异常监测审计全链路监测业务场景在线流式 (近线) 离线训练查询分析批处理
分布式数据库系统主 Hadoop性能调优不仅需要大量的节点支 04-数据湖、数据仓库和Lakehouse的区别 05-业界进展（Databricks 2.0）-湖上建仓运行时长长期运行长期运行天级分钟小时级分钟小时级
用户场景
Hadoop架构、
要目的在于实现场地相比传统Oracle数可以基于Hadoop开涉及Hadoop本身的性持，实施人员需要专
适合海量数据存储查 HDFS、MR和实施难度高，开源组件管理服务生命周期管理集群管理容灾管理核心指标响应时间消费积压吞吐量运行时长吞吐量
Hive，支持海量运自治和数据的全局透仓，速度为几倍至几支持量高的动态扩发处理结构或非结构较难能调优，还涉及更底层业对口，同时需要对 Lakehouse是数据湖和数据仓库的组合，与数据湖相比，Lakehouse集成了计算框架和SQL查询引擎，
Hadoop数仓询、批量数据ETL、要求较高业务特点
明共享，而不要求利十倍（瓶颈阈值高于容，扩展上限为几千化数据的应用，适用的硬件、操作系统和应的非通用sql支添加了数据治理能力，支持Catalog表管理和先进的作业编排。
非结构化数据分析等算；非关系型数据 Task模型平铺 DAG DAG DAG DAG
用网络中的各个节点 MPP数仓）于互联网领域 Java虚拟机等系统的持，成本较高
库；TB或更大数据
来提高系统处理性能调优 Helm Chart 服务组件渲染集群扩缩容容灾设置
量，并发多的场景优先级高高中/低中/低中/低
Databricks 依托Delta Lake 提供湖上建仓的能力
Lakehouse Platform Spark作为统一引擎提供批流一体处理能力 Operator 服务发布管理
集群信息统计容灾切换
Lakehouse 提供各数据处理场景化需求
高效资源切换利用率提升在离线统一
Data Data Data Data
开放式存储/格式
仓
容器日志采集多环境管理
客户价值
Warehousing Engineering Streaming Science and ML

Data Lake Spark Platform 服务状态管理
03-数据仓库架构体系 OLAP/HTAP数仓（Databricks、Amazon EMR）

Unity Catalog Web Shell 降低 Overhead，带来单机 2% 在离线资源全量共池，Quota
Delta、Tabular/Iceberg、Hudi 数万核离线资源分钟级出让
Fine-grained governance for data and AI 数据仓库数据工程数据科学 …… 场景化构建利用率提升管控、调度、运行、机器运维统一
SQL Query Engine
Lakehouse Streaming
（Starbust/Presto/Trino、Hive、云原生计算运维增强
Warehouse
Parquet、ORC、Avro Delta Lake
？
Dremio、 Databricks Photon） ……
Data reliability and performance Spark Photon MLFlow Redash 批流一体引擎
数据实时精细化
湖流
DS/ML Platforms
数仓应用 BI报表 Dashboard OLAP分析
查询服务运营系统
…… S3、GCS、ABS、HDFS （Pandas、Dask、Anyscale/Ray、 Unity Catalog 统一元数据
PyTorch、……） Cloud Delta Lake
Hadoop数据湖 Streaming All structured and unstructured data
Processing Delta Lake 数据湖格式
Microsoft 10-用户场景和价值2：多云部署和调度，实现多云成本最优复用，跨云队列容灾
Azure
ADLS S3 GCS 数据湖存储
分层建模
元数据管理
DM/APP（数据集市/数据应用层）
数据血缘管理
DWS（聚合数据层）提供全局虚拟队列
数据数仓 06-Lakehouse - 演进路线 07-Lakehouse-设计原则 08-DB 数据入仓/湖
仓库管理
DWD（明细数据层）权限管理
虚拟队列，对应不同机房和集群的多个队列
3种主流开源技术 Unifed Data Infrastructure (2.0) 自动分发到合适的机房/集群/队列
Databricks
弹性高可用
Tabular 数据湖
资源管理 ICEBERG Sources
Ingestion
Storage
Query and
Transformation
Analysis and
一体化架构加强的（１）
CDC
业务建模数据治理
业务模型业务模型业务模型 Onehouse
and Transport Processing Output
MySQL
2019 Delta Lake

2017 Iceberg T+1 数据新鲜度提升到 5 分钟。
尽量少的
存算分离用户可选择 cdc-connector 直接将 DB 数据
2016 Hudi 数据冗余
导入数据湖，不依赖任何第三方 service；
2021年Lakehouse技术首次进入Gartner成熟度曲线功能性非功能性
业务数据库（２）数据湖
异构数据源 MySQL/MongoDB
业务日志 CRM/ERP 埋点上报数据三方数据 …… 设计要素设计要素也可消费消息队列（Kafka）中的数据将数据
入湖。
Flink CDC
MySQL
事务和数据
DataLake 高并发支持
一致性
（３）
数据湖
全数据类型运维可观测 CDC
MySQL
高开放性 DTS
04-数仓建设流程
业务过程和指标梳理 - 逻辑分层建模 - 物理建模应用按多因子综合选择流量分配
09-近实时OLAP 10-近实时 ETL 11-构建湖仓一体考虑多种负载因素，机房负责情况，响应时间，成本等

自动分发到合适的机房/集群/队列
1.调研业务过程 2.建立业务指标体系 3.划分数据域 4.定义维度与总线矩阵 5.数仓分层 6.数据建模 7.数据治理

分钟级数据新鲜度，开放的查询引擎全链路增量ETL，中间表可查，可增量导出到 service 存储。
数据源
根据业务需根据主要业务根据主要业务明确业务过程与定义清晰的数依据建模规范持续提升数据
求，梳理业务过程，梳理必过程，抽象提哪些维度相关，仓分层规范：和总线矩阵，的准确性、一第三方数据
API服务
集市结果库
的主要过程，须的指标体炼出一个个的并定义每个数据一般将数仓分实现对数据分致性，提升可 MySQL Pulsar
快照查询流任务
梳理用户核心系、维度和属业务主题，对域下的业务过程为层建模用性 ODS DWD DWS
数据湖
路径性数据做好归类和维度 ODS/DWD/ Oracle Kafka
贴源层汇总层集市层
批任务
JOIN AGG 增量查询
DWS/D- 数据湖数据湖数据湖 ODS DWS ADS
自助取数
M/APP多层 Redis ……
分析服务
数据集成
01-数据集成概念 02-数据集成应用场景 03-数据集成企业案例 04-数据集成技术——数据采集 05-数据集成技术——数据采集 06-数据集成技术——数据建模
数据集成：数据集成是指将来自不同来源的数据合并到一个统一视图中的过程，该视图应用在下游数据分析和数据应用
全链路数据平台企业云原生数据湖构建
实现企业各应用系统之间共享的数据，强调单一数据视图，通过整合多个数据源，形成主数据的单文件采集数据库同步国外：Dtb labs（已成默认技术选择）国内：QuickTable 快表格
主数据应用一视图，保证单一视图的准确性、一致性以及完整性，从而提供数据质量。一般统一业务实体的定离线数仓与数据同步多种同步方式，多种数据源快速搭建
数据上报
义，简化改进业务流程并提升业务的响应速度。离线数据开发与调度云数据湖方案架构特点方案 DataX Canal Sqoop Kettle Debezium 将数据处理逻辑拆分在多个SQL文件中使用电子表格的界面
元数据、数据资产管理与治理实时数据秒级同步iceberg，完成冷使用测试来提前发现数据质量问题无代码
由source，channel、sink组成。支持一个Agent中有多个不同类型的channel和sink，采集机制查询日志查询查询日志
热数据计算 Apache Flume 生成文档&数据的依赖关系图
大数据快速迁移云下数据至云上存储，解决业务数据上云中遇到的技术、成本、人力等问题。上云迁移过多个Agent可以组成调用链可以选择把Source的数据分发给不同的目的地
迁移上云程支持全量、增量方式，具备数据源类型丰富、简单易用、安全可靠、轻量灵活等优势。
数据分发数据库同步增量同步 × ×
某小型互联网客户：构建数据平台某传统企业客户：构建数据湖 LogStash 包含input、Filter、output组成灵活性高，支持很多插件
断点续传 × × ×
方案架构
方案架构
基于大数据云服务的弹性和按需能力，通过快速连接云下自建/云上数据源进行采集同步、清洗转包含Input、Parser、 Output、

数据入仓入湖 Fluentd fluentd设计简洁，pipeline内数据传递可靠性高。
换、开发分析、治理及建模，帮助用户轻松快速完成数据入仓入湖和业务数据分析，有效实现数据 match、Formatter、Buffer
/交互分析全量同步 ×
数据清洗价值最大化。
Filebeta prospector和 harvesters 没有任何依赖，占用资源极少，可靠性高
全量+增量 × × ×
应用场景
应用场景
数据集成提供了开放的技术能力，可与统一调度、元数据管理等技术/产品服务深度融合，为企业个性化推荐
数据工程阿里云日志服务的生产者，采用C++语言实现，对稳定性、资源控制、
数据平台提供可靠技术底座和核心能力支撑，帮助企业搭建先进灵活的平台架构以更好应对快速变用户洞察信息采集日志分析 logtail
为阿里公有云用户提供日志收集服务管理等下过很大的功夫，性能良好生态
数据集成价值：消除企业信息孤岛，实现数据集中共享，进而实现数据治理和数据应用的重要手段。与科学平台构建实时数据入湖业务预测
化、日益增长的业务数据需求商品/订单/库存数仓数据开发
07-数据集成技术——消息队列 08-数据集成市场 09-数据集成商业模式 10-数据集成挑战 11-数据集成趋势
多云和跨云数据源
比较项 TubeMQ Kafka Pulsar Fivetran Airbyte dbt Labs
国内市场云原生技术和云市场不断成熟，多云、跨云、多集群部署已经成为常态
数据时延非常低，10ms 比较低，250ms 非常低，10ms
阿里云 Data Integration、腾讯云 DataInLong、华为云 ROMA、DataPipeline
14天的免费试用作为开源产品，企业客户可以自己安装部署 dbt CLI（开源）：本地运行的命令行程序（成本和实效数据链路管理数据质量
按量计费：以从数据源转移到目标数据的行数云上版本：采用credit方式，按照同步所用开源）
TPS 高，14W+/s 一般，10W+/s 高，14W+/s (高性能场景)
作为计价的依据。每一个数据等级上又定价分时间进行计费——其竞争策略之一，不做用 dbt Cloud（非开源）：SaaS云版本，个人从 ETL 向 ELT 发展
过滤消费支持服务端过滤和客户端过滤客户端过滤客户端过滤为5个等级，在安全、扩展性、还有支持的待遇量上的限制客户体验更好。版本免费，团队版本的定价为50美金一个开 ETL：每条ETL管道都是一个复杂的、定制的解决方案，敏捷性低，维护成本高

无，通过RAID10磁盘备份 + 国外市场上都有提升发者席位。海量数据数据源兼容异构数据源 ETL：数据建模从一次性操作变得越来越即时和高频，转换的步骤被移到最后
数据副本同步策略多机异步备份多机异步备份(高性能场景)
低时延消费解决多目标存储任务隔离、容错丰富的数据格式
一般（单机磁盘故障未消费数据一般（主机磁盘故障未同步的 Google Data Fusion、Google Data Fusion、AWS Glue、Fivetran、Azure Data- 批流一体的数据集成
数据可靠性
存在丢失风险）数据存在丢失风险）
高 Factory、DBT、Airbyte 时效性要求数据对账多阶段数据链路
使用同一套 API、同一套开发范式统一离线与实时数据集成，简化数据链路，
高，已线上运营近7年，每天33万亿的
一般，性能随Topic数增多出现不稳定一般，高压下存在性能下降、降低系统/人力成本
系统稳定性数据量，已做到单集群400台Broker
情况，没有超大数据运营规模场景服务受阻等情况开源
数据采集与治理
的线上运营规模行业百家争鸣
一般，热备存储，中心化管理，一般，基于zk配置管理，一般，基于zk配置管理，
配置可管理性 Apache InLong、Apache Seatunnal、Apache Gobblin、DataX、Flink CDC、云厂商专注生态方案中心化的自治能力
API或页面操作 API或页面操作 API或页面操作
FlinkX （chunjun）
开源项目齐头并进更加标准化、一体化，提供更多数据工具降低使用门槛
易用性一般，只提供Java和C++的Lib 高，有很多配套插件使用高，有很多配套插件使用
数据治理
01-数据治理解决的问题 02-数据治理体系 03-数据治理工具 – 整体方案 04-数据治理工具 – 开发与治理一体化 05-数据治理流程 – 规范建模 06-数据治理流程 – 元数据资产治理
数据开发与治理一体化强调“先设计、后开发、先标准、后建模”，通过指标和数据标准的定义实现“规范即设计，设计即开发，开发即治设计阶段，进行标准化的规范建模保证数据模型的规范化、提高数据资产化水平、提升数据质量。
在元数据管理中将业务元数据、技术元数据、管理元数据补充完整，然后根据元数据的治理发布流程将元数据发布上线。同时配合
理”的开发治理一体化理念。
数据资产中心的资产健康诊断以及基于ROI的数据资产精细化管理，对数据资产的健康情况和使用情况进行实时的观察，识别并了
产品工具层面，将整个数据治理流程贯穿各个子产品，沉淀一套全链路的数据治理工具体系。解有价值的资产。
01 数据开发与数据治理脱节 02 烟囱式的数据开发
管理用户视角数据消费者资产责任人项目负责人治理负责人开发治理一体化大数据健康评估与优化
数据安全等级稽核规则定义
稽核规则推荐
（个人视角）（管理者视角）（治理视角）表、字段命名、分类、数据字段类型映射规范业务元数据指标域金融产品条线
安全中心数据质量
业务指标定义格式规范（快速建表）
根据数据治理的需求场景、结 “先设计” “再开发” 数据治理工作台财富域财富与机构条线数据治理管理员

数据资产地图国家标准模型设计中心
制度数据处理规范
资管域模型设计业务元数据
03 04 治理过程缺少可量化的合数据治理产品工具，将流程（字段映射、按格式处理）

风险管理总部
风险管理
不同平台缺少统一的管控元数据管理数据资产目录数据地图我的数据行业标准采集注册发布展示
监控建立在工具的基础上，制度建
（注册/采集/变更等）
数据标准模型设计数据传输数据开发成本治理规范治理质量治理数据调研数据标准指标设计模型设计数据传输自助分析离线开发数据服务
数据元/标准字典原子指标/派生指标/复合指标
市场营销数据开发技术元数据元数据新建态草稿态发布态数据资产展示
数据健康资金清算交易风控条线数据治理360
流程元数据中心（仓内/仓外）评估体系现状需求分析元模型、词根业务指标维度数据汇集服务开发企业标准 …
立在流程的基础上，管理建立业务调研数据元、数据字典原子指标事实数据集成服务编排数据质量管理元数据
信息披露数据资产费用数据资产健康分
分层、流程、主题、资源分类衍生指标模型关系服务治理金融市场部
在制度的基础上，形成全链路指标管理主数据等… 数据质量数据安全等安全治理价值治理专题治理… 设计引入或设计复合指标
监管报送
业务部门核心数据
05 对数据的成本和价值缺少
06
流程引擎企业组织架构消息通知数据安全
数据治理缺少闭环方法论、工具治理流程和消息通知
… ...
精细化的管理的数据治理体系。需求阶段设计阶段开发阶段交付阶段
流程设计流程审批 …
07-数据治理流程 – 湖外数据治理 08-数据治理流程 – 湖内数据治理 09-数据治理制度 – 开发规范制度 10-数据治理制度 – 指标管理制度 11-数据治理制度 – 数据质量管理制度 12-数据治理管理 – 组织架构 13-数据治理管理 – 运营与沉淀
数据质量管理制度包括事前规则定义、事中质量监控、事后量化分析和问题追溯。数据治理不是一个临时性要做的工作，从数据生命周期的全过程到治理体系的健康运行，需要一个长效的治理机制来保证体系化的数
开发规范制度为企业内部应用团队、业务团队、中台团队提供设计开发依据。指标管理制度明确指标模版，定义指标名称、类型、口径等录入规范。在管理层面，建立了专门的部门来负责数据治理工作，完善组织架构、权责分担机制。
据治理。
湖内的数据治理流程
湖外的数据治理流程
数据产品数据治理管理员数据治理专员业务人员 XX数仓设计开发规范

数据治理专员（业务/技术部门）配套专题优化工具：推荐下线、
IT中台运维团队数据治理管理员业务人员事前需求和规则定义事中质量监控事后量化分析和问题追溯信息技术治理委员会
（业务/技术部门） XX物流：指标管理制度解决手段
生命周期管理、任务优化等
新建注册元数据评估数据接入要求(表范围、存储、时效、频次、资源要
登记数据源提交数据治理需求数据汇聚准备求)数据目录规划，人员职责确认、权限要求，数据链路打实体唯一性：证件类型+证件号码+姓名，表示同一客户
通(数据库类型、权限、网络开通)
等值一致性：身份证号码倒数第2位（奇数是男偶数是女）数据治理管理工作组
是否需要补全
创立元数据采集任务
否业务/技术信息是元数据梳理:按照模板梳理元数据(数据管理组提供) 制度保障体系化管理数据治理团队
元数据梳理
采集的表注册为元数据发起元数据发起元数据模版规则采样结果
梳理需求和规范定义
接收治理工单
发布申请治理申请建模:按照中台模型设计要求配置主题域、新建表。包括表
接收发布申请工单数据治理管理员数据治理专员
质量监控任务
数据建模分层分域要求、表命名、字段命名要求。(数据管理组提供
资产治理闭环
质量报告
问题追踪
问题改进
绩效考核
是否需要治理否规范)
内容支持自定义
否是完善元数据信息
是否通过数据传输:数据源配置、目标表配置、监控规则配置、作业自定义规则期望范围
接收治理工单数据调度
发起发布申请发起治理申请上线(源端团队负责人审批)
提交完成治理工单业务治理专员技术治理专员多维度的资产健康评估体系，持续运营持续有抓手：至上而下推送公
完善元数据信息是涵盖成本、标准、质量、安全发现问题司/项目/个人资产账单、治理红
运营监控
指标基本信息指标口径定义指标血缘查询和价值
持续沉淀
黑榜、资产分与任务优先级&
运营监控:源端运维人员负责日常监控标准推荐规则异常数据
发布至资产门户浏览搜索资产预算申请挂钩
提交完成治理工单
指标名称/指标类型/ 计算指标依赖基础指标等，
发布至资产门户浏览搜索资产技术口径/业务口径等证券部风险管理总部合规管理部 …… 金融产品条线 IT部持续运营：数据治理大赛、业
发现问题，发起治理申请模型开放模型开放:使用方发起模型使用申请，由源端团队模型负责指标域/责任部门等指标树的管理精度有效性：证券市值精度取值范围应等于2
务线专项治理活动
人审批，数据中心赋权标志取值有效性：退市标志的取值只能是1或0
发现问题，发起治理申请

2022数据智能知识地图

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

2022数据智能知识地图

Uploaded by

Copyright:

Available Formats

智能风控

01-智能风控是一套包含智能风控方法、智能算法和工具的完整体系 02-智能风控详细体系架构 03-智能风控平台交互逻辑 04-数据层详解 05-特征画像层详解 06-模型算法层详解 07-决策应用层详解 08-未来发展趋势展望

01-用户画像定义 02-用户画像（产品）八要素 03-用户画像（用户）类型 04-用户画像（用户）常用维度 05-用户画像（用户）周期 06-用户画像（用户）开发流程 07-用户画像（用户）开发流程

01 P代表基本性 (Primary) 02 E代表同理性 (Empathy)

01-排序技术 02-用户理解 03-召回技术 04-召回技术

场景信息 特征组合 属性、标签、热度、内容等维度

05-排序技术 06-排序技术 07-其他技术方向 08-评估

模型目标 模型表达 特征&信息扩充

用一套机制（预训练+微调）解决所有语言、主要场景的NLP任务，解决了原有的碎片化问题，大大提升开发效率。标志着NLP进入工业化实施阶段。 知识图谱增强 基于语言学知识增强 特定数据增强

针对不同任务 任务应用 文本摘要 智能对话 内容生成 认知推理 融合实体信息的表示

Exploring the Limits of

海量文本数据 超大规模算力 模型训练

语言模型 2014年 2017年 2019年 2020年 language of

训练目标 自监督 自回归 额外训练模式

Trm Trm ....

Trm Trm .... Trm 05- 训练优化让模型更高效地学习知识 06-多样化的应用场景

E₁ E₂ .... Eₙ INPUT Je suis etudiant 语义相似度（ SBERT ）

Encoder(BERT-Style) Decoder(GPT-Style) Encoder-Decoder(T5/BART-Style) 训练加速策略，分布式大批次训练

Original Corrupted Restored Input

更大的模型和更多的数据 更高效的预训练方法 知识增强的预训练模型 小样本学习及统一微调 Original

Model Size 10³ Predicted

DistilBERT (dev set) GPT

01-知识图谱 02-知识图谱模式 03-实体抽取 04-关系抽取 05-事件抽取

模式设计与管理 原则 方法论 工程模型

知识推理 推荐系统 最大熵 复杂，通用性比较强

JanusGraph Neo4j Dgraph NebulaGraph 07-知识计算 08-知识推理 09-智能问答 10-认知推荐系统

一致性协议 Paxos等 无 RAFT RAFT 谱共通的智能问答应

分区策略 随机分区，支持显式指定分区策略 不支持分区 自动分区 静态分区

大数据平台集成 Spark、Hadoop、Giraph Spark 不支持 Spark、Flink

客户端语言 Java、Python、C#、Go、Ruby Java、Python、Go等 Java、Go、Python、等 Python、Java等

01-隐私计算发展历程 02-隐私计算知识体系 03-隐私计算技术对比 04-通用隐私计算框架

2016 2009 2001 1987 1982 隐私计算安全攻防: 系统攻防 隐私计算安全攻防:算法攻防

计算性能 百万/千万/亿级规模(带宽依赖) 千万/亿级规模(带宽依赖) 支持大规模，性能损失小 千万/亿级规模(带宽依赖) 明密文 密码/TEE/硬件/AI开放合作

数据参与方 数据提供方增多后性能有所下降，适用5方以下 数据提供方增多后性能有所下降，垂直场景适用10方以下 数据提供方增多后不会有明显性能下降 数据提供方增多后不会有明显性能下降 共建密文计算能力和

国内发布的《隐私计算研究范畴及发 姚期智院士提出“百万富翁”问题 设备 设备 设备 设备 解释器 执行环境 隐私

信任根 无硬件信任根，国密化方案较为可控 无硬件信任根，国密化方案较为可控 硬件信任根，国产化硬件成熟度待市场验证 无硬件信任根，国密化方案较为可控

行业案例 资源管理 数据管理 计算管理 网络管理

营销应用 信用风控应用 安全风控应用 保险应用 医疗应用 政务

联合营销 联合风控 联合风控 联合风控 联合诊断 一网通办

服务某医院搭建运营管理数据融合平台， 浦发银行通过多方数据的安全协同联合风 隐私计算金融应用调研报告 ITU IEEE

01-AB实验 02-实验流程概述 03-实验核心原理与要素 04-实验方案设计 05-实验分析

实验组 对照组 实验控制参数

AB实验中统计学知识 方差计算 指标选择

AB实验平台 关键参数 数据观测 非参数检验

06-实验中统计学拓扑图 07-实验决策流程 08-实验平台讯线索评级标杆项目介绍腾讯线索评级标杆项目介绍 09-实验局限、前沿、相关技术

均值、方差 概率密度函数 样本均值、方差、置信水平

实验创建 实验标签 哈希函数：murmur、MD5、 指标配置 指标分级

包括但不限于知识地图、深度访谈、直播、课程 增加样本容量n 比率类 SHA、JDB...

在观测样本上，由于混淆因子(confounder)的存在，使得样本呈现违背常识现象 机器学习 因果推断 领域 存在问题 问题类型 解决方法 假设名称 解释

Stratiﬁcation Methods Equal Frequency/Tree Based 用于模型迭代和效果验证 效果验证，支持业务决策 在线变量：在线调用接口 在线分析：业务指标监控

样本对齐：消除 离线变量：离线计算入库 在线监控：异常情况报警

陈玉兆 数据中台 云原生大数据

狮桥集团高级风控总监 《智能风控实践指南:从模型、特征到决策》作者 ，产生持续价值。 节点 节点 节点

流式数据 Mpp 流量域 营销域 数据标准管理 系统安全管理

陈祖龙 5.4-架构拆解四：主数据管理实施步骤 5.5-架构拆解五：数据质量管理工作流程

接口服务 WebService 系统架构师

资源池1 资源池2 磁盘1 磁盘2 资源池3 磁盘3

按照数据源分类 日志采集工具 实时数据目标位置

01-数据仓库概述 01-数据湖物理存储层 02-数据湖文件格式 03-数据湖表格式-功能特点

Avro Parquet ORC

Warehousing Engineering Streaming Science and ML

03-数据仓库架构体系 OLAP/HTAP数仓 （Databricks、Amazon EMR）

2019 Delta Lake

业务过程和指标梳理 - 逻辑分层建模 - 物理建模 应用按多因子综合选择流量分配

场景信息特征组合属性、标签、热度、内容等维度

模型目标模型表达特征&信息扩充

用一套机制（预训练+微调）解决所有语言、主要场景的NLP任务，解决了原有的碎片化问题，大大提升开发效率。标志着NLP进入工业化实施阶段。知识图谱增强基于语言学知识增强特定数据增强

针对不同任务任务应用文本摘要智能对话内容生成认知推理融合实体信息的表示

海量文本数据超大规模算力模型训练

训练目标自监督自回归额外训练模式

更大的模型和更多的数据更高效的预训练方法知识增强的预训练模型小样本学习及统一微调 Original

模式设计与管理原则方法论工程模型

知识推理推荐系统最大熵复杂，通用性比较强

一致性协议 Paxos等无 RAFT RAFT 谱共通的智能问答应

分区策略随机分区，支持显式指定分区策略不支持分区自动分区静态分区

2016 2009 2001 1987 1982 隐私计算安全攻防: 系统攻防隐私计算安全攻防:算法攻防

计算性能百万/千万/亿级规模(带宽依赖) 千万/亿级规模(带宽依赖) 支持大规模，性能损失小千万/亿级规模(带宽依赖) 明密文密码/TEE/硬件/AI开放合作

数据参与方数据提供方增多后性能有所下降，适用5方以下数据提供方增多后性能有所下降，垂直场景适用10方以下数据提供方增多后不会有明显性能下降数据提供方增多后不会有明显性能下降共建密文计算能力和

国内发布的《隐私计算研究范畴及发姚期智院士提出“百万富翁”问题设备设备设备设备解释器执行环境隐私

信任根无硬件信任根，国密化方案较为可控无硬件信任根，国密化方案较为可控硬件信任根，国产化硬件成熟度待市场验证无硬件信任根，国密化方案较为可控

行业案例资源管理数据管理计算管理网络管理

营销应用信用风控应用安全风控应用保险应用医疗应用政务

联合营销联合风控联合风控联合风控联合诊断一网通办

服务某医院搭建运营管理数据融合平台，浦发银行通过多方数据的安全协同联合风隐私计算金融应用调研报告 ITU IEEE

实验组对照组实验控制参数

AB实验中统计学知识方差计算指标选择

AB实验平台关键参数数据观测非参数检验

均值、方差概率密度函数样本均值、方差、置信水平

实验创建实验标签哈希函数：murmur、MD5、指标配置指标分级

包括但不限于知识地图、深度访谈、直播、课程增加样本容量n 比率类 SHA、JDB...

在观测样本上，由于混淆因子(confounder)的存在，使得样本呈现违背常识现象机器学习因果推断领域存在问题问题类型解决方法假设名称解释

Stratiﬁcation Methods Equal Frequency/Tree Based 用于模型迭代和效果验证效果验证，支持业务决策在线变量：在线调用接口在线分析：业务指标监控

样本对齐：消除离线变量：离线计算入库在线监控：异常情况报警

陈玉兆数据中台云原生大数据

狮桥集团高级风控总监《智能风控实践指南:从模型、特征到决策》作者，产生持续价值。节点节点节点

流式数据 Mpp 流量域营销域数据标准管理系统安全管理

按照数据源分类日志采集工具实时数据目标位置

03-数据仓库架构体系 OLAP/HTAP数仓（Databricks、Amazon EMR）

业务过程和指标梳理 - 逻辑分层建模 - 物理建模应用按多因子综合选择流量分配

09-近实时OLAP 10-近实时 ETL 11-构建湖仓一体考虑多种负载因素，机房负责情况，响应时间，成本等

基于大数据云服务的弹性和按需能力，通过快速连接云下自建/云上数据源进行采集同步、清洗转包含Input、Parser、 Output、

根据数据治理的需求场景、结 “先设计” “再开发” 数据治理工作台财富域财富与机构条线数据治理管理员

03 04 治理过程缺少可量化的合数据治理产品工具，将流程（字段映射、按格式处理）

数据产品数据治理管理员数据治理专员业务人员 XX数仓设计开发规范