Professional Documents
Culture Documents
2022数据智能知识地图
2022数据智能知识地图
源数据分析 中间数据 特征设计 欺诈风险 信用风险 数据预处理 EDA 特征选择 集成算法 准入决策 欺诈拦截 风险点识别 样本设计 规则生成 规则算法
风险点识别
准入决策 欺诈拦截 样本设计 规则生成 规则算法 基础数据 交易数据 数据采集 数据校验 数据清洗 实时计算 身份特征 交易特征 NLP特征
风险识别和规避
决策引擎 模型平台
和清洗 模型平台 决策引擎
目标:风控效果与效率 策略层 决策引擎 数据平台
构造 生成
特征平台
营销风险 内容风险 模型训练 模型评估 模型监控 深度学习 营销风险 内容风险 策略评估 A/B试验 决策监控 最优化算法
营销风险 内容风险 策略评估 A/B试验 决策监控 最优化算法 数据存储 数据缓存 数据监控 离线计算
关系数据 三方数据 关系特征 融合特征 特征评估 特征回溯 特征监控 图特征
规则策略部署、A/B试验、 模型结果 模型构建、模型部署、
决策流程执行 模型计算
模型内容
模型算法
策略内容
决策算法
应用:业务流程各个环节
数据类型
数据处理
欺诈风险 信用风险 数据预处理 EDA 特征选择 集成算法 身份信息 SDK数据 交易记录 社交数据 营销评分 反欺诈评分 贷中行为评分 决策树 XGBoost 评分卡 欺诈识别 准入拦截 贷中风险
实时计算 流式计算
模型层 决策树 异常点检测
特征内容
特征算法
模型平台 性别/年龄 额度使用占比 ID关联特征
RFM聚合方法 时序特征方法 贷后催收评分 申请信用评分 作弊风险评分 随机森林 LightGBM SVM 作弊风险 营销风险 贷后风险
营销风险 内容风险 模型训练 模型评估 模型监控 深度学习 学历信息 设备指纹 还款记录 多头数据
孤立森林 最优化算法
策略应用
离线计算 批量计算 居住区域 最大逾期天数 收入指数
模型特征 App行为 授信记录 黑灰名单 征信信息 NLP特征方法 图特征方法 流失预警分 内容风险评分 神经网络 图神经网络 K-Means 内容风险 运营风险
智能
借款次数 二度联系人数量 消费能力 补充自动识别不足
源数据分析 中间数据 特征设计
智能风控方法论:模型 智能算法:机器学习、 身份特征 交易特征 NLP特征 规则特征 机器学习模型
人工风控
和清洗 构造 生成
特征层 特征平台 数据处理步骤 数据采集 数据校验 数据清洗 数据存储 标准输出 数据监控 模型建立 样本定义 模型架构 数据准备 模型训练 风险点
搭建、数据挖掘、策略 深度学习、关系网络 问题定义 特征选择 模型监控 策略建立流程 样本设计 规则生成
风控
源数据分析 中间数据 特征设计 规则评估 试验设计 效果监控
关系特征 融合特征 特征挖掘流程 特征评估 特征回溯 特征监控 流程 及划分 设计 与EDA 与评估 识别
特征评估 特征回溯 特征监控 图特征 和清洗 构造 和生成
搭建
数据平台
数据平台 特征画像挖掘 专家
数据平台 特征平台 实现外部数据接入标准化
特征平台
特征平台 特征配置和生成 模型平台 决策引擎
规则编写和执行
替代大部分人工识别
数据采集 提供统一的内部数据服务接口服务 模型平台 模型训练和调优 决策引擎 执行流配置和管理
基础数据 交易数据 数据校验 数据清洗 实时计算
数据层 数据平台 数据接入、数据存储、 特征构建、特征部署、 保证数据规范存储和顺畅流转 特征实时计算/批量计算 模型推理计算和存储 分流实验设计和执行
工程技术实现:自动化架构和工具平台 关系数据 三方数据 数据存储 数据缓存 数据监控 离线计算 数据查询 基础数据 特征计算 外部数据
接入模块
数据管理
服务模块
数据校验
模块 保证数据质量,支持数据校验和监控 特征回溯管理、特征存储 模型任务管理 审批权限管理 内部数据 三方数据
特征挖掘 特征计算 特征管理 特征监控服务 自动建模 模型引擎 模型管理 规则集配置 决策流配置 审批管理
模型效果和监控 策略监控和预警
关键内容 流程步骤 算法方法 工具平台
用户画像
推荐系统
数据应用
模型 冷启动策略
显式 Trigger-Selection(U2X)
用户召回排序用的Trigger选择,
意图推断(U2Intent) 隐式
单/多模态表征 传统召回 知识召回
购买力预测
召回池
理解
可以是物料、类目等 类目、品牌、属性等偏好预测
适配策略 价格等 短/长/超长行为表征 热门召回 协同过滤(1) 内容
标签抽取(U2Tag)
召回 粗排 精排 重排 通过NLP等进行标签挖掘
算法举例:MUVCOG
商品表达 Item 1 全局热门 UserCF 基于物品的属性 √ 兴趣实体
多样性 用户生命周期理解
分类目/标签热门 基于U-I共线关系得到 通过图谱基于物品的其他关联信息
√ 兴趣标签
日志 一致性 端侧
新颖性
生命周期行为表征
商品特征 Item 2
分人群(性别、年龄、职业等)热门
ItemCF
物品内容标签
alibaba 全链路 准实时 群体理解(U2U) 通过用户行为理解,对整个用户浏览/购 √ 基于路径
高性能 算法举例: 流行性 通过聚类、looklike等群体理解 买生命周期进行理解,围绕整个用户行 协同过滤(2) √ 基于逻辑
EdgeRec 疲劳度控制
为周期建模用户周期内意图感知&偏好 单场景/全链路行为表征 用户表达 .... SVD
业务 算法法举例:RALM
传统 知识
√ 基于语义
特征 模型 分页&曝光过滤等 推荐商品 Swing
目标 匹配&检索 Item k
列表 行为日志 Slim&gSlim
离线 近实时 准实时 用户 行为 生命
E&E策略 T购买力与消费等级 偏好 周期 状态预测 流失预测 Adamic-Adar
召回 召回
价值 模式 周期
洞察
离线训练 在线预测 在线
需求强度 关系 敏感度 意图推理
数据 离线
表示 匹配
用户信息 特征工程 用户特征
LTV等长期价值 行为序列模式 时间序列模式 表示召回 匹配召回
客户端实时 属性、行为、社交等维度 KV 存储
归一化
数据处理
商品向量
相似矩阵
弱个性化
商品信息 匹配得分
召回 召回
离散化 商品特征
U相关
流处理平台 召 动态检索 TDM
非线性变换 商品特征 DR
Blink/Flink/Porsche 匹配层
数据
数据处理 ID类特征编码 特征存储 年龄、职业、性别等 点击、收藏、点赞等 点击时间、天气、季节等 位置、页面类型等
(BOW/CNN/RNN) (BOW/CNN/RNN)
√ DeepWalk √ TransE √ GCN
ID类特征向量化 场景&端特征 用户特征 型 输入层 输入层 √ Node2Vec √ KGAT √ GraphSage
端信息
数值类特征 端、时空、页面等维度 人群标签
亲子、情侣等
搜索类特征
搜索词、时间等
空间类特征
LBS轨迹、城市等
端相关特征
客户端、类型等 user item
√ EGES √ RippleNet 模型 索引
全面 实时 双塔模型(DSSM) Graph-base模型 用户兴趣 最优索引
其他 其他特征 多通道召回引擎
常住地、购买力等 类目、营销、品牌等 行为日志 显式行为建模 隐式行为建模 多兴趣表征 超长行为建模
GRU4Rec SDM XDM MIND LimaRec NCF
工程通用模式 召回技术四大类 DUPN
BERT4Rec
SASNet ComiRec
SASNet(fliggy) 更复杂的匹配函数,兼顾全量候选集大规模召回时效性
离线 在线 端计算
初代 二代 三代 四代 未来
整体指标
全局热门 DropoutNet metric-based meta epsilon-greedy 转化类指标 推荐质量类指标 消费满意度指标
分标签的热门 MetaEmbedding learning 汤普森采样
面临问题: 特征交叉 性能考虑 SSB问题
MLR XGBOOST Deep 基于时空相关热门 Meta Warm Up MeLU UCB CTR类 多样性类 留存率
PNN Crossing ONN AutoInt FiBiNet CAN HashGNN
Framework MetaHIN LinUCB CVR类 新颖性类 停留时长
基于人工规则策略、或者基于日志进
α(x) 与精排进行更深层的融合和统一
样本分组LR 引入Product Layer 引入ResNet结构 引入Multi Head Attention 引入特征重要性 引入特征之间协同关系 引入GNN+Hash 引入transform
Knowledge-based SMINet ECPM类 时效性类 播放完成率
双线性特征交互
行后验相关的概率统计 实时性 特征选择 CDR
真正的和最终优化的目标一致性的 Online LR GBDT BST 客单类 可解释性类 平均阅读时长
多行为推荐
静态质量分 粗排模型 Learning DAU类 热门内容比例 沉浸度(Engagement)
物品历史CTR/CVR等 1 后验概率统计群体反馈 高效地利用属性信息 充分利用少量交互数据 启发式探索
工程效率的优化,性能提升更多 树形模型特征选择
DIN Deep Neural Network(MLP) DRN 冷启动(商品) 点击个数等 高质量内容比例 惊喜度(Serendipity)
类目历史表现平滑 实时性+稀疏性
物品热门预估
Concat Concat Concat 特征交叉 加入GRU来对
用户兴趣演进建模 保留DNN同时加入LR 利用FM进行预训练 利用AutoEncoder 热门推荐 Side Information 少行为建模 E&E
FTRL GBDT+LR 引入强化学习
销量预测
偏置建模 推荐系统线上指标,与所推荐的内容类型、展现方式、推荐所满足的用户需求,都有莫大的关系,而且这种关系体现的有时还很微妙
x PLOY2 DIEN Wide & Deep FNN AERec NCF
SE Block 流式衰减
0 多通道兴趣建模 seq化为多个Session建模
向量进行降噪处理 引入CNN
XFTRL
特征交叉+稀疏性表达 可解释性 Click models heuristic-based strategy Regularization strategy A/B Test
Wide 侧改进 Deep 侧改进
DAE ConvNCF Propensity Score Sampling strategy Adversarial learning
FM MIMN DSIN
user features ad features CrossNet 融入FM 加入attention Bi-interaction
加入用户Embedding 引入Graph结构 others Exposure-based model Causal graph
基于搜索超长行为建模
引入域信息 代替MLP others others
整体指标
SIM CDAE Graph NCF
user features ad features cross features
DCN DeepFM AFM NFM
FFM
Linear&CIN结构 位置偏差 曝光偏差 热度偏差
LR(逻辑回归) 引入域权重 DCN-V2 XDeepFM FM
DSSM双塔模型 TopK Recall
FTRL(XFTRL)等 AUC/GAUC
三塔模型 COLD模型 FwFM AUC/GAUC AUC/GAUC
多模块 多任务 多目标 多模态 is similar to who like
FSCD模型 SE Block特征优选与工程优化 Users 与精排分数/序一致性 类目/人群(AUC&GAUC)
特征交叉组合 特征域 稀疏性 类目/主题多样性
AutoFAS MMOE 帕累托最优 MMGCN
like similar to MAP(mean average precision) 相关性指标
粗排场景自动特征与结构选择
PLE LOGO
Items Item …
相关性指标 RPM(ad)
like
后验统计 线性模型 双塔深度模型 轻量高精度深度模型 端到端深度粗排模型 传统模型时代 深度模型时代 Features present in 实时性(性能)
预训练
02-预训练模型研究框架
01-预训练模型技术 03-近十年NLP重要发展(预训练相关) 04- 知识增强让模型学习更丰富的知识
超大规模 +
Word Representations in by jointly learning to align Bidirectional Transformers Unified Text-to-Text Models for Dialogue
语言模型 单语语言模型 多语语言模型 多模态模型 Vector Space and translate for Language Understanding performer
Transformer
预训练
English
无需微调
work or name
+
Seq2seq Transformer GPT-2 GPT3 publication
模型架构 编码器 解码器 编码器-解码器 date Extended
play
Sequence to sequence Attention Is All You Need Language models are Language Models are
learning with neural unsupervised multitask Few-Shot Learners
networks learners
T₁ T₂ ....
Tₙ T₁ T₂ ....
Tₙ OUTPUT I am a student 数据源 数据 Model: https://github.com/Langboat/Mengzi
自由文本 结构数据 多语言 多模态
Report: Zhang Zhuosheng, et al. Mengzi: Towards Lightweight yet Ingenious Pre-trained Models for Chinese. https://arxiv.org/abs/2110.06696.
Zhang Z, Zhao H, Zhou M. Instance Regularization for Discriminative Language Model Pre-training[J]. arXiv preprint arXiv:2210.05471, 2022.
主要模型
W
Thanks you for inviting me to your party last week PrLM
Discriminative Training
研究重点
Data Size H
Electra-Large
Thanks you for inviting us to your home last week
ALBERT T5-3B T5-11B
90
10⁵ RoBERTa
XLNet Human A cute [MASK] is [MASK] on the [MASK] ...
argmax Pre-training Objectives
10² 85 SBERT architecture SBERT architecture at inference Self-attention Visualization Input Representation
Bert-Large The base architecture of PEGASUS MAE architecture Summary of CLIP
10⁴
T5-Base
Pred Tokens: {inviting, us, home}
80 MobileBERT
Electra-Small
[MASK] cute dog [MASK] playing on the [MASK] ...
BERTBase
知识图谱
关系
分布式图数据库
事物 复用
远程监督
知识融合
关系抽取
知识检索 数据分析 无歧义地描述一类事物 隐马尔可夫模型 比CRF更简单,计算效率高,在低计算资源年代应用非常广泛
复用
自然语言处理 事务
Janus 事务 传统机器学习中最常用的实体抽取方法,至今依然是很强的基准方法,并且经常和深度神
抽取
Graph 向量数 事务 条件随机场
据库 根据场景和应用的需要, 经网络结合构建深度学习模型,应用非常广泛
快应用 知识溯源 联系
计算机视觉 定义实体类型间的关系 场景 联系 联系 BiLSTM-CRF 深度学习中最常用的实体抽取算法 弱监 实体- 11月29日神舟十五号载人飞船发射取得圆满成功。 11月29日神舟十五号载人飞船发射取得圆满成功。
复用 深度学习 BERT 预训练模型+微调的深度学习方法的典型代表
督学 关系联
声音处理 属性图 分布式 约束
知识探索 辅助决策 确定图谱模式整体和局部的约束条件, 其他深度学习模型 模型千千万,百花齐放,各具特色
模型 分布式 存储 约束 通常包括数据类型、取值范围和权限控制 习的 合抽取 触发词识别 发射
计算 场景 自动标注样本 自动生成训练语料,核心在于解决噪声问题
11月29日 神州十五号 发射
抽取式构建技术
评价 部分标注样本 降低标注成本
弱监督学习的目的有三,一是充分挖
方法 方法
弱监督学习 掘少量已标注样本的潜力;二是通过专 触发词分类
载人飞船
迁移学习 减少模型所需的训练语料 实体-关系联合抽取的方法在一个模型中 航天器发射
构建技术 存储技术 应用技术 用户接口与界面 评价
系统评估所设计的模式
家编写业务规则自动生成标注数据,提升
是否满足场景的需要 远程监督 通常和关系抽取一起使用 同时实现对实体和关系的抽取,其输入 要素 触发词
用于实体抽取 将实体抽取建模为马尔可夫决策模型 专家经验的复用性,降低专业数据的标注 为文本序列,输出是抽取出来的实体和 要素
事件要素识别 11月29日 神州十五号载人飞船
——《知识图谱:认知智能理论与实战》P10 深度强化学习 提升样本质量,或者在样本质量存在一定问题的情况下,联合实体抽取模型实现高精度的 成本;三是利用知识库来指导监督标注数 关系,既直观,又简洁。
用于样本处理 据的生成,实现无标注数据下的关系抽取
实体抽取 时间 航天器发射
——六韬瀑布模型 ——六韬螺旋模型 要素角色分类 时间 主体 主体
——《知识图谱:认知智能理论与实战》P136
《知识图谱: 认知智
06-知识存储 能理论与实战》 管道模式 联合抽取
属性图数据库,简称图数据库。图数据库完全和知识图谱契合,从底层的存储模型到支持的查询语言,甚至相关的概念都完全匹配。它们就是天造
地设的一对,图数据库是知识图谱存储的首选。
认知
事务 ACID或BASE 完全的ACID Omid修改版 不支持
——上表开源图数据库,节选自《知识图谱:认知智能理论与实战》P246,完整的请参考原书
隐私计算知识体系
香农发表《保密系统的通信理论》《密码学 随着非对称加密算法RSA出现,同态加
业务研发使用友好
用户界面
数学理论》正式开启现代密码学时代 密的概念被首次提出
可视化操作界面 开放编程接口
萌芽期 第一层:计算安全
代理计算方A 平台开发接入成本低
MPC
(1949年 - 1981年) TEE
随机数 梯度
优势
1949 1976 1978 1981 概念前瞻 密态时代与隐私计算展望 隐私计算技术全局概览 MPC MPC 计算节点 计算节点
中等 代理计算方B 代理计算方C
MPC MPC AI&BI 隐私保护算法使用友好
多方安全计算 联邦学习 可信执行环境
隐私算法
劣势
密码学概念 Diffie和Hellman提出公钥密码思想, 隐私计算
多方安全计算 同态加密 隐私求交
提升算法开发效率
Rabin首次提出不经意传输协议
萌生,技术路 是现代密码学里程碑 基础理论
匿踪查询 零知识证明 差分隐私
线尚不明确 数据 数据 数据 数据 数据 数据 数据 数据
基础技术 联邦学习 拆分学习 针对Node分类的纵向联邦图神经网络
隐私保护
经典MPC模式 经典联邦学习 经典TEE模式 MPC代理(类华控清交4方代理)
明密文 调度/编译器开放合作
机器学习 设备计算图 分布式调度引擎
混合调度
基于多方安全计算的机器学习 纵向联邦XGB算法
共建明密文混合编程能力
硬件技术 机密计算与可信执行环境
Gentry首次提出一种基于理想格的全同 Goldreich对安全多方计算进行讨论,
安全性 学术界严谨安全证明支撑,目前实现多局限于半诚实 需融入其它技术联合使用以实现数据安全保护效果 宿主机存在侧信道攻击风险,需关注RA和安全加固 无法抵御代理计算方共谋,代理方执行逻辑无法验证
态加密算法;OMTP提出首个TEE标准 提出安全多方计算协议
开发成本 满足通用运算能力,需研发投入,目前主要实现ML/SQL 支持部分运算能力,需算法/研发投入,目前主要支持ML 理论上满足通用运算能力,可复用已有应用能力 满足通用运算能力,需研发投入,目前主要实现ML/SQL
探索期 高性能多方安全数据分析SCQL 可信密态计算 Occlum技术架构和设计思想
密文计算设备 明文计算设备 隐私保护原语
(1982年 - 2016年)
应用技术 运维成本 离线态和在线态均需服务化 离线态和在线态均需服务化 离线态接入成本低,在线态需服务化 离线态接入成本低,在线态需服务化
智慧医疗
业务交付运维友好
2021 中国信通院大数据“星河”-隐私计算优秀案例: DRGS付费体系下的隐私计算实践
稳定期
2025年~ 国际同态加密标准委员会成立,标志 杨强教授团队提出联邦迁移学 《要素市场化配置综合改革试点总体方案》提出探索“原始
着同态加密在全球进入高速发展阶段 习并发布FATE开源系统 数据不出域、数据可用不可见”的交易范式; 第三层:生态安全 可解释性 算法公平 互联互通 权属界定 市场机制
*注: 数据控制力强:数据提供方对数据的计算过程有强管控,细粒度的数据计算需要数据提供方介入,数据提供方可以随时停止数据使用
数据控制力弱:全量数据以加密/分片组合等形式集中式存储在远端,自己无法强管控,比如TEE突发漏洞泄漏密钥,数据提供方因为数据已经上传,无法即时止损
蚂蚁集团牵头,发布隐私计算开源框架“隐语SecretFlow”
应用规模 离线态:指训练阶段、大数据分析等,数据任务粒度较大,整体耗时较长
稳定增长 在线态:如联合预测,一般特征值需从机构方的某个在线服务/数据库实时获取,这些特征值的最新值可能有变动,则需按需读取
数据能力
05-隐私计算应用场景 06-隐私计算技术标准与白皮书
AB实验
3 4 实验运行分析
8个关键环节 实验原理 实验三要素 实验价值 目标人群选择:精准性 VS 影响面 唯一变量原则
抽样方式:无差别抽样VS 定向抽样 正交分层、层域嵌套 流量分析 指标校验 样本量分析 指标监测预警
总述&架构 实验流程
2个关键支撑 1 实验假设 实验运行 实验观察 实验沉淀 实验参与单元互不干扰 哈希随机分桶、分组
实验流量 实验参与单元 AA测试 埋点、计算pipline验证 最小实验流量 阈值、异常监控
实验原理
定量效果
实验参与单元合理随机化
2 5 实验结果分析
AB实验基本原理、要素、特性
足够的实验参与单元
随机
AB实验的设计 实验设计 流量选择 实验结果分析 实验决策 因果推断 实验目标确定 样本选择 实验分组设计 流量预估 实验上线 显著性分析 实验短期有效性
实验精度/敏感度
实验长期有效性
分流 (最小检测变化)
实验错误率
AB实验的分析
多重测试
实验控制参数可分配
AB实验 6
SRM
T检验 Z检验
细分架构&流程 实验特性
新奇效应
学习效应
网络效应
延迟效应
生态效应
组间差异消除
指标当前水平
数据分析
指标方差
实验指标易测
能反映意图
长期有效性
多目标融合
可重复性
信息增益
因果关系
目标性
可归因
时间交错实验
关键支撑2:团队、制度和实验文化支撑
I类错误
局限性
长周期实验
后期分析法
实验指标能反映实验者的意图
Fallback
保留实验
反转实验
II III
类错误
类错误
并行性
FDR
Holm
实验指标
修正
应用&特定领域 前沿、高阶实验
法
实验指标可测、易测
法
实验决策
相关领域 CUPED
产品服务
无显著变化
核心指标
显著下降
核心指标
内容实验
双边市场实验
智能调参实验
根因分析 实验
方差 提升 根因分析 代码异常 异常 群选择、实验策略、 层域管理、层 流量管理、流 日志传输
分析 AI算法
智能团队提供一个日常学习成长的平台。 域发布、发布 量申请、流量
指标计算: 计算
最小样本容量 置信水平1-α 用户投诉
实验测试:白名单、接口
审核 回收
均值、比例类、分位类 结果
实时、天级、累积、分桶
误差ε 关键指标大幅异动 是 实验权限:功能、实验、 因果分析 因果学习
增加区间宽度 反转实验 特性开关 指标方差缩减
策略好坏决定
实验通知:下线、全量等
长期实验 共享流量 日志存储
没有显著下降
保护指标
修复 实验告警:数据、服务等
指标敏感性、检出精度
实验效果
停止实验 最小样本量估计 uplift
回传
工具变量法
人为定义的小概
中断时间
断点回归
实验操作:停止、放量、 实验
显著性水平α OLAP分析 HTE分析
匹配法
面板法
重启、全量发布 计算 实时计算
率事件发生的概 AA测试 SRM测试 自助查询 SQL分析 结果 流spark
率
修复 ML
实验类型:web、H5、APP
参数检验:T检验...
实验类型:前端、后端
老虎机实验 interleaving 有一定机会成本
H0为真时小概率 双边实验 内容实验 非参数检验:jackknife... 离线计算流 DeepL
I类、II类错误、 假设检验 P值 优化策略 沉淀总结 全量实验 下线实验 实验对象:设备、页面、 hadoop
power 事件发生的概率 会话、元素 社交网络实验 ...
实验报告
服务方式:SDK、微服务...
公众号「DataFunTalk」 实验沉淀
DataFunTalk是专注于大数据、人工智能领域的
技术分享与交流技术分享平台。有超过2000位
分享嘉宾,已累计发布原创技术文章800+,累
计阅读量超500W。
因果推断
01-什么是因果推断从因到果 vs. 从果到因 02-为什么要做因果推断相关 ≠ 因果 03-因果推断 vs. 传统机器学习相同点和区别 04-因果推断 vs. 传统机器学习相同点和区别 05-因果推断适合解决的问题因果推断在社科领域的应用 06-因果推断的主流框架Potential Outcome Model & Structure Causal Model 07-因果推断的三大基本假设
如果您有任何问题,或者也想参与知识地图创作, √用高维相关特征对预测目标做拟合
潜在输出框架
依赖三大基本假设
对于同样特征的用户,Treatment跟结果是正交的。也就是说如果有两个人特征完全一样,那
已知果: 推断因: √ 问题:无法建模实验前后对业务目标带来的增益 T:实验变量 1 因果效应预估 Ignorability/Unconfound-
请联系小助手微信号。 e.g.用户流失了 什么原因造成的
根因分析 度小满 • 不同用户对于不同权益 优惠券
( 的敏感程度不同
)
• 如何在控制成本的情况下,给用户搭配最适合的权益,
个体因果效应预估:
Individual Treatment
设计线上A/B 实验, 通过因果推断算法对用
户在实验前后的个体业务增量进行预估 不依赖三大基本假设 edness Assumption
么无论给这两个人发万1券还是其他券,T+30的激活率都应该是一样的
达到效率最高的目标 Effect Estimation
因果推断
相关性 当已知结果发生了(Y=1),想分析引起结果的原因Xk。通过贝叶斯公 在控制了U的情况下,阻断了U→X这条后门路径 特征不能完全决定Treatment的分发策略,例如如果贷前只给额度三万以上的样本发万1优惠
X:全量特征 Y:预测目标 X:用户特征 Y:预测目标 式,这个概率与P(Xk)这个先验概率强相关:也就是说Xk本身概率越 是不是所有变量都可以拿来do? 券,那么就不能把额度三万以下的样本放到集合里面评估,因为这些样本不可能有其他优惠券
年龄
运动 胆固醇 高,引起Y的概率越高? 如果是无法做干预的变量(例如性别),评估它的 • 需要从观测样本中分析某些变量是否与结果具有因果 因果关系分析: 在观测样本上进行特征空间矫正和对齐, 因果关系发现 Positivity Assumption 下的表现
2 概率图框架
但这个概率是非因果的 因果效应有意义吗? 关系:即改变了这个变量,是否能改变业务结果? Causal Analysis 找到一组除了需要分析的变量,其他变量
运动 胆固醇
都近似的样本
参与团队
10-因果
网易数帆大数据团队 08-Treatment Effect ATE/CATE/ITE 09-因果推断算法分类 按照处理Confounders的方法,Potential Outcome类算法可以分为以下几类: 11-因果推断在度小满的应用 场景一:随机流量建模 12-因果推断在度小满的应用 线上系统设计
Meta-Learners框架:在随机样本上建模 Neyman-Orthogonality框架:去除混淆因子
火山引擎云原生计算团队 2. Tlearner:干预变量分组建模 3. Xlearner:干预变量分组交叉建模
1. Slearner:干预变量视为一维特征 4. DoubleML:两阶段机器学习模型
假设名称 解释 表达式 应用 处理方法 算法大类 代表算法
隐语开源社区 实验组 对照组 f 实验组 f₁
实验组 对照组
Features
无法处理 Meta Learning Methods S/T/X/ClassTransformation 流量划分 数据收集 决策&模型 数据分析
假设有两个绝对一致的平行空间,对于同一个样本,在平行 对照组 f₀
ITE: Individual 无法真正预估到个人 θ (X)=f(X,1)−f(X,0) 实验组 对照组 Step 1: Step 2:
Treatment Effect
空间A里面施加一个Treatment T, 在平行空间B里面不施加 Y(1)−Y(0)
级别 Re-weighting Methods IPW/DR θ (X)=f_1(X,1)−f_0(X,0)
Treatment Outcome 随机试验 模型迭代 主流量 数据中心 分析平台
Treatment,那么ITE就可以通过计算Y(1)-Y(0)获得 线上保留一定比例的随机流量, 依据随机流量进行因果建模和 Model
τ₁ τ₀ +
>
>
online
参与专家
├ θ (X)=g(X)τ _0(X)+g^− (x)τ _1(X) Representation Learning框架:在观测数据上学习因果关系
系统设计
用ATE代表个体ITE会有较大偏差,CATE可以说是ATE的
Apache InLong PMC Chair,腾讯大数据InLong团队负责人
subgroup版本,通过X把整体样本划分为小组,然后将ATE Step 1: 数据中心 分析平台
通过对特征矩阵X求积分得到 E[Y(T=1)│X=x]− 预估Confounders
CATE: Condition- DML DML, CausalForestDML 业务根据模型提供人群包/策略 线上样本:离线落表 离线分析:离线效果分析
offline
精细化运营/策略 对Y的影响
al Average 现实问题的解决方案是,将整体样本划分为subgroups(e.g. E[Y(T=0)|X=x] 线上特征:离线落表 实验分配:离线实验分配
屈世超 Treatment Effect Causal Trees),这些subgroups中的用户特征近似,因此整
组合进行决策,预留实验组和对
特征回溯:支持数据回溯
Model迭代
和效果评估
照组,用于验证模型效果提升
体ATE可以通过Condition on X得到 → CATE 离线决策调整
快看漫画数据研发负责人
徐前进
腾讯数据湖研发高级工程师
刘玉凤 5.1-架构拆解一
01-数据中台概述 02-数据中台内容体系 03-数据中台建设流程 04-数据中台架构体系 01-云原生大数据带来大数据使用和运维方式变化 02-云原生大数据功能架构图
腾讯 CSIG 高级数据科学家
云原生大数据是大数据平台新一代架构和运行形态。是一种以平台云原生化部署,计算云原生调度,存储统一负载为特 三层(平台服务层、核心引擎层、资源调度层)一平台(运维管理平台)
数据采集参考大数据平台数据采集部分 点,可以支持多种计算负载,计算调度更弹性,存储效能更高的大数据处理和分析平台。
App 人资 决策
应用类型
业务应用
技术体系 术组件两部分。大数据存储计算包含:Hadoop、spark、Flink、Clickhouse等技术;数
建的面向业务的统一的数据应用服务 微服务管理 DevOps 传统模式 云原生模式
度小满数据智能应用部资深算法专家 据中台技术包含:数据集成、数据资产管理、平台服务管理工具等。 组织现状 组织架构 数据集成 数据安全 监控审计 5.2-架构拆解二 元数据管理 数据源管理 数据网关服务 作业开发 任务调度 插件化计算引擎是多场景集成的关键
SaaS PC端 财务 计量 运维管理平台
业务现状 业务架构 资产萃取 价值评估 Docker 业务1 业务2 业务3 业务4 业务1 业务2 业务3 业务4 n 平台服务层 计算引擎可插拔化设计,灵活配置选用
通用组件 租户和用户
开源组件插件化集成设计
数据现状 数据标准 质量评估 虚拟化 项目管理 权限管理 生态整合服务
华菁云 价值:为业务提供便捷的数据应用产品能力,提升业务对数据的应用水平和应用深度
数据体系
企业数据通过各种方式汇总到数据中台,按照一定的建模方式进行加工处理,并进行体
技术现状 数据质量 资产排名
小程序 基建 营销 大数据平台架构参考大数据平台架构体系部分 资源独占,峰值不满足,平时有空闲 资源按需调用,资源池统一调度 管理 集群管理
统一计算资源调度
系化的管理,形成企业的数据资产体系。 场景服务
澜舟科技算法研究员 Flink 集群 Spark 集群 Kafka 集群
统一 Portal 组件管理 跨云资源配额管理,跨域业务高可用
技术架构 计算负载统一调度,在离线混部
云原生消息 实时服务分析 云原生日志 兼容YARN资源负载,平滑迁移Hadoop负
应用架构 5.3-架构拆解三:数据资产管理 云原生 Flink 云原生 Spark
数据中台工具
Mpp 引擎 引擎 搜索 日志审计 载
王文广 数据中台与大数据平台最主要的区别是,数据中台数据能便捷的以服务化的形式支持业 集群搭建耗时耗力,运维孤岛和数据孤岛
服务能力
数据模型
数据资产
客户标签 业务模型 标签管理 核心引擎层 统一引擎云原生生命周期管理
服务体系 务,服务体系是通过中台的服务组件能力,把数据变成一种服务能力,让数据能够方便 管理 统一存储(HDFS 或对象存储)
DaaS 服务化 运维1 运维1 运维1 监控报警
达观数据副总裁 《知识图谱:认知智能理论与实战》作者 的应用到业务中为业务带去价值。
开放共享
兼容 HDFS 语义 TOS 透明加速 缓存加速 数据湖管理 统一存储资源负载
客户画像 跨域融合 BI工具 数据管理 数据管理 数据管理 一键开通,按需部署,统一运维
中心 容灾管理 增强HDFS服务,适配对象存储,跨多云
技术体系 数据体系 服务体系 运营体系 API
容灾增强
运营体系是数据中台的守护者,通过运营体系保障整个中台的健康、持续运转。运营体
蒋宏 运维管理 运维管理 运维管理 云原生大数据组件管理和发布
消息队列、数据湖,数据仓,日志服
运营体系 系包含资源占用监控、数据质量监控、数据价值评估等,其目标是让中台持续健康运转 资源调度层 多云部署和调度 统一资源池 云原生 YARN 云原生 Operator 多环境管理 务,存算分离统一存储,减少数据复制
重度汇总层
李凯东 公共云 容器服务 私有云 开源 K8s
数据模型
数据平台支撑工具
审核专家
设施 Hadoop 集群权限框架,管 用于并行和分布式 Python 全局自动容灾:实现跨机房自动调度
访问控制 数仓工程师
业务模型 数据标准 理基于 YARN 的 Hadoop 一站式元数据治理平台。
的开源项目 虚拟队列:支持跨集群和机房作业 和容灾
配置 管理 生态圈的所有数据权限。
自动调度
检核维度大类 业务 业务 分布式数据工作流任务调度
营销系统 人资系统 资产系统 财务系统 运营系统 管理系统 系统,主要解决数据研发 端到端开源机器学习平台 资源池化:对底层k8s资源无感知 资源自动优化:没有负载的时候资源
2、建立检核体系 元模型管理 分析应用 元数据管理 元数据核验
系统 系统
ETL 错综复杂的依赖关系。 资源混部:在离线作业共享集群 利用闲置资源:利用超发和驱逐机
雷小平 搭平台 洗数据 定标准 使用可以减低到0;毫秒级的冷启动延
检核维度小类 内置元模型(遵循CWM) 血缘分析 元数据维护 一致性核验 资源 制,利用空闲资源 时
腾讯云大数据产品中心副总经理 功能层
开源工作流管理平台。 只关注作业资源的额度和并行度
6 5 4 数据质量 自定义元模型 数据地图 变更订阅 属性填平率检验 部署和管理 K8s 集群 平滑演进:YARN作业和K8s作业 引擎半自动调优:利用智能团队推 引擎自动调优:混合不使用AI技术优
管理工作流程 制定业务规则 元模型发布 关联度分析 版本管理 重复率检验 开源大数据元数据管理和数 应用自己管理容器和镜像 混部 荐任务配置参数,人工确认下发 化使用资源,包括计算网络和内存
巴川
据治理平台。
3、制定整改规则 导入导出 属性值差异分析 元数据检索 元数据检查 5.7-架构拆解七:数据产品矩阵与业务应用
竞技世界首席数据科学家 Phase 3
接服务 建体系 促运用 制定技术规则 Phase 1 Phase 1 Phase 3
存储发布 分析
5.8-数据中台的成熟度评估
7 8 9 规则级评估 数据服务的形式分为几种:BI报表/仪表盘、OLAP自定义查询/Ad-hoc(即席查询)、
李奘 元数据存储
特定数据产品、数据服务化 05-核心引擎层:存算分离,统一存储,多种负载
4、制定评价机制 访问层 元模型存储 业务 技术 管理 操作
腾讯科技PCG技术副总经理 统一管理和调度 存储能力共用 存算分离负载
体系级评估 元数据采集
BI报表 OLAP自定义查询/Ad-hoc(即席查询) 数据服务化 统一数据权限,降低安全风险 统一数据 Copy,减少数据卸载 降低扩缩容和数据 Rebalance 时间
采集适配器 使用数据中台服务的业务数量和比例
统一资源调度和复用 统一数据容灾,保证高可靠要求 增强对请求响应能力
数据源类别 数据加工 发布 业务应用广度
常用的三方平台有帆 灵活的自助查询数据能力。 业务通用的数据产品
采集元模型配置 是对数据相关服务做 使用数据中台服务种类的数量
软BI、观远BI、 基于HUE、Zeppelin能够实现自助查询;
业务管理 QuickBI等 API封装,支持实时查
数仓源 采集周期定义 底层的查询引擎可以是Impala、Presto、
(板块数据域主题域) 询 AB实验平台
clickhouse、StarRocks、hive、flink等;
(离线hive/PG;实时
kafka) 画像平台 使用报表辅助业务决策
采集元数据合并 也可以基于Impala、clickhouse、Presto
流程责任管理 DMP平台
机制(一次全量) 等查询引擎做了二次封装.
(流程权限、数据权限、 广告投放平台
数据对象层 负责人、角色) Ad-hoc,支持使用者选择特定的筛选条件,
业务应用深度 通过实时数据引擎驱动业务做实时策略优化
渠道投放数据监控平台
采集日志查看 自动生成所需要的报表.
业务源 个性化推荐平台等
(各类关系、非关系、 采集 (技术相关)
3
数据操作管理
建立智能分析引擎,驱动业务做出运营策略调整
1
实时库、非结构化) (集成、开发、质检、安全)
采集实例查看 为业务的系统提供服 需要针对各个业务的需求提
使用要求最低的数据 需要业务方掌握一定的SQL能力,同时数据中
务接口和数据服务功 炼成通用需求,并开发特定
数据存储参数
服务形式 台也需要对数据有较好的治理体系,以便于业
采集实例采集 能API接口,以供业 数据产品系统支持这类通用
各类数据源连接协议、 务使用者便捷的检索和查询数据
存储、环境、分层规范、 内容查看 务系统打通数据在业 需求。
务系统内的灵活应用
管理和调度
时间周期等信息
云原生数据湖 云原生数据仓 云原生消息队列 云搜索引擎
大数据平台 2
数据中台 = 大数据平台 + 数据仓库 + 数据应用和服务 离线数仓 数据源 Kubernetes 集群 A Kubernetes 集群 B 对象存储(S3) Kubernetes 集群 C
可视化
开发工具
离线数据采集 离线处理 数据导出 BI报表 数据发布
OLAP查询分析 实时查询 自研平台 Sugar 实时数仓 可视化
数据查询 监控报警 业务库数据 数据发布
(Impala/Presto/Clickhouse/Doris) (Hbase/Kylin/Druid/TiDB) Kettle Sqoop MySQL 实时数据采集
数据源 Hive Hive Hive Hive Hive 数据发布接口 FineBi OLAP分析工具 自研平台 Sugar
注解: DataV
ODS DWD DWM DataX Oracle Flume 数据发布接口 FineBi
平台工具 SpringBoot 用户日志 DataV
01 Sqoop DWS DM 数据挖掘 Kafka Kafka Kafka Kafka Kafka
大数据平台位于最底层,是包括服务器集群、Hadoop服务体系、离线和实时计算框架等软硬件的集 业务库数据 Hive DIM Druid Kylin Clickhouse
OLAP分析工具 SSM Maxwell ODS DWD DWM SpringBoot
合,是搭建数据仓库、数据中台的底层基础 调度系统 线性回归 罗辑回归 数据挖掘
DWS DM
流式计算 离线批计算 数据挖掘/AI (Azkaban/ DataX MapReduce HQL lmpala Spark Impala Presto Kylin MyBatis 爬虫数据 DIM Hbase + Phoenix + Redis
SSM
Airflow/ 用户日志 推荐算法 FlinkCDC 线性回归 罗辑回归
02
KMeans++ Doris es Presto
数据仓库是基于大数据平台的存储引擎、存储格式(Hive、Delta Lake等),基于维度建模方法建设的 数据存储 (Flink/Spark Streaming (Spark/MapReduce/ (SparkML/sklearn/
DolphinScheduler) SparkStrea StructuredSt MyBatis
/Storm/Beam) Hive/Beam) TensorFlow)
与计算 Storm Flink KMeans++ 推荐算法
结构化数据集合,目的是为所有类型的数据支持提供数据环境 系统日志数据 Canal ming reaming
实时数仓 可视化
爬虫数据
流式数据存储(Kafka) 离线数据存储 湖仓一体存储 资源管理 数据发布
(YARN)
实时数据采集 OLAP分析工具 Sugar
自研平台
03 数据中台是基于大数据平台提供的底层平台能力、以及数仓提供的结构化数据环境,搭建的面向业务的
系统日志数据 Flume 数据发布接口 DataV FineBi
统一的数据应用服务 Kafka Kafka Kafka Hive Hive Druid Kylin Clickhouse
06-云原生调度层1:两种不同的云原生化演进方式
实时采集 离线采集 运维工具 SpringBoot
(Sqoop/Flume/LogStash/ Maxwell ODS DWD DWM 数据挖掘
(DataX/Cannel)
04 数据采集 FileBit) 埋点上报 DWS DM
在建设企业级数据环境时,一般都会搭建起大数据平台和数据仓库,而数据中台并不是必须,需要根据 (Http/Https)
系统监控
FlinkCDC DIM Hbase + Phoenix + Redis
SSM
线性回归 逻辑回归 2.3-湖仓一体架构 --- 流批一体
企业的业务需求来综合决策 Doris es Presto
业务数据库 业务日志 爬虫数据 第三方数据 SparkStrea StructuredSt MyBatis
(MySQL/Mongo) (半结构化) (半结构化) (结构化/半结构化) 自动化运维 Canal Storm
ming reaming
Flink KMeans++ 推荐算法 Serverless YARN,兼容 YARN 提交方式,业务平滑演进 云原生 Operator
数据源
计算引擎Flink,Spark全生命周期管理,支持
YARN 和 K8s 混合调度
离线+实时数仓 可视化 批量作业重启策略
业务库数据 数据发布 原有大数据作业少量修改,平滑业务迁移
01-大数据平台概述 实时数据采集 OLAP分析工具 Sugar 更精细的采集日志信息,跟踪作业运行状态
自研平台
3.3-离线调度框架选型对比 3.4-架构拆解四:数据查询
数据发布接口 FineBi
定义:支持海量数据存储,并支持实时流数据计算、离线批量计算、数据挖掘、交互式查询等 用户日志 Flume
Kafka hudi hudi hudi hudi hudi
DataV
Druid Kylin Clickhouse
场景的一套基础平台设施 Maxwell ODS DWD DWM SpringBoot
数据挖掘
DWS DM
OLAP查询 实时KV查询 爬虫数据 SSM
Xxl-job DolphinScheduler Azkaban Airflow Oozie FlinkCDC
DIM Hbase + Phoenix + Redis
线性回归 逻辑回归
Doris es Presto
SparkStrea StructuredSt MyBatis
Storm Flink KMeans++ 推荐算法
3.1-架构拆解一:数据采集 一个轻量级分布式的任务 解决数据处理流程中错综复杂的依赖关系 为了解决Hadoop的任务 通用的批量数据处理 管理Hadoop作业(job)的工作流程调度
系统日志数据 Canal ming reaming
定位
调度框架 依赖关系问题 管理系统 Impala、Presto、 IHBase、Kylin、Druid、
Clickhosue、Doris、 Redis、MySQL
将各种形式的数据从多种存储介质中收集上来,传输存储到大数据平台的数据存储介质 StarRocks、TiDB、
支持传统的shell任务,同时支持大数据 Command、Hadoop- Python、Bash、HTTP、 统一调度hadoop系统中常见的mr任务启动、
平台任务调度:MR、Spark、SQL Shell、Java、HadoopJa- Mysql等,支持Operator的 Java MR、Streaming MR、Pig、Hive、 GreenPlum、SparkSQL
任务类型支持 Java (mysql、postgresql、 va、Pig、Hive等,支持插 自定义扩展。 Sqoop、Spark、Shell等
数据源端 采集工具 目标端 hive/sparksql)、python 件式扩展
DB实时采集 于第三方系统,提供api方式的操作。
按照数据类型分类
Canal/BitSail/MaxWell 离线数据目标位置 3.4-OLAP查询引擎选型对比
结构化数据(MySQL/Ora-
HDFS 任务状态、任务类型、重试次数、任务运 只能看到任务状态 不能直观区分任务类型 任务状态、任务类型、任务运行机器、创建时
cle)、半结构化数据
(json/xml)、非结构化 任务监控支持 无 行机器、可视化变量等关键信息一目了然 间、启动时间、完成时间等。
数据(TXT、jpeg)等
DB批量采集
Sqoop/Kettle/DataX
是
自定义任务类型支持 是 是 是 是
需要java先开发具体执行器 Presto Druid Kylin Doris Clickhouse GreenPlum Impala
否 否 支持启动/停止/暂停/恢复/重新运行:
暂停/恢复/补数 支持暂停、恢复操作 支持暂停、恢复 补数操作
一个 MPP 的 OLAP 系统,对多维查询分
只能先将工作流杀死再重新运行 只能先将工作流杀死再重新运行 Oozie支持Web,RestApi,Java API操作
位图索引查询、编码。预聚合 析提供支持,主要整合了 Google Mesa 一个开源的大规模并 是一种 SQL on Hadoop 解决
3.2-架构拆解二:数据存储与计算 3.3-架构拆解三:大数据资源管理与调度 支持HA 支持HA 通过DB支持HA 通过DB支持HA MPP系统,SQL 完全预聚合立方体 明细动态聚合查询 方案,使用 MPP 数据库技术来
高可用支持 定位 技术,但是只聚合最细的维度 (数据模型),Apache Impala(MPP
物化视图
行数据分析引擎
调度中心HA和执行器HA 去中心化的多Master和多Worker -但Web Server存在单点故障 -但Scheduler存在单点故障 通过DB支持HA on Hadoop 提高查询速度
组合,在此基础进行聚合 Query Engine) 和 Apache ORCFile (存
风险 风险
数据存储 数据计算 储格式,编码和压缩) 的技术
支持 07-云原生调度层2:统一资源管理形成全局资源湖
资源管理 调度系统 dolphinscheduler上的用户可以通过租
户和hadoop用户实现多对一或一对一的
相较于Clickhouse,Doris还能支持各种 明细查询较低,单表查询性能 一般,小查询会极大
离线数据存储 离线计算 多租户支持
YARN、Mesos
否
映射关系,这对大数据作业的调度是非常
否 否 否
查询延时 一般 低 非常低 主流分布式join,不仅支持大宽表模型,还 高,Join在一些情况下性能不佳 消耗集群资源,无法 一般
HDFS、Hive、HBase Spark、Hive、
MapReduce
重要。 支持星型模型和雪花模型 物化视图查询延迟非常低 实现高效并发查询
Oozie、Azkaban、
实时数据存储 Airflow、DolphinSched- 任务队列机制,单个机器上可调度的任务
实时计算 uler、Xxl-job 过载处理能力 任务队列机制,轮询 数量可以灵活配置,当任务过多时会缓存 任务太多时会卡死服务器 任务太多时会卡死服务器 调度任务时可能出现死锁
SQL支持程度 非常完善 较完善 非常完善 较完善 较完善 非常完善 较完善
Kafka、Pulsar
Storm、Flink、 大数据集群运维 在任务队列中,不会操作机器卡死
SparkStreaming 生产数据成本 低 中 高 中 中 中 低
流批一体存储 Cloudera Manager、Ambari 是 是 是 是
IceBerg、Delta、Hudi 集群扩展支持 新注册执行器即可
调度器使用分布式调度,整体的调度能力
-只Executor水平扩展 -只Executor水平扩展 是 支持join 支持 不够成熟,维度lookup支持 支持 支持 有限支持 支持 支持
会随集群的规模线性增长,Master和
Worker支持动态上下线
数据仓库 数据湖
定义:数据仓库是基于大数据平台的存储引擎、存储格式(Hive、Delta Lake等),基于维度建模方法建设的结构化数据集合,目的是为所有类型的数据支
数据湖文件格式更面向列,并使用附加功能压缩大文件。这里的主要参与者是 Apache Parquet、Apache Avro 和 Apache ORC 直接在分布式文件上提供 Merge Into、Update 和 Delete 操作。除了 SQL,有些还支持 Scala/Java 和 Python API。
持提供数据环境 DML和SQL支持
ORC。它是物理存储,实际文件分布在存储层的不同 Bucket 中。文件本身支持 split 拆分和 schema evolution。
资源池管理 全局资源湖
适用于 产品特点 应用目标 数据处理速度 性能拓展 适用数据类型 实施难度 运维难度 性能优化 成本 OSS COS Ceph MinIO
Decomposable 数据湖表格式会将存储在数据湖中的大数据版本化并形成多版本。可以访问该数据的任何历史版本,在意外写入或删除错
时间旅行
误的情况下回滚数据。
在复杂关联、汇总、 优化的大致原理有2个: And more ...
传统数仓 利用处理过程的中间 Kafka、Druid、Spark、 Spark、Presto、Trino、 Hive、 Presto、Trino、
事务处理方面能力 基于Oracle、 面向主题设计的,为 一是数据分块存储,便 Platforms
表,分析查询速度可 单表上亿,性能断崖 多适用于结构化数据 难度普通, 软件费用+实施费用, Presto、Trino、Arrow Arrow、 Druid Spark、 Druid
(SQLServer、Oracle 强,适合数据量小、 SQLServer、MySQL 分析数据而设计 相对简单 于数据的存储和管理; 随着时间的推移摄入的小文件会增加,但查询数千个小文件很慢,文件布局优化可以将文件碎片重新整理为更大的文件,
比原有速度提高3~5 式下跌,拓展性能差 技术比较成熟 成本较低 文件布局优化
等关系型数据库) 高可靠、数据价值密 等关系型数据 二是中间处理,提高数 Row column column 从而在许多方面提高性能。
倍 Row or Column
度高的应用 据提供的速度。
数据架构无需在批处理和流式中区分——它们都以相同的表视图对外暴露,复杂性更低,速度更快。无论是从流还是批处
08-运维管理平台 09-用户场景和价值1:多种计算业务资源混合部署调度,提升资源利用率
Read or Write Write Read Read 统一批流处理
在传统数仓之上搭建 关系数据方面有优 技术角度:模型优化、 每2~3TB一个节 理中读取都能获取一致的数据快照。
适合结构化数据的深 MPP架构、TB级处 性能可随着硬件的扩
并行数据库系统。充 势,比较适合比如电 难度中等, 查询执行计划。业务角 点,硬件配置不用太
MPP数仓 度分析、复杂查询以 理,支持大量运算; 相比传统数仓,速度
分发挥计算机的优 容呈线性增加,拥有 信、银行这类数据主 较成熟 中等 度:全量刷新改增量刷 高,GP产品免费,
(以GreenPlum为例) 及多变的自助分析类 关系型数据库 为几倍至几十倍
势,提高数据库系统 非常好的可扩展性, 要以结构化存储的企 新,减少计算量;充分 但实施优化单价较
应用、数据集市等 扩展上限为几百
的整体性能 业或组织 利用已计算的指标 高,成本中等
监控 日志 告警 异常监测 审计 全链路监测 业务场景 在线 流式 (近线) 离线训练 查询分析 批处理
分布式数据库系统主 Hadoop性能调优不仅 需要大量的节点支 04-数据湖、数据仓库和Lakehouse的区别 05-业界进展(Databricks 2.0)-湖上建仓 运行时长 长期运行 长期运行 天级 分钟小时级 分钟小时级
用户场景
Hadoop架构、
要目的在于实现场地 相比传统Oracle数 可以基于Hadoop开 涉及Hadoop本身的性 持,实施人员需要专
适合海量数据存储查 HDFS、MR和 实施难度高, 开源组件管理 服务生命周期管理 集群管理 容灾管理 核心指标 响应时间 消费积压 吞吐量 运行时长 吞吐量
Hive,支持海量运 自治和数据的全局透 仓,速度为几倍至几 支持量高的动态扩 发处理结构或非结构 较难 能调优,还涉及更底层 业对口,同时需要对 Lakehouse是数据湖和数据仓库的组合,与数据湖相比,Lakehouse集成了计算框架和SQL查询引擎,
Hadoop数仓 询、批量数据ETL、 要求较高 业务特点
明共享,而不要求利 十倍(瓶颈阈值高于 容,扩展上限为几千 化数据的应用,适用 的硬件、操作系统和 应的非通用sql支 添加了数据治理能力,支持Catalog表管理和先进的作业编排。
非结构化数据分析等 算;非关系型数据 Task模型 平铺 DAG DAG DAG DAG
用网络中的各个节点 MPP数仓) 于互联网领域 Java虚拟机等系统的 持,成本较高
库;TB或更大数据
来提高系统处理性能 调优 Helm Chart 服务组件渲染 集群扩缩容 容灾设置
量,并发多的场景 优先级 高 高 中/低 中/低 中/低
Databricks 依托Delta Lake 提供湖上建仓的能力
Lakehouse Platform Spark作为统一引擎提供批流一体处理能力 Operator 服务发布管理
集群信息统计 容灾切换
Lakehouse 提供各数据处理场景化需求
高效资源切换 利用率提升 在离线统一
Data Data Data Data
开放式存储/格式
仓
容器日志采集 多环境管理
客户价值
数据血缘管理
DWS(聚合数据层) 提供全局虚拟队列
数据 数仓 06-Lakehouse - 演进路线 07-Lakehouse-设计原则 08-DB 数据入仓/湖
仓库 管理
DWD(明细数据层) 权限管理
虚拟队列,对应不同机房和集群的多个队列
3种主流开源技术 Unifed Data Infrastructure (2.0) 自动分发到合适的机房/集群/队列
Databricks
弹性高可用
Tabular 数据湖
资源管理 ICEBERG Sources
Ingestion
Storage
Query and
Transformation
Analysis and
一体化架构 加强的 (1)
CDC
业务建模 数据治理
业务模型 业务模型 业务模型 Onehouse
and Transport Processing Output
MySQL
(3)
数据湖
全数据类型 运维可观测 CDC
MySQL
高开放性 DTS
04-数仓建设流程
数据源
根据业务需 根据主要业务 根据主要业务 明确业务过程与 定义清晰的数 依据建模规范 持续提升数据
求,梳理业务 过程,梳理必 过程,抽象提 哪些维度相关, 仓分层规范: 和总线矩阵, 的准确性、一 第三方数据
API服务
集市结果库
的主要过程, 须的指标体 炼出一个个的 并定义每个数据 一般将数仓分 实现对数据分 致性,提升可 MySQL Pulsar
快照查询 流任务
梳理用户核心 系、维度和属 业务主题,对 域下的业务过程 为 层建模 用性 ODS DWD DWS
数据湖
路径 性 数据做好归类 和维度 ODS/DWD/ Oracle Kafka
贴源层 汇总层 集市层
批任务
JOIN AGG 增量查询
DWS/D- 数据湖 数据湖 数据湖 ODS DWS ADS
自助取数
M/APP多层 Redis ……
分析服务
数据集成
数据集成:数据集成是指将来自不同来源的数据合并到一个统一视图中的过程,该视图应用在下游数据分析和数据应用
全链路数据平台 企业云原生数据湖构建
实现企业各应用系统之间共享的数据,强调单一数据视图,通过整合多个数据源,形成主数据的单 文件采集 数据库同步 国外:Dtb labs(已成默认技术选择) 国内:QuickTable 快表格
主数据应用 一视图,保证单一视图的准确性、一致性以及完整性,从而提供数据质量。一般统一业务实体的定 离线数仓与数据同步 多种同步方式,多种数据源快速搭建
数据上报
义,简化改进业务流程并提升业务的响应速度。 离线数据开发与调度 云数据湖 方案 架构 特点 方案 DataX Canal Sqoop Kettle Debezium 将数据处理逻辑拆分在多个SQL文件中 使用电子表格的界面
元数据、数据资产管理与治理 实时数据秒级同步iceberg,完成冷 使用测试来提前发现数据质量问题 无代码
由source,channel、sink组成。 支持一个Agent中有多个不同类型的channel和sink, 采集机制 查询 日志 查询 查询 日志
热数据计算 Apache Flume 生成文档&数据的依赖关系图
大数据 快速迁移云下数据至云上存储,解决业务数据上云中遇到的技术、成本、人力等问题。上云迁移过 多个Agent可以组成调用链 可以选择把Source的数据分发给不同的目的地
迁移上云 程支持全量、增量方式,具备数据源类型丰富、简单易用、安全可靠、轻量灵活等优势。
数据分发 数据库同步 增量同步 × ×
某小型互联网客户:构建数据平台 某传统企业客户:构建数据湖 LogStash 包含input、Filter、output组成 灵活性高,支持很多插件
断点续传 × × ×
方案架构
方案架构
应用场景
数据集成提供了开放的技术能力,可与统一调度、元数据管理等技术/产品服务深度融合,为企业 个性化推荐
数据工程 阿里云日志服务的生产者, 采用C++语言实现,对稳定性、资源控制、
数据平台提供可靠技术底座和核心能力支撑,帮助企业搭建先进灵活的平台架构以更好应对快速变 用户洞察 信息采集 日志分析 logtail
为阿里公有云用户提供日志收集服务 管理等下过很大的功夫,性能良好 生态
数据集成价值:消除企业信息孤岛,实现数据集中共享,进而实现数据治理和数据应用的重要手段。 与科学平台构建 实时数据入湖 业务预测
化、日益增长的业务数据需求 商品/订单/库存数仓数据开发
多云和跨云数据源
比较项 TubeMQ Kafka Pulsar Fivetran Airbyte dbt Labs
国内市场 云原生技术和云市场不断成熟,多云、跨云、多集群部署已经成为常态
数据时延 非常低,10ms 比较低,250ms 非常低,10ms
阿里云 Data Integration、腾讯云 DataInLong、华为云 ROMA、DataPipeline
14天的免费试用 作为开源产品,企业客户可以自己安装部署 dbt CLI(开源):本地运行的命令行程序( 成本和实效 数据链路管理 数据质量
按量计费:以从数据源转移到目标数据的行数 云上版本:采用credit方式,按照同步所用 开源)
TPS 高,14W+/s 一般,10W+/s 高,14W+/s (高性能场景)
作为计价的依据。每一个数据等级上又定价分 时间进行计费——其竞争策略之一,不做用 dbt Cloud(非开源):SaaS云版本,个人 从 ETL 向 ELT 发展
的线上运营规模 行业百家争鸣
一般,热备存储,中心化管理, 一般,基于zk配置管理, 一般,基于zk配置管理,
配置可管理性 Apache InLong、Apache Seatunnal、Apache Gobblin、DataX、Flink CDC、 云厂商专注生态方案 中心化的自治能力
API或页面操作 API或页面操作 API或页面操作
FlinkX (chunjun)
开源项目齐头并进 更加标准化、一体化,提供更多数据工具降低使用门槛
易用性 一般,只提供Java和C++的Lib 高,有很多配套插件使用 高,有很多配套插件使用
数据治理
01-数据治理解决的问题 02-数据治理体系 03-数据治理工具 – 整体方案 04-数据治理工具 – 开发与治理一体化 05-数据治理流程 – 规范建模 06-数据治理流程 – 元数据资产治理
数据开发与治理一体化强调“先设计、后开发、先标准、后建模”,通过指标和数据标准的定义实现“规范即设计,设计即开发,开发即治 设计阶段,进行标准化的规范建模保证数据模型的规范化、提高数据资产化水平、提升数据质量。
在元数据管理中将业务元数据、技术元数据、管理元数据补充完整,然后根据元数据的治理发布流程将元数据发布上线。同时配合
理”的开发治理一体化理念。
数据资产中心的资产健康诊断以及基于ROI的数据资产精细化管理,对数据资产的健康情况和使用情况进行实时的观察,识别并了
产品工具层面,将整个数据治理流程贯穿各个子产品,沉淀一套全链路的数据治理工具体系。 解有价值的资产。
01 数据开发与数据治理脱节 02 烟囱式的数据开发
管理 用户视角 数据消费者 资产责任人 项目负责人 治理负责人 开发治理一体化 大数据健康评估与优化
数据安全等级 稽核规则定义
稽核规则推荐
(个人视角) (管理者视角) (治理视角) 表、字段命名、分类、数据 字段类型映射规范 业务元数据 指标域 金融产品条线
安全中心 数据质量
业务指标定义 格式规范 (快速建表)
07-数据治理流程 – 湖外数据治理 08-数据治理流程 – 湖内数据治理 09-数据治理制度 – 开发规范制度 10-数据治理制度 – 指标管理制度 11-数据治理制度 – 数据质量管理制度 12-数据治理管理 – 组织架构 13-数据治理管理 – 运营与沉淀
数据质量管理制度包括事前规则定义、事中质量监控、事后量化分析和问题追溯。 数据治理不是一个临时性要做的工作,从数据生命周期的全过程到治理体系的健康运行,需要一个长效的治理机制来保证体系化的数
开发规范制度为企业内部应用团队、业务团队、中台团队提供设计开发依据。 指标管理制度明确指标模版,定义指标名称、类型、口径等录入规范。 在管理层面,建立了专门的部门来负责数据治理工作,完善组织架构、权责分担机制。
据治理。
湖内的数据治理流程
湖外的数据治理流程
接收治理工单
发布申请 治理申请 建模:按照中台模型设计要求配置主题域、新建表。包括表
接收发布申请工单 数据治理管理员 数据治理专员
质量监控任务
数据建模 分层分域要求、表命名、字段命名要求。(数据管理组提供
资产治理闭环
质量报告
问题追踪
问题改进
绩效考核
是否需要治理 否 规范)
内容支持自定义
否 是 完善元数据信息
是否通过 数据传输:数据源配置、目标表配置、监控规则配置、作业 自定义规则 期望范围
接收治理工单 数据调度
发起发布申请 发起治理申请 上线(源端团队负责人审批)
提交完成治理工单 业务治理专员 技术治理专员 多维度的资产健康评估体系, 持续运营 持续有抓手:至上而下推送公
完善元数据信息 是 涵盖成本、标准、质量、安全 发现问题 司/项目/个人资产账单、治理红
运营监控
指标基本信息 指标口径定义 指标血缘查询 和价值
持续沉淀
黑榜、资产分与任务优先级&
运营监控:源端运维人员负责日常监控 标准推荐规则 异常数据
发布至资产门户 浏览搜索资产 预算申请挂钩
提交完成治理工单
指标名称/指标类型/ 计算指标依赖基础指标等,
发布至资产门户 浏览搜索资产 技术口径/业务口径等 证券部 风险管理总部 合规管理部 …… 金融产品条线 IT部 持续运营:数据治理大赛、业
发现问题,发起治理申请 模型开放 模型开放:使用方发起模型使用申请,由源端团队模型负责 指标域/责任部门等 指标树的管理 精度有效性:证券市值精度取值范围应等于2
务线专项治理活动
人审批,数据中心赋权 标志取值有效性:退市标志的取值只能是1或0
发现问题,发起治理申请