You are on page 1of 36

图机器学习在京东召回中的应用

纪厚业
2023-8-27
1 / 背景
提纲
2 / 图召回通用能力打造
3 / 业务特色图召回
4 / 总结
1 / 背景
提纲
2 / 图召回通用能力打造
3 / 业务特色图召回
4 / 总结
背景

• 视频+电商, 迅速崛起并蓬勃发展

!"#$%&'( +, )*
背景

• 视频电商的价值
首页为你推荐信息流 视频落地页信息流

• 平台:有效提升平台的停留时长,带来更多

的用户转化机会,提升转化效率

• 用户:沉浸式内容更容易种草、产生信任,

缩短决策时间,激发新兴趣,提升购物体验

• 商家:优质内容可以为商家带来更多流量和

成单,为商家提供内容化的流量运营抓手

!"#$%&-.
背景

• 工业界推荐系统链路:

视频

直播

/012 3456
背景
• 推荐系统与图机器学习的联系
• 用户-素材图上的链路预测=推荐
• 节点表示=用户兴趣
• 电商异质图
• 实际电商场景相对复杂,包含多种类型节点及其复杂交互 (异质图)

交互复杂

语义丰富

/012 789:;<
背景
• 图神经网络(GNN)
• 针对图结构数据设计的图神经网络 (一种邻居信息 ->一种节点表示)
• 异质图神经网络
• GNN的泛化版本,能处理复杂图结构与丰富语义 (多种邻居信息 -> 多种节点
表示 -> 表示融合)

<=>?@ :;<=>?@
背景

• 图召回架构图

业务层 视频外页-交互图召回 视频内页-即时兴趣子图召回 …

大规模异质图神经网络算法框架
算法层
(图卷积、图池化、高表示能力、全域多模升级)

数据层
1 / 背景
提纲
2 / 图召回通用能力打造
3 / 业务特色图召回
4 / 总结
图召回通用能力打造
• 图召回架构图
HGNN表达能力强化及大规模实现

• 已有异质图神经网络(HGNN)存在的问题:表达能力受限

ABCDEEFGHIJK

L4MN𝑝! 𝑝" O 𝑝! 𝑝# PQRSTU5V WXYU56Z[HI\


高表达能力异质图神经网络

• 研究动机 & 研究方案


节点相对关系复杂 创新1:异质距离编码HDE

• 不同类型节点间的异质关系对图挖掘任务十分关键 • 通过异质路径建模节点间相对位置
• 传统HGNN忽略了节点之间关系 • 考虑路径长度&路径类型

多元关系计算代价高 创新2: 高效异质距离编码E-HDE


• 在一些数据集上计算代价过高 • 近似算法:异质图上的泛化PageRank分数
• 需要枚举两节点之间所有路径
• 避免穷举,同时计算多个节点的距离信息

HGNN表达能力受限 创新3: 基于距离编码的异质图神经网络DHN


• 对不同节点、链接的区分能力较低 • 将距离编码融合在异质消息聚合的过程中
• 忽略了节点间相对关系信息的建模 • 显著提升了模型表达能力
方案设计

• !"#$%&'()*+,-./01

:;]^_9`ab]^cdU:;<=>?@eCE

fgUeCEhiMN𝑝! 𝑝" O 𝑝! 𝑝# PQR5V


1.异质距离编码HDE

• 异质最短路径距离(Hete-SPD)
• 传统SPD:忽略路径类型,结果次优

• Hete-SPD:考虑路径长度和类型
• 节点𝑢, 𝑣之间Hete-SPD: 𝑑 𝑢 𝑣 ∈ℝ𝒜
• 其中,距离向量第𝑗个维度的值是:

• 优势:
jk6l]^ mno :;jk6l]^
• 建模异质图上节点的相对距离

• 用向量建模距离,具有更高的表达能力
1.异质距离编码HDE

• 异质距离编码(HDE)实现
• 目标:建模目标节点集 𝒮 和节点 𝑖 之间联系

• 方法:
当𝒮 = 𝑢, 𝑣 时:
• 𝒮中所有节点到节点𝑖的Hete-SPD的组合

§
-.

当𝒮 = 𝑢, 𝑣, 𝑤 时:
• 其中, 𝐹: 混合函数;𝐸𝑛𝑐: one-hot 编码函数

• 𝑑"#$% : 节点类型 𝒜" 下的最大距离


• 防止过拟合、降低复杂度
2.高效异质距离编码 E-HDE
• 动机:HDE在大规模场景下计算加速
• 计算复杂度:𝑂( 𝑉 ⋅ |𝑆| ⋅ 𝑓(𝑥))

• 𝑉 : 封闭子图节点数, |𝑆|: 目标集节点数


• 𝑓 𝑥 : 找到2个节点之间所有路径的复杂度
• 计算瓶颈:𝑂( 𝑉 + |𝐸|) ≤ 𝑓 𝑥 ≤ 𝑂( 𝑉 !)

• 受到同质图中generalized PageRank分数
启发,异质距离信息:

pq:;]^cdrstCesuvw
3: 基于距离编码的异质图神经网络DHN

• 概览:DHN捕获节点之间的关系,并将它们合并到HGNN的聚合过程

• 步骤1. 节点表示初始化

",$
• 异质距离编码 ℎ!

• 给定节点对(𝑢, 𝑣),我们提取它们的𝑘跳封闭子图𝒢 $!,# , 仅计算封闭子图中节点的KDE

• (1)使用子图降低搜索空间(相对全图),加速计算;
• (2)可用于mini-batch训练,提升可扩展性,可用于工业级数据;

• 异质类型编码 𝑐!
• 捕获不同类型节点的特征, |𝒜|维向量:
3: 基于距离编码的异质图神经网络DHN

• 步骤2. 异质图卷积
• 聚合邻居,更新基于邻居的表示;例如,节点𝑢在𝑙层的表示:

(𝐴𝑔𝑔函数采用平均池化)

• 最终节点表示:根节点表示和基于邻居表示的拼接

• 链接预测&损失函数:
仿真结果

• Inductive 链接预测

任务效果显著提升;表现出更好的泛化性
仿真结果

• 多元关系实例预测(i.e., 用户-场景-视频)

多元关系预测效果显著提升
HDE对于高阶预测任务仍然通用且有效
仿真结果

• E-HDE 有效性&高效性

pq:;]^cdUBqx pq:;]^cdUpqx
图召回通用能力打造
• 图召回架构图
全域多模图升级

• 全域多模图M5-Graph • 预训练模型M5-GPT
1. Multi-Domain: 搜索, 推荐, 广告等
2. Multi-Material: 商品, 视频, 直播等
3. Multi-Position: 首页, 商详, 内页等
4. Multi-Relation: 点击, 观看, 转发等
5. Multi-Modal: 图片模态, 文本模态等

搜推 内容域
公域
场域

广告
私域 商品域
场域

- 全域数据
1 / 背景
提纲
2 / 图召回通用能力打造
3 / 业务特色图召回
4 / 总结
业务特色图召回
• 图召回架构图
视频外页-多域交互图召回

• 业务特点
• 商品和视频等多元素材以瀑布流的形式混合展示
• 新兴素材面临更严重的数据稀疏: 用户量和交互量偏低

/0t&y12z

!!
/0t#$12z
视频外页-多域交互图召回

• 挑战&方案
挑战:不同域行为兴趣的联系建模 方案:多域交互图召回

• 1. 统一描述用户在不同域的异构行为 • 构建双域图
• 2. 建立不同域行为兴趣偏好的联系 • 在图上建模交互并学习表示

• 已有方法:
• 仅考虑单域的行为与兴趣,缺乏用户在不同域行为兴趣的潜在联系的刻画

• 具体挑战:
• 1. 视频驱动的电商场景下,涉及到用户、视频和商品等多种类型节点之间的异构交互,
不同域的行为特性有较大差异;
• 2. 如何对齐不同域行为并建立其联系,进而实现双域行为和兴趣的互补和增强;
视频外页-多域交互图召回

• 具体方案

{|<U}_ ~{|<•_912€•‚F-

• 视频域、商品域: • 单图内部交互
• 基础边、异构边 • 多域交互
• 节点表示初始化 • 用户双域行为和兴趣的对齐和互补
• 兴趣表示抽取、多域表示融合
业务特色图召回
• 图召回架构图
视频内页-子图召回

• 业务特色
• 用户在主页点击引流素材后跳转到内页(引流素材=即时兴趣)
• 引流相关性 v.s. 用户个性化
视频内页-子图召回

• 挑战&方案
挑战:基于引流信息的内页特色召回 方案:即时兴趣子图的向量召回

• 召回结果与用户即时兴趣的相关性保证 • 兴趣子图划分与表示
• 用户长期兴趣和即时兴趣的有机融合 • 即时兴趣筛选与融合

• 已有方法:
• 目前内页召回考虑因素单一:用户/引流视频/简单拼接;

• 建模粒度过粗,缺乏精细化建模;

• 开放问题:
• 如何充分利用引流素材信息并设计具有内页特色的召回算法?
视频内页-子图召回
• 子图划分
• 将用户其周围的结构划分为多个兴
趣子图

• 即时兴趣子图搜索
• 以引流视频为指导, 筛选出相关性较
高的子图结构(即时兴趣)

• 兴趣表示
• 图卷积更新节点表示
• 子图池化抽取兴趣表示

• 兴趣融合
• 即时兴趣 & 长期兴趣 (个性化 vs 相 ƒ„…†‡<ˆ‰Š4
关性)
1 / 背景
提纲
2 / 图召回通用能力打造
3 / 业务特色图召回
4 / 总结
总结
• 内容电商(视频+直播)成为近年电商发展新趋势和动力
• 图召回通用能力打造
• 基于距离编码的异质图神经网络具有高表达和高泛化能力
• 全域多模图升级

• 业务特色图召回应用
• 视频外页:融合视频域、商品域等信息的多域交互图召回
• 视频内页:基于引流信息的即时兴趣子图召回

校招投递: org.jdsr1@jd.com
个人微信: houye93
Thanks!

You might also like