图机器学习在京东视频召回中的应用

图机器学习在京东召回中的应用
纪厚业
2023-8-27
1 / 背景
提纲
2 / 图召回通用能力打造
3 / 业务特色图召回
4 / 总结
1 / 背景
提纲
4 / 总结
背景
• 视频+电商, 迅速崛起并蓬勃发展
!"#$%&'( +, )*
背景
• 视频电商的价值
首页为你推荐信息流视频落地页信息流
• 平台：有效提升平台的停留时长，带来更多
的用户转化机会，提升转化效率
• 用户：沉浸式内容更容易种草、产生信任，
缩短决策时间，激发新兴趣，提升购物体验
• 商家：优质内容可以为商家带来更多流量和
成单，为商家提供内容化的流量运营抓手
!"#$%&-.
背景
• 工业界推荐系统链路：
视频
直播
/012 3456
背景
• 推荐系统与图机器学习的联系
• 用户-素材图上的链路预测=推荐
• 节点表示=用户兴趣
• 电商异质图
• 实际电商场景相对复杂，包含多种类型节点及其复杂交互 (异质图)
交互复杂
语义丰富
/012 789:;<
背景
• 图神经网络(GNN)
• 针对图结构数据设计的图神经网络 (一种邻居信息 ->一种节点表示)
• 异质图神经网络
• GNN的泛化版本，能处理复杂图结构与丰富语义 (多种邻居信息 -> 多种节点
表示 -> 表示融合)
<=>?@ :;<=>?@
背景
• 图召回架构图
业务层视频外页-交互图召回视频内页-即时兴趣子图召回 …
大规模异质图神经网络算法框架
算法层
(图卷积、图池化、高表示能力、全域多模升级)
数据层
1 / 背景
提纲
4 / 总结
图召回通用能力打造
HGNN表达能力强化及大规模实现
• 已有异质图神经网络（HGNN）存在的问题：表达能力受限
ABCDEEFGHIJK
L4MN𝑝! 𝑝" O 𝑝! 𝑝# PQRSTU5V WXYU56Z[HI\

高表达能力异质图神经网络
• 研究动机 & 研究方案

节点相对关系复杂创新1:异质距离编码HDE
• 不同类型节点间的异质关系对图挖掘任务十分关键 • 通过异质路径建模节点间相对位置
• 传统HGNN忽略了节点之间关系 • 考虑路径长度&路径类型
多元关系计算代价高创新2: 高效异质距离编码E-HDE

• 在一些数据集上计算代价过高 • 近似算法：异质图上的泛化PageRank分数
• 需要枚举两节点之间所有路径
• 避免穷举，同时计算多个节点的距离信息
HGNN表达能力受限创新3: 基于距离编码的异质图神经网络DHN

• 对不同节点、链接的区分能力较低 • 将距离编码融合在异质消息聚合的过程中
• 忽略了节点间相对关系信息的建模 • 显著提升了模型表达能力
方案设计
• !"#$%&'()*+,-./01
:;]^_9`ab]^cdU:;<=>?@eCE
fgUeCEhiMN𝑝! 𝑝" O 𝑝! 𝑝# PQR5V

1.异质距离编码HDE
• 异质最短路径距离（Hete-SPD）
• 传统SPD：忽略路径类型，结果次优
• Hete-SPD：考虑路径长度和类型
• 节点𝑢, 𝑣之间Hete-SPD: 𝑑 𝑢 𝑣 ∈ℝ𝒜
• 其中，距离向量第𝑗个维度的值是：
• 优势：
jk6l]^ mno :;jk6l]^
• 建模异质图上节点的相对距离
• 用向量建模距离，具有更高的表达能力
1.异质距离编码HDE
• 异质距离编码（HDE）实现
• 目标：建模目标节点集 𝒮 和节点 𝑖 之间联系
• 方法：
当𝒮 = 𝑢, 𝑣 时：
• 𝒮中所有节点到节点𝑖的Hete-SPD的组合
§
-.
当𝒮 = 𝑢, 𝑣, 𝑤 时：
• 其中, 𝐹: 混合函数；𝐸𝑛𝑐: one-hot 编码函数
• 𝑑"#$% : 节点类型 𝒜" 下的最大距离

• 防止过拟合、降低复杂度
2.高效异质距离编码 E-HDE
• 动机：HDE在大规模场景下计算加速
• 计算复杂度：𝑂( 𝑉 ⋅ |𝑆| ⋅ 𝑓(𝑥))
• 𝑉 : 封闭子图节点数, |𝑆|: 目标集节点数

• 𝑓 𝑥 : 找到2个节点之间所有路径的复杂度
• 计算瓶颈：𝑂( 𝑉 + |𝐸|) ≤ 𝑓 𝑥 ≤ 𝑂( 𝑉 !)
• 受到同质图中generalized PageRank分数
启发，异质距离信息：
pq:;]^cdrstCesuvw
3: 基于距离编码的异质图神经网络DHN
• 概览：DHN捕获节点之间的关系，并将它们合并到HGNN的聚合过程
• 步骤1. 节点表示初始化
",$
• 异质距离编码 ℎ!
• 给定节点对(𝑢, 𝑣)，我们提取它们的𝑘跳封闭子图𝒢 $!,# , 仅计算封闭子图中节点的KDE
• （1）使用子图降低搜索空间（相对全图），加速计算；
• （2）可用于mini-batch训练，提升可扩展性，可用于工业级数据；
• 异质类型编码 𝑐!
• 捕获不同类型节点的特征， |𝒜|维向量：
3: 基于距离编码的异质图神经网络DHN
• 步骤2. 异质图卷积
• 聚合邻居，更新基于邻居的表示；例如，节点𝑢在𝑙层的表示：
（𝐴𝑔𝑔函数采用平均池化）
• 最终节点表示：根节点表示和基于邻居表示的拼接
• 链接预测&损失函数：
仿真结果
• Inductive 链接预测
任务效果显著提升；表现出更好的泛化性
仿真结果
• 多元关系实例预测(i.e., 用户-场景-视频)
多元关系预测效果显著提升
HDE对于高阶预测任务仍然通用且有效
仿真结果
• E-HDE 有效性&高效性
pq:;]^cdUBqx pq:;]^cdUpqx
图召回通用能力打造
全域多模图升级
• 全域多模图M5-Graph • 预训练模型M5-GPT
1. Multi-Domain: 搜索, 推荐, 广告等
2. Multi-Material: 商品, 视频, 直播等
3. Multi-Position: 首页, 商详, 内页等
4. Multi-Relation: 点击, 观看, 转发等
5. Multi-Modal: 图片模态, 文本模态等
搜推内容域
公域
场域
广告
私域商品域
场域
- 全域数据
1 / 背景
提纲
4 / 总结
业务特色图召回
视频外页-多域交互图召回
• 业务特点
• 商品和视频等多元素材以瀑布流的形式混合展示
• 新兴素材面临更严重的数据稀疏: 用户量和交互量偏低
/0t&y12z
!!
/0t#$12z
• 挑战&方案
挑战：不同域行为兴趣的联系建模方案：多域交互图召回
• 1. 统一描述用户在不同域的异构行为 • 构建双域图
• 2. 建立不同域行为兴趣偏好的联系 • 在图上建模交互并学习表示
• 已有方法：
• 仅考虑单域的行为与兴趣，缺乏用户在不同域行为兴趣的潜在联系的刻画
• 具体挑战：
• 1. 视频驱动的电商场景下，涉及到用户、视频和商品等多种类型节点之间的异构交互，
不同域的行为特性有较大差异；
• 2. 如何对齐不同域行为并建立其联系，进而实现双域行为和兴趣的互补和增强；
• 具体方案
{|<U}_ ~{|<•_912€•‚F-
• 视频域、商品域: • 单图内部交互
• 基础边、异构边 • 多域交互
• 节点表示初始化 • 用户双域行为和兴趣的对齐和互补
• 兴趣表示抽取、多域表示融合
业务特色图召回
视频内页-子图召回
• 业务特色
• 用户在主页点击引流素材后跳转到内页(引流素材=即时兴趣)
• 引流相关性 v.s. 用户个性化
• 挑战&方案
挑战：基于引流信息的内页特色召回方案：即时兴趣子图的向量召回
• 召回结果与用户即时兴趣的相关性保证 • 兴趣子图划分与表示
• 用户长期兴趣和即时兴趣的有机融合 • 即时兴趣筛选与融合
• 已有方法：
• 目前内页召回考虑因素单一：用户/引流视频/简单拼接；
• 建模粒度过粗，缺乏精细化建模；
• 开放问题：
• 如何充分利用引流素材信息并设计具有内页特色的召回算法？
• 子图划分
• 将用户其周围的结构划分为多个兴
趣子图
• 即时兴趣子图搜索
• 以引流视频为指导, 筛选出相关性较
高的子图结构(即时兴趣)
• 兴趣表示
• 图卷积更新节点表示
• 子图池化抽取兴趣表示
• 兴趣融合
• 即时兴趣 & 长期兴趣 (个性化 vs 相 ƒ„…†‡<ˆ‰Š4
关性)
1 / 背景
提纲
4 / 总结
总结
• 内容电商(视频+直播)成为近年电商发展新趋势和动力
• 图召回通用能力打造
• 基于距离编码的异质图神经网络具有高表达和高泛化能力
• 全域多模图升级
• 业务特色图召回应用
• 视频外页：融合视频域、商品域等信息的多域交互图召回
• 视频内页：基于引流信息的即时兴趣子图召回
校招投递: org.jdsr1@jd.com
个人微信: houye93
Thanks！

图机器学习在京东视频召回中的应用

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

图机器学习在京东视频召回中的应用

Uploaded by

Copyright:

Available Formats

图机器学习在京东召回中的应用

业务层视频外页-交互图召回视频内页-即时兴趣子图召回 …

L4MN𝑝! 𝑝" O 𝑝! 𝑝# PQRSTU5V WXYU56Z[HI\

• 研究动机 & 研究方案

多元关系计算代价高创新2: 高效异质距离编码E-HDE

HGNN表达能力受限创新3: 基于距离编码的异质图神经网络DHN

fgUeCEhiMN𝑝! 𝑝" O 𝑝! 𝑝# PQR5V

• 𝑑"#$% : 节点类型 𝒜" 下的最大距离

• 𝑉 : 封闭子图节点数, |𝑆|: 目标集节点数

• 给定节点对(𝑢, 𝑣)，我们提取它们的𝑘跳封闭子图𝒢 $!,# , 仅计算封闭子图中节点的KDE

You might also like

图机器学习在京东视频召回中的应用

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

图机器学习在京东视频召回中的应用

Uploaded by

Copyright:

Available Formats

图机器学习在京东召回中的应用

业务层 视频外页-交互图召回 视频内页-即时兴趣子图召回 …

L4MN𝑝! 𝑝" O 𝑝! 𝑝# PQRSTU5V WXYU56Z[HI\

• 研究动机 & 研究方案

多元关系计算代价高 创新2: 高效异质距离编码E-HDE

HGNN表达能力受限 创新3: 基于距离编码的异质图神经网络DHN

fgUeCEhiMN𝑝! 𝑝" O 𝑝! 𝑝# PQR5V

• 𝑑"#$% : 节点类型 𝒜" 下的最大距离

• 𝑉 : 封闭子图节点数, |𝑆|: 目标集节点数

• 给定节点对(𝑢, 𝑣)，我们提取它们的𝑘跳封闭子图𝒢 $!,# , 仅计算封闭子图中节点的KDE

You might also like

业务层视频外页-交互图召回视频内页-即时兴趣子图召回 …

多元关系计算代价高创新2: 高效异质距离编码E-HDE

HGNN表达能力受限创新3: 基于距离编码的异质图神经网络DHN