美团图学习技术探索实践
如果无法正常显示,请先停止浏览器的去广告插件。
1. 美团图学习技术探
索实践
张梦迪 美团 知识计算负责人
2. 目录
01 多源异构图学习
03 图预训练
新零售场景建模
图学习两阶段范式探索
02 超大图训练加速
04 总结展望
引擎、框架、平台设计
3. 01
多源异构图学习
新零售场景建模
4. 美团:零售+科技
5. 美团数据维度
静态的领域知识+动态的交互行为
11亿+商品
3,000万全球商
2亿+店菜
家
70亿累计用户评
价
100万个场景标签
6. 偏静态的领域知识
用户
场景
美团
大脑
商品
商户
7. 美团知识图谱
2018 餐饮图谱
2019 标签图谱
场景图谱
2020
商品图谱
药品图谱
酒旅图谱
到综图谱
2021
跨领域图谱
围绕吃喝玩乐,构建生活娱乐领域超大规模的知识图谱
8. 知识图谱增强推荐
I
I
A
a
O
F
I
U
S
DSSM
T
C
N
P
9. 知识图谱增强推荐 – KGCN_LS
Users
Items
Non-item entities
……
User engagement
labels ? !" ∈ {0,1}
Knowledge graph ?
Goal: Learn predicted engagement probability ? ! !"
Knowledge Graph Convolutional Networks for Recommender Systems with Label Smoothness Regularization, KDD2019
10. 知识图谱增强推荐 – KGCN_LS
Step 2
Entity (item)
embeddings
Step 3
GNN
predict
Step 1
User
embeddings
learn edge
weights
Original KG
loss( ?,
! ?)
Adjacency
matrix
? ! !" (predicted
labels by
GNN)
Knowledge-aware Graph Neural Networks
Knowledge Graph Convolutional Networks for Recommender Systems with Label Smoothness Regularization, KDD2019
? !" (ground
truth)
11. 知识图谱增强推荐 – KGCN_LS
Step 2
Entity (item)
embeddings
Step 3
GNN
predict
Step 1
User
embeddings
learn edge
weights
Original KG
loss( ?,
! ?)
Adjacency
matrix
? ! !" (predicted
labels by
GNN)
? !" (ground
truth)
Step 4:
Label propagation
loss( ?,
$ ?)
? $ !" (predicted
labels by LPA)
Knowledge Graph Convolutional Networks for Recommender Systems with Label Smoothness Regularization, KDD2019
12. 知识图谱增强推荐 – KGCN_LS
Step 2
Entity (item)
embeddings
Step 3
GNN
predict
Step 1
User
embeddings
learn edge
weights
Original KG
loss( ?,
! ?)
Adjacency
matrix
? ! !" (predicted
labels by
GNN)
? !" (ground
truth)
Step 4:
Label propagation
Label Smoothness Regularization
Knowledge Graph Convolutional Networks for Recommender Systems with Label Smoothness Regularization, KDD2019
loss( ?,
$ ?)
? $ !" (predicted
labels by LPA)
13. 偏动态的交互行为
?
?
User
POI
“毛巾卷”
推荐
POI
风控
+
+
POI
waybill
take
搜索
cake
配送
Rider
click
Query
click
?
towel
?
login
Product
User
?
-
-
14. 时空图增强推荐 - STGCN
Ø
P
P6
I
O8 1 0
-
I4
STGCN: A Spatial-Temporal Aware Graph Learning Method for POI Recommendation (ICDM2020)
6
I
2
:
15. 时空图增强推荐 - STGCN
g
Øe n
Ø
R
I
e
h
Rm
/
t
t
Ø gt
Ø e
Ø
P
tP
Ø e
Ø
Ø
la
i
t
o n
t
i
Ø
Ø
I
O
t gt
o
hp
r
STGCN: A Spatial-Temporal Aware Graph Learning Method for POI Recommendation (ICDM2020)
I
16. 时空图增强推荐 - STGCN
STGCN: A Spatial-Temporal Aware Graph Learning Method for POI Recommendation (ICDM2020)
17. 面向排序应用的GNN - ListGNN
18. 02
超大图训练加速
请引擎、框架、平台设计
19. 业务场景 | 建模方案多样
20. 业务场景 | 建模方案举例
21. 图学习平台 | 算法研发视角
训练引擎的选取
对GNN的理解深度不一
需要方便快捷的迭代方式
面向业务场景的标准化评测
与上下游模块的整合
22. 图学习平台 | 平台框架
图片区
图片区
23. 图学习平台 | 离线训练框架
24. 图学习平台 | 离线训练流程
25. 图学习平台 | 面向业务场景的定制模型
自研LBS场景下的推荐模型
• 知识图谱个性化推荐-KGCN_LS (KDD2019)
• LBS时空推荐-STGCN (ICDM2020)
• 基于解耦表征的推荐-SemanticGCN (Dasfaa2021)
经典GNN模型在业务场景下的改造
样本构造策略
采样策略
SOTA模型的持续集成
消息函数
聚合函数
损失函数
多种模型融合
26. 业务场景 | 大规模图
• 用户-商品交互图
• 点评评论社交网络
• 美团大脑知识图谱
• 百科常识知识图谱
……
千亿
百亿
千万
• 全品类商户同构图
• 大搜Query同构图
• 商户/商圈/商区层次图
……
百万
• 分品类商户同构图
……
• 用户-商户交互图
• 用户多介质关联风控图
• 时空路网
……
27. 优化大规模图 | 内存占用
优化图数据结构
• 支持单机训练百亿边规模的图
• 支持快速随机读取
• 兼容主流图学习引擎接口
技术方案
• 基于CSR格式进一步压缩
• 节点重编号/邻接边分块存储/差分编码
28. 优化大规模图 | 内存占用
优化效果
• 相较于DGL,图数据结构的内存占用降低
80%
• 压缩后, 邻接边采样采样速度仅降低10%
• 稳定支持单机百亿边规模的训练
• 单机最大可达千亿边规模
29. 优化大规模图 | 邻接边采样
技术方案
• 降低内存占用:量化采样概率
• 加速采样过程:预处理采样索引
量化采样概率 采样索引
• 分解概率 • 二叉树采样
• 优化目标 • 支持有放回和无放回采样
• O(|E|)预处理时间
30. 优化大规模图 | 邻接边采样
优化效果
• 内存占用大幅降低,每条边权重仅1字节
采样过程的内存消耗(图结构+权重)
• 相较于DGL,加权采样提速2~3倍
采样用时(fanout=20,20; 16 cores)
31. 03
图学习预训练
两阶段范式探索
32. 全平台数据融合
33. 美团图学习技术探索
• 美团图学习技术落地路线
• 多源异构图学习:电商图谱、时空交互行为、富文本内容,针对数据特性的端到端建模。
• 超大图训练加速:易用的框架和平台提升人效;存储及采样优化提升机效。
• 图学习预训练:全平台数据融合,统一大图的通用任务预训练,针对具体业务及任务的知识迁移。
• 图学习技术展望
• 域内场景下,丰富及适合的自监督任务设计:结构 vs 语义?
• 更强的图特征提取器:GNN vs Transformer?
• 跨域场景下,是否存在可迁移的结构或语义知识?
34. 非常感谢您的观看
35. 美团NLP中心欢迎大家加入!
算法方向:预训练、文本理解、图谱构建、知识计算
工作地点:北京、上海
投递邮箱:zhangmengdi02@meituan.com