荣耀推荐算法架构快速演进实践
如果无法正常显示,请先停止浏览器的去广告插件。
1. 荣耀推荐算法架构演进实践
冯晓东
AI架构师
2.
3. 目录
• 背景
• 推荐算法的演进
• 基于跨域特征的用户冷启动
• 基于跨域序列化的召回模型
• 总结与展望
4. 背景
智能推荐中心支撑多个业务领域和多种内容类型的推荐。
荣耀商城 我的荣耀 荣耀俱乐部
商品推荐: 信息流推荐: 视频推荐:
手机
平板
PC
智能穿戴
亲选产品 咨询
玩机技巧
活动
服务 评测视频
爱摄影
发布会
5. 背景
● 领域多:3+
应用层
● 目标多:CTR、CVR、留存率
召回
算法层
数据层
排序
向量召回 DIN
协同过滤 DeepFM
标签召回 LR
用户、物料、行为
● 噪音大:购买考虑期较⻓难以挖掘兴趣
● 冷启动:新用户特征难捕捉
● 数据稀疏:评分矩阵density < 2%
● 数据分散:100+表
6. 推荐算法的演进
基于多模态的
推荐算法模型
+20%
基于跨域序列
化的召回模型
+30%
基于跨域特征
的用户冷启动
• 60%+新用户和游客
• 10+品类/版块
1.0阶段
• 3-5天考虑期
• 行为序列跨度⻓
• 低频高价值
2.0阶段
• 数据稀疏
• 特征多模态
3.0阶段
7. 基于跨域特征的用户冷启动
0.7
0.67
0.61
0.59
0.55
0.53
新用户多
0.35
0.18
跨域特征融合
0
新用户+游客比例
首⻚
商品详情⻚
购物⻋⻚
个人中心⻚
内容分布
不均匀
实时召回推荐
评分矩阵
稀疏
爱摄影
荣耀X系列
爱旅行
慢生活
荣耀magic系列
荣耀数字系列
爱运动
问题反馈
爱主题
智能穿戴
荣耀V系列
爱美⻝
爱游戏
荣耀play系统
爱数码
8. 基于跨域特征的用户冷启动
基于用户群和关键词的跨领域推荐冷启动
俱乐部交互矩阵
post
关
键
词
抽
取
摄
影 游戏
w1 w2
性价
比
w3
关
联
商
品
特
性
s1
s2
s3
user
用
户
聚
类
Magic版块:用户群A
爱运动版块:用户群B
爱摄影版块:用户群C
商
品
交
互 user
矩
阵
item
分
群
计
算
top
商
品
A:
B:
C:
9. 基于跨域特征的用户冷启动
基于跨域特征的用户⻓短期偏好推荐
在线部分
离线部分
item1 Item2 …
post1 post2 …
item2
post1
post2 …
帖子交互明细
商品交互明细
post3
item1 …
item3
商品交互明细
帖子交互明细
商品品类和帖子版块映射
商品版块
协同过滤
w1
w2
w3
w7
商品品类偏好
帖子版块偏好
w4
w5 w6
w23 w24
w9 w10
w22
w21
w8
w11
w13
item5 …
item6
推荐结果
w14
w12
10. 基于跨域特征的用户冷启动
基于跨域特征的用户冷启动效果分析
1.55
1.4375
● CTR:分别提升2.3%和10%
● 多样性:曝光品类增加3.5%
1.325
1.2125
1.1
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
协同过滤
基于用户群和关键词的跨领域推荐冷启动
存在的问题
1.7
● 前期跨域用户较少
● 未考虑行为序列
1.525
1.35
1.175
1
12/2
12/4
12/6
12/8
12/10
12/12
协同过滤
基于跨域特征的用户⻓短期偏好推荐
12/14
12/16
11. 基于跨域序列化的召回模型
主要问题与挑战
•
购买考虑期:购买距离最后一次浏览该商品
1天:60%
⻓序列
3天:80%
5天:90%
•
基于序列化的
召回算法模型
数据表:多且分散
统一特征
Hadoop
MPP
Kafka
12. 基于跨域序列化的召回模型
基于实时行为序列的双塔召回
离线训练
在线推理
Faiss检索
Cosine
Item Vector
User Vector
User Vector Item Vector
DNN DNN
User Embedding Item Embedding
用户向量预测服务
商品向量预测服务
近线更新
用户特征
用户交互序列
商品特征
用户近线行为解析
Past
Now
Hadoop
MPP
Kafka
13. 基于跨域序列化的召回模型
基于实时行为序列的双塔召回
在线推理
离线训练
Faiss检索
Cosine
User Vector
concat
Item Vector
User Vector
User Vector
DNN DNN DNN
User Embedding User Embedding Item Embedding
用户离线交互序列
用户实时交互序列
Past
Now
Past
用户特征
Now
Item Vector
商品特征
Hadoop
MPP
近线更新
用户向量预测服务
商品向量预测服务
用户近线行为解析
更新用户实时序列
Kafka
14. 基于跨域序列化的召回模型
实时双塔存在的问题
● 单次登录行为序列短:3-5个
● 多次对比不同商品:真正兴趣难以捕捉
● 关联兴趣挖掘:其他兴趣挖掘
Past
Now
Past
领域1:荣耀商城行为序列
Now
领域2:荣耀俱乐部行为序列
Past
Now
兴趣点
15. 基于跨域序列化的召回模型
基于跨域序列化的召回模型建模思路
① 行为序列表达
②
Item:价格、上市时间、评论、行为统计
Post:版块、发帖时间、图章、行为统计
单领域行为关系建模
③ 跨域行为关系建模
Self attention
MLP
Add & Normalize
④ 多兴趣建模
Multi-head attention
attention
Target attention
embedding
16. 基于跨域序列化的召回模型
跨域兴趣建模
1、不同域的序列化向量表征
2、跨域的注意力机制构建
,
(
( , , )=
=
;
=
( , , )=
h
,
,
,
,
,
,
,
=
=
/
;
=
;
( h
(
)
1 , ⋯, h
,
,
h )
)
,
User domain1 Embedding User domain2 Embedding
self-attention self-attention
Embedding Embedding
1
,
例: 1 为商品序列, 2 为帖子序列
,
2
,
17. 基于跨域序列化的召回模型
output
Target attention
Target attention
User embedding item embedding
MLP MLP
Multi-head attention
Multi-head attention
Self attention
User item embedding item embedding User post embedding Post embedding
MLP MLP MLP MLP
Self attention
Self attention
embedding
Item 1
Item 2
…
user item sequence
embedding
embedding
Item M
Feature 1 Feature 2
…
item features
Feature N
Post 1
Post 2
…
user post sequence
embedding
Post S
Feature 1 Feature 2 …
post features
Feature T
18. 基于跨域序列化的召回模型
效果与分析
1.5 1.9
1.275 1.775
1.05 1.65
0.825 1.525
0.6 1.4
11/19 11/20 11/21 11/22 11/23 11/24 11/25 11/26 11/27 11/28 11/29 11/30
离线DSSM
实时DSSM
1
2
3
4
5
6
7
8
9
10
11
基于跨域特征的用户⻓短期偏好推荐
基于跨域序列化的召回模型
12
13
14
15
19. 总结与展望
⻓短期偏好
协同过滤
基于跨域序列化的召回
LR+GBDT
跨域冷启动
1
5
9
13
17
21
25
29
33
实时双塔
37
41
45
49
53
57
61
65
69
73
77
81
85
89
93
DeepFm
97 101 105 109 113 117 121 125 129 133 137 141 145 149 153 157 161 165 169 173 177 181 185 189 193 197 201 205 209 213 217 221 225 229 233 237 241 245 249 253 257 261 265 269 273 277 281 285 289 293 297
用户跨领域/多模态推荐
基于跨领域和多模态注
意力机制的推荐
内容跨领域/多模态推荐
20.
21.