生成式技术重构推荐系统的智能边界与效率标准
如果无法正常显示,请先停止浏览器的去广告插件。
1.
2.
3.
4. 01
传统推荐级联架构的规模化
瓶颈与范式局限
5. Scaling Law
6. •
•
•
7.
8. MFU
9. Rule-1
Rule-2
…
…
…
User/Item Data
…
Log
…
Server
Model-j
…
…
Model-i
粗
排
Model-1
…
…
…
…
…
Model-j
精
排
M4oE M4oE
LN LN
LN LN
…
…
10. 02
OneRec:端到端生成式
推荐的系统验证
11. (Generative Model)
(Discriminative Model)
𝑷 𝒙𝒕𝒓 𝒖𝒔𝒆𝒓, 𝒊𝒕𝒆𝒎, 𝒄𝒐𝒏𝒕𝒆𝒙𝒕 𝑷(𝒊𝒕𝒆𝒎, 𝒖𝒔𝒆𝒓, 𝒄𝒐𝒏𝒕𝒆𝒙𝒕)
求解空间 求解空间
• 在item id空间求解,I稀疏性高code book 10B量级 • 在抽象语义空间求解,codebook 100K量级
• 可学习的共现n-gram信息较少 • 共现n-gram信息多,有更多信息可被学习
• 压缩能力有限 • 压缩能力强
求解过程
求解过程
• 宽度搜索
• 多个Item间计算独立
• 可以增加胜率但是不能增加智能
• 深度搜索
• 每个Token激活模型中不同的知识
• 每一步解码都在参考前一步的知识,智能上界随解码
token量增加
12. OneRec
Video ID
Semantic IDs (SID)
ℒ 𝑁𝑇𝑃
Train Phase
Pre-train Loss
𝑣𝑖𝑑𝑒𝑜 1
ℒ 𝐸𝐶𝑃𝑂 Post-train Loss
𝑣𝑖𝑑𝑒𝑜 2
Online Learning
Infer Phase
Mapping
𝑣𝑖𝑑𝑒𝑜 k
OneRec
Sampling (pass@k)
Optimize
BeT
Decoder
Behavior Transformer
𝑟 1 ,
𝑟 2 ,
…,
𝑟 𝑘
Reward
System
ℒ 𝐸𝐶𝑃𝑂
Select (optional)
…
ℒ 𝑁𝑇𝑃
Tokenizer
…
User Info
Tokenizer
…
Context Info
…
Item Info
13. OneRec
Tokenizer
14. OneRec
Tokenizer
K-means Clustering
ℒ caption_𝑔𝑒𝑛
1
𝒄 1
QFormer
K / V
…
𝑀
VLM VLM
1 封面+5 抽帧
Q
× 𝑵 𝒊𝒂
…
𝑀
:#滑雪的快乐 #滑雪 #
初学者 充实的一天,收
货满满的一天,抓住冬
天的尾巴,总算没白来!
1
3
𝒄 4
2
𝒄 3
#冰雪世界 #冬季运动 #
滑雪乐趣 #亨受运动带
来的快乐
快来滑雪吧,真好玩
1 封面+5 抽帧
•
•
•
•
1
𝒄 1
1
𝒄 2
3
𝒄 4
2
𝒄 4
Codebook 1
× 𝑵 𝒊𝒂
K / V
1
Codebook 2
1
1
𝒄 3 𝒄 4
- =
2
𝒄 1
3
𝒄 3
𝒄 1
𝒄 1
𝒄 3
ℒ 𝐼2𝐼
QFormer
3
𝒄 2
2
LLM
•
Q
2
𝒄 2
1
𝒄 2
2
𝒄 2
2
𝒄 3
- =
2
𝒄 4
centroid
Codebook 3
LLM
•
ℒ caption_𝑔𝑒𝑛
3
𝒄 1
3
𝒄 2
3
𝒄 3
- =
Item semantic identifiers (3, 4, 1)
3
𝒄 4
15. OneRec
Tokenizer
K-means Clustering
ℒ caption_𝑔𝑒𝑛
2
𝒄 2
1
𝒄 2
1
𝒄 1
1
× 𝑵 𝒊𝒂
QFormer
K / V
…
𝑀
VLM VLM
1 封面+5 抽帧
Q
× 𝑵 𝒊𝒂
…
𝑀
:#滑雪的快乐 #滑雪 #
初学者 充实的一天,收
货满满的一天,抓住冬
天的尾巴,总算没白来!
2
𝒄 3
#冰雪世界 #冬季运动 #
滑雪乐趣 #亨受运动带
来的快乐
快来滑雪吧,真好玩
1 封面+5 抽帧
Codebook 1
1
𝒄 1
1
𝒄 2
3
𝒄 4
2
𝒄 4
Codebook 2
1
1
𝒄 3 𝒄 4
- =
K / V
QFormer
𝒄 4
𝒄 3
ℒ 𝐼2𝐼
Q
3
𝒄 1
1
2
𝒄 1
3
𝒄 3
𝒄 1
2
LLM
LLM
3
𝒄 2
2
𝒄 2
2
𝒄 3
- =
2
𝒄 4
centroid
Codebook 3
ℒ caption_𝑔𝑒𝑛
3
𝒄 1
3
𝒄 2
3
𝒄 3
- =
Item semantic identifiers (3, 4, 1)
3
𝒄 4
16. OneRec
Reward System
17. OneRec:
18. OneRec:
硬规则降权 Reward机制
过滤限制透出 端到端强化学习
非最优解 模型至少在求最优解
规则维护复杂 灵活增加reward自适应优化
在端到端学习框架下,给OneRec增加一项reward,告诉他什么是
好,什么是不好即可。
同时模型只需要采样约0.1%的样本进行强化学习即可将该类内容
控制在预期比例。
19. OneRec:
Video ID
SID Tokens
Mapping
Encoder
video 1
Decoder
video 2
video k
20. OneRec:
•
•
•
•
•
21. OneRec:
22. OneRec:
8.00% 12.00%
7.00% 10.00%
6.00%
5.00% 8.00%
4.00% 6.00%
3.00%
2.00%
取消降级实验…
4.00%
取消降级实验组
1.26%
2.00%
1.00%
0.00%
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
0.00%
-2.00%
1
2
3
4
5
6
7
8
9 10 11 12 13 14 15 16 17 18 19 20
23. 03
Lazy Decoder Only:
推荐Scaling的定制优化
24. OneRec
User-1
3 impressions
A
B
C
1 st impression
1 st impression
A
User-1
2 nd impression
2 nd impression
User-2
B
C
A
B
3 rd impression
⇔
D
3 rd impression
A B
𝑡 1 𝑡 4
C
User-1
𝑡 1
𝑡 2
𝑡 3
𝑡 4
𝑡 5 𝑡 6
A B A B C
A B C
𝑡 1 𝑡 4 𝑡 5
User-1
User-1
3 impressions
A
User-1
𝑡 5
User-1
User-1
25. Encoder-Decoder
Encoder
Decoder
•
•
•
26. Lazy Decoder Only
27. Lazy Decoder vs Encoder-Decoder
28. Lazy Decoder Only Scaling
29. 04
OneRec-Think:
全模态生成理解统一基座
30. OneRec-Think
•
•
Muennighoff, N., Yang, Z., Shi, W., Li, X. L., Fei-Fei, L., Hajishirzi, H., ... & Hashimoto, T. (2025). s1: Simple test-time scaling. arXiv preprint arXiv:2501.19393.
Wei, J., Wang, X., Schuurmans, D., Bosma, M., Xia, F., Chi, E., ... & Zhou, D. (2022). Chain-of-thought prompting elicits reasoning in large language models. Advances in neural information processing systems, 35, 24824-24837.
31. OneRec-Think
OneRec
OneRec-Think
32. OneRec-Think
用户基础信息 观看视频序列
点赞视频序列 搜索历史
Code
… …
天然净化
水质打造
健康生态
鱼缸环境
#养鱼 #
鱼缸造景
3.
Code
…
…
4.
… …
Thinking+Answer
33. OneRec-Think
34.
35.