生成式技术重构推荐系统的智能边界与效率标准

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1.
2.
3.
4. 01 传统推荐级联架构的规模化 瓶颈与范式局限
5. Scaling Law
6. • • •
7.
8. MFU
9. Rule-1 Rule-2 … … … User/Item Data … Log … Server Model-j … … Model-i 粗 排 Model-1 … … … … … Model-j 精 排 M4oE M4oE LN LN LN LN … …
10. 02 OneRec:端到端生成式 推荐的系统验证
11. (Generative Model) (Discriminative Model) 𝑷 𝒙𝒕𝒓 𝒖𝒔𝒆𝒓, 𝒊𝒕𝒆𝒎, 𝒄𝒐𝒏𝒕𝒆𝒙𝒕 𝑷(𝒊𝒕𝒆𝒎, 𝒖𝒔𝒆𝒓, 𝒄𝒐𝒏𝒕𝒆𝒙𝒕) 求解空间 求解空间 • 在item id空间求解,I稀疏性高code book 10B量级 • 在抽象语义空间求解,codebook 100K量级 • 可学习的共现n-gram信息较少 • 共现n-gram信息多,有更多信息可被学习 • 压缩能力有限 • 压缩能力强 求解过程 求解过程 • 宽度搜索 • 多个Item间计算独立 • 可以增加胜率但是不能增加智能 • 深度搜索 • 每个Token激活模型中不同的知识 • 每一步解码都在参考前一步的知识,智能上界随解码 token量增加
12. OneRec Video ID Semantic IDs (SID) ℒ 𝑁𝑇𝑃 Train Phase Pre-train Loss 𝑣𝑖𝑑𝑒𝑜 1 ℒ 𝐸𝐶𝑃𝑂 Post-train Loss 𝑣𝑖𝑑𝑒𝑜 2 Online Learning Infer Phase Mapping 𝑣𝑖𝑑𝑒𝑜 k OneRec Sampling (pass@k) Optimize BeT Decoder Behavior Transformer 𝑟 1 , 𝑟 2 , …, 𝑟 𝑘 Reward System ℒ 𝐸𝐶𝑃𝑂 Select (optional) … ℒ 𝑁𝑇𝑃 Tokenizer … User Info Tokenizer … Context Info … Item Info
13. OneRec Tokenizer
14. OneRec Tokenizer K-means Clustering ℒ caption_𝑔𝑒𝑛 1 𝒄 1 QFormer K / V … 𝑀 VLM VLM 1 封面+5 抽帧 Q × 𝑵 𝒊𝒂 … 𝑀 :#滑雪的快乐 #滑雪 # 初学者 充实的一天,收 货满满的一天,抓住冬 天的尾巴,总算没白来! 1 3 𝒄 4 2 𝒄 3 #冰雪世界 #冬季运动 # 滑雪乐趣 #亨受运动带 来的快乐 快来滑雪吧,真好玩 1 封面+5 抽帧 • • • • 1 𝒄 1 1 𝒄 2 3 𝒄 4 2 𝒄 4 Codebook 1 × 𝑵 𝒊𝒂 K / V 1 Codebook 2 1 1 𝒄 3 𝒄 4 - = 2 𝒄 1 3 𝒄 3 𝒄 1 𝒄 1 𝒄 3 ℒ 𝐼2𝐼 QFormer 3 𝒄 2 2 LLM • Q 2 𝒄 2 1 𝒄 2 2 𝒄 2 2 𝒄 3 - = 2 𝒄 4 centroid Codebook 3 LLM • ℒ caption_𝑔𝑒𝑛 3 𝒄 1 3 𝒄 2 3 𝒄 3 - = Item semantic identifiers (3, 4, 1) 3 𝒄 4
15. OneRec Tokenizer K-means Clustering ℒ caption_𝑔𝑒𝑛 2 𝒄 2 1 𝒄 2 1 𝒄 1 1 × 𝑵 𝒊𝒂 QFormer K / V … 𝑀 VLM VLM 1 封面+5 抽帧 Q × 𝑵 𝒊𝒂 … 𝑀 :#滑雪的快乐 #滑雪 # 初学者 充实的一天,收 货满满的一天,抓住冬 天的尾巴,总算没白来! 2 𝒄 3 #冰雪世界 #冬季运动 # 滑雪乐趣 #亨受运动带 来的快乐 快来滑雪吧,真好玩 1 封面+5 抽帧 Codebook 1 1 𝒄 1 1 𝒄 2 3 𝒄 4 2 𝒄 4 Codebook 2 1 1 𝒄 3 𝒄 4 - = K / V QFormer 𝒄 4 𝒄 3 ℒ 𝐼2𝐼 Q 3 𝒄 1 1 2 𝒄 1 3 𝒄 3 𝒄 1 2 LLM LLM 3 𝒄 2 2 𝒄 2 2 𝒄 3 - = 2 𝒄 4 centroid Codebook 3 ℒ caption_𝑔𝑒𝑛 3 𝒄 1 3 𝒄 2 3 𝒄 3 - = Item semantic identifiers (3, 4, 1) 3 𝒄 4
16. OneRec Reward System
17. OneRec:
18. OneRec: 硬规则降权 Reward机制 过滤限制透出 端到端强化学习 非最优解 模型至少在求最优解 规则维护复杂 灵活增加reward自适应优化 在端到端学习框架下,给OneRec增加一项reward,告诉他什么是 好,什么是不好即可。 同时模型只需要采样约0.1%的样本进行强化学习即可将该类内容 控制在预期比例。
19. OneRec: Video ID SID Tokens Mapping Encoder video 1 Decoder video 2 video k
20. OneRec: • • • • •
21. OneRec:
22. OneRec: 8.00% 12.00% 7.00% 10.00% 6.00% 5.00% 8.00% 4.00% 6.00% 3.00% 2.00% 取消降级实验… 4.00% 取消降级实验组 1.26% 2.00% 1.00% 0.00% 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 0.00% -2.00% 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
23. 03 Lazy Decoder Only: 推荐Scaling的定制优化
24. OneRec User-1 3 impressions A B C 1 st impression 1 st impression A User-1 2 nd impression 2 nd impression User-2 B C A B 3 rd impression ⇔ D 3 rd impression A B 𝑡 1 𝑡 4 C User-1 𝑡 1 𝑡 2 𝑡 3 𝑡 4 𝑡 5 𝑡 6 A B A B C A B C 𝑡 1 𝑡 4 𝑡 5 User-1 User-1 3 impressions A User-1 𝑡 5 User-1 User-1
25. Encoder-Decoder Encoder Decoder • • •
26. Lazy Decoder Only
27. Lazy Decoder vs Encoder-Decoder
28. Lazy Decoder Only Scaling
29. 04 OneRec-Think: 全模态生成理解统一基座
30. OneRec-Think • • Muennighoff, N., Yang, Z., Shi, W., Li, X. L., Fei-Fei, L., Hajishirzi, H., ... & Hashimoto, T. (2025). s1: Simple test-time scaling. arXiv preprint arXiv:2501.19393. Wei, J., Wang, X., Schuurmans, D., Bosma, M., Xia, F., Chi, E., ... & Zhou, D. (2022). Chain-of-thought prompting elicits reasoning in large language models. Advances in neural information processing systems, 35, 24824-24837.
31. OneRec-Think OneRec OneRec-Think
32. OneRec-Think 用户基础信息 观看视频序列 点赞视频序列 搜索历史 Code … … 天然净化 水质打造 健康生态 鱼缸环境 #养鱼 # 鱼缸造景 3. Code … … 4. … … Thinking+Answer
33. OneRec-Think
34.
35.

首页 - Wiki
Copyright © 2011-2025 iteam. Current version is 2.146.0. UTC+08:00, 2025-10-20 18:46
浙ICP备14020137号-1 $访客地图$