基于分解式隐式推理的生成式推荐

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. Factorized Latent Reasoning for LLM- based Recommendation 基于分解式隐式推理的生成式推荐 LongCat Interaction - Zihan Wang
2. 背景 & 问题 ØLLM通过将用户偏好建模转化为语言生成问题,极大推动了商品推荐的范式转换 Ø显式CoT的自回归token生成带来巨大推理延迟,难以规模化部署 ØLatentR3等方法将用户意图压缩进单一潜向量,进行隐式推理 Ø单向量无法捕捉用户偏好的多面性(如价格敏感 / 视觉风格 / 功能需求同时存在) Ø单头注意力机制本质上只学习一种决策视角,导致信息纠缠与表达力受限
3. FLR - 分解式隐式推理 单向量推理 -> 多因子推理 1. 基于latent token的隐式推理(in- place update) 2. 基于注意力机制的多因子推理 3. 基于门控网络的多因子聚合
4. 隐式推理训练 - FLR- SFT 1. 交叉熵损失:预测用户真实下单的商品。 2. 正则化损失:保证 K 个因子解耦、不冗余。 Ø正交性损失:强制因子向量之间两两正交,防止它们学到相同的特征。 Ø注意力多样性损失:最小化不同因子的注意力分布的余弦相似度,迫使不同的因子关注历史物品序列中不同的位置。 Ø稀疏性损失:最小化聚合权重的熵,推动权重分布趋向 one- hot,每个样本尽量只由一个主导因子来做决策。
5. 隐式推理训练 - FLR- GRPO 面向多因子隐式推理的GRPO算法: 1.潜在空间探索:不在token空间采样,而是 在潜在空间注入噪声。 2.混合奖励函数:稀疏奖励(预测对错)+密 集奖励(正确样本的置信度)。 3.组相对优势估计:使用无噪声样本的奖励 作为基线,降低方差。 4.正则化损失保留:维持SFT阶段学到的因子 解耦结构。 5.反向 KL 指数近似: 指数级惩罚偏离过大 的推理路径。
6. 实验结果 在Amazon数据集上,FLR相比于最强的隐式推理基线(LatentR3)平均提升约为3.2%。 在其中最具挑战的Games子数据集上,FLR实现了 10.26% 的性能增幅。
7. 消融实验 - 多因子的必要性 Q1.多因子是否会冗余? 1.无约束:因子平均相关性 0.44, 多因子退化为同一语义通道 2.正则化约束:相关性降至 0.03, 多因子严格正交、对角化 RQ2.因子数K如何确定? 1.网格搜索发现,K的最优值有所差异,最优值集中在{3,4} 2.不同域复杂度不同,Games较复杂、任务较难,K值较大
8. 消融实验 - 多因子的多样性、有效性 Q3.如何评估因子的多样性和有效性? 对Games数据集的因子注意力权重进行可视化,发现因子间分工明确: 因子 1:游戏核心玩法 (Action/ Racing) 因子2:游戏品类探索 (Adventure/ Sports) 因子3:游戏收藏周边 (手办/ Amiibo) 因子4:实用配件 (手柄外设)
9. 消融实验 - FLR-GRPO的有效性 Q4.因子正则化约束有效性? 1. 单独使用任意一种正则化Loss均能相比基线(None)带来稳定提升; 2. 三者联合使用(attn_div+orth+sparse)在绝大多数指标上达到最优。
10. 消融实验 - RL训练稳定性 & 推理开销 RQ5.RL在潜空间是否稳定? 1. 通用GRPO在Games数据集上出现负迁移(H@5 - 2.82%) 2. FLR- GRPO将其反转为+0.94%,16个指标全部正向提升 RQ6.推理开销是否可接受? 1. 多因子并行推理,推理耗时与BIGRec等非推理方法几乎相同 2. 在Games数据集上,推理耗时明显低于COT方法(32 vs 770)
11. Q&A
12. 招聘:美团垂域基座预训练暑期实习岗位 邮箱:wangzihan14@meituan.com 更多技术干货 欢迎关注“美团技术团队”

inicio - Wiki
Copyright © 2011-2026 iteam. Current version is 2.155.2. UTC+08:00, 2026-06-21 13:44
浙ICP备14020137号-1 $mapa de visitantes$