基于分解式隐式推理的生成式推荐

如果无法正常显示，请先停止浏览器的去广告插件。

1. Factorized Latent Reasoning for LLM- based Recommendation 基于分解式隐式推理的生成式推荐 LongCat Interaction - Zihan Wang

2. 背景 & 问题 ØLLM通过将用户偏好建模转化为语言生成问题，极大推动了商品推荐的范式转换 Ø显式CoT的自回归token生成带来巨大推理延迟，难以规模化部署 ØLatentR3等方法将用户意图压缩进单一潜向量，进行隐式推理 Ø单向量无法捕捉用户偏好的多面性（如价格敏感 / 视觉风格 / 功能需求同时存在） Ø单头注意力机制本质上只学习一种决策视角，导致信息纠缠与表达力受限

3. FLR - 分解式隐式推理单向量推理 -> 多因子推理 1. 基于latent token的隐式推理（in- place update） 2. 基于注意力机制的多因子推理 3. 基于门控网络的多因子聚合

4. 隐式推理训练 - FLR- SFT 1. 交叉熵损失：预测用户真实下单的商品。 2. 正则化损失：保证 K 个因子解耦、不冗余。 Ø正交性损失：强制因子向量之间两两正交，防止它们学到相同的特征。 Ø注意力多样性损失：最小化不同因子的注意力分布的余弦相似度，迫使不同的因子关注历史物品序列中不同的位置。 Ø稀疏性损失：最小化聚合权重的熵，推动权重分布趋向 one- hot，每个样本尽量只由一个主导因子来做决策。

5. 隐式推理训练 - FLR- GRPO 面向多因子隐式推理的GRPO算法： 1.潜在空间探索：不在token空间采样，而是在潜在空间注入噪声。 2.混合奖励函数：稀疏奖励（预测对错）+密集奖励（正确样本的置信度）。 3.组相对优势估计：使用无噪声样本的奖励作为基线，降低方差。 4.正则化损失保留：维持SFT阶段学到的因子解耦结构。 5.反向 KL 指数近似：指数级惩罚偏离过大的推理路径。

6. 实验结果在Amazon数据集上，FLR相比于最强的隐式推理基线（LatentR3）平均提升约为3.2%。在其中最具挑战的Games子数据集上，FLR实现了 10.26% 的性能增幅。

7. 消融实验 - 多因子的必要性 Q1.多因子是否会冗余？ 1.无约束：因子平均相关性 0.44，多因子退化为同一语义通道 2.正则化约束：相关性降至 0.03，多因子严格正交、对角化 RQ2.因子数K如何确定？ 1.网格搜索发现，K的最优值有所差异，最优值集中在{3,4} 2.不同域复杂度不同，Games较复杂、任务较难，K值较大

8. 消融实验 - 多因子的多样性、有效性 Q3.如何评估因子的多样性和有效性？对Games数据集的因子注意力权重进行可视化，发现因子间分工明确：因子 1：游戏核心玩法 (Action/ Racing) 因子2：游戏品类探索 (Adventure/ Sports) 因子3：游戏收藏周边 (手办/ Amiibo) 因子4：实用配件 (手柄外设)

9. 消融实验 - FLR-GRPO的有效性 Q4.因子正则化约束有效性？ 1. 单独使用任意一种正则化Loss均能相比基线（None）带来稳定提升； 2. 三者联合使用（attn_div+orth+sparse）在绝大多数指标上达到最优。

10. 消融实验 - RL训练稳定性 & 推理开销 RQ5.RL在潜空间是否稳定？ 1. 通用GRPO在Games数据集上出现负迁移（H@5 - 2.82%） 2. FLR- GRPO将其反转为+0.94%，16个指标全部正向提升 RQ6.推理开销是否可接受？ 1. 多因子并行推理，推理耗时与BIGRec等非推理方法几乎相同 2. 在Games数据集上，推理耗时明显低于COT方法（32 vs 770）

11. Q&A

12. 招聘：美团垂域基座预训练暑期实习岗位邮箱：wangzihan14@meituan.com 更多技术干货欢迎关注“美团技术团队”