基于分解式隐式推理的生成式推荐
如果无法正常显示,请先停止浏览器的去广告插件。
1. Factorized Latent Reasoning for LLM- based
Recommendation
基于分解式隐式推理的生成式推荐
LongCat Interaction - Zihan Wang
2. 背景 & 问题
ØLLM通过将用户偏好建模转化为语言生成问题,极大推动了商品推荐的范式转换
Ø显式CoT的自回归token生成带来巨大推理延迟,难以规模化部署
ØLatentR3等方法将用户意图压缩进单一潜向量,进行隐式推理
Ø单向量无法捕捉用户偏好的多面性(如价格敏感 / 视觉风格 / 功能需求同时存在)
Ø单头注意力机制本质上只学习一种决策视角,导致信息纠缠与表达力受限
3. FLR - 分解式隐式推理
单向量推理 -> 多因子推理
1. 基于latent token的隐式推理(in- place update)
2. 基于注意力机制的多因子推理
3. 基于门控网络的多因子聚合
4. 隐式推理训练 - FLR- SFT
1. 交叉熵损失:预测用户真实下单的商品。
2. 正则化损失:保证 K 个因子解耦、不冗余。
Ø正交性损失:强制因子向量之间两两正交,防止它们学到相同的特征。
Ø注意力多样性损失:最小化不同因子的注意力分布的余弦相似度,迫使不同的因子关注历史物品序列中不同的位置。
Ø稀疏性损失:最小化聚合权重的熵,推动权重分布趋向 one- hot,每个样本尽量只由一个主导因子来做决策。
5. 隐式推理训练 - FLR- GRPO
面向多因子隐式推理的GRPO算法:
1.潜在空间探索:不在token空间采样,而是
在潜在空间注入噪声。
2.混合奖励函数:稀疏奖励(预测对错)+密
集奖励(正确样本的置信度)。
3.组相对优势估计:使用无噪声样本的奖励
作为基线,降低方差。
4.正则化损失保留:维持SFT阶段学到的因子
解耦结构。
5.反向 KL 指数近似: 指数级惩罚偏离过大
的推理路径。
6. 实验结果
在Amazon数据集上,FLR相比于最强的隐式推理基线(LatentR3)平均提升约为3.2%。
在其中最具挑战的Games子数据集上,FLR实现了 10.26% 的性能增幅。
7. 消融实验 - 多因子的必要性
Q1.多因子是否会冗余?
1.无约束:因子平均相关性 0.44,
多因子退化为同一语义通道
2.正则化约束:相关性降至 0.03,
多因子严格正交、对角化
RQ2.因子数K如何确定?
1.网格搜索发现,K的最优值有所差异,最优值集中在{3,4}
2.不同域复杂度不同,Games较复杂、任务较难,K值较大
8. 消融实验 - 多因子的多样性、有效性
Q3.如何评估因子的多样性和有效性?
对Games数据集的因子注意力权重进行可视化,发现因子间分工明确:
因子 1:游戏核心玩法 (Action/ Racing)
因子2:游戏品类探索 (Adventure/ Sports)
因子3:游戏收藏周边 (手办/ Amiibo)
因子4:实用配件 (手柄外设)
9. 消融实验 - FLR-GRPO的有效性
Q4.因子正则化约束有效性?
1. 单独使用任意一种正则化Loss均能相比基线(None)带来稳定提升;
2. 三者联合使用(attn_div+orth+sparse)在绝大多数指标上达到最优。
10. 消融实验 - RL训练稳定性 & 推理开销
RQ5.RL在潜空间是否稳定?
1. 通用GRPO在Games数据集上出现负迁移(H@5 - 2.82%)
2. FLR- GRPO将其反转为+0.94%,16个指标全部正向提升
RQ6.推理开销是否可接受?
1. 多因子并行推理,推理耗时与BIGRec等非推理方法几乎相同
2. 在Games数据集上,推理耗时明显低于COT方法(32 vs
770)
11. Q&A
12. 招聘:美团垂域基座预训练暑期实习岗位
邮箱:wangzihan14@meituan.com
更多技术干货
欢迎关注“美团技术团队”