梯度是 IS, Prob, Adv 的函数

如果无法正常显示，请先停止浏览器的去广告插件。

1. 梯度是 IS, Prob, Adv 的函数 —— MASPO 统一解决 RLVR 三大核心瓶颈（ACL 2026）美团计算和智能平台部

2. Background RLVR，全称是 Reinforcement Learning with Verifiable Rewards 它的核心思想很简单：对于数学、代码、逻辑推理这类任务，我们不一定需要人工偏好打分，而是可以用规则直接判断答案是否正确 Policy Model Response 奖励函数得分优势函数训练以数学题为例：主流范式： • 模型根据题目生成多个 CoT 和最终答案• 目前 RLVR 中最常用的方法之一是 GRPO • Reward Function 判断最终答案是否正确• GRPO 不需要单独训练 Critic，而是对同一道题 • 正确样本给正奖励，错误样本给负奖励采样一组答案，通过组内 Reward 标准化得到 • 再用强化学习把模型往正确推理方向更新Advantage，再更新 Policy 2

3. Motivation RLVR 三大核心瓶颈： • • • IS 维度：Clipping 机制的梯度利用率低（丢弃有价值的更新，保留错误更新） Prob 维度：基于 IS 的约束对概率不敏感（长尾 Token 需要更大的探索空间） Adv 维度：负样本包含噪声，传统优势是对称处理（容易被伪负样本误导） 3

4. Methodology MASPO 统一解决三大瓶颈： • 无 IS 裁剪：将约束问题建模为信用问题，由最大熵原理推导出高斯门控，替代 Clip • Prob 适应：约束对象从 KL 散度 → 概率总变差 TV，推导出 IS 偏差与 Prob 成反比 • Adv 控制：证明 Adv 大小随问题难度单调，设计优势非对称调控，反转信用分配方向方法：设计单边无裁剪门控约束，由自变量 IS ratio 和基于 Probability Advantage 的自适应标准差控制激进扩张 (σ↑) 加速 Hard Case 保守压缩 (σ↓) 防止 Easy Case 导致模型遗忘 4

5. Soft Gaussian Gating GRPO 的 Clipping 是硬边界。只要 IS Ratio 超过边界，梯度会被直接截断，造成明显的信息浪费 MASPO 使用软高斯门控替代硬裁剪： • 当 IS Ratio 接近 1 时，说明新旧模型变化不大， F GRPO MASPO 更新比较可信，门控权重接近 1； • 当 IS Ratio 偏离 1 越远，说明策略变化越激进，门控权重会平滑下降； 1 • 但即使超过边界，也不会立刻变成 0，而是保留一部分可用梯度。 IS ratio IS ratio 1 0.8 负样本（Advantage＜0） 1 1.2 软高斯门控提升了 IS 维度下的梯度利用率，让有价值的样本不被硬裁剪直接丢掉正样本（Advantage＞0） 5

6. Mass-Adaptive Limiter GRPO 的 Clipping 范围是统一的。但在 LLM 中，不同 Token 的基础概率差异非常大。同样的 IS Ratio 偏移，对概率质量的影响并不一样 MASPO 引入 Mass-Adaptive Limiter，让高斯门控的宽度和 Token 概率相关： • 低概率 Token：门控更宽，允许更大 Ratio 偏移，鼓励长尾探索； • 高概率 Token：门控更窄，限制过度更新，防止模型坍缩到少数高频 Token 6

7. Asymmetric Risk Controller 在 GRPO 中，Advantage 决定更新方向和强度。但正负 Advantage 的可靠性并不对称 MASPO 设计了优势自适应控制器： • 对正样本：Advantage 越大，门控越宽，允许更激进学习； • 对负样本：负 Advantage 越大，门控越窄，避免过度惩罚； • 对普通 Hard Case 中常见的负样激进扩张 (σ↑) 加速 Hard Case 保守压缩 (σ↓) 防止 Easy Case 导致模型遗忘本，则不过度压缩，让训练正常推进 7

8. Experiments 实验设置 • Models: DeepSeek-R1-Distill-Qwen (1.5B/7B/14B) • Dataset: DAPO-Math-17K • Benchmarks: AIME, AMC, MATH500, Minerva, OlympiadBench • Baselines: GRPO, Clip Higher, DAC, BAPO, SAPO MASPO SOTA on Math Reasoning • 平均 Avg@32 和 Pass@32 基本超越所有基线 • 性能在不同尺寸下稳定提升 8

9. Dynamics Analysis 实验设置 • Models: DeepSeek-R1-Distill- Qwen (1.5B/7B) • Dataset: DAPO-Math-17K • Benchmarks: AIME, AMC, MATH500, Minerva, OlympiadBench • Baselines: GRPO, Clip Higher, DAC, BAPO, SAPO Dynamics Analysis • • • • 熵表现出稳定下降趋势 AIME24 上限高于所有 AIME25 上限在 7B 显著提升 AIME Pass@K 全面提升 9

10. Analysis of Hyperparameters MASPO 超参数分析 • MASPO 在 8 组 (α: 0.1→0.8, β: 0→0.1) 超参实验中均显著优于 GRPO Baseline，表现出极强的鲁棒性 • MASPO 熵总是高于 GRPO，且无崩溃现象 • MASPO 最优超参可取 0.5 ≤ α ≤ 0.8, β=0.03 10

11. Scaling Analysis MASPO 更大模型实验 • MASPO 在训练过程中保持更高的 Policy Entropy，同时 Avg@32 持续高于 GRPO • 从 1.5B、7B 到 14B，MASPO 都稳定带来收益；其中 14B 的 Avg@32 提升 +2.8，Pass@32 提升 +3.7 ，证明 IS、Prob、Adv 三个维度的自适应控制在不同模型规模下都成立。 11

12. Ablation Study MASPO 正样本风险控制消融分析 • 只停用正样本的风险控制，收敛上限降低 • 说明增加难例的学习强度是有效的 12

13. Ablation Study SAPO 单边消融分析 • 将 SAPO (阿里) 做了单边设计。实验发现单边设计能持续稳定训练，而双边设计易发生不稳定，导致策略崩溃。不过双边能加速收敛 (与上一篇的 CISPO 相似) • 侧面说明 MASPO 单边设计的稳定性追求 13

14. Q&A

15. 梯度是 IS, Prob, Adv 的函数 —— MASPO 统一解决 RLVR 三大核心瓶颈（ACL 2026）美团计算和智能平台部