梯度是 IS, Prob, Adv 的函数
如果无法正常显示,请先停止浏览器的去广告插件。
1. 梯度是 IS, Prob, Adv 的函数
—— MASPO 统一解决 RLVR 三大核心瓶颈(ACL 2026)
美团计算和智能平台部
2. Background
RLVR,全称是 Reinforcement Learning with Verifiable Rewards
它的核心思想很简单:对于数学、代码、逻辑推理这类任务,我们不一定需要人工偏好打分,
而是可以用规则直接判断答案是否正确
Policy Model
Response
奖励函数
得分
优势函数
训练
以数学题为例:主流范式:
• 模型根据题目生成多个 CoT 和最终答案• 目前 RLVR 中最常用的方法之一是 GRPO
• Reward Function 判断最终答案是否正确• GRPO 不需要单独训练 Critic,而是对同一道题
• 正确样本给正奖励,错误样本给负奖励采样一组答案,通过组内 Reward 标准化得到
• 再用强化学习把模型往正确推理方向更新Advantage,再更新 Policy
2
3. Motivation
RLVR 三大核心瓶颈:
•
•
•
IS 维度:Clipping 机制的梯度利用率低(丢弃有价值的更新,保留错误更新)
Prob 维度:基于 IS 的约束对概率不敏感(长尾 Token 需要更大的探索空间)
Adv 维度:负样本包含噪声,传统优势是对称处理(容易被伪负样本误导)
3
4. Methodology
MASPO 统一解决三大瓶颈:
• 无 IS 裁剪:将约束问题建模为信用问题,由最大熵原理推导出高斯门控,替代 Clip
• Prob 适应:约束对象从 KL 散度 → 概率总变差 TV,推导出 IS 偏差与 Prob 成反比
• Adv 控制:证明 Adv 大小随问题难度单调,设计优势非对称调控,反转信用分配方向
方法:设计单边无裁剪门控约束,由
自变量 IS ratio 和基于 Probability
Advantage 的自适应标准差控制
激进扩张 (σ↑)
加速 Hard Case
保守压缩 (σ↓)
防止 Easy Case
导致模型遗忘
4
5. Soft Gaussian Gating
GRPO 的 Clipping 是硬边界。只要 IS Ratio 超过
边界,梯度会被直接截断,造成明显的信息浪费
MASPO 使用软高斯门控替代硬裁剪:
• 当 IS Ratio 接近 1 时,说明新旧模型变化不大,
F
GRPO
MASPO
更新比较可信,门控权重接近 1;
• 当 IS Ratio 偏离 1 越远,说明策略变化越激进,
门控权重会平滑下降;
1
• 但即使超过边界,也不会立刻变成 0,而是保留
一部分可用梯度。
IS ratio
IS ratio
1
0.8
负样本(Advantage<0)
1
1.2
软高斯门控提升了 IS 维度下的梯度利用率,让有
价值的样本不被硬裁剪直接丢掉
正样本(Advantage>0)
5
6. Mass-Adaptive Limiter
GRPO 的 Clipping 范围是统一的。但在
LLM 中,不同 Token 的基础概率差异非常
大。同样的 IS Ratio 偏移,对概率质量的
影响并不一样
MASPO 引入 Mass-Adaptive Limiter,
让高斯门控的宽度和 Token 概率相关:
• 低概率 Token:门控更宽,允许更大
Ratio 偏移,鼓励长尾探索;
• 高概率 Token:门控更窄,限制过度更
新,防止模型坍缩到少数高频 Token
6
7. Asymmetric Risk Controller
在 GRPO 中,Advantage 决定更新方
向和强度。但正负 Advantage 的可靠
性并不对称
MASPO 设计了优势自适应控制器:
• 对正样本:Advantage 越大,门控
越宽,允许更激进学习;
• 对负样本:负 Advantage 越大,门
控越窄,避免过度惩罚;
• 对普通 Hard Case 中常见的负样
激进扩张 (σ↑) 加速 Hard Case
保守压缩 (σ↓) 防止 Easy Case 导致模型遗忘
本,则不过度压缩,让训练正常推进
7
8. Experiments
实验设置
• Models: DeepSeek-R1-Distill-Qwen (1.5B/7B/14B)
• Dataset: DAPO-Math-17K
• Benchmarks: AIME, AMC, MATH500, Minerva,
OlympiadBench
• Baselines: GRPO, Clip Higher, DAC, BAPO, SAPO
MASPO SOTA on Math Reasoning
• 平均 Avg@32 和 Pass@32 基本超越所有基线
• 性能在不同尺寸下稳定提升
8
9. Dynamics Analysis
实验设置
• Models: DeepSeek-R1-Distill-
Qwen (1.5B/7B)
• Dataset: DAPO-Math-17K
• Benchmarks: AIME, AMC,
MATH500, Minerva,
OlympiadBench
• Baselines: GRPO, Clip Higher,
DAC, BAPO, SAPO
Dynamics Analysis
•
•
•
•
熵表现出稳定下降趋势
AIME24 上限高于所有
AIME25 上限在 7B 显著提升
AIME Pass@K 全面提升
9
10. Analysis of Hyperparameters
MASPO 超参数分析
• MASPO 在 8 组 (α: 0.1→0.8, β: 0→0.1) 超参实验中均显著优于 GRPO Baseline,表现出极强的鲁棒性
• MASPO 熵总是高于 GRPO,且无崩溃现象
• MASPO 最优超参可取 0.5 ≤ α ≤ 0.8, β=0.03
10
11. Scaling Analysis
MASPO 更大模型实验
• MASPO 在训练过程中保持更高的 Policy Entropy,同时 Avg@32 持续高于 GRPO
• 从 1.5B、7B 到 14B,MASPO 都稳定带来收益;其中 14B 的 Avg@32 提升 +2.8,Pass@32 提升 +3.7
,证明 IS、Prob、Adv 三个维度的自适应控制在不同模型规模下都成立。
11
12. Ablation Study
MASPO 正样本风险控制消融分析
• 只停用正样本的风险控制,收敛上限降低
• 说明增加难例的学习强度是有效的
12
13. Ablation Study
SAPO 单边消融分析
• 将 SAPO (阿里) 做了单边设计。实验发现单边设计能持续稳定训练,而双边设计易发生不稳定,导致策略
崩溃。不过双边能加速收敛 (与上一篇的 CISPO 相似)
• 侧面说明 MASPO 单边设计的稳定性追求
13
14. Q&A
15. 梯度是 IS, Prob, Adv 的函数
—— MASPO 统一解决 RLVR 三大核心瓶颈(ACL 2026)
美团计算和智能平台部