梯度是 IS, Prob, Adv 的函数

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 梯度是 IS, Prob, Adv 的函数 —— MASPO 统一解决 RLVR 三大核心瓶颈(ACL 2026) 美团计算和智能平台部
2. Background RLVR,全称是 Reinforcement Learning with Verifiable Rewards 它的核心思想很简单:对于数学、代码、逻辑推理这类任务,我们不一定需要人工偏好打分, 而是可以用规则直接判断答案是否正确 Policy Model Response 奖励函数 得分 优势函数 训练 以数学题为例:主流范式: • 模型根据题目生成多个 CoT 和最终答案• 目前 RLVR 中最常用的方法之一是 GRPO • Reward Function 判断最终答案是否正确• GRPO 不需要单独训练 Critic,而是对同一道题 • 正确样本给正奖励,错误样本给负奖励采样一组答案,通过组内 Reward 标准化得到 • 再用强化学习把模型往正确推理方向更新Advantage,再更新 Policy 2
3. Motivation RLVR 三大核心瓶颈: • • • IS 维度:Clipping 机制的梯度利用率低(丢弃有价值的更新,保留错误更新) Prob 维度:基于 IS 的约束对概率不敏感(长尾 Token 需要更大的探索空间) Adv 维度:负样本包含噪声,传统优势是对称处理(容易被伪负样本误导) 3
4. Methodology MASPO 统一解决三大瓶颈: • 无 IS 裁剪:将约束问题建模为信用问题,由最大熵原理推导出高斯门控,替代 Clip • Prob 适应:约束对象从 KL 散度 → 概率总变差 TV,推导出 IS 偏差与 Prob 成反比 • Adv 控制:证明 Adv 大小随问题难度单调,设计优势非对称调控,反转信用分配方向 方法:设计单边无裁剪门控约束,由 自变量 IS ratio 和基于 Probability Advantage 的自适应标准差控制 激进扩张 (σ↑) 加速 Hard Case 保守压缩 (σ↓) 防止 Easy Case 导致模型遗忘 4
5. Soft Gaussian Gating GRPO 的 Clipping 是硬边界。只要 IS Ratio 超过 边界,梯度会被直接截断,造成明显的信息浪费 MASPO 使用软高斯门控替代硬裁剪: • 当 IS Ratio 接近 1 时,说明新旧模型变化不大, F GRPO MASPO 更新比较可信,门控权重接近 1; • 当 IS Ratio 偏离 1 越远,说明策略变化越激进, 门控权重会平滑下降; 1 • 但即使超过边界,也不会立刻变成 0,而是保留 一部分可用梯度。 IS ratio IS ratio 1 0.8 负样本(Advantage<0) 1 1.2 软高斯门控提升了 IS 维度下的梯度利用率,让有 价值的样本不被硬裁剪直接丢掉 正样本(Advantage>0) 5
6. Mass-Adaptive Limiter GRPO 的 Clipping 范围是统一的。但在 LLM 中,不同 Token 的基础概率差异非常 大。同样的 IS Ratio 偏移,对概率质量的 影响并不一样 MASPO 引入 Mass-Adaptive Limiter, 让高斯门控的宽度和 Token 概率相关: • 低概率 Token:门控更宽,允许更大 Ratio 偏移,鼓励长尾探索; • 高概率 Token:门控更窄,限制过度更 新,防止模型坍缩到少数高频 Token 6
7. Asymmetric Risk Controller 在 GRPO 中,Advantage 决定更新方 向和强度。但正负 Advantage 的可靠 性并不对称 MASPO 设计了优势自适应控制器: • 对正样本:Advantage 越大,门控 越宽,允许更激进学习; • 对负样本:负 Advantage 越大,门 控越窄,避免过度惩罚; • 对普通 Hard Case 中常见的负样 激进扩张 (σ↑) 加速 Hard Case 保守压缩 (σ↓) 防止 Easy Case 导致模型遗忘 本,则不过度压缩,让训练正常推进 7
8. Experiments 实验设置 • Models: DeepSeek-R1-Distill-Qwen (1.5B/7B/14B) • Dataset: DAPO-Math-17K • Benchmarks: AIME, AMC, MATH500, Minerva, OlympiadBench • Baselines: GRPO, Clip Higher, DAC, BAPO, SAPO MASPO SOTA on Math Reasoning • 平均 Avg@32 和 Pass@32 基本超越所有基线 • 性能在不同尺寸下稳定提升 8
9. Dynamics Analysis 实验设置 • Models: DeepSeek-R1-Distill- Qwen (1.5B/7B) • Dataset: DAPO-Math-17K • Benchmarks: AIME, AMC, MATH500, Minerva, OlympiadBench • Baselines: GRPO, Clip Higher, DAC, BAPO, SAPO Dynamics Analysis • • • • 熵表现出稳定下降趋势 AIME24 上限高于所有 AIME25 上限在 7B 显著提升 AIME Pass@K 全面提升 9
10. Analysis of Hyperparameters MASPO 超参数分析 • MASPO 在 8 组 (α: 0.1→0.8, β: 0→0.1) 超参实验中均显著优于 GRPO Baseline,表现出极强的鲁棒性 • MASPO 熵总是高于 GRPO,且无崩溃现象 • MASPO 最优超参可取 0.5 ≤ α ≤ 0.8, β=0.03 10
11. Scaling Analysis MASPO 更大模型实验 • MASPO 在训练过程中保持更高的 Policy Entropy,同时 Avg@32 持续高于 GRPO • 从 1.5B、7B 到 14B,MASPO 都稳定带来收益;其中 14B 的 Avg@32 提升 +2.8,Pass@32 提升 +3.7 ,证明 IS、Prob、Adv 三个维度的自适应控制在不同模型规模下都成立。 11
12. Ablation Study MASPO 正样本风险控制消融分析 • 只停用正样本的风险控制,收敛上限降低 • 说明增加难例的学习强度是有效的 12
13. Ablation Study SAPO 单边消融分析 • 将 SAPO (阿里) 做了单边设计。实验发现单边设计能持续稳定训练,而双边设计易发生不稳定,导致策略 崩溃。不过双边能加速收敛 (与上一篇的 CISPO 相似) • 侧面说明 MASPO 单边设计的稳定性追求 13
14. Q&A
15. 梯度是 IS, Prob, Adv 的函数 —— MASPO 统一解决 RLVR 三大核心瓶颈(ACL 2026) 美团计算和智能平台部

ホーム - Wiki
Copyright © 2011-2026 iteam. Current version is 2.155.2. UTC+08:00, 2026-06-20 19:04
浙ICP备14020137号-1 $お客様$