SRFT- A Single-Stage Method with Supervised and Reinforcement Fine-Tuning for Reasoning

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. SRFT: A Single-Stage Method with Supervised and Reinforcement Fine-Tuning for Reasoning 汇报人:Jiajun Chai 美团搜索和推荐平台部
2. Motivation GPT 4o o1 improvements o3 improvements 2025年初,o1的推理能力增强带来了LLM能力的快速提升 Deepseek-R1 的 RLVR 方案让社区看到了 RL 的巨大潜力
3. SFT and RL(VR) for Reasoning Supervised Fine-Tuning (SFT) Can we combine these two methods? • 单阶段结合>两阶段? • 利用SFT引入先验知识? 🤔
4. SFT 与 RL 结合的现有方法 • 外部数据作为SFT/RL上下文提示 UFT [1] 引入外部提示,并作为SFT的训练损失(由最优策略和当前 策略KL损失转化而来) TAPO [2] RL训练时,根据问题的复杂性从外部思考库中检索 最相关的思考模式,并将其应用于推理过程 • 引入外部数据SFT/off-policy RL LUFFY [3]ReLIFT [4] 引入外部数据,将其作为off-policy样本用于 RL训练收集RL推理时不会的问题输给专家模型回答,累积 到一定数目后利用专家数据SFT模型 • 多阶段切换SFT、RL SASR [5] 以step-level进行SFT、RL两种训练方式的切换 [1] UFT: Unifying Supervised and Reinforcement Fine-Tuning arXiv: 2505.16984 [2] Thought-Augmented Policy Optimization: Bridging External Guidance and Internal Capabilities arXiv: 2505.15692 [3] Learning to Reason under Off-Policy Guidance arXiv: 2504.14945 [4] Learning What Reinforcement Learning Can't: Interleaved Online Fine-Tuning for Hardest Questions arXiv: 2506.07527 [5] Step-wise Adaptive Integration of Supervised Fine-tuning and Reinforcement Learning for Task-Specific LLMs arXiv: 2505.13026
5. 分析1:SFT 与 RL 在 LLM 上的作用 —— 大锤🔨与手术刀🔪 p 对比训练前后,相同提示下模型回复的token概率分布变 化;颜色越深代表变化越明显 p SFT很大程度上改变了整个回复的token概率分布 p RL仅选择性地修改一小部分token的概率,同时数值计算和 数学证明内容基本保持不变。 p 最近也有工作从权重角度出发分析SFT&RL在LLM训练中的 区别 [1] [2] [1] Does Math Reasoning Improve General LLM Capabilities? Understanding Transferability of LLM Reasoning arXiv:2507.00432 [2] Reinforcement Learning Finetunes Small Subnetworks in Large Language Models arXiv: 2505.11711
6. 分析2:SFT 与 RL 的学习动力学可视化 p 引入三种参考模型作为空间坐标,用模型保存点与参考模型的分布距离衡量 模型的学习动力学 l 当两个模型对相同提示,输出回复的token概率分布接近时,在可视化空 间里他们的距离也更近 p SFT产生大范围的模型分布改变,而RL对模型分布改变较小 l 对参考模型的接近/远离程度各不相同 p SFT→RL取得了更好的效果(54.5),但在RL阶段向着SFT阶段的反方向优化, 说明第一阶段SFT产生了过度优化 p SFT+RL(SRFT)通过单阶段的SFT&RL结合,具有更高效的优化轨迹,能够 更加直接地到达更优解(59.1)
7. 分析3:SFT → RL 和 RL → SFT p RL→SFT产生了性能骤降&熵猛增,猜测是由于RL后SFT,数据集策略与优 化策略分布差距过大导致 p SFT→RL能够稳定熵下降,并产生性能提升 p SFT→RL is better than RL→SFT! p Entropy是SFT与RL结合的指示器(某种观测) p SFT→RL→SFT→... 这种技术方案或许并不可行
8. 分析4:单阶段初步验证 —— 样本效率 p 分别测试了纯RL、SFT→RL(不同步数SFT)和SFT+RL下训练的样本 效率 p 控制相同步数&batchsize下,SFT+RL的单阶段结合具有更高的样本 效率 l 训练步数要求更多 l SFT后RL,面临灾难性遗忘(SFT学习的知识) l 充分SFT,能够取得更好的效果 p 引入了演示/SFT数据的SFT→RL和SFT+RL,性能均优于纯RL方法(外 部数据很重要!)
9. 监督强化微调(SRFT)1——从演示数据中学习 演示数据 <提示,推理轨迹,答案> 𝒟!"#$. 监督微调(SFT) 用于直接模仿演示数据中的策略(粗粒度) 强化学习(RL) 用于直接模仿演示数据中的策略(细粒度) 1. 构造GPRO Group (演示数据+自探索数据): 2. 计算异策略"优势": 熵很重要!用于控制SFT的强度: • 熵越大,代表当前策略不确定性越高,容易由分布差异引起性能崩 塌,因此降低SFT的训练比重 • 熵越小,代表当前策略不确定性越低,通过演示数据增加其策略多样 性,因此提高SFT的训练比重 3. 计算异策略强化学习损失(带重要性采样):
10. 监督强化微调(SRFT)2——从自探索数据中学习 自探索数据 <提示,答案><模型自身推理过程,答案> 在RLVR奖励为{-1,1}的设定下,原始同策略强化学习损失可分解为: 与SFT形式类似! 因此需要合理平衡与负样本的强度关系 同样利用熵作为指示器 • 作用与wSFT不同:这里用于稳定同策略强化学习训练过程中的熵损失,使性能持续稳 定提升[1] • 熵损失越大,正样本强度越大(SFT强度增大,使熵变小) [1] ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models arXiv: 2502.24864
11. 监督强化微调(SRFT)3——单阶段集成 在单个微调步骤下实现三种损失的统一训练:
12. 数据集 & 评估设置 p 训练数据集:OpenR1-Math-220k (包含从Deepseek R1得到的高质量、可验证推理轨迹) p 测试数据集: l 数学领域:AIME24、AMC、MATH500、Minerva、Olympiad l 分布外:ARC-C、GPQA-Diamond、MMLU-Pro
13. 实验结果分析 p 显著性能提升: l SRFT在五个挑战性竞赛级推理基准上取得了59.1%的平均准 确率 l 比最佳zero-RL基线方法提升了+9.0个百分点 l 比SFT方法提升了+4.8个百分点 l 比SFT+RL组合方法提升了+3.4个百分点 p 泛化能力优秀: l 平均分数: SRFT取得62.5分,比最佳基线提升+4.7个百分点 l 跨域表现: 在所有三个分布外基准上都表现出色
14. Q&A
15. 更多技术干货 欢迎关注“美团技术团队”

Главная - Вики-сайт
Copyright © 2011-2026 iteam. Current version is 2.155.1. UTC+08:00, 2026-04-01 21:45
浙ICP备14020137号-1 $Гость$