SRFT- A Single-Stage Method with Supervised and Reinforcement Fine-Tuning for Reasoning

如果无法正常显示，请先停止浏览器的去广告插件。

1. SRFT: A Single-Stage Method with Supervised and Reinforcement Fine-Tuning for Reasoning 汇报人：Jiajun Chai 美团搜索和推荐平台部

2. Motivation GPT 4o o1 improvements o3 improvements 2025年初，o1的推理能力增强带来了LLM能力的快速提升 Deepseek-R1 的 RLVR 方案让社区看到了 RL 的巨大潜力

3. SFT and RL(VR) for Reasoning Supervised Fine-Tuning (SFT) Can we combine these two methods? • 单阶段结合>两阶段？ • 利用SFT引入先验知识? 🤔

4. SFT 与 RL 结合的现有方法 • 外部数据作为SFT/RL上下文提示 UFT [1] 引入外部提示，并作为SFT的训练损失（由最优策略和当前策略KL损失转化而来） TAPO [2] RL训练时，根据问题的复杂性从外部思考库中检索最相关的思考模式，并将其应用于推理过程 • 引入外部数据SFT/off-policy RL LUFFY [3]ReLIFT [4] 引入外部数据，将其作为off-policy样本用于 RL训练收集RL推理时不会的问题输给专家模型回答，累积到一定数目后利用专家数据SFT模型 • 多阶段切换SFT、RL SASR [5] 以step-level进行SFT、RL两种训练方式的切换 [1] UFT: Unifying Supervised and Reinforcement Fine-Tuning arXiv: 2505.16984 [2] Thought-Augmented Policy Optimization: Bridging External Guidance and Internal Capabilities arXiv: 2505.15692 [3] Learning to Reason under Off-Policy Guidance arXiv: 2504.14945 [4] Learning What Reinforcement Learning Can't: Interleaved Online Fine-Tuning for Hardest Questions arXiv: 2506.07527 [5] Step-wise Adaptive Integration of Supervised Fine-tuning and Reinforcement Learning for Task-Specific LLMs arXiv: 2505.13026

5. 分析1：SFT 与 RL 在 LLM 上的作用 —— 大锤🔨与手术刀🔪 p 对比训练前后，相同提示下模型回复的token概率分布变化；颜色越深代表变化越明显 p SFT很大程度上改变了整个回复的token概率分布 p RL仅选择性地修改一小部分token的概率，同时数值计算和数学证明内容基本保持不变。 p 最近也有工作从权重角度出发分析SFT&RL在LLM训练中的区别 [1] [2] [1] Does Math Reasoning Improve General LLM Capabilities? Understanding Transferability of LLM Reasoning arXiv:2507.00432 [2] Reinforcement Learning Finetunes Small Subnetworks in Large Language Models arXiv: 2505.11711

6. 分析2：SFT 与 RL 的学习动力学可视化 p 引入三种参考模型作为空间坐标，用模型保存点与参考模型的分布距离衡量模型的学习动力学 l 当两个模型对相同提示，输出回复的token概率分布接近时，在可视化空间里他们的距离也更近 p SFT产生大范围的模型分布改变，而RL对模型分布改变较小 l 对参考模型的接近/远离程度各不相同 p SFT→RL取得了更好的效果(54.5)，但在RL阶段向着SFT阶段的反方向优化，说明第一阶段SFT产生了过度优化 p SFT+RL（SRFT）通过单阶段的SFT&RL结合，具有更高效的优化轨迹，能够更加直接地到达更优解(59.1)

7. 分析3：SFT → RL 和 RL → SFT p RL→SFT产生了性能骤降&熵猛增，猜测是由于RL后SFT，数据集策略与优化策略分布差距过大导致 p SFT→RL能够稳定熵下降，并产生性能提升 p SFT→RL is better than RL→SFT! p Entropy是SFT与RL结合的指示器（某种观测） p SFT→RL→SFT→... 这种技术方案或许并不可行

8. 分析4：单阶段初步验证 —— 样本效率 p 分别测试了纯RL、SFT→RL（不同步数SFT）和SFT+RL下训练的样本效率 p 控制相同步数&batchsize下，SFT+RL的单阶段结合具有更高的样本效率 l 训练步数要求更多 l SFT后RL，面临灾难性遗忘（SFT学习的知识） l 充分SFT，能够取得更好的效果 p 引入了演示/SFT数据的SFT→RL和SFT+RL，性能均优于纯RL方法（外部数据很重要！）

9. 监督强化微调（SRFT）1——从演示数据中学习演示数据 <提示，推理轨迹，答案> 𝒟!"#$. 监督微调（SFT）用于直接模仿演示数据中的策略（粗粒度）强化学习（RL）用于直接模仿演示数据中的策略（细粒度） 1. 构造GPRO Group （演示数据+自探索数据）: 2. 计算异策略"优势"：熵很重要！用于控制SFT的强度： • 熵越大，代表当前策略不确定性越高，容易由分布差异引起性能崩塌，因此降低SFT的训练比重 • 熵越小，代表当前策略不确定性越低，通过演示数据增加其策略多样性，因此提高SFT的训练比重 3. 计算异策略强化学习损失（带重要性采样）：

10. 监督强化微调（SRFT）2——从自探索数据中学习自探索数据 <提示，答案><模型自身推理过程，答案> 在RLVR奖励为{-1,1}的设定下，原始同策略强化学习损失可分解为：与SFT形式类似! 因此需要合理平衡与负样本的强度关系同样利用熵作为指示器 • 作用与wSFT不同：这里用于稳定同策略强化学习训练过程中的熵损失，使性能持续稳定提升[1] • 熵损失越大，正样本强度越大（SFT强度增大，使熵变小） [1] ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models arXiv: 2502.24864

11. 监督强化微调（SRFT）3——单阶段集成在单个微调步骤下实现三种损失的统一训练：

12. 数据集 & 评估设置 p 训练数据集：OpenR1-Math-220k (包含从Deepseek R1得到的高质量、可验证推理轨迹) p 测试数据集： l 数学领域：AIME24、AMC、MATH500、Minerva、Olympiad l 分布外：ARC-C、GPQA-Diamond、MMLU-Pro

13. 实验结果分析 p 显著性能提升： l SRFT在五个挑战性竞赛级推理基准上取得了59.1%的平均准确率 l 比最佳zero-RL基线方法提升了+9.0个百分点 l 比SFT方法提升了+4.8个百分点 l 比SFT+RL组合方法提升了+3.4个百分点 p 泛化能力优秀： l 平均分数: SRFT取得62.5分，比最佳基线提升+4.7个百分点 l 跨域表现: 在所有三个分布外基准上都表现出色

14. Q&A

15. 更多技术干货欢迎关注“美团技术团队”