SRFT- A Single-Stage Method with Supervised and Reinforcement Fine-Tuning for Reasoning
如果无法正常显示,请先停止浏览器的去广告插件。
1. SRFT: A Single-Stage Method with Supervised
and Reinforcement Fine-Tuning for Reasoning
汇报人:Jiajun Chai
美团搜索和推荐平台部
2. Motivation
GPT 4o
o1 improvements
o3 improvements
2025年初,o1的推理能力增强带来了LLM能力的快速提升
Deepseek-R1 的 RLVR 方案让社区看到了 RL 的巨大潜力
3. SFT and RL(VR) for Reasoning
Supervised Fine-Tuning (SFT)
Can we combine these two methods?
• 单阶段结合>两阶段?
• 利用SFT引入先验知识?
🤔
4. SFT 与 RL 结合的现有方法
• 外部数据作为SFT/RL上下文提示
UFT [1]
引入外部提示,并作为SFT的训练损失(由最优策略和当前
策略KL损失转化而来)
TAPO [2]
RL训练时,根据问题的复杂性从外部思考库中检索
最相关的思考模式,并将其应用于推理过程
• 引入外部数据SFT/off-policy RL
LUFFY [3]ReLIFT [4]
引入外部数据,将其作为off-policy样本用于
RL训练收集RL推理时不会的问题输给专家模型回答,累积
到一定数目后利用专家数据SFT模型
• 多阶段切换SFT、RL
SASR [5]
以step-level进行SFT、RL两种训练方式的切换
[1] UFT: Unifying Supervised and Reinforcement Fine-Tuning arXiv: 2505.16984
[2] Thought-Augmented Policy Optimization: Bridging External Guidance and Internal Capabilities arXiv:
2505.15692
[3] Learning to Reason under Off-Policy Guidance arXiv: 2504.14945
[4] Learning What Reinforcement Learning Can't: Interleaved Online Fine-Tuning for Hardest Questions arXiv:
2506.07527
[5] Step-wise Adaptive Integration of Supervised Fine-tuning and Reinforcement Learning for Task-Specific LLMs
arXiv: 2505.13026
5. 分析1:SFT 与 RL 在 LLM 上的作用 —— 大锤🔨与手术刀🔪
p 对比训练前后,相同提示下模型回复的token概率分布变
化;颜色越深代表变化越明显
p SFT很大程度上改变了整个回复的token概率分布
p RL仅选择性地修改一小部分token的概率,同时数值计算和
数学证明内容基本保持不变。
p 最近也有工作从权重角度出发分析SFT&RL在LLM训练中的
区别 [1] [2]
[1] Does Math Reasoning Improve General LLM Capabilities? Understanding Transferability of LLM Reasoning arXiv:2507.00432
[2] Reinforcement Learning Finetunes Small Subnetworks in Large Language Models arXiv: 2505.11711
6. 分析2:SFT 与 RL 的学习动力学可视化
p 引入三种参考模型作为空间坐标,用模型保存点与参考模型的分布距离衡量
模型的学习动力学
l 当两个模型对相同提示,输出回复的token概率分布接近时,在可视化空
间里他们的距离也更近
p SFT产生大范围的模型分布改变,而RL对模型分布改变较小
l 对参考模型的接近/远离程度各不相同
p SFT→RL取得了更好的效果(54.5),但在RL阶段向着SFT阶段的反方向优化,
说明第一阶段SFT产生了过度优化
p SFT+RL(SRFT)通过单阶段的SFT&RL结合,具有更高效的优化轨迹,能够
更加直接地到达更优解(59.1)
7. 分析3:SFT → RL 和 RL → SFT
p RL→SFT产生了性能骤降&熵猛增,猜测是由于RL后SFT,数据集策略与优
化策略分布差距过大导致
p SFT→RL能够稳定熵下降,并产生性能提升
p SFT→RL is better than RL→SFT!
p Entropy是SFT与RL结合的指示器(某种观测)
p SFT→RL→SFT→... 这种技术方案或许并不可行
8. 分析4:单阶段初步验证 —— 样本效率
p 分别测试了纯RL、SFT→RL(不同步数SFT)和SFT+RL下训练的样本
效率
p 控制相同步数&batchsize下,SFT+RL的单阶段结合具有更高的样本
效率
l 训练步数要求更多
l SFT后RL,面临灾难性遗忘(SFT学习的知识)
l 充分SFT,能够取得更好的效果
p 引入了演示/SFT数据的SFT→RL和SFT+RL,性能均优于纯RL方法(外
部数据很重要!)
9. 监督强化微调(SRFT)1——从演示数据中学习
演示数据
<提示,推理轨迹,答案>
𝒟!"#$.
监督微调(SFT)
用于直接模仿演示数据中的策略(粗粒度)
强化学习(RL)
用于直接模仿演示数据中的策略(细粒度)
1. 构造GPRO Group (演示数据+自探索数据):
2. 计算异策略"优势":
熵很重要!用于控制SFT的强度:
• 熵越大,代表当前策略不确定性越高,容易由分布差异引起性能崩
塌,因此降低SFT的训练比重
• 熵越小,代表当前策略不确定性越低,通过演示数据增加其策略多样
性,因此提高SFT的训练比重
3. 计算异策略强化学习损失(带重要性采样):
10. 监督强化微调(SRFT)2——从自探索数据中学习
自探索数据
<提示,答案><模型自身推理过程,答案>
在RLVR奖励为{-1,1}的设定下,原始同策略强化学习损失可分解为:
与SFT形式类似!
因此需要合理平衡与负样本的强度关系
同样利用熵作为指示器
• 作用与wSFT不同:这里用于稳定同策略强化学习训练过程中的熵损失,使性能持续稳
定提升[1]
• 熵损失越大,正样本强度越大(SFT强度增大,使熵变小)
[1] ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models arXiv: 2502.24864
11. 监督强化微调(SRFT)3——单阶段集成
在单个微调步骤下实现三种损失的统一训练:
12. 数据集 & 评估设置
p 训练数据集:OpenR1-Math-220k (包含从Deepseek R1得到的高质量、可验证推理轨迹)
p 测试数据集:
l 数学领域:AIME24、AMC、MATH500、Minerva、Olympiad
l 分布外:ARC-C、GPQA-Diamond、MMLU-Pro
13. 实验结果分析
p 显著性能提升:
l SRFT在五个挑战性竞赛级推理基准上取得了59.1%的平均准
确率
l 比最佳zero-RL基线方法提升了+9.0个百分点
l 比SFT方法提升了+4.8个百分点
l 比SFT+RL组合方法提升了+3.4个百分点
p 泛化能力优秀:
l 平均分数: SRFT取得62.5分,比最佳基线提升+4.7个百分点
l 跨域表现: 在所有三个分布外基准上都表现出色
14. Q&A
15. 更多技术干货
欢迎关注“美团技术团队”