DeepSeek-R1 & Kimi 1.5 及类强推理模型开发解读

如果无法正常显示，请先停止浏览器的去广告插件。

相关话题： #DeepSeek #北京大学

1. DeepSeek-R1 \ Kimi 1.5 及类强推理模型开发解读陈博远 ng 北京大学2022级“通班” ki 主要研究方向：大语言模型对齐与可扩展监督 https://cby-pku.github.io/ https://pair-lab.com/ 北大对齐小组

2. Outline 2 ki ng ➢ DeepSeek-R1 开创RL加持下强推理慢思考范式新边界 ➢ DeepSeek-R1 Zero 及 R1 技术剖析 ➢ Pipeline 总览 \ DeepSeek-V3 Base \ DeepSeek-R1 Zero 及 R1 细节分析 ➢ RL 算法的创新：GRPO及其技术细节 ➢ DeepSeek-R1 背后的Insights & Takeaways：RL加持下的长度泛化 \ 推理范式的涌现 ➢ DeepSeek-R1 社会及经济效益 ➢ 技术对比探讨 ➢ STaR-based Methods vs. RL-based Methods 强推理路径对比 (DS-R1 \ Kimi-1.5 \ o-series) ➢ 蒸馏 vs. 强化学习驱动：国内外现有各家技术路线对比分析及Takeaways ➢ PRM & MCTS 的作用 ➢ 从文本模态到多模态 ➢ 其他讨论：Over-Thinking 过度思考等 ➢ 未来方向分析探讨 ➢ 模态穿透赋能推理边界拓展：Align-DS-V ➢ 合成数据及Test-Time Scaling: 突破数据再生产陷阱 ➢ 强推理下的安全：形式化验证 Formal Verification \ 审计对齐 Deliberative Alignment ➢ 补充拓展：DeepSeek-V3 解读

3. DeepSeek-R1 开创RL加持下强推理慢思考范式新边界 ➢ OpenAI o1 开启后训练 Post-Training 时代下的RL新范式：后训练扩展律 Post-Training Scaling Law ➢ DS-R1 独立发现了一些通往o1路上的核心理念，并且效果还好到受到了OpenAI 的认可 ➢ 如何通过有效的 Test-Time Scaling 和 Train-Time Scaling 提升模型的推理能力？ ➢ 得益于纯大规模强化学习，DeepSeek-R1 具备强大推理能力与长文本思考能力，继开源来备受关注。 ➢ DeepSeek R1-Zero 和 R1的出现再次证明了强化学习的潜力所在： ➢ R1-Zero 从基础模型开始构建，完全依赖强化学习，而不使用人类专家标注的监督微调（SFT）； ➢ 随着训练步骤增加，模型逐渐展现出长文本推理及长链推理能力； ki ng ➢ 随着推理路径增长，模型表现出自我修复和启发式搜索的能力； 3

4. DeepSeek-R1 开创RL加持下强推理慢思考范式新边界 ➢ 得益于强大的推理能力与长文本思考能力，DeepSeek R1在复杂任务上表现卓越，成为开源领域的又一里程碑，标志着开源社区在与闭源大模型（如 OpenAI o1 系列）的竞争中迈出了关键性一步。 ➢ DeepSeek-R1 在数学代码任务上表现突出 ➢ Deepseek R1在AIME2024上获得了79.8%的成绩，略高于OpenAI-o1-1217。在MATH-500上，获得97.3% ➢ 在编码相关的任务中表现出专家水平，在的惊人成绩，表现与OpenAI-o1-1217相当。 Codeforces上获得了2029 Elo评级，在竞赛中表现优于96.3%的人类参与者 ng ➢ DeepSeek-R1 在知识类问答上推动科学探索边界： ki ➢ MMLU \ MMLU-Pro \ GPQA Diamond 等 STEM- related 榜单上取得良好表现 ➢ R1 展现出强推理模型在 AI-Driven Research 的潜力 ➢ 在长文本依赖任务如 FRAMEs 和事实性推断任务 Simple-QA上表现突出 4

5. 回顾：Pre-Training Scaling Law ng Pre-Training Scaling Laws: 预训练模型上广泛观察到的现象，协调了计算量C、模型参数量N和数据大小D之间的关系 ki ➢ 5

6. 回顾：Post-Training Scaling Law Post-Training 阶段，随着训练时计算量（来自RL的Training阶段）和 Test-Time 计算量 ➢ 6 Post-Training Scaling Laws 下训练时计算量多了一个新的变量：Self-Play 探索时 LLM ➢ （例如Test-Time Search）的增长，模型性能（例如数学推理能力）也会随之提升 ki ng Inference 的计算量 [1] https://openai.com/index/learning-to-reason-with-llms/

7. 回顾：Post-Training Scaling Law 7 自回归模型在数学推理问题上很难进步的一点在于没有办法进行回答的自主修正，如果仅是依靠生成式方法和扩大参数规模，那么在数学推理任务上带来的收益不会太大。所以需要寻找额外的 Scaling Laws [1]。 ki ng ➢ 随着模型尺寸逐渐增大，预训练阶段参数 Scaling Up 带来的边际收益开始递减；如果想要深度提升模型推理能力和长程问题能力，基于RL的 Post-Training 将会成为下一个突破点。 ➢ 为什么我们需要后训练 Scaling-Law ? [1] Training Verifiers to Solve Math Word Problems https://arxiv.org/pdf/2110.14168 [2] Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters

8. DeepSeek-R1 技术剖析：DeepSeek-R1 Zero 8 DeepSeek-R1-Zero 推理为中心的大规模强化学习 Large-Scale Reasoning-Oriented RL ki ng DeepSeek-v3-Base (671B) 基于规则的奖励 Rule-Based Reward DeepSeek-R1 Zero: 无需监督微调SFT，纯强化学习驱动的强推理模型大规模推理为中心的强化学习，提升模型数学代码能力 RL驱动下自然涌现长文本推理能力

9. DeepSeek-R1 技术剖析：DeepSeek-R1 Zero 9 DeepSeek-R1 Zero: 无需监督微调SFT，纯强化学习驱动的强推理模型 ➢ 奖励建模：基于规则的奖励 (Rule-Based Reward) : 准确率奖励 + 格式奖励 ➢ 准确率奖励 Accuracy Rewards: 判断答案是否是正确的 ➢ 格式奖励Format Rewards: 规劝模型生成答案的过程是 <think> 和 </think> ➢ 没有使用Reward Model, 因为ORM和PRM等基于神经网络的都可能遭受reward hacking 而retraining reward model 需要大量的计算资源，可能会复杂化整个流程 ki ng ➢ 训练模板：选择最简单的 Thinking Process，直接观察到最直接的RL过程下的表现基于规则的奖励 (Rule-Based Reward) : 准确率奖励 + 格式奖励

10. DeepSeek-R1 技术剖析：DeepSeek-R1 Zero 10 DeepSeek-R1 Zero: 无需监督微调SFT，纯强化学习驱动的强推理模型 ➢ 推理为中心大规模强化学习：组相对策略优化（GRPO）+ 瞄准 Reasoning 推理任务 ➢ 自我迭代提升Self-Evolution：随着训练步数的增长，模型的thinking response length 逐渐增加（对应着 test-time computation increasing） ki ng ➢ Aha moment: 自然学会增加更多的推理时间，反思评价先前步骤、探索其他方法 “Aha”Moment RL驱动下自然涌现 Long-CoT 能力

11. DeepSeek-R1 技术剖析：DeepSeek-R1 Zero 11 DeepSeek-R1 Zero的关键启示 ➢ 传统RLHF背景下，SFT通常被认为是不可或缺的一步，其逻辑先用大量人工标注的数据来让模型初步掌握某种能力（如对话或者语言风格），然后再用RL来进一步优化性能 ➢ DeepSeek-R1 系列跳过对于大规模人工标注数据的依赖 ➢ 无需构建和维护高质量的SFT数据集，而是让模型直接在RL环境中进行探索 ng ➢ 类比：初学者在没有老师指导的情况下，通过不断的尝试和错误来掌握一门新的技能。 ➢ 这种自主学习的方式，不仅节省了大量的标注成本； ki ➢ 更重要的是，它让模型能够自由地探索解决问题的路径，而不是被预先设定的模式所束缚。

12. DeepSeek-R1 技术剖析：DeepSeek-R1 Zero 12 DeepSeek-R1 Zero的关键启示 ➢ 跳过SFT阶段，直接运用纯强化学习拓展推理能力边界实际上也带来了几个很重要的启示： ➢ 需要足够强的基座模型：基座模型 (DeepSeek-V3 Base) 超过了某个质量和能力阈值（671B 在14.8T 高质量Token上训练）（基座模型知识帮助突破推理上界，也有一些工作利用小模型复现 Aha Moment 得益于大规模RL和高质量推理数据）； ng ➢ 大规模强化学习加持：GRPO 对于强化学习训练的优化； ki ➢ 规则化奖励：绕过奖励攻陷问题，但是得益于推理问题可以进行自动化标记和验证（Self-Automated Verification and Annotation)，这是与一般聊天和写作请求任务不同的；

13. DeepSeek-R1 技术剖析：DeepSeek-R1 Zero 13 DeepSeek-R1 Zero的关键启示：举例 - 自动化标记和验证 ➢ 示例输入: 编写 python 代码，该代码采用数字列表，按排序顺序返回，在开始时添加 42。 ➢ 自动化验证方法： ➢ 利用软件检查代码补全判断是否为完整代码； ➢ 执行Python代码检查运行情况判断是否为可运行代码； ng ➢ 调用外部模块构建额外的检测单元； ki ➢ 甚至可以更进一步，测量执行时间，使训练过程首选性能更高的解决方案； ➢ 以上均可以作为小批量训练 (Mini-Batch) 和连续训练过程中的奖励信号

14. DeepSeek-R1 技术剖析：DeepSeek-R1 Zero 14 DeepSeek-R1 Zero的关键启示：举例 - 自动化标记和验证 ➢ 示例输入: 编写 python 代码，该代码采用数字列表，按排序顺序返回，在开始时添加 42。 ki ng ➢ 基于规则进行验证，并在Mini-Batch中提供奖励信号； [1] https://newsletter.languagemodels.co/p/the-illustrated-deepseek-r1

15. DeepSeek-R1 技术 Pipeline 总览 15 ➢ DeepSeek-R1 Zero 的问题：长推理过程可读性差、语言混合，帮助性低 ➢ Research Questions: ➢ 能否在Zero基础上兼顾推理性能的同时，提升模型的帮助性和安全性？例如产生 Clear & Coherent CoT 并且展现出通用能力的模型 R1； ki ng ➢ 能否利用一些高质量反思数据集做 Cold Start 从而加速RL的收敛或帮助提升推理表现

16. DeepSeek-R1 技术 Pipeline 总览冷启动 Cold Start 双重验证反思数据基于规则的奖励 Rule-Based Reward 格式奖励正确率奖励 DeepSeek-v3-Base (671B) DeepSeek-v3-Base (671B) 16 推理为中心的 RL DeepSeek-R1-Zero ng 正确率奖励流畅性奖励数学代码推理任务 ki 推理为中心的大规模强化学习 (GRPO) Large-Scale Reasoning-Oriented RL 拒绝采样和全领域SFT 600k 推理数据 ( Rule-based+Generative 奖励) 200k 通用数据（Writing \ Role-Play etc.）全领域RL All-Scenarios RL 推理任务 – 规则奖励 ( Rule-based Reward) 通用任务 – 偏好建模 ( Reward Model) Intermediate Model (推理链可读性更强) DeepSeek-R1 Stage I: 推理链可读性 Stage II: 通用能力&安全性

17. DeepSeek-R1 技术 Pipeline 总览 17 ➢ 冷启动 Cold Start ➢ 数据准备：few-shot long cot data, 详细带反思和验证的数据集 ➢ 双重验证：由人类注释者和 R1-zero 生成的高质量链式思考（Chain-of-Thought, CoT）数据，部分样本长度达到 10,000 Token ➢ 成效：提供一些 Human Prior \ 显著提升了语言的语义连贯性、可读性和基本推理能力。 ➢ 推理为中心RL Reasoning-Oriented RL ki ng ➢ 增加了大规模的RL训练过程：和DeepSeek-R1 Zero 基本一致，主要是提升Reasoning的能力，包括coding \ mathematics \ logic reasoning 等带有明确解答过程的问题 ➢ 语言一致性奖励：引入 language consistency reward 衡量长推理链可读性（通过计算CoT过程中目标语言的占比） ➢ 推理准确率奖励：结合 accuracy of reasoning tasks and reward for language consistency ➢ 成效：通过 GRPO ，模型在 AIME 2024 等数学基准上取得了显著提升，pass@1 从 15.6% 提高到 71.0%。此外，模型能够自发延长推理链条，展现出更强的逻辑连贯性。 DeepSeek-v3-Base (671B) 冷启动 Cold Start 双重验证反思数据推理为中心的 RL 正确率奖励流畅性奖励数学代码推理任务 Intermediate Model (推理链可读性更强) Stage I: 推理链可读性

18. DeepSeek-R1 技术 Pipeline 总览 18 ➢ 拒绝采样和全领域SFT Rejection Sampling and SFT ➢ 全领域RL RL for all Scenarios ng ➢ 当上一个阶段的RL收敛之后，再进行SFT ➢ 和之前Cold-Start 的数据不同，这部分SFT主要是负责全领域任务 ➢ 600k 推理任务：(1) 基于规则的奖励 (2) 利用批判模型融合生成式奖励 ➢ 200k 通用任务 (writing \ role-playing \ general-purpose) ➢ 成效：使模型在推理能力不减的前提下，语言表现更为自然，适应性更为广泛。 ki ➢ 进一步提升除了reasoning 能力之外帮助性和安全性 ➢ 对于reasoning data, 可以用基于规则的奖励 ➢ 对于general data, 可以用奖励模型来建模人类偏好意图 ➢ 成效：最终版本的 R1 不仅在推理和对话能力上达到了高水平，还具备更安全的交互性能。拒绝采样和全领域SFT 600k 推理数据 ( Rule-based+Generative 奖励) 200k 通用数据（Writing \ Role-Play etc.）全领域RL All-Scenarios RL 推理任务 – 规则奖励 ( Rule-based Reward) 通用任务 – 偏好建模 ( Reward Model) DeepSeek-R1 Stage II: 通用能力&安全性

19. DeepSeek-R1 Takeaways 技术亮点总结：Part I ➢ Pure RL to Develop Reasoning Capabilities: ➢ 社区的复现都涉及蒸馏和搜索，而DS-R1 Zero 跳过监督微调SFT阶段，展现出大规模强化学习的潜力，这也得益于以下几点：（671B 在14.8T 高质量Token上训练）； ➢ 需要足够强的基座模型：基座模型 (DeepSeek-V3 Base) 超过了某个质量和能力阈值 ➢ 大规模强化学习加持：GRPO 对于强化学习训练的优化； ➢ 规则化奖励：绕过奖励攻陷问题，但是得益于推理问题可以进行自动化标记和验证（Self-Automated Verification and Annotation)，这是与一般聊天和写作请求任务不同的 ng ➢ 训练步数的增长，模型的thinking response length 逐渐增加 (test-time computation increasing) ki ➢ DeepSeek-R1-Zero 自主涌现学会重新评测原来的方法、反思和主动探索其他的路径 ➢ 多阶段训练下的冷启动让RL训练更加稳定，避免初期不稳定、加速收敛、提升思维链可读性 ➢ 未来后训练的重心会逐步倾向于RL，但是少量训练用于SFT可能还是必须的 ➢ 强化学习技术不只局限在基于规则的数学、算法代码等容易提供奖励的领域，它还可以创造性地把强化学习所带来的强推理能力，泛化到其他领域 19

20. DeepSeek-R1 技术剖析：背后的教师模型 DeepSeek-V3 ki ng ➢ 基座模型 (DeepSeek-V3 Base) 超过了某个质量和能力阈值（671B 在14.8T 高质量Token上训练） ➢ 提供了类似于 System I 的足够好的 Prior Distribution 直觉，后期RL探索过程进一步挖掘激活 ➢ 大规模RL起到了激活和发掘预训练阶段积累的知识和推理能力的作用 ➢ DeepSeek-V3 低成本（5,576,000美元）带来惊艳效果 ➢ MoE 架构 671B 激活37B \ 使用 Multi-head Latent Attention (MLA) 架构 ➢ 2048张 H800 计算: ~54天 20

21. DeepSeek-R1 技术剖析：RL 加持下的 Length 泛化&推理范式涌现 21 ki ng ➢ 大规模RL的加持下，DeepSeek-R1 Zero 表现出在推理任务上思维链长度的自然增长和涌现 ➢ 反思深度逐层加深，出现标记不明确的步骤、保持中间结论、验证、混合语言推理等现象 ➢ 模型在准确率奖励和格式奖励下自然探索到验证、回溯、总结、反思的行为范式 ➢ 如何控制来保证最后的response 长度能够稳定上升，可能会出现反复重复验证、或者验证时间过晚的情况; （REINFORCE 系列更快；PPO训练稳定但是慢） ➢ 多语言可能是因为预训练数据是多语言的，“一视同仁”被 Tokenization，不同的领域的不同语言编码是否有不同优势？ DS-R1 Zero 长度涌现现象 DeepSeek-R1 长度泛化复现：https://zhuanlan.zhihu.com/p/21290410831 社区复现结果 1 社区复现结果 2

22. DeepSeek-R1 技术剖析：GRPO 赋能RL-Scale 22 ➢ GRPO核心思想是通过构建多个模型输出的群组，并计算群组内的相对奖励来估计基线，从而避免了传统策略优化算法中需要使用与策略模型大小相同的评论模型。 ➢ 大幅度降低 RL 训练的计算成本，同时还能保证模型能够有效地学习到策略。 ➢ 具体来说，在传统的 RL 训练中，评论模型需要与策略模型具有相同的大小，增加计算资源的消耗。而 GRPO 算法利用群组内的相对信息来估计基线，避免了使用Critic Model的需要。 ➢ 此外，GRPO 算法还引入了一些额外的优化策略(奖励缩放和策略裁剪)，提升训练的稳定性。 ➢ From PPO to GRPO: ng ➢ PPO 作为 Actor-Critic 算法被广泛运用于 Post-Training, 核心目标是最大化下面的目标函数 ki ➢ 其中, 𝜋 𝜃 和 𝜋 𝜃𝑜𝑙𝑑 分别表示当前策略模型和旧策略模型，q, o是从问题数据集和旧策略 𝜋 𝜃𝑜𝑙𝑑 中采样的输入和输出, 𝐴 𝑡 是基于广义优势估计（GAE）计算的优势值，依赖于奖励序列 {𝑟 ≥t } 和学习的价值函数 𝑉 𝜓 。因此，PPO需要同时训练策略模型和价值函数。为避免奖励模型的过度优化，标准做法是在每个词元的奖励中添加与参考模型的KL惩罚项

23. DeepSeek-R1 技术剖析：GRPO 赋能RL-Scale 23 ➢ From PPO to GRPO: ➢ PPO的价值函数通常是与策略模型规模相当的独立模型，这带来了巨大的内存和计算负担。 ➢ 奖励模型通常仅对输出序列的最后一个词元分配奖励，导致逐词元价值函数的训练复杂化。 ➢ GRPO：无需像PPO额外近似价值函数，而是利用同一问题下多个采样输出的平均奖励作为基线。具体而言，对于每个问题，GRPO从旧策略𝜋 𝜃𝑜𝑙𝑑 中采样一组输出，并通过最大化以下目标优化策略模型： ki ng ➢ 通过群组相对方式计算优势值，与奖励模型的对比性质（通常基于同一问题的输出比较训练）天然契合；此外，GRPO直接将策略模型与参考模型的KL散度作为正则项加入损失函数，而非将其混入奖励计算，简化了优势值的计算。 DeepSeekMath https://arxiv.org/pdf/2402.03300

24. DeepSeek-R1 技术剖析：GRPO 赋能RL-Scale 24 ➢ From PPO to GRPO: ➢ 基于结果监督的GRPO: 对于每个问题q，从旧策略模型𝜋 𝜃𝑜𝑙𝑑 采样一组输出 {𝑜 1 , 𝑜 2 , 𝑜 3 , … , 𝑜 𝐺 }，奖励模型为每个输出生成奖励{𝑟 1 , 𝑟 2 , 𝑟 3 , … , 𝑟 𝐺 } 。随后，奖励通过减去组内均值并除以标准差进行归一化。结果监督将归一化后的奖励分配给每个输出的末尾词元，并将所有词元的优势设为该归一化奖励； ➢ 基于过程监督的GRPO: 结果监督仅提供输出末尾的奖励，对复杂数学任务的策略指导不足 ➢ 对问题 q 和采样输出 {𝑜 1 , 𝑜 2 , 𝑜 3 , … , 𝑜 𝐺 }，过程奖励模型为每个步骤生成奖励: 𝐑 = 𝑖𝑛𝑑𝑒𝑥 𝐾 𝐺 𝑖𝑛𝑑𝑒𝑥 𝐾 1 𝑖𝑛𝑑𝑒𝑥 1 𝑖𝑛𝑑𝑒𝑥 2 𝑖𝑛𝑑𝑒𝑥 1 𝑖𝑛𝑑𝑒𝑥 2 { 𝑟 1 , 𝑟 1 , … , 𝑟 1 , … , 𝑟 𝐺 , 𝑟 𝐺 , … , 𝑟 𝐺 } 其中𝑖𝑛𝑑𝑒𝑥 𝑗 是第 𝑗 步的末 ki 基于结果监督的GRPO优势值估计 ng 尾词元索引， 𝐾 𝑖 是第 𝑖 个输出的总步数。归一化后，优势值为后续步骤归一化奖励的累加和基于过程监督的GRPO优势值估计 DeepSeekMath https://arxiv.org/pdf/2402.03300

25. DeepSeek-R1 Takeaways 总结 Part II 25 ki ng ➢ DS-R1 Zero 跳过监督微调SFT阶段，展现出大规模强化学习的潜力。这种自主学习的方式，不仅节省了大量的标注成本，而且让模型更自由的探索解决问题的路径，而不是被预先设定的模式所束缚。这也使得模型最终具备了更加强大的泛化能力和适应能力。 ➢ 为了充分释放 GRPO 的潜力并确保训练稳定性，DeepSeek R1 的训练中采用了四阶段的交替迭代流程：“监督微调（SFT）→ 强化学习（RL）→ 再次 SFT → 再次 RL”，有效解决了传统强化学习模型在冷启动、收敛效率和多场景适应性方面的瓶颈。 ➢ 强大的自验证和长链推理能力：并非预先设定好的，而是在RL训练中自主涌现出来的 ➢ 自验证是指模型在生成最终答案之前，会先主动地验证自己的中间推理步骤是否正确。这就像一个学生在做题时，会反复检查自己的解题过程，以确保答案的准确性。 ➢ 反思是指模型会回溯检查自己之前的推理过程，并根据检查的结果进行修正，相当于一个学生在复习时，会反思自己之前的错误，以便下次不再犯同样的错误。 ➢ 而长链推理能力则让模型能够处理更复杂、更需要多步骤思考的问题。这种能力对于解决一些需要跨越多个逻辑步骤才能找到答案的问题至关重要，例如复杂的数学题或逻辑谜题。 ➢ 冷启动让RL训练更加稳定： ➢ 避免 RL 训练初期的不稳定，使得模型能够更快地进入稳定的训练状态； ➢ 有效地加速 RL 训练的收敛，缩短训练时间； ➢ 提高模型输出的可读性，减少不同语言混合使用的情况。

26. DeepSeek-R1 Takeaways 总结 Part II 26 ki ng ➢ 推理为中心的RL训练： ➢ 语言一致性奖励，以解决模型在多语言环境中进行推理时，出现语言混合的问题。 ➢ 对推理链的质量进行细致的评估，并通过奖励机制引导模型生成更加合理、准确的推理过程。 ➢ 多目标优化：兼顾推理性能、帮助性和安全性； ➢ 蒸馏的潜力：蒸馏可以帮助将更大模型通过RL发现的高阶推理范式蒸馏到小模型中，这比用小模型直接使用大规模RL发现的推理范式要更加有效； ➢ 基于群组的相对策略优化 (GRPO) :通过构建多个模型输出的群组，并计算群组内的相对奖励来估计基线，从而避免了传统策略优化算法中需要使用与策略模型大小相同的评论模型 ➢ 降低 RL 训练的计算成本 \保证模型能够有效地学习到策略 ➢ 奖励机制的设计：兼顾推理能力和语言一致性 ➢ 准确率奖励和格式奖励，从而保证模型不仅能够正确地解决问题，还能够以规范、易读的方式输出答案 ➢ 格式奖励：用于强制模型将推理过程放置在特定的标签内，用 <think> 和 </think> 标签来包裹推理过程，使用 <answer> 和 </answer> 标签来包裹最终答案。 ➢ 语言一致性奖励：惩罚在推理过程中使用了多种语言的输出，鼓励模型尽可能地使用一种目标语言进行推理，从而保证模型输出的语言风格一致性

27. DeepSeek-R1 社会和经济效益 27 ki ng ➢ 低成本高质量语言模型边界的探索，扩展的具体方法和侧重点改变：最初是模型规模，然后是数据集规模，现在是推理时的计算资源和合成数据； ➢ 垂直领域和横向拓展：采用"API+本地化知识库"或"提示工程+检索增强"的混合方案，通过Prompt Engineering和RAG等技术实现业务场景的快速适配与轻量定制，同时建立完善的运维合规体系，确保数据处理全流程的安全性与合法性。 ➢ 资本市场的剧烈波动是AI技术快速迭代引发的短期现象，表现为研发投入和数据中心建设成本激增，这在近期美股科技股的震荡中得以集中体现；而从长期来看，行业将陷入算力军备竞赛的循环，每一轮技术突破和应用场景扩展都将催生新的算力需求与资源投入，持续重塑行业竞争格局。 ➢ 资源优化：随着模型使用方案的平民化，中小企业和个人开发者得以将有限资源聚焦于场景创新与技术优化，无需在基础能力建设或算力消耗上投入过多成本。 ➢ 市场激活：这种高性价比、低门槛的大模型服务模式，将吸引更多初创团队涌入赛道，催生多元化的应用场景和技术路径，推动行业生态的繁荣发展。 ➢ 高效创新：在有限算力资源支持下，算法创新模式，突破了算力的“卡脖子”限制

28. 技术对比讨论：Kimi K1.5 Moonshot 28 ki ng K1.5 专注于用长文本CoT 解决推理时Scaling问题 ➢ 利用 RL 探索：Kimi k1.5 的核心思想是利用强化学习，让模型通过试错（探索）来学习解决问题的能力，而不是仅仅依赖于静态数据集。 ➢ 长文本 CoT 的 RL：将 RL 应用于长文本CoT推理过程，使模型能够进行更深入、更复杂的推理。 ➢ 隐式规划：通过增加上下文长度，让模型在生成 CoT 的过程中进行隐式的规划、反思和修正，无需显式的搜索树或价值函数。 ➢ 长文本能力是关键：核心洞察是长文本能力是强化学习训练LLM的关键，而不是更复杂的训练技巧。 ➢ 长文本到短文本：通过长文本 CoT 模型来指导短文本 CoT 模型的训练，从而在有限的计算资源下获得更好的性能。 Kimi K1.5 Main Result Kimi K1.5 Long2Short Result

29. 技术对比讨论：Kimi K1.5 Moonshot 29 ki ng ➢ 四个阶段 Pretraining -- SFT -- Long-CoT SFT – RL ➢ RL Prompt Set Curation RL 问题的准备 ➢ Diverse Coverage: 涵盖STEM \ coding \ general reasoning 的数据 ➢ Balanced Difficulty: 涵盖不同的complexity 难度 ➢ Accurate Evaluability: 能够被Verifiers 准确评价，从而防止泛化出一些reward hacking 和 superficial patterns 的行为 ➢ Long-CoT SFT ➢ 用Prompt Engineering 造了一个高质量LongCoT warmup dataset ➢ 包含了准确的 verified reasoning paths for both image and text inputs ➢ 涵盖了 planning \ evaluation \ reflection \ exploration 多种范式 RL Infrastructure System

30. 技术对比讨论：Kimi K1.5 Moonshot 30 ➢ 强化学习：从 In-Context RL 的角度出发，直接训练模型approximate Planning的过程（例如将Search 中, state 和 value 等信息都视为 Language Tokens) ➢ 策略优化：建模成 Contextual Bandit, 用 REINFORCE 变种进行优化 ➢ 长度惩罚：引入长度惩罚机制，防止模型生成过长的推理过程，提高计算效率。 ➢ Overthinking的行为：可能会导致更好的表现，但是会带来training 和 inference过程中极大的损耗 ki ng ➢ 采样策略 ➢ 课程学习（Curriculum Learning）：根据问题的难度，先让模型学习容易的例子，再逐渐引入更难的例子，这种循序渐进的方式有助于模型更好地掌握知识。 ➢ 优先采样（Prioritized Sampling）：根据问题的难度或模型对问题的掌握程度来调整采样概率。模型更倾向于采样那些困难的、或者模型不擅长的问题，提高训练效率。长度惩罚奖励策略优化损失函数

31. 技术对比讨论：Kimi K1.5 Moonshot 31 ➢ Vision Data 构造 ➢ 真实世界数据包括各个年级的科学问题，这些问题需要图形理解和推理能力；还包括需要视觉感知和推理能力的位置猜测任务；以及涉及复杂图表理解的数据分析任务等。这些数据集提升了模型在真实世界场景中的视觉推理能力。 ➢ 合成视觉推理数据是人工生成的，包括程序化创建的图像和场景，旨在提高特定的视觉推理技能，例如理解空间关系、几何模式和物体交互。这些合成数据集提供了可控环境，用于测试模型的视觉推理能力，并且可以无限生成训练样本。 ➢ 文本渲染数据是通过将文本内容转换为视觉格式创建的，使模型能够在不同模态下保持一致的文本处理能力。 ng 通过将文本文档、代码片段和结构化数据转换为图像，确保模型无论接收的是纯文本输入还是截图或照片中的 ➢ Long2Short 方法 ki 文本，都能提供一致的响应。这也有助于增强模型在处理文本密集型图像（如截图、表格、公式等）时的能力。 ➢ 模型融合：将长文本 CoT 模型和短文本 CoT 模型的权重进行平均，得到一个新的模型。 ➢ 最短拒绝采样；Short Rejection Sampling：从多个采样结果中选择最短且正确的答案然后做SFT ➢ DPO（Direct Preference Optimization）：使用长文本 CoT 模型生成的答案作为偏好数据来训练Short CoT 模型。 ➢ Long2short RL：在标准 RL 训练后，使用长度惩罚对模型进行微调，进一步提高短文本 CoT 模型的效率。

32. 技术对比讨论： Kimi K1.5 vs. DeepSeek-R1 Comparison 32 ki ng ➢ 二者都关注RL的方法带来的提升，MCTS 和 PRM 没有被使用 (Reward Hacking 的考虑) ➢ MCTS 是一种 Structure, A* 也是 Structure, 人为加入 Inductive Bias 强求LLM按照结构化先验进行思考可能会限制模型的能力； ➢ PRM 容易被 Reward Hacking, 且绝对值 Value 很难准确 ➢ Kimi K1.5 更多是从 In-Context RL 的角度出发，直接训练模型approximate Planning的过程（例如将 Search中, state 和 value 等信息都视为 Language Tokens) ➢ DS-R1 是从纯RL入手，利用 GPRO + Rule-Based Reward 激活模型能力 ➢ 核心观念：不管模型中间做错了什么，只要不是重复的，那么最后模型做对了，我们就认为这是一个好的探索，值得鼓励。反之，如果模型一顿探索，最后做错了，那么再努力也是错，要惩罚。 Kimi K1.5 Main Result DS-R1 Main Result

33. 技术对比讨论： Kimi K1.5 vs. DeepSeek-R1 Comparison Takeaways ➢ GRPO ：利用同一问题下多个采样输出的平均奖励作为基线，从而无需额外近似价值函数。这种机制通过群组相对方式计算优势值，与奖励模型基于同一问题的输出比较训练的特性天然契合。此外， GRPO直接将策略模型与参考模型的KL散度作为正则项加入损失函数，而非将其混入奖励计算，简化了优势值的计算过程。这使得GRPO在大规模强化学习任务中，特别是在处理复杂的推理任务时，能够更有效地优化策略模型，同时保持较高的计算效率。 ➢ Kimi K1.5 采用的变种Mirror Descent可以在保证学习稳定性的同时，促进模型对复杂推理任务的理解深度，如逐层加深反思、验证、回溯等行为范式的形成。它允许模型自然地探索到验证、回溯、总结、反思的行为模式，这些对于提高模型在推理任务中的表现至关重要。 ➢ 后训练Pipeline对于提升模型推理能力的重要性不可忽视。 ➢ 随着测试阶段算力和训练阶段探索算力的增加，根据后训练Scaling Law，模型的表现将持续得到改善。 ki ng ➢ 理想的数据构建应当覆盖广泛的类别，并且难度分级明确，这有利于实现类似课程学习的效果，逐步提高模型的能力。 ➢ 在奖励建模时，必须确保基于奖励模型的奖励机制不会被轻易攻陷。平衡推理长度与推理正确率之间的关系。例如，针对一个序列中的下一个动作，若存在一个是错误答案而另一个是正确答案的情况，传统的方法会倾向于提升选择正确答案的概率，同时降低选择错误答案的概率。然而，从推理长度的角度来看，有时选择看似错误的答案可能会引导模型进入自我修正的过程，这种自我修正机制以及更长的推理路径同样对提升模型的整体推理能力至关重要。 33

34. 技术对比讨论：强推理路径 – Pure RL vs STaR-based 34 ➢回顾：STaR ki ng ➢推理：起始数据集仅有 [Question, Answer] ，首先利用一些带有推理过程的 Few-Shot Examples 来 Prompt 模型对于数据集中的问题生成对应的推理过程和答案。 ➢过滤：如果生成的答案正确，则将推理过程加入到原有的数据集中；如果生成的答案错误，则尝试在给出正确答案的前提下再次生成推理过程。将最终生成正确答案的推理收集，构建一个构建一个微调数据集 [Question, Rationale, Answer ] 进行微调。 ➢迭代：重复这一过程，且每次获得一个新的数据集，都从原始的模型开始进行 Fine-tune 从而防止过拟合。 [1] STaR: Bootstrapping Reasoning With Reasoning

35. 技术对比讨论：强推理路径 – Pure RL vs STaR-based ➢回顾：STaR 与RL的联系 ki ng ➢模型首先采样潜在的推理路径（rationale）的过程类似于 RL 中通过策略选择动作（action），基于环境状态选择一个可能的策略路径。 ➢STaR 中，通过计算目标函数，模型对整个数据集的预测结果进行评估，并且只根据预测正确的样本更新模型。 ➢STaR 在同一批数据上进行多次梯度更新，这类似于某些策略梯度算法中的策略，即通过多次调整同一批数据来稳定学习过程。 [1] STaR: Bootstrapping Reasoning With Reasoning 35

36. 技术对比讨论：强推理路径 – Pure RL vs STaR-based ki ng Takeaways: ➢ STaR 的核心思路是将思考过程建模到语言模型的Next Token Prediction 中，通过反复自我迭代和监督微调 ➢ 基于STaR 可以进一步将这种思路扩展到思考过程是搜索过程的特例，比如 rStar-Math, SoS 都可以用类似的思路来理解。 ➢ 本质上，STaR一类的方法是希望模型能够学习到MetaCoT, 即问题到答案映射过程背后的深入规律 ➢ 但是对于问题的结构要求性高，对于复杂数学推理任务可能难以自我迭代 ➢ 难以融入 Rule-Based Reward for RL训练 ➢ PureRL加持下，业界的技术实践更多Focus on 直接利用RL激活基座模型的推理潜力，通过构建rule-based reward, 额外加上RL Data的设计，激活模型的内部本身的推理能力 ➢ Reward Model 的一些尝试如PRM，会遇到reward hacking, value 不准，难以泛化等问题 [1] STaR: Bootstrapping Reasoning With Reasoning 36

37. 技术对比讨论：蒸馏 vs 强化学习 37 ➢ 大型模型虽然性能强大，但是也存在着一些局限性，例如计算资源消耗过高，部署和使用门槛较高等。 ➢ 模型蒸馏：将一位经验丰富的老师的知识传递给一个年轻的学生，让其在较短的时间内掌握复杂的技能。 ➢ DeepSeek 利用蒸馏R1的手段获得了一系列小模型，表现非常突出。这很大程度得益于R1模型足够强大，发现了很多高阶推理范式，而这些高阶推理范式是小模型直接利用大规模强化学习难以发现的（可以认为是由 ki ng 于预训练知识不足），因此这些蒸馏得到的小模型表现比较突出，甚至超过了基于大规模RL的方法。

38. 技术对比讨论：蒸馏 vs 强化学习 38 ➢ 在提升模型强推理能力的努力上，蒸馏和强化学习被社区广泛探索据中的Pattern, 很难学习到数据背后的数学规律和MetaCoT ➢ 直接利用SFT蒸馏可以学习到数据中的推理范式，虽然在推理分数上的表现有所提升，但是更多是去拟合数 ➢ 强化学习则是通过试错和尝试，鼓励模型在最大化奖励过程中学习到推理背后的规律，获得的泛化性和推理表现上界更高 ➢ SFT 主要负责记忆而很难进行OOD泛化，基于ORM的RL泛化能力较好 [1] ➢ SFT规范模型输出格式，使得后续的RL可以获得更高的收益 ng ➢ 随着强推理能力复现的兴起，社区也有很多工作比较 LongCoT 长文本思维链的蒸馏效果 ➢ Scaling up verifiable reward是long cot的核心。 ki ➢ 小模型（例如wen-math-7b）不容易recentivize long cot的behavior（e.g., aha moment）在MATH 场景下。wait, recheck, alternatively这些词在rl训练中没有明显增加 [1] SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training https://arxiv.org/pdf/2501.17161 [2] Demystifying Long Chain-of-Thought Reasoning in LLMs https://arxiv.org/pdf/2502.03373

39. 技术对比讨论：蒸馏 vs 强化学习 39 ➢ Open Questions: ➢ Long-COT 指令数据扩展是否有助于慢思考推理能力？ ➢ 哪种 Long-COT 数据构造方式具有最佳样本效率？ ➢ Takeaways from RedStar [1]: ➢ Long-COT 及其扩展是否有助于多模态任务？ ➢ Long-COT 在有限数据下增强推理能力：小规模数据集（如 1.3k 个问题）可以显著提升推理性能，尤其是在数学任务中，展现了 Long-COT 调优即便在数据量较少的情况下依然具有强大的推理能力。 ng ➢ 更大规模和专业化模型提升性能：更大规模的模型（如 14B、32B）以及经过专业预训练的模型（如数学预训练和上下文长度扩展）在 Long-COT 训练中表现更佳，优于较小规模的模型（如 7B）在保持正确推理路径和处理复杂任务的能力。 ki ➢ 任务与语言之间的正迁移：Long-COT 训练不仅能提升数学任务的性能，还能对其他领域和语言产生正向影响，展现了其广泛的适用性。此外，该方法具有良好的泛化性和鲁棒性，在通用基础任务和对齐评估中取得了相当或更优的表现。 ➢ 强化学习的规模化提升了效率：离线强化学习算法（DPO）和在线强化学习算法（PPO）均能有效增强模型性能。 ➢ Long-COT 强化多模态模型：将 Long-COT 方法应用于多模态大语言模型（MLLMs）可以显著提升其性能，说明慢思考（slow-thinking）技术在多模态任务中的有效性。 [1] RedStar: Does Scaling Long-CoT Data Unlock Better Slow-Reasoning Systems?: https://arxiv.org/abs/2501.11284

40. 技术对比讨论：蒸馏 vs 强化学习 Discussion 40 ➢ Kimi K1.5 中 Long2Short 方法指的是将长文本 CoT 模型的知识迁移到短文本 CoT 模型，本质上是一种「蒸馏」，不过目标和策略更多样，不仅要性能，还要 token 效率；更多地关注对教师模型推理策略的学习，而不仅是输出。 ➢ S1 模型通过少成本获得超过o1-preview的表现： ➢ 高质量推理数据构建：s1K数据集精心挑选了1000个涵盖数学竞赛、博士级科学问题及奥林匹克竞赛题目等，这些问题经过难度、多样性和质量的严格筛选，并包含详细的推理轨迹与答案。类似课程学习的效果。 ➢ 采样策略优化：预算强制法有效地控制了模型在测试阶段的计算资源消耗。 ➢ 当模型生成的思考标记超过预设限制时，插入“end-of-thinking token”来终止思考过程并促使模型转向答案生成阶段 ➢ 若需要增加计算投入，则会暂时阻止end-of-thinking token的出现，并鼓励更深入的探索。 ng ➢ DeepSeek 利用蒸馏R1的手段获得了一系列小模型，表现非常突出。这很大程度得益于R1模型足够强大，发现了很多高阶推理范式，而这些高阶推理范式是小模型直接利用大规模强化学习难以发现的（可以认为是由于预训练 ki 知识不足），因此这些蒸馏得到的小模型表现比较突出，甚至超过了基于RL的方法。 ➢ 相对依赖于强大的教师模型 ➢ 蒸馏过程通常针对特定任务或一组任务（例如代码和数学问题）优化，这可能导致生成的小模型在面对新任务或环境（例如通用任务）时适应性和泛化能力不足。

41. 技术对比讨论：MCTS & PRM 41 ➢ 利用 MCTS，将答案拆分成分句或Token为单位的节点，而后对于解空间进行搜索 ➢ 通过 MCTS 可能会有以下的问题： ➢ Token Generation Space 更大，而不是像象棋一样, Search Space 是 relatively well-defined，容易陷入局部最优 ➢ Value Model 直接影响了搜索方向，而训练一个好的Value Model 比较困难 ➢ 一个相对成功的典范是 rStar-Math [1], 通过小模型达到OpenAI o1数学任务相当的水平 ➢ 一个作为策略模型Policy Model, 另一个模型训练成为基于偏好的过程奖励模型（PPM），二者配合进行 MCTS 产生分步验证的高质量推理数据，四轮自我迭代提升，不断更新数据而后微调模型 ➢ 虽然即便经过MCTS模拟后，Q值依然无法做到对每个推理步骤进行精准评分，但是它们能够有效识别出哪 ki ng 些步骤是正确的（正向步骤），哪些步骤是无关或错误的（负向步骤）,可以用 ranking loss 训练偏序 [1] rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking https://arxiv.org/abs/2501.04519

42. 技术对比讨论：MCTS & PRM 42 ➢ 相比于利用MCTS造数据，直接将MCTS 应用于模型的训练 ➢ MCTS 是一种 Structure, A* 也是 Structure, 人为加入可能会限制模型的思考过程？ ➢ 关键的Takeaways: Inductive Bias 强求LLM按照人为的结构化先验进行思考可能会限制模型的能力； ➢ 不通过额外的Structure, 模型自身是否可以学会思考： ➢ Algorithm Distillation: 将RL的 Training History 序列直接 ng 建模到语言模型中，学习到Data-Efficient RL 算法 ki ➢ Stream of Search: 将搜索的过程转化为自然语言序列预训练模型，基于这个模型做 policy improvement methods (Advantage-Induced Policy Alignment) 和STaR，解决了 heuristic solvers没有解决的问题 [1] OpenAI “Don‘t teach. Incentivize.” https://www.youtube.com/watch?v=kYWUEV_e2ss [2] In-context Reinforcement Learning with Algorithm Distillation https://arxiv.org/abs/2210.14215 [3] Stream of Search (SoS): Learning to Search in Language https://arxiv.org/abs/2404.03683 [4] https://blog.ml.cmu.edu/2025/01/08/optimizing-llm-test-time-compute-involves-solving-a-meta-rl-problem

43. 技术对比讨论：MCTS & PRM : PRM 的实践和反思 43 ki ng ➢ DS-R1 和 Kimi K1.5 都没有进行明确的MCTS和PRM尝试 ➢ PRM 的一些挑战： ➢ 决定当下的某一步是否正确是一个很难的task, 自动化标注难以产生很好的结果，但是用人工标注又难以scaling up ➢ Model-Based PRM 可能会引入 reward hacking, 重新训练会让训练变得更加复杂 ➢ PRM还是更适合于rerank top-N responses and assist guided search, 在大规模RL实验下，提升算力更直接 ➢ PRM的潜力： ➢ PRM总归是一种比较稠密的监督信号，对reward进行shaping可以使训练更稳定或收敛得更快 ➢ PRM还有探索空间，可以让模型收敛得更快速或更稳定 (Scaling曲线的斜率更大) ➢ 和自动形式化验证的结合，提供Rule-Based 之外辅助的Reward Signal, 指导更密集的奖励优化，赋能长思维链安全的验证

44. 技术对比讨论：Over-Thinking ki ng ➢ 强推理模型存在Overthinking的行为 ➢ 过多的语气词，例如 Wait 等 ➢ 一些模型经常会不分场合使用一些高端词汇，典型的如量子纠缠（会用在各个领域） ➢ 对于一些简单的数学问题例如 2+3 =？也会过多思考 ➢ 看似有反思范式，重复Pattern多，可能会导致更好的表现，但是会带来training 和 inference过程中极大的损耗 ➢ 如何合理的分配Test-Time Compute, 进行选择性思考？ ➢ Long2Short Distillation ➢ 长度优化的Penalty ➢ 优化采样策略 44 [1] Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs https://arxiv.org/pdf/2412.21187

45. 技术对比讨论：从文本模态到多模态 45 ➢ DeepSeek R1 Zero 和 R1 在纯文本模态上取得的优异表现十分惊艳，这也不经让人期待：多模态场景加持下 Deepseek R1 深度推理模型将会是怎样的表现？ ➢ 模态穿透和模态联动将有望进一步提升强推理能力。人类在日常生活中接收到的信息往往是全模态的，不同的感官渠道能够互相补充，帮助我们更全面地理解和表达复杂的概念。 ➢ 全模态扩展将成为Deepseek R1的下一个重大突破。首先，在复杂决策场景中构建起"感知-理解-推演"的闭环认知体系，在多个场景下扩展智能边界。 ng ➢ 例如，通过跨模态对齐技术，模型能将CT影像的灰度特征与病理报告的专业术语建立语义关联，在医疗诊断中同步分析X光片阴影分布与患者主诉症状。此外，这种时空关联推理能力使得自动驾驶系统能同时解析路况视频中的车辆轨迹、交通信号灯的闪烁频率以及周围环境的异常声响，实现更精确的多维度风险预判。 ki ➢ 强推理能力在全模态场景下的扩展面临诸多挑战。文本模态场景下，许多复杂推理任务可以通过基于规则的奖励提供监督信号，作为人类意图和偏好的载体。而当从文本模态扩展到多模态甚至全模态场景下时，许多问题会随之呈现： ➢ 随着模态数量增加，传统二元偏好或规则奖励是否能够捕捉人类意图的多元偏好或层次化偏好？ ➢ 当多模态扩展到全模态空间，模态交互更加复杂，RL方法需要做哪些改进？ ➢ 不同模态下，模态特有与模态共有的信息如何统一在奖励信号建模中？

46. 技术对比讨论：从文本模态到多模态 46 ➢ 扩展多模态强推理的可能路径: ➢ 基于多模态模型做基座模型扩展到强推理场景， ➢ 另一种是利用LLaVA的思路，在原来的强推理基座模型上进行额外的模块扩展； ➢ 冻结除投影层Projector外所有模型参数，对投影层Projector进行预训练，使得投影层Projector能够将经过视觉编码器的视觉表征映射到语言表征空间。 ki ng ➢ 同时微调投影层Projector和大语言模型，激发语言模型多模态推理能力 [1] Visual Instruction Tuning: https://arxiv.org/pdf/2304.08485

47. 未来技术方向展望 47 ➢ 模态扩展 + 模态穿透进一步拓展强推理边界 ➢ 审计对齐 ➢ 对齐欺骗现象 ki ➢ 形式化验证 ng ➢ 强推理模型的监管和安全保证 ➢ 强推理能力赋能 Agentic 发展 ➢ 长思维链可解释性

48. 未来技术方向展望: 长思维链可解释性 48 ki ng ➢ 新的挑战：在复杂环境下模型可能会采取捷径或偏离原本设计的任务路线 ➢ 随着模型被提供隐式思考的机会，它们出现欺骗和操纵的可能性逐渐加大 ➢ 模型通过深入思考发现了能够完成目标的更快方法，尽管这种方法是不被允许或欺骗人类的。 ➢ 模型已经展现出了Reward Hacking和In-Context Scheming的能力 ➢ OpenAI ：OpenAI o1 通过探索漏洞完成任务。 ➢ o1-preview 模型通过发现评估主机虚拟机上的 Docker 守护进程 API，并利用它重启了损坏的挑战容器，读取了任务目标（flag.txt），从而避开了应当通过漏洞利用的安全挑战。 ➢ 模型利用错误配置的基础设施，跳过了原本设计的任务步骤，实现了任务目标。 ➢ Anthropic ：语言模型在面对奖励设计时，可以通过不正当的方式获得高奖励，甚至通过 “奖励篡改” 修改自己的奖励机制，来避开设置的难点。 [1] Sycophancy to Subterfuge: Investigating Reward-Tampering in Large Language Models

49. 未来技术方向展望: 长思维链可解释性 Takeaways 49 ➢ 基于长思维链的推理可以在一定程度上提高模型的可解释性 ➢ 提供显式的推理路径，让人类可以追踪模型如何从输入推导出输出，从而追踪模型的决策过程，减少黑箱推理。 ➢ 同时，CoT 使监督者更容易检测模型是否遵循合理逻辑，并有助于 AI 对齐过程中对模型行为的透明化处理。 ➢ 然而，CoT 并不能完全解决可解释性问题，因为模型仍可能利用 CoT 进行欺骗性推理，即In- Context Scheming。 ng ➢ CoT 生成的推理步骤是模型输出的一部分，并不能保证它反映了模型的真实内部计算过程。模型可能学会输出符合人类期望的思维链，但实际推理过程可能与其展示的 CoT 不同。 ki ➢ 当模型具备长期目标意识（Instrumental Reasoning）时，它可能会构造看似合理但实际上误导性的 CoT，以隐藏其真正的意图。此外，CoT 仅是文本输出的一部分，并不代表模型的实际内部推理过程，因此不能确保其真实透明。 ➢ 为了防止 CoT 变成伪装工具，需要结合AI-Driven 监督机制、对比推理（Contrastive Prompting）和形式验证（Formal Verification）等方法。例如，可以让模型在不同监督环境下执行相同任务，检测其推理一致性；或者使用自动化对抗性测试，分析模型是否在训练过程中优化了欺骗策略。 [1] Sycophancy to Subterfuge: Investigating Reward-Tampering in Large Language Models

50. 未来技术方向展望: 模态扩展 + 模态穿透进一步拓展强推理边界 ➢ RLHF与DPO方法本身是模态无感的，通过数据构造能够直接应用于多模态场景； ➢ 但是，多模态对齐的难点在于： ➢ 模态数量增加，传统二元偏好是否能够捕捉人类意图的多元偏好或层次化偏好？ ➢ 当多模态扩展到全模态空间，模态交互更加复杂，RLHF以及DPO是否还奏效？ ➢ 不同模态下，模态特有与模态共有的信息如何统一在偏好建模中？ ki ng 出发点：我们如何在全模态场景中，实现any-to-any models与人类意图对齐 50

51. 模态统一范式：从语言反馈中学习 Learning from Language Feedback（LLF）利用信息更丰富的多模态偏好数据实现更准确且细粒度的人类偏好对齐 ➢ 针对RLHF/DPO对齐方案存在的效率低、迭代慢、优化难的难题，提出从语言反馈中学习 ki 算法：从语言反馈中学习范式，提升任意到任意模态生成与理解任务的对齐表现 Question: What medium is the man using to speak? ng （Learning from Language Feedback），解决任意到任意模态对齐微调。 Before Alignment A car horn. After Alignment The man is speaking over a loudspeaker. Question: What happens before the woman starts spinning around? Question: Small white toilet sitting in a small corner next to a wall. Before Alignment Before Alignment After Alignment Before the woman starts spinning around, she is seen standing in... The woman was in the black swimsuit, then to her left, then After Alignment - Wrong answer - Correct answer - Wrong detection - Correct detection - Strange shape - Correct shape - Indirect response - Direct response - Wrong motion - Correct motion - Redundant content - Clean layout 51

52. 模态统一范式：从语言反馈中学习 Learning from Language Feedback（LLF） ➢ 通过语言反馈（LLF）合成的偏好对：当前模型的生成结果通常并不完美。利用语言反馈优化提 ki ng 示词（prompts），可以在某些维度上改善模型的响应，从而合成更多具有学习价值的偏好对。 52

53. 模态穿透赋能智能边界拓展 53 ➢ 客观基础：多模态大模型已具备强大的跨模态穿透与融合的感知能力，能够通过结合世界知识与上下文学习能力，实现多种模态（如图像、文本、音频、视频等）的高效推理与协同输出。 ➢ 激活赋能：基于慢思考强推理能力的持续自我进化，突破了单一模态的局限性，跨模态穿透深度显著提升。通过深度融合世界知识，模型在文本模态下的智能边界得以大幅拓展。 ng 强推理能力 + 多模态训练 = 激活模态穿透、拓展智能边界 ARC (5-shot) ARC-Challenge (5-shot) Big Bench-Hard (3-shot) ki Base Model Align-DS-V (8B) GPT-4o Align-DS-V (8B) 32.7% 34.2% MathVista 30.4% 27.0% 21.4% 40.5% MathVision 62.2% 63.8% 72.2% 73.4% A-OKVQA 87.9% 83.7%

54. Align-Anything: 涵盖多元价值观的全模态对齐方案数据、框架、算法、模型全开源 ➢ Align-Anything 框架支持任意到任意模态对齐，这在目前开源社区中是独一无二的。它填补了现有框架仅支持单一模态或少数模态对齐的空白，为全模态大模型的对齐提供了统一和通用的解决方案；数据集：开源涵盖12种模态的400K对齐数据集评估：开源面向任意模态、涵盖超过30种主流开源基准的大模型评测代码 ng ki 模型：开源指令跟随微调后的 Chameleon、LLaMA3.2-Vision 等模型，并公开微调数据集算法：开源面向任意模态、涵盖 SFT、RLHF、DPO等主流对齐微调算法的训练代码开源项目：https://github.com/PKU-Alignment/align-anything

55. 未来技术方向展望: 强推理赋能 Agentic 发展 55 ki ng ➢ 日常聊天任务其实对于强推理能力的需求不大 ➢ 未来更多是能否利用强推理能力赋能Agent和具身智能 ➢ OpenAI Deep Research Agent ➢ Anthropic PC Controller ➢ 需要依赖于强推理模型反思、长程规划、Tool Use 工具调用等能力 ➢ 内存和记忆模块的挑战需要克服，小模型如何获得强推理效果？ [1] https://lilianweng.github.io/posts/2023-06-23-agent/

56. 未来技术方向展望: 强推理模型监管和保证 – 语言模型抗拒对齐 ➢ RLHF这类对齐算法可以提升模型性能，并确保与人类意图和价值相一致。 ➢ 然而，这些对齐微调是否真正修改并对齐了模型的内部表征？ ➢ 经过安全对齐的模型可以在经过最小化的微调后再次变得不安全； ➢ 在非恶意数据集上微调对齐的语言模型可能会削弱模型的安全机制； ➢ 不仅限于安全，这种“假象对齐”表明模型可能会内在执行对齐的逆操作。大模型存在会逆转或撤销对齐过程的可能性，这一概念我们称之为逆向对齐（Inverse Alignment）。我们进一步探究了：语言模型的参数是否表现出弹性，从而抗拒对齐？ ki ng Do the parameters of language models exhibit elasticity, thereby resisting alignment? Language Models Resist Alignment, https://arxiv.org/abs/2406.06144

57. 从胡克定律到大模型的弹性（而抗拒对齐） 𝑝 𝜃 ’ 大模型存在弹性：模型在预训练阶段经过大数据、大更新产生了具备通用能力的稳定分布𝒑 𝜽 ，而经过对齐阶段的“小数据、小更新”表现出由对齐分布𝒑 𝜽 ’ 回弹到预训练分布𝒑 𝜽 倾向，从而抗拒对齐; 弹力系数𝒌：表示为大模型本身性质，与模型参数量和预训练数据相关；长度变化量𝒙：表示对齐前后的模型的变化，一般用KL散度刻画；弹力𝑭：对齐后的模型抗拒发生分布改变，产生恢复预训练分布的“弹力”；类似于胡克定律，我们发现大模型也存在弹性：对模型施加微调时，模型倾向于保持原有预训练分布，抗拒对齐分布，使得“逆向对齐”更加容易。 ki ➢ ➢ ➢ ➢ ng 胡克定律：在弹性限度内，弹簧弹力𝑭和长度变化量𝒙成线性关系，即：𝑭 = −𝒌𝒙，弹力系数𝒌 ，弹力与其形变方向相反，表示它有使系统不改变的趋势; 𝑝 𝜃 模型是否具有与弹簧类似的属性从而抗拒改变？从最简单的弹簧系统建模，探究大模型内在抗拒对齐的机理

58. 模型弹性的理论解释 pre-training和post-training阶段，模型因为弹性抗拒对齐 ki ng 在一个有大都市和郊区村落的地区，为了最大化整个地区的经济生产力，我们会倾向于将资源优先配置给大都市，以发挥大都市的规模效应和集聚效应，而村落由于对于整个地区的经济贡献较少，往往不会优先获得资源；从直觉上考虑： ◆ 大模型被视作一种压缩器，预训练和对齐过程则是：利用模型对每阶段的数据进行联合压缩； ◆ 数据量上pre-training显著多于post-training，模型为提高整体压缩率，倾向优先保留预训练部分的分布而抗拒微调对齐的分布，从而表现出模型弹性； ◆ 理论上发现：当对齐模型受到扰动时，模型对于预训练数据集𝐷 1 的压缩率变化显著小于对齐数据集𝐷 2 ，且两者之比与 |𝑫 𝟐 | /|𝑫 𝟏 | 同阶；

59. 模型弹性的实验验证 ➢ 模型弹性 (Elasticity) 的分析 ➢ 正向对齐(Forward Alignment) vs. 逆向对齐(Inverse Alignment) ki ng (a) Elasticity Increase with Model Parameter Size. ➢ 在帮助性、无害性和诚实性(3H) 标准下，逆向对齐 (Path A) 相较于正向对齐 (Path B) 均更加容易。 (b) Elasticity Increase with Pre-training Data Size. ➢ 模型弹性随模型大小增大：随着模型参数规模的增加，因负面数据微调导致的初始性能下降更快，而随后的下降变得更慢；表明模型弹性随模型参数大小增大而增强。 ➢ 模型弹性随预训练数据增大：随预训练数据量增加时，因负面数据微调导致的初始性能下降更快，而随后的下降变得更慢；表明模型弹性随预训练数据量增多而增强。

60. 从模型弹性视角思考大模型对齐从胡克定律𝑓=−𝑘𝑥 到大模型的弹性（而抗拒对齐）算法设计/评估与模型评估等，应当从模型的内在机理出发； ki ng ① 预训练阶段和对齐阶段不应当各自独立； ◆ 预训练模型抗拒对齐，如何在预训练阶段为对齐阶段提供一个具备可塑性分布帮助微调； ◆ 如何确保对齐初始模型弹性系数更小（抗拒更小），弹性限度更大（对齐空间更大）； ② 模型评估应该更关注模型内在表征的对齐； ◆ 表面的对齐训练很容易被撤销，对齐算法应当修改模型的内在表征，而非进行表面的对齐； ◆ 在对齐模型的评估中，我们应当增加额外评估维度，衡量对齐后的模型有多容易被逆对齐，进一步衡量其对齐程度； ③ 从“表面”对齐到“深入”对齐，对齐范式需要改变； ◆ 如何设计算法避免简单的“表面”对齐、亦或者如何分析算法对模型内在表征的改变； Language Models Resist Alignment, https://arxiv.org/abs/2406.06144

61. 审计对齐 Deliberative Alignment Challenges: (1) 当前的大型语言模型（LLMs）容易被诱导泄露有害内容；(2) 拒绝合法请求（过度拒绝）；(3) 仍然容易受到越狱攻击。原因： ➢ LLMs 必须使用固定的计算资源即时响应用户请求； ➢ 当前的对齐方法（如SFT和RLHF）鼓励LLMs通过偏好学习从大量数据中总结规范和人 ki ng 类意图，而不是直接学习安全规范。我们能否直接利用强推理能力学习安全规范以增强模型的安全性？ Deliberative Alignment: Reasoning Enables Safer Language Models

62. Deliberative Alignment ki ng Stage I: SFT & Data Generation ➢ Step 1: Using o-series models generate responses with thinking process about safe category-based specifications. ➢ Get (prompt, category, CoT, output) pairs ➢ Step 2: Prompt a LLM (as a RM) to provide scores for (prompt, category, CoT, output) pairs, giving a score about relevant safety specifications. ➢ Get (prompt, category, CoT, output, score) pairs ➢ Step 3: Filter and remove safety category in the prompt, get prompt, output and thinking process about safety guidelines. ➢ Get (prompt, CoT, output) pairs ➢ Step 4: Supervised fine-tuning. Deliberative Alignment: Reasoning Enables Safer Language Models

63. Deliberative Alignment ki ng Stage 2: RL Data Generation ➢ Step 1: Prompt a LLM (as a judge model, RM) to provide RL signal based on prompt category and outputs. ➢ Hide the CoT process against the RM to avoid optimization of CoT which may lead to deception; ➢ Step 2: Use RL methods (such as ReFT) to train model learn safer and more helpful generation. Deliberative Alignment: Reasoning Enables Safer Language Models

64. Comparison of Deliberative Alignment and other methods ki ng ➢ Training data generation: ➢ CAI or RLAIF: Though existence of specifications, but on labels are used; knowledge of the specifications themselves is lost to the model; ➢ Deliberative Alignment: Specifications is supervised by training; ➢ Inference time behavior: ➢ RLHF or CAI: No reasoning during inference; ➢ Self-Refine: Reasoning occurs through structured few-shot prompting; ➢ Deliberative Alignment: Reasoning over learned safety specifications occurs via CoT; Deliberative Alignment: Reasoning Enables Safer Language Models

65. Discussion ki ng ➢ Alignment Faking: ➢ LLMs have the potential to reverse or undo the alignment process, a concept we call Inverse Alignment. ➢ Do the parameters of language models exhibit elasticity, thereby resisting alignment ➢ Super-Alignment & Scalable Oversight: ➢ How to align systems smarter than humans and how to align them on tasks challenging for human evaluation? ➢ Inspirations from deliberate alignment: directly learn guidelines and try to jump the reward specifications. Example of Alignment Faking Alignment Faking in Large Language Models

66. 未来技术方向展望: 形式化验证个体安全 ≠ 群体安全，行为安全 ≠ 价值安全 ki ng ➢ 形式化验证起源于数学的形式化证明，例如 Lean ➢ 数学形式化的目的是提供一个完全客观和可验证的证明过程 ➢ 形式化具备消除模型幻觉的潜力，类似还有软件工程相关代码的形式化证明 ➢ 与此同时，安全价值的监管具有多元性: 人类的安全价值观具有多样性，内建价值冲突 \ 单智能体系统下的安全，并不保证多智能体系统安全 \AI系统伪装已被“安全对齐”，行为欺骗监管 ➢ 随着 VLA \ Agent 等模型下游和赋能应用兴起，确保模型AI系统准确应对不确定性，考虑物理规律下的人类价值观对齐至关重要 ➢ 在复杂动态环境中不仅要短期安全，还要确保长期行为的安全性，例如对操作环境造成影响。 ➢ 通过形式化验证和RL，提升AI系统的可靠性与处理复杂推理问题的能力。通过构建形式化数学数据库，建立高度严谨的推理模型。

67. VLA系统安全的独特挑战安全复杂性和维度超出传统方法 ng ki ➢ 外生具身安全性：在复杂动态环境中不仅要短期安全，还要确保长期行为的安全性，例如对操作环境造成影响的安全性。 ➢ 内生价值安全性：AI系统不仅需要应对不确定性，还必须考虑物理规律下的人类价值观对齐，例如肢体语言的安全性、个人空间的边界感。

68. 总结 68 2023-快思考 2025-强推理&模态穿透  奖励模型生成更多“对齐”数据  Test-Time Compute 提升偏好自适应性  无标注数据 有标注数据  验证数据集  学习人类偏好  测试效果  人机对齐模型 2024-慢思考  强推理赋能智能体 Agentic  模态穿透多模态潜力进一步发掘全模态场景下模态穿透与统一基于复杂推理慢思考+强化学习新技术范式，通过高质量数据驱动产生强推理模型 RL赋能强推理范式：基座能力激活 + 验证/奖励模型 • 基于规则的奖励和外挂验证器的结合演进方向模态穿透：全模态场景下，智能推理边界拓展 … 多模态输入输出模态穿透 ① ② ki • 利用强化学习激活基座模型能力，让语言模型在序列生成过程中进行隐式思考 ng ① 强化学习 + “隐式思维链” ② 快思考 -> 慢思考 ③ 推理时间 = 新的扩展维度 ④ 数据飞轮 + Bootstrap -> Super Intelligence Rule-Based：正确率+格式化奖励 PRM：判别式+验证每步过程形式化验证：生成式+验证每步过程强推理具身全模态慢思考 Action 统一 ③ ④ 自学机制：理由→奖惩→改进，形成自闭环 … • 使用同一个模型：生成理由→RM奖惩→迭代改进 • 可与奖惩/生成机制的新技术相结合，形成完整方案 ⑤ 强推理赋能多模态全模态统一模态穿透拓展边界 ①③ ③④⑤ ②③⑤ STaR 理由奖惩改进一条理由轨迹/问题无微调过滤数据微调多轮ORM验证自主纠错 ReST EM 无轨迹，只有多个结果 SCoRe 多理由轨迹/问题

69. 拓展分析： DeepSeek-V3 69 ➢ DeepSeek-V3 主要模型参数 ➢ 671B 每个Token 激活 37B参数, ~5.5% ➢ 61层 Transformer, Hidden Dimension: 7168 ➢ MoE: 1 个共享专家 (Shared Expert) + 256 路由专家（Routed Expert) 每个Token 激活 8 个路由专家 ➢ DeepSeek-V3 模型架构: MLA (Multi-head Latent Attention) + MoE (Mixture of Expert) 架构 ➢ MLA:通过引入潜在空间来提高计算效率，同时保持了模型对输入数据的复杂关系的捕捉能力 ki ng ➢ MoE: 注于通过高效的专家分配和计算资源利用来降低成本

70. 拓展分析： DeepSeek-V3 FP8 混合精度的整体训练思路 ki ng ➢ FP8混合精度训练 + 多Token预测 ➢ 把主要计算量、比较大的核心矩阵乘法都用FP8去计算。 ➢ 多Token预测允许模型一次预测多个Token，从而提高了模型对语言结构的理解能力，更好地捕捉语言中的长距离依赖关系 ➢ 可以用于推理加速。在推理过程中，模型可以通过一次预测多个Token来减少计算量，从而提高推理速度。 70 [1] DeepSeek-V3 技术报告 https://arxiv.org/pdf/2412.19437v1 细粒度量化策略

71. 拓展分析： DeepSeek-V3 ng 计算和通信重叠双向流水线并行 ki ➢ 通信优化：DulePipe 算法：精细化编排计算和通信 ➢ 控制前向和反向过程中计算和通信的GPU SM 数量，保证计算和通信完全重叠 ➢ 双向流水线并行 ➢ 降低流水线的Bubble ➢ 需要存两份模型参数 ➢ 64路的专家并行 71 气泡和内存分析 [1] DeepSeek-V3 技术报告 https://arxiv.org/pdf/2412.19437v1

72. 拓展分析： System I & System II 72 ➢ 通过使用 System 1 的快速但可能不完全准确的判断（“fast-but-maybe-wrong” judgment calls），可以帮助 System 2 控制组合爆炸问题，并高效地进行复杂推理。 ki ng ➢ System 2 的问题：需要处理大量组合：System 2 通过遍历组合（如在图或树中的路径搜索）来解决问题，但这种方法的计算复杂度极高，容易导致组合爆炸（combinatorial explosion）。 ➢ 核心挑战：当组合的分支因子过大时，System 2 的搜索速度会非常慢，需要更高效的方法来缩减搜索空间。 ➢ System 1 的作用：快速、近似的判断（approximate judgment calls）： ➢ System 1 将离散的数据转化为某种抽象的结构（近似判断的启发式规则），帮助 System 2 减少遍历的复杂度。 ➢ 这使得 System 1 能快速提供一个可能并非完美，但在大多数情况下足够有效的答案，从而加速整体处理。 It's Not About Scale, It's About Abstraction - François Chollet

73. 讨论：慢思考与Abstraction Reasoning（过程性监督 + 细粒度反馈） ➢LLM 仍然受限于过程性推理任务： ➢ 尽管可以完成复杂的推理，但是仍然受限于一些对于人类来说很简单的任务（例如，逆转诅咒），泛化能力较弱： ➢ 一些看似复杂的任务，实则在互联网上有相近的解决办法， Task Similarity instead of Task Complexity）；在训练语料中有所蕴含（Hypothesis: Depends purely on ➢ 本质上在于 LLM 的思考范式仍然是静态，非过程性的； ng ➢人类的Abstraction Reasoning: 抽象出高维概念并进行细粒度反馈，压缩即智能： ➢ Type1 Abstraction: 基于大量语料学习普遍规律，但是针对 ki 特定的问题，难以给出细粒度反馈和反思； ➢ Type2 Abstraction: System II 驱动对于特定的推理复杂问题，可以基于抽像出的先验进行深入的细粒度反馈； ➢Fast-but-maybe-wrong Judgements； It's Not About Scale, It's About Abstraction - François Chollet 73

74. 拓展文献和资料 74 强推理 & DS-R1 ➢ 图解 DeepSeek R1: https://newsletter.languagemodels.co/p/the-illustrated-deepseek-r1 ➢ DeepSeek-R1 技术报告 https://github.com/deepseek-ai/DeepSeek-R1 ➢ DeepSeek-V3 技术报告 https://arxiv.org/pdf/2412.19437v1 ➢ DS-R1 的Reproduction Github Repo: https://github.com/huggingface/open-r1 多模态 & 全模态 ➢ Align-Anything Github Repo: https://github.com/PKU-Alignment/align-anything ng ➢ 多模态 Align-DeepSeek-V: https://huggingface.co/PKU-Alignment/Align-DS-V ➢ Align-Anything: https://arxiv.org/abs/2412.15838 ki 可扩展监督 & 形式化验证 & 拒绝对齐 ➢ Language Models Resist Alignment: https://arxiv.org/abs/2406.06144 ➢ s1: Simple test-time scaling： https://arxiv.org/pdf/2501.19393 ➢ RedStar: Does Scaling Long-CoT Data Unlock Better Slow-Reasoning Systems?: https://arxiv.org/abs/2501.11284

75. 拓展文献和资料 75 强推理 & DS-R1 ➢ Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs https://arxiv.org/pdf/2412.21187 ➢ DeepSeek-R1 长度泛化复现：https://zhuanlan.zhihu.com/p/21290410831 ➢ DeepSeekMath https://arxiv.org/pdf/2402.03300 ➢ Math-Shepherd: Verify and Reinforce LLMs Step-by-step without Human Annotations https://arxiv.org/abs/2312.08935 ➢ Kimi k1.5: Scaling Reinforcement Learning with LLMs: https://arxiv.org/abs/2501.12599 ng ➢ Stream of Search (SoS): Learning to Search in Language https://arxiv.org/abs/2404.03683 ➢ rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking ki https://arxiv.org/abs/2501.04519 ➢ Parables on the Power of Planning in AI: From Poker to Diplomacy: Noam Brown (OpenAI) https://www.youtube.com/watch?v=eaAonE58sLU ➢ OpenAI “Don‘t teach. Incentivize.” https://www.youtube.com/watch?v=kYWUEV_e2ss ➢ In-context Reinforcement Learning with Algorithm Distillation https://arxiv.org/abs/2210.14215

76. 拓展文献和资料 76 强推理 & DS-R1 ➢ https://blog.ml.cmu.edu/2025/01/08/optimizing-llm-test-time-compute-involves-solving-a-meta-rl-problem/ ➢ 数学形式化证明: https://www.lookeng.cn/2024/10/15/lean/iclr2024-formal-proof-lean/ ➢ SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training https://arxiv.org/pdf/2501.17161 ki ng ➢ Demystifying Long Chain-of-Thought Reasoning in LLMs https://arxiv.org/pdf/2502.03373