近年来,大语言模型(LLMs)的技术演进令人瞩目,各家机构在推理能力、长文本处理和强化学习(RL)上的探索层出不穷。OpenAI 的 o1 模型以其自我反思和错误修正的能力引发热议,可能融合了链式推理(CoT)、过程监督奖励模型(PRM)以及树状搜索技术(如 MCTS);Kimi 1.5 则凭借长上下文 CoT 和强化学习的结合,展现了无需复杂树搜索也能实现深入推理的潜力;Qwen 2.5 则在数据质量和多规模模型上发力,配合离线与在线RL,进一步提升了性能。由于年前 DeepSeek-R1 的发布掀起了一波技术讨论热潮,于是也想关注一下其他大模型的技术报告,梳理它们的路线与创新。本篇文章是对 OpenAI o1、Kimi 1.5以及 Qwen 2.5 技术路线的简要总结与分析。
一、OpenAI o1
1、相关文章解读
OpenAI o1技术报告链接: https://cdn.openai.com/o1-system-card.pdf
OpenAI的技术报告没透露太多的技术点,下面会通过分析相关的两篇文章来大致解读以及猜测OpenAI o1的技术路线
文章1- Let's verify step by step
OpenAI的一篇文章,文章链接: https://arxiv.org/pdf/2305.20050
从如下的流程图中可以大致了解这篇文章的故事线:自从ChatGPT发布后,大模型仍然存在幻觉(hallucination)的问题,所以需要思考如何才能避免,思路之一就是提高模型的推理(reasoning)的能力,这篇文章是从奖励模型(reward model)角度入手,认为只要训练出一个靠谱的奖励模型,就能区分理想的和不理想的输出。
本篇文章主要对比了ORM(Outcome-supervised Reward Model)结果奖励模型和PRM(Process-supervised Reward Model)过程奖励模型:
ORM 结果奖励模型:使用模型思维链的最终结果进行训练,只对最终结果进行打分评估,但是有可能中间推理会出错,但最终结果正确的现象 --> 反馈信号精准但稀疏
PRM 过程奖励模型:分步骤对每一步进行打分的更细粒度奖励模型 --> 反馈信号丰富但训练数据制作成本高
这篇文章只是单纯的对比了PRM和ORM之间的性能,不对模型后续的强化学习训练进行研究,但是也明确提出了“fine-tuning LLMs with RL is a natural next step”,只是不是这篇文章的研究重点。
结论:PRM比ORM效果更好,且在数学领域有极大的提升;主动学习(active learning)可以极大的提升PRM的效率;同时公布了800k具有人工反馈的步骤式数据集。--> 大概率PRM是有用到o1模型训练中
文章2 - ReFT
字节的一篇2024ACL的文章,文章链接是: https://arxiv.org/pdf/2401.08967
年前,OpenAI举办了一个连续12天的发布计划( https://openai.com/12-days/ ),其中第二天展示了Reinforcement Fine-Tuning的工作( https://www.youtube.com/watch?v=yCIYS9fx56U )。之后,很多推文就说OpenAI的这个工作其实就是字节发表在2024ACL的一篇文章,所以简单来看一下这篇文章讲了些什么。
如上图所示,ReFT是基于数学领域,提出的两步走训练路径:warm up热身阶段和RL强化学习阶段。
热身阶段:经过1-2个epochs后的SFT,已经获得基本的解决数学问题的CoT推理能力;用于warm up阶段的训练数据是(x/问题, e/思维链),在warm-up阶段结束以后,该模型会作为初始策略(initial policy)成为下一步强化学习的起点(该阶段其实不是RL,但是文章已经开始用RL的思想去解释,解释CoT就是若干个action)
强化学习阶段:就是让模型重复性地生成多个CoT的推理路径,然后根据推理结果和ground truth做对比,然后给予不同的奖励。
这篇文章其实就是用CoT数据去做RL训练,训练数据也是有ground truth,因此可以通过一些规则去设计奖励模型,无需专门训练一个奖励模型。
接下来再看一下OpenAI一位员工去年9月份提到,“train models with CoT using RL, instead of CoT via Prompting”,也强调了用收集到的CoT数据去做增强训练,而不是简单的CoT提示工程。
所以OpenAI o1模型的训练路线大概率就是: pre-training --> SFT --> RL with CoT+PRM
2、技术路线推测
除了以上相关文章的解读,同时也找到一些猜测OpenAI o1技术路线的知乎帖子,这里主要总结其中写的比较详细的一篇,“逆向推测o1技术路线的猜想:Reverse-o1:OpenAI o1原理逆向工程图解”(https://weibo.com/ttarticle/p/show?id=2309405082416250486863)
o1最重要的价值是,可以带来自我反思和错误修正的能力
推断采用了某种或者某几种树结构的搜索,例如MCTS(蒙特卡洛树搜索),尽管产出的CoT是线性的,但是不代表内部思考就是线性的,该篇文章的作者认为靠线性思维推导过程很难解决复杂问题,因此树形结构几乎是不可避免的
o1大概率是多个模型构成(除了主模型,至少还有一个相对独立的Hidden CoT摘要模型;以及从“o1模型价格”和“速度”方面进行推算,大概率是多个模型组成的)
关于训练数据,猜测是有 人工标注数据 + 合成数据 + 代码CoT数据的反响应生成
关于RL训练的猜想
如何定义action空间:归纳出人类思考复杂问题的隐含的“思考因子”当作候选的action集合,类似:”拆解问题“,”复述目标“,”检查结果“,”修正错误“,”提出假设“等;如果把token当作action
大概率是采用了ORM和PRM这两种奖励模型
番外篇:其实在DeepSeek-R1发表之前,蛮多人都猜测OpenAI o1的模型是使用到了MCTS等复杂的树结构。其中,DeepSeek-R1的报告中也提到,曾经尝试过,只是因为效果不好放弃了。虽然Kimi1.5和DeepSeek-R1的技术路线都没有用到复杂的MCTS树搜索,然后他们也都一致强调要用准确的奖励模型,要不然强化学习很难训练。但是我个人觉得,遇到那种复杂问题且奖励模型就是很难准确去定义的场景,MCTS或许是更有用的。
二、Kimi 1.5
技术报告链接:https://github.com/MoonshotAI/Kimi-k1.5
Kimi 1.5,多模态的LLM,核心技术是强化学习和长上下文扩展(Long Context+RL)(长文本也一直是Kimi技术路线的核心)
1、Kimi员工回答训练Kimi 1.5,复线o1的心路历程
可以从下面的流程图中,可以快速了解Kimi 1.5的训练思路;也可以从下面的链接中详细阅读其回答。https://www.zhihu.com/question/10114790245/answer/84028353434
2、核心技术路线 - Long CoT SFT + RL
技术点总结
Long context CoT: 128k,长文本能力是强化学习训练LLM的关键;将RL应用于长文本的Chain of Thought推理过程,使模型能够进行更深入,更复杂的推理
隐式规则:通过增加上下文长度,让模型在生成CoT的过程中进行隐式的规划,反思和修正等能力,无需显示的搜索树(例如MCTS)或者价值函数(value function)
RL:利用强化学习,让模型试错探索来学习解决问题的能力,而不是仅仅依赖于静态数据集
Long2short:通过长文本CoT来指导短文本CoT模型的训练,在资源少情况下获得更好的性能,也是一种模型蒸馏的思想
技术细节
Base Model:经过pre-training和vanilla SFT后的基座模型(报告中只着重介绍了Long CoT SFT 和 RL)
(Long CoT)SFT:<问题,答案>数据+能力较强的模型+人工校验 --> 生成推理路径Long COT
Long CoT数据的构建
三个关键属性来评估RL提示数据集
- 多样覆盖:涵盖广泛的学科,如STEM,编程和一般推理,提高模型在不同领域的广泛适用性
- 平衡难度:包含良好分布的易,中,难不同问题,促进逐步学习并防止过度拟合
- 准确评估:确保生成的正确的推理
通过指示工程来进行长CoT推理路径(Long CoT reasoning paths through prompt enginnering)
- 规划能力/planning,系统性的概述步骤
- 评估能力/evaluation,对于中间步骤的评估
- 反思能力/reflection,可以重新考虑和完善
- 探索思维/exploration,鼓励寻找替代方法
RL:基于第一步骤的SFT模型,对每一条<问题,答案>数据生成K条推理路径和答案,利用ORM针对推理路径和标准答案给出reward
online policy的一种变种,在线策略镜像下降(online policy mirror descent),迭代执行,不是一种在线策略(on-policy);无需价值函数;鼓励生成Long CoT;基于Long CoT的最终答案判断给出奖励信号;只要模型最终能成功就可以;同时鼓励模型多样化去推理路径
length penalty,鼓励模型生成短且正确的回复,防止过度思考
抽样策略:
课程抽样:先开始训练简单的任务,然后依次增大训练任务的难度
优先抽样:对模型表现差的问题有更大的概率被抽中,增强模型的在表现差的cases中的表现
Long2short:也算是一种模型蒸馏,把long CoT模型的思想转换到short CoT模型中,减少推理时间,节省费用,技术报告中有提到以下四种尝试:
Model Merging:将长CoT模型与较短CoT的模型结合起来,无需训练即可获得新模型。具体来说,我们通过简单地平均权重来合并两个模型
Shortest Rejetion Sampling:对于同一问题,kimi生成的响应具有较大的长度变化。基于此,设计了最短拒绝采样 / shortest rejection sampling方法。该方法对同一问题进行n次采样(n = 8),并选择最短的正确响应进行监督微调
DPO:利用Long CoT模型来生成多个响应样本。选择最短的正确解作为正样本,而较长的响应被视为负样本,包括错误的较长响应和正确的较长响应。这些正负对形成用于DPO训练的成对偏好数据
Long2short RL:采用了length penalty,以进一步惩罚超过所需长度但可能正确的响应
3、Kimi 1.5 VS DeepSeek-R1
Deepseek-R1和Kimi 1.5技术报告同一天发布,技术路线也很相似,因此这里简单对比一下。
DeepSeek-R1
如上图所示,DeepSeek-R1的技术路线主要分为两个阶段:
阶段1(图中的绿线流程),跟Kimi 1.5的训练整个流程基本一样,但是该阶段对DeepSeek-R1来说只是辅助阶段,DeepSeek-R1阶段1的目的只是用来产生比第一次SFT阶段质量更高的推理轨迹Long CoT数据
阶段2(图中的黄线流程),将阶段1产生的新的CoT数据和DeepSeek-V3 post training data,进行阶段2的训练,过程跟阶段1也是一样的
注意:经过阶段1强化过的模型 Model-RL-1并没有被利用起来,而是直接用更好的数据在更干净的模型继续调整,这样子效果会更好(微软的MCTS思路模型sStar-Math也反复采用了这一技巧)
DeepSeek-R1 Zero
如上图所示,DeepSeek-R1 zero的训练方法跟R1阶段1训练方法也是一样,只是没有SFT阶段,但其实可以认为是用Prompt工程的方式替代了SFT启动阶段,当基座模型能力足够强,是可以这么做的;该阶段没有基于模型专门训练出来的奖励模型,而是利用训练数据的ground truth去做基于规则的奖励评估,以及还有一个输出是否符合格式的奖励评估;这样子训练出来的模型获得了额外的惊喜(aha moment)
Kimi 1.5和DeepSeek-R1相似性
核心思想是一样的:一个问题产生k个推理轨迹,以k个推理轨迹获得奖励的均值作为比较基准, 鼓励模型产生高于均值奖励的轨迹,抑制模型产生低于均值奖励的轨迹
都没有采取MCTS+PRM的技术路线
不需要复杂的蒙特卡洛树搜索(MCTS),只需要将思考过程线性化,因为对上下文理解有了更高的要求
不需要价值函数,也不需要额外的奖励模型
DeepSeek-R1和Kimi 1.5的训练路径,在未来或许可以演变为更通用的多阶段训练方法:经过SFT和RL进行第一阶段后得到Model RL-1,使用Model RL-1产生更高质量的推理轨迹CoT数据,然后用这些数据在干净的Base模型进行SFT,开启阶段2,得到Model RL-2,由Model RL-2产生质量更进一步的推理轨迹CoT数据,如此重复几次,最后一个阶段采用DeepSeek-R1的阶段2策略,补充标准Post-Training阶段的训练数据,防止对通用能力的灾难遗忘问题
三、Qwen 2.5
Qwen 2.5 技术报告链接: https://arxiv.org/pdf/2412.15115
1、技术点总结
与Qwen前几个版本对比,Qwen2.5在预训练和后训练都有显著的提高
在预训练阶段,将高质量数据从7万亿tokens扩展为18万亿tokens,涵盖知识,编程和数学等领域,为后续的常识,专业知识和推理能力提供坚实基础
在后训练阶段,收集了超过100万个,适应SFT以及多阶段RL(包括离线学习DPO和在线学习GRPO)训练的示例,后训练显著增强了人类偏好,改善长文本生成,结构数据分析和指令跟随能力
提供开源和闭源的多规模模型,开源模型是transformer-based decoder architecture,规模大小包括0.5B,1.5B,3B,7B,14B,32B,72B,以及指令调整模型的量化版本;闭源模型有两个MOE变体(MOE model architecture),Qwen2.5-Turbo,Qwen2.5-Plus
2、技术细节
预训练:
高质量的预训练数据,相比于Qwen2的预训练数据,Qwen2.5的预训练数据在质量上有显著的提升
更好的数据过滤:有用Qwen2-Instruct models当作数据质量过滤器,全方面多角度的进行数据评估和删选
更好的数学和代码数据:有将Qwen2.5-Math和Qwen2.5-Coder的训练数据加入到预训练中,使得Qwen2.5在数学推理和代码生成上有很强的能力
更好的合成数据:有用Qwen2-72B-Instruct和Qwen2- Math-72B-Instruct去做数据生成,以及专有的奖励模型和Qwen2-Math-RM-72B去严格过滤模型生成的数据
更好的数据混合:有用到Qwen2-Instruct models对不同领域的内容进行分类和平衡。还提到,像电子商务,社交媒体以及娱乐等领域在网络规模数据中所占比例明显过高,通常包含重复的、基于模板或机器生成的内容。相反,像技术,科学和学术研究等领域虽然包含更高质量的信息,但在过去的数据中占比过低
超参数的缩放定律
做了大量的实验,去系统性研究模型架构和最优训练超参数之间的关系,分析了学习速率和批量大小如何随着模型大小和预训练数据大小变化
长上下文的预训练
Qwen 2.5 的两步骤预训练,把上下文长度从4096 tokens扩展到32768 tokens
Qwen2.5-Turbo的渐进式上下文扩展策略,四步骤预训练:32768 tokens --> 65536 tokens --> 131072 toekns --> 最终262144 tokens;而且每个训练步骤都有精心策划训练数据,包括40%的当前最大长度的句子和60%较短的句子
这种渐进式训练方法能够平滑适应不断增加的上下文长度,同时保持模型有效处理和泛化不同长度序列的能力
后训练:相比于Qwen2,Qwen2.5有两个重大的改进,即数百万的高质量数据和两步骤的强化学习(offline RL + online RL)
SFT:最终收集了1 million SFT训练数据,用于2 epochs的训练
长文本生成:Qwen2.5能够生成高质量且上下文长度高达8,192个token的输出,有特意收集一批long response dataset
数学推理和代码生成:高质量的Qwen2.5-Math的CoT数据和Qwen2.5-Coder的指令跟随数据;
结构化数据理解:为了加强对结构化数据的理解,除了传统的任务,例如:表格问答,事实验证和纠错等,还加入一些包含结构化/structured和半结构化/semi-structured数据理解的复杂任务
逻辑推理:为了增强模型的逻辑推理能力,引入了一组跨越不同领域的 70,000 个新查询。这些查询包括多项选择题、对/错问题和开放式问题。该模型经过训练可以系统地处理问题,采用一系列推理方法,例如演绎推理、归纳概括、类比推理、因果推理和统计推理。
offline RL:
相比于在线的强化学习,离线的强化学习可以提前准备好训练数据,这对于有标准答案但是难以用奖励模型评估的任务有很大的好处
该阶段重点关注数学、编码、指令遵循和逻辑推理等领域,这些领域的评估可能是比较复杂
也收集了一些经过人工审核和自动化审核的正负样本对,用于DPO的训练
最终收集了大概150k条训练数据对,进行了一轮训练
online RL:
为了构建一个强大的奖励模型用于在线强化学习,制定了一系列精确的标注标准:真实性,帮助性,简洁性,相关性,无害性,去偏见,保证模型生成的响应不仅质量高,而且符合伦理和用户标准
数据来源包括:公开的开源数据集和具有较高复杂度的专有查询数据;生成的数据都是由Qwen系列模型生成的;为了增加数据的复杂性,也使用了不同的温度参数;通过人工标记的偏好对以及用于DPO训练的正负对数据都有用到该阶段的训练中
同时也采用了群体相对策略优化(Group Relative Policy Optimization, GRPO)的在线强化学习
关于LitGate
大家好,我是LitGate,一个专注于AI创作的游戏社区。我们的新版官网已经上线✨你可以在里面找到各种AI创作的实操案例,以及已经沉淀的AI游戏创意demo,相信一定能让你大开眼界!
我们还有一个讨论群📣,如果你对AI创作感兴趣,或者有什么问题想要咨询,欢迎加入我们的讨论群,和大家一起交流学习!(PS:目前群内人数较多,为了有一个优质的讨论环境,请各位添加社区管理员企业微信账号邀请入群
更多精彩活动和功能筹备上线中,敬请期待~
关注我们,一起探索AI创作的无限可能吧!
新版官网地址:www.litgate.ai