思维的进化:通过推理动态分析追踪大语言模型的过度思考

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. The Evolution of Thought: Tracking LLM Overthinking via Reasoning Dynamics Analysis 思维的进化:通过推理动态分析追踪大语言模型的过度思考
2. 不是所有 test-time scaling 都有价值 平均曲线会继续上升,但 单题会出现收益饱和点。 每一步 thinking 是否还 会改变最终答案?
3. Reasoning Dynamics:沿同一条 trajectory 做前缀干预 1. 生成一条完整 thinking trajectory。 2. 逐步截断 thinking prefix,并强制转入 content process。 3. 比较不同 prefix 下最终 content 的长度、语义和正确性变化。
4. 长度动态:thinking 不足时,content 会补偿 RCP 前:thinking 不足,模型把未 完成推理转移到 content,回答变 长。 RCP 后:content length 和 accuracy 趋稳;新增 thinking 主要表现为冗余。 结论:显式推理存在从“补偿求解”到“冗余延长”的阶段转换。
5. 语义动态:trajectory 从探索进入局部收敛区域 前期:语义空间中大 幅漂移,模型仍在探 索、试错和修正。 后期:进入稳定邻 域,后续更像重复确 认或局部震荡。 结论:显式推理存在从“补偿求解”到“冗余延长”的阶段转换。
6. RCP:实例级的 thinking completion boundary 定义:最早使最终 content 长度稳定、语义收敛的 thinking boundary。 •RCP 不是固定 token budget,而是每个样本自己的完成点。 •RCP 之后,继续 thinking 通常不再改变答案内容和语义本质。 •训练分析中,可用首次可验证答案出现点RCP作为保守边界。
7. 背景——显式推理 用 </think> rank 检测 RCP 答案文本受自然语言多样性影响,同一答案可能有多种写法。 </think> rank 来自下一 token 分布,更稳定且几乎不引入额外开销。 RCP 附近:accuracy 已 趋于稳定 </think> rank 明显改 善,可作为在线完成信号
8. 用 </think> rank 检测 RCP 实验结果:在 AIME 和 GPQA 上最高减少约 44% tokens,同时基本保持准确率。
9. Q&A

ホーム - Wiki
Copyright © 2011-2026 iteam. Current version is 2.155.2. UTC+08:00, 2026-06-20 19:05
浙ICP备14020137号-1 $お客様$