思维的进化：通过推理动态分析追踪大语言模型的过度思考

如果无法正常显示，请先停止浏览器的去广告插件。

1. The Evolution of Thought: Tracking LLM Overthinking via Reasoning Dynamics Analysis 思维的进化：通过推理动态分析追踪大语言模型的过度思考

2. 不是所有 test-time scaling 都有价值平均曲线会继续上升，但单题会出现收益饱和点。每一步 thinking 是否还会改变最终答案？

3. Reasoning Dynamics：沿同一条 trajectory 做前缀干预 1. 生成一条完整 thinking trajectory。 2. 逐步截断 thinking prefix，并强制转入 content process。 3. 比较不同 prefix 下最终 content 的长度、语义和正确性变化。

4. 长度动态：thinking 不足时，content 会补偿 RCP 前：thinking 不足，模型把未完成推理转移到 content，回答变长。 RCP 后：content length 和 accuracy 趋稳；新增 thinking 主要表现为冗余。结论：显式推理存在从“补偿求解”到“冗余延长”的阶段转换。

5. 语义动态：trajectory 从探索进入局部收敛区域前期：语义空间中大幅漂移，模型仍在探索、试错和修正。后期：进入稳定邻域，后续更像重复确认或局部震荡。结论：显式推理存在从“补偿求解”到“冗余延长”的阶段转换。

6. RCP：实例级的 thinking completion boundary 定义：最早使最终 content 长度稳定、语义收敛的 thinking boundary。 •RCP 不是固定 token budget，而是每个样本自己的完成点。 •RCP 之后，继续 thinking 通常不再改变答案内容和语义本质。 •训练分析中，可用首次可验证答案出现点RCP作为保守边界。

7. 背景——显式推理用 </think> rank 检测 RCP 答案文本受自然语言多样性影响，同一答案可能有多种写法。 </think> rank 来自下一 token 分布，更稳定且几乎不引入额外开销。 RCP 附近：accuracy 已趋于稳定 </think> rank 明显改善，可作为在线完成信号

8. 用 </think> rank 检测 RCP 实验结果：在 AIME 和 GPQA 上最高减少约 44% tokens，同时基本保持准确率。

9. Q&A