DeepSeek 新论文:所有人都觉得没必要改的东西,他们改了

摘要

DeepSeek新论文mHC革新了十年未变的残差连接设计。传统残差连接信号固定1:1传递,其改进版HC虽提升性能但导致训练崩溃。mHC创新性地引入双随机矩阵约束,既保留可学习特性又确保信号稳定,在27B模型上将信号波动峰值从3000倍降至1.6倍,推理任务性能提升2%以上,仅增加6.7%训练耗时。这证明基础架构仍有优化空间,同等算力下能榨取更高性能。

欢迎在评论区写下你对这篇文章的看法。

评论

首页 - Wiki
Copyright © 2011-2026 iteam. Current version is 2.148.3. UTC+08:00, 2026-01-13 08:47
浙ICP备14020137号-1 $访客地图$