腾讯太极团队实现 DeepSeek 模型业内 H20 最高性能 15800+ tokens/s

摘要

太极Angel-HCF团队通过PD分离、EP并行优化和多层MTP技术,将DeepSeek模型的推理性能提升至15800+ tokens/s。针对Prefill和Decode阶段的不同特性,团队采用差异化并行策略,优化KV Cache传输与负载均衡,并结合Hopper架构特性进行深度优化。此外,通过改进MTP采样方法和训练多层MTP权重,进一步提升了推理效率。

欢迎在评论区写下你对这篇文章的看法。

评论

trang chủ - Wiki
Copyright © 2011-2025 iteam. Current version is 2.144.0. UTC+08:00, 2025-07-11 23:46
浙ICP备14020137号-1 $bản đồ khách truy cập$