腾讯混元 AI Infra 如何优化 Hy3 Preview:一次大模型推理性能提升的技术拆解

摘要

Hy3 preview模型在Hopper卡上实现了极致推理性能优化。通过动态调度Attention、双BF16重构Router GEMM、FusedMoE流水线重构等算子优化,以及多级缓存、MTP异步调度、量化稀疏等技术,在有限硬件下显著降低延迟、提升吞吐,解决了长上下文推理瓶颈。

欢迎在评论区写下你对这篇文章的看法。

评论

ホーム - Wiki
Copyright © 2011-2026 iteam. Current version is 2.155.2. UTC+08:00, 2026-06-27 05:35
浙ICP备14020137号-1 $お客様$