Better MoE model inference with warp decode

온라인도구

온라인도구

反馈

온라인도구

홈 항목

글 코드베이스 상점

자세히

Better MoE model inference with warp decode

出处：cursor.com

存档：存档

译文：中文

摘要

Warp decode是一种新型MoE推理方法，将并行性从专家转向输出值，显著提升性能和精度。通过消除传统路径中的五个“簿记”步骤，减少了中间缓冲区和同步点，使计算更高效。测试显示，Blackwell GPU上的吞吐量提升1.84倍，输出精度接近FP32参考值的1.4倍。该方法特别适用于小批量解码，加速了Composer模型的研发和训练。

阅读原文

xiaozi 于 2026-04-07 分享

3694

关联话题： #Cursor

欢迎在评论区写下你对这篇文章的看法。