LLM推理加速：decode阶段的Attention在GPU上的优化（二）

Outil en ligne

反馈

Plus

LLM 推理加速：decode 阶段的 Attention 在 GPU 上的优化（二）

出处：mp.weixin.qq.com

在这篇文章里，我们想以MMHA在A10上的执行为例，简单探讨下在这个区间内，MMHA的计算可以怎么继续调优。

阅读原文

xiaozi 于 2024-09-09 分享

4049

关联话题： #阿里巴巴

欢迎在评论区写下你对这篇文章的看法。

据说喜欢分享的,后来都成了大神

【有些事不必要太执著】手指脏了，大可不必把手指砍掉；帽子小了，大可不必把头削掉，证明鸡蛋是否变味，大可不必把它全吃掉；太阳不会因为你的失意，明天不再升起，月亮不会因为你的抱怨，今晚不再降落；蒙住自己的眼睛，不等于世界就漆黑一团，蒙住别人的眼睛，不等于光明就属于自己！