LLM推理加速：decode阶段的Attention在GPU上的优化（二）

在线工具

反馈

LLM 推理加速：decode 阶段的 Attention 在 GPU 上的优化（二）

出处：mp.weixin.qq.com

在这篇文章里，我们想以MMHA在A10上的执行为例，简单探讨下在这个区间内，MMHA的计算可以怎么继续调优。

阅读原文

xiaozi 于 2024-09-09 分享

4089

关联话题： #阿里巴巴

欢迎在评论区写下你对这篇文章的看法。

据说喜欢分享的,后来都成了大神

昨天跟一个大学生聊天，她说，虽然现在有时间出去玩，但是不想花家里人的钱，想等以后经济独立了再花自己的钱去玩。我说，等你经济独立了……她抢着说：我知道，等经济独立了就没时间了。我咳咳两声说：等你经济独立了，你会既没钱又没时间……