LLM 推理加速:decode 阶段的 Attention 在 GPU 上的优化(二)

摘要

在这篇文章里,我们想以MMHA在A10上的执行为例,简单探讨下在这个区间内,MMHA的计算可以怎么继续调优。

欢迎在评论区写下你对这篇文章的看法。

评论

首页 - Wiki
Copyright © 2011-2024 iteam. Current version is 2.137.1. UTC+08:00, 2024-11-22 05:51
浙ICP备14020137号-1 $访客地图$