LLM 推理加速:decode 阶段的 Attention 在 GPU 上的优化(二)

摘要

在这篇文章里,我们想以MMHA在A10上的执行为例,简单探讨下在这个区间内,MMHA的计算可以怎么继续调优。

欢迎在评论区写下你对这篇文章的看法。

评论

trang chủ - Wiki
Copyright © 2011-2024 iteam. Current version is 2.137.1. UTC+08:00, 2024-11-15 07:10
浙ICP备14020137号-1 $bản đồ khách truy cập$