LLM推理加速：decode阶段的Attention在GPU上的优化（二） - 在线工具

在线工具

在线工具

反馈

文库码库小摊

更多

LLM 推理加速：decode 阶段的 Attention 在 GPU 上的优化（二）

出处：mp.weixin.qq.com

摘要

在这篇文章里，我们想以MMHA在A10上的执行为例，简单探讨下在这个区间内，MMHA的计算可以怎么继续调优。

阅读原文

xiaozi 于 2024-09-09 分享

4100

关联话题： #阿里巴巴

欢迎在评论区写下你对这篇文章的看法。

评论

据说喜欢分享的,后来都成了大神

国别域名注册8折优惠

vultr activity

tencent

有钱人可以选择低调，而你，却只能低调。

文库

更多

首页 - Wiki
Copyright © 2011-2026 iteam. Current version is 2.155.2. UTC+08:00, 2026-07-08 23:23
浙ICP备14020137号-1 $访客地图$