端侧 AI 突破性能瓶颈:MNN 基于 SME2 指令集的大模型高效推理实现

摘要

本文探讨了Arm架构下SME2指令集在MNN推理引擎中的应用,重点介绍了动态量化矩阵乘和浮点矩阵乘的实现方法。通过优化矩阵分块和利用SME2的多向量指令,显著提升了LLM模型和CV任务的推理性能,尤其在预填充和解码阶段表现出色,为端侧AI推理提供了高性能、低功耗的解决方案。

欢迎在评论区写下你对这篇文章的看法。

评论

Главная - Вики-сайт
Copyright © 2011-2025 iteam. Current version is 2.144.0. UTC+08:00, 2025-07-10 00:50
浙ICP备14020137号-1 $Гость$