AI 2.0 时代的大模型推理:从模型到硬件的协同优化

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. AI 2.0 时代的大模型推理: 从模型到硬件的协同优化 曾书霖
2. 目录 01 以智能革命 引领大模型推理范式变革 02 以弹性算力集群 驱动云侧智能升级 03 面向华为昇腾的推理优化部署实践 04 以有限算力架构 释放终端应用潜能 05 以大模型推理技术创新 融合人工智能产业创新
3.
4. 01 以智能革命 引领大模型推理范式变革
5. 以人工智能为代表的第四次工业革命(智能革命)极大提升人类生产力 信息技术 电力 蒸汽机 提升各产业生产力 加速工业发展 解放农业生产力 人工智能 智能化应用创造价值 第一次 机械革命 第二次 电气革命 体力密集型生产 生产100米布/人日 体力密集型生产 组装一辆汽车/人日 1800 1825 1850 1875 1900 世界GDP增速 第四次 智能革命 第三次 数字革命 创造性劳动 药物发现 未知时间→月量级 重复性脑力工作 100阶线性方程组求解 1800人小时→0.05人小时 1925 1950 1975 2000 世界GDP总量 2025 Future
6. 生产工具与驱动方式的创新 工业革命 机械革命 电气革命 数字革命 智能革命 工具创新 蒸汽机 内燃机 互联网 智能算法 人类生产力水平与认知边界不断突破 替代劳动 体力重复劳动 流程化劳动 知识管理劳动 创造性劳动 驱动方式 蒸汽动力 火电动力 知识信息 半导体芯片
7. 模型推理:技术协同的中枢与产业价值的放大器 智能革命 智能算法 “人工智能+”制造 “人工智能+”金融 “人工智能+”能源 “人工智能+”医疗 … 产业价值放大器 模型训练 模型推理 创造性劳动 半导体芯片 替代 技术协同的中枢 用户 请求 调度 云平台 计算图优化 推理 框架 模型 压缩 算子优化 调度优化 端侧设备
8. 自2012 年以来生成模型发展的关键节点 国 外 标 2017年谷歌提 2019年谷 Transformer 歌提出T5 志 出 Transformer架构奠 架构 性 定了LLM基础,开 验证"Text- 节 启大模型时代 to-Text"范式 在NLP任务中 点 的通用性 2017 2019 国 内 标 志 性 2016年商汤、旷世崛起 节 以计算机视觉技术为核心,推动AI 点 在安防等领域的落地 2020年OpenAI 2022年 提出GPT-3 OpenAI 展示LLM强大的的 InstructGPT 2023年 OpenAI ChatGPT爆火 少样本学习能力, 提出利用RLHF讲 引爆全球生成式AI 引发业界对大模型 LLM与人类对 应用,标志AI进入 的研究热潮 齐,ChatGPT的 大规模普及阶段 基础 2020 2021 2022 2023年 Meta开源 Llama 后续逐步成为 全球第一大大 模型开源模型 及生态 2023 2024年OpenAI SORA爆火 2024年OpenAI 提出O1系列模型 火爆全球的视频生成 软件,首次实现1分 钟长视频的生成,且 画面一致性较高 将长思维链推理技术 带入主流,总结Test Time Scaling,显著 提升模型的推理能力 2024 2021年百度推 出ERNIE-3.0 智谱推出 ChatGLM 在多项NLP任务中 超越GPT-3 第一个国产大模型 后续逐步成为继 Meta Llama之后 的全球第二大大模 型开源模型及生态 阿里通义千问 开源 2025 2025年 2024年生数推 百模大战 国内多家公司 DeepSeek开源 出ViDU 相继发布自研 R1推理模型 生数科技发布国内 大模型,API 首个文生视频模 服务价格降低 型,距离Sora发布 10倍以上 仅2个月 比肩OpenAI O1算 法性能的同时,成 本仅为5%~10%
9. 尺度定律(Scaling Law)逐步转向推理规模扩展 Intelligence 国 外 标 2017年谷歌提 2019年谷 Transformer 歌提出T5 志 出 Transformer架构奠 架构 性 定了LLM基础,开 验证"Text- 节 启大模型时代 to-Text"范式 在NLP任务中 点 的通用性 2017 2019 2020年OpenAI 2022年 提出GPT-3 OpenAI 展示LLM强大的的 InstructGPT 2023年 OpenAI ChatGPT爆火 少样本学习能力, 提出利用RLHF讲 引爆全球生成式AI 引发业界对大模型 LLM与人类对 应用,标志AI进入 的研究热潮 齐,ChatGPT的 大规模普及阶段 基础 2020 2021 2022 2023 2023年 Meta开源 Llama 2024年OpenAI SORA爆火 2024年OpenAI 提出O1系列模型 火爆全球的视频生成 软件,首次实现1分 钟长视频的生成,且 画面一致性较高 将长思维链推理技术 带入主流,总结Test Time Scaling,显著 提升模型的推理能力 Test-Time Scaling “Reasoning” 后续逐步成为 全球第一大大 模型开源模型 及生态 推理规模扩展 2024 2025 国 Post-Training Scaling 内 补充增强训练规模扩展 标 智谱推出 2021年百度推 阿里通义千问 2025年 志 2024年生数推 百模大战 Pre-Training Scaling ChatGLM 国内多家公司 DeepSeek开源 出ERNIE-3.0 开源 性 出ViDU 第一个国产大模型 后续逐步成为继 相继发布自研 R1推理模型 在多项NLP任务中 2016年商汤、旷世崛起 预训练规模扩展 生数科技发布国内 节 以计算机视觉技术为核心,推动AI 大模型,API 超越GPT-3 Meta Llama之后 比肩OpenAI O1算 首个文生视频模 服务价格降低 Compute 的全球第二大大模 点 在安防等领域的落地 法性能的同时,成 型,距离Sora发布 型开源模型及生态 Ref:NVIDIA CEO Jensen Huang Keynote at CES 2025 仅2个月 10倍以上 本仅为5%~10%
10. 模型推理计算范式转变导致计算需求激增 GPT - o1的计算范式变化:CoT + 强化学习 推 理 阶 段 GPT-4 Post-Training GPT-4o o1-mini o1 GPT-4o mini 80% RLHF Base model 70% o1 基础能力 GPT-4 o1 RLHF Base model RL Safety 增强逻辑 Think 内容安全 Answer Think&Summary 思考/CoT摘要 Answer 生成答案 60% 训 练 阶 段 Pre-Training 增加模型的推理迭代次数,计算量增加2个量 级 10x 50% ~60x 40% 30% ~100x 20% 10% 0% 0 20 40 60 80 100 归一化算力需求成本* 678x 47410 1E+4 1E+2 69.93 1E+0 原模型 *ref:OpenAI o1-mini | OpenAI 原模型+推理缩放定律
11. Deepseek 等模型推动应用落地加速带来推理需求爆发 未来推理算力需求或是预训练需求的百倍以上 推理算力需求“喷发式增 长” 预训练时代即将结束 Ilya,NeurIPS 2024 黄仁勋,GTC 2025 步入2025 年,受限于预训练数据、大模 型迭代周期、硬件成本等因素 为了保持模型的响应速度,让用户不 会因等待而失去耐心,我们现在需要 将计算速度提高10倍,黄仁勋表示: 整体计算需求 轻松增长至100倍 Pre-Training Scaling 收益正在衰减 70% 中国亿级用户APP 已有 进行了“AI转型” 共962个传统APP备案了深度合成算法 Ref:QuestMobile A产业洞察研究院 2025年1月 推理模型需要在回答之前进行多轮内 部推理,因此计算需求大得多,响应 时间也更长。
12. 大模型推理系统形态 AIPC 手机 100-1000 token/s * 应用需求: 5-10 token/s 现有实现: 20-25 现有实现: token/s 模型:Qwen2.5-7B 硬件设备:骁龙8 Gen1 推理框架:llama.cpp+OpenCL 模型:Qwen2-7B 硬件设备:AMD Krackan 推理框架:llama.cpp 端侧推理系统 *前沿应用——机器人智能的基本需求,参考自Deray, Jeremie, Joan Sola, and Juan Andrade-Cetto, “Joint on-manifold self-calibration of odometry model and sensor extrinsics using pre- integration.” 2019 European Conference on Mobile Robots (ECMR). IEEE, 2019. 一体机 云服务 25-30k token/s/节点 + 理论值: 现有实现: ~8000 现有实现: ~14.8k token/s token/s/节点 模型:DeepSeek-R1 硬件设备:8xH20 推理框架:SGLang 模型:DeepSeek-R1 硬件设备:22台H800 推理框架:DeepSeek 云侧推理系统 + 理论估计上界可达性,假设集群配置为计算瓶颈,考虑计算量和网络延迟计算上界
13. 大模型推理系统形态 端侧推理系统 手机 AIPC 一体机 云服务 优化目标:降低延时 核心特点:单用户、少请求 * 100-1000 token/s 请求 应用需求: 5-10 token/s 用户 现有实现: 20-25 现有实现: token/s 模型:Qwen2.5-7B 硬件设备:骁龙8 Gen1 推理框架:llama.cpp+OpenCL 端侧设备 模型:Qwen2-7B 硬件设备:AMD Krackan 推理框架:llama.cpp 端侧推理关键问题:资源受限 端侧推理系统 *前沿应用——机器人智能的基本需求,参考自Deray, Jeremie, Joan Sola, and Juan Andrade-Cetto, “Joint on-manifold self-calibration of odometry model and sensor extrinsics using pre- integration.” 2019 European Conference on Mobile Robots (ECMR). IEEE, 2019. 理论值: 25-30k token/s/节点 + 现有实现: ~8000 现有实现: ~14.8k token/s token/s/节点 模型:DeepSeek-R1 硬件设备:8xH20 推理框架:SGLang 模型:DeepSeek-R1 硬件设备:22台H800 推理框架:DeepSeek 云侧推理系统 + 理论估计上界可达性,假设集群配置为计算瓶颈,考虑计算量和网络延迟计算上界
14. 大模型推理系统形态 端侧推理系统 手机 AIPC 一体机 云侧推理系统 云服务 优化目标:降低延时 优化目标:满足用户延时要求,提升吞吐率 核心特点:单用户、少请求 核心特点:多用户、多请求 * 100-1000 token/s 请求 应用需求: 5-10 token/s 用户 现有实现: 20-25 现有实现: token/s 模型:Qwen2.5-7B 硬件设备:骁龙8 Gen1 推理框架:llama.cpp+OpenCL 端侧设备 模型:Qwen2-7B 硬件设备:AMD Krackan 推理框架:llama.cpp 端侧推理关键问题:资源受限 端侧推理系统 *前沿应用——机器人智能的基本需求,参考自Deray, Jeremie, Joan Sola, and Juan Andrade-Cetto, “Joint on-manifold self-calibration of odometry model and sensor extrinsics using pre- integration.” 2019 European Conference on Mobile Robots (ECMR). IEEE, 2019. 25-30k token/s/节点 请求 理论值: + 现有实现: ~8000 用户1 token/s ... 现有实现: ~14.8k 模型:DeepSeek-R1 硬件设备:8xH20 用户N 推理框架:SGLang token/s/节点 模型:DeepSeek-R1 计算集群 硬件设备:22台H800 推理框架:DeepSeek 云侧推理关键问题:资源调度 云侧推理系统 + 理论估计上界可达性,假设集群配置为计算瓶颈,考虑计算量和网络延迟计算上界
15. 大模型推理系统的效率挑战 端侧推理系统 云侧推理系统 优化目标:降低延时 优化目标:满足用户延时要求,提升吞吐率 核心特点:单用户、少请求 核心特点:多用户、多请求 重叠传输 延时开销 小规模负载计算 (利用率: 50%→90%) 协同挑战 多处理器硬件资源 协同处理 存储需求 (存储量 100GB→10GB) 大规模负载并行计算 计算挑战 提升生成式模型的 计算利用率 满足用户目标延时 调度挑战 不同用户间资源竞 争及延时需求 存储挑战 同时存储大量请求 的KV cache 提升显存利用效率 (利用率 70%→90%)
16. 02 以弹性算力集群 驱动云侧智能升级
17. 挑战:云侧大模型推理 ① 计算挑战 Prefill阶段 计算密集型 Decode阶段 访存密集型 ③ 调度挑战 ② 存储挑战 云侧集群 存储容量大 推理服务 存储利用率低 用户需求 低延时 input = "用python实现冒 泡排序" 输入的prompt Prefill 只服务我 延时最低 output = "def" 第1个token 系统需求 高吞吐率 服务多请求 以提升吞吐率 Decode output = "def bubble" 第2个token Decode output = "def bubble_" 第3个token 集群存储 TB量级 请求不等长 存储碎片造成利 用率低(~70%) 计算集群 请求 …… Prefill和Decode两阶段计算特性不同 需分别针对性优化计算 请求动态生成引入存储碎片 导致系统存储利用率低 用户间存在资源竞争 在满足用户目标前提下提升系统吞吐率
18. 背景:云侧大模型核心技术 云侧推理服务:多用户、多请求 计算挑战 提升生成式模型的 计算利用率 存储挑战 同时存储大量请求 的KV cache 调度挑战 不同用户间资源竞 争及延时需求 算子和计算图优化 分页式存储 前缀缓存 批处理、请求顺 序、阶段间并行优 化 FlashAttention FastServe Splitwise (NeurIPS 22) 降低注意力的存 储量和访存量 Transformer计 算的必需算子 (arXiv 23) 面向LLM请求顺序优化 多级队列近似最短剩余 时间策略 开启关于请求顺序方面 的研究 (ISCA 24) LLM推理服务 P/D分离式计算 去除了阶段间延 时干扰 Orca vLLM Sarathi-Serve SGLang (OSDI 22) 连续批处理 方法 LLM推理服 务的基本调 度方法 1个数量级吞 吐率提升 (SOSP 22) KV cache分页 式存储 LLM推理服务 的基本存储方 法 2-4倍吞吐率提 升 (OSDI 24) P/D请求混合批 处理 融合式架构基本 批处理方式 2倍吞吐率提升 云侧推理服务技术Milestone (NeurIPS 24) 前缀缓存技术 复用请求间重复 的KV cache 6倍吞吐率提升
19. 背景:融合式与分离式实例 融合式实例:P/D计算和存储共享资源 Prefill 请求 单个 融合 实例 Decode 请求 分离式实例:P/D计算和存储资源分离 Prefill Prefill 实例 请求 计算 融合 GPU SMs 计算 分离 GPU SMs 存储 融合 GPU HBM 存储 分离 GPU HBM 请求的Prefill和Decode阶段均在相同实例 进行计算和存储 代表 框架 [1] W. Kwon, et al. ” Efficient Memory Management for Large Language Model Serving with PagedAttention.”, SOSP, 2023. [2] L. Zheng, et al. “SGLang: Efficient Execution of Structured Language Model Programs”, NeurIPS, 2024. Decode 请求 Decode 实例 GPU SMs KV cache GPU HBM 请求在Prefill实例上完成Prefill阶段后,传输KV cache至 Decode实例进行计算 代表 框架 [3] DeepSeek-AI. “DeepSeek-V3 Technique Report”, arXiv, 2025. [4] R. Qin, et al. “Mooncake: Trading More Storage for Less Computation”, FAST, 2025.
20. 思路:融合式与分离式实例分析 融合式实例:P/D计算和存储共享资源 Prefill 请求 单个 融合 实例 GPU SMs 存储 融合 GPU HBM 请求的Prefill和Decode阶段均在相同实例 进行计算和存储 代表 框架 [1] W. Kwon, et al. ” Efficient Memory Management for Large Language Model Serving with PagedAttention.”, SOSP, 2023. [2] L. Zheng, et al. “SGLang: Efficient Execution of Structured Language Model Programs”, NeurIPS, 2024. Decode请求 请求1,2,4 请求3,5 不同阶段请求互相等待 Decode 请求 计算 融合 Prefill请求 计算 劣势 存储 优势 请求混合批处理 或 请求1,2,3,4,5 由编译器调度计算资源 P/D间请求延时干扰严重 P/D计算资源配比不可控 P/D计算之间无需传递KV cache KV cache能使用所有存储资源
21. 思路:融合式与分离式实例分析 计算 优势 P/D隔离计算无延时干扰 可以通过GPU数配比计算资源 存储不均衡 Prefill 实例 KV cache生成 后即传输 存储 劣势 分离式实例:P/D计算和存储资源分离 Decode 实例 长期存储KV cache 实例切换需转移存储 Decode 实例1 切换 Prefill 实例1 Decode 实例2 P/D实例间KV cache存储不均衡 (例,P: 23% v.s. D: 72%*) 资源调整涉及存储搬移开销 *Llama3-70B, Prefill实例TP=4, Decode实例TP=4, ShareGPT数据集 Prefill Prefill 实例 请求 计算 分离 GPU SMs 存储 分离 GPU HBM Decode 请求 Decode 实例 GPU SMs KV cache GPU HBM 请求在Prefill实例上完成Prefill阶段后,传输KV cache 至Decode实例进行计算 代表 框架 [3] DeepSeek-AI. “DeepSeek-V3 Technique Report”, arXiv, 2025. [4] R. Qin, et al. “Mooncake: Trading More Storage for Less Computation”, FAST, 2025.
22. 思路:融合式与分离式实例分析 融合式实例:P/D计算和存储共享资源 计算 劣势 存储 优势 P/D间请求延时干扰严重 计算 优势 P/D计算资源配比不可控 P/D计算之间无需传递KV cache 分离式实例:P/D计算和存储资源分离 ✓ KV cache能使用所有存储资源 *Llama3-70B, Prefill实例TP=4, Decode实例TP=4, ShareGPT数据集 存储 劣势 P/D隔离计算无延时干扰 可以通过GPU数配比计算资源 P/D实例间KV cache存储不均衡 (例,P: 23% v.s. D: 72%*) 资源调整涉及存储搬移开销 ✓
23. 方案:semi - PD 实例 计算分离 & 存储融合:P/D计算资源隔离,但是共享存储资源 计算优势 Prefill 请求 Decode 请求 P/D计算资源隔离且分为不同数据流 P/D隔离计算无延时干扰 可以通过GPU数配比计算资源 计算 融合 存储 融合 GPU SMs GPU HBM 但是共享相同的存储资源 P/D计算之间无需传递KV cache KV cache能使用所有存储资源 单个semi-PD实例 存储优势
24. 方案:semi - PD 技术细节 技术细节:计算分离 & 存储融合 技术细节:低开销资源调整机制 Prefill进程 计算 分离 GPU SMs 挑战 请求1,2,4 P/D间资源调整模型权重重载、KV cache拷贝 开销,造成请求阻塞 GPU SMs 请求3,5 Decode进程 P/D阶段的计算分别由不同的进程(抽象为worker)完 成 进程间实现SM粒度的计算资源划分 优 化 前 Prefill进程 请求1,2,4 请求3,5 Decode进程 GPU SMs 计算资源调整 重载+拷贝 请求1,2,4 重载+拷贝 请求3,5 常驻进程(为新进程广播存储地址) 存储 融合 原子化显存分配 查询地址,更新 存储量, Prefill 请求 存储 原子化显存分配 查询地址,更新 存储量, Decod e请求 通过原子化的显存分配避免P/D worker显存管理的冲突 优 化 后 方案 请求1,2,4 Prefill进程 请求3,5 Decode进程 请求1,2,4 请求3,5 引入常驻进程管理模型权重和KV cache存储, 无需重载和拷贝
25. 方案:semi - PD 应用适配 实例推理场景 集群推理场景 每张GPU上的P/D worker独立、异步地 与并行组进行通信,通信总量不变 semi-PD实例作为可选实例之一,与P/D实例 共同参与请求路由 单个semi-PD实例 用户 请求 API server 请求路由 请求 KV cache Prefill 实例 Decode 实例 semi-PD 实例 分布式KV cache存储和传输管理 *以TP=2, PP=2为例
26. 效果:更低的延时 更高的吞吐率 8000 测试配置 DeepSeek-V3模型 FP8, TP8, H200 输入均值2k, 输出均值256 同时取得10%的吞吐率提升 和2倍的延时降低 rr=3.0 6621tps 吞吐率(token/s, semi-PD+SGLang结果 SGLang结果 rr=3.5 7197tps rr=2.0 4504tps 4000 2000 0 0.00 rr=5.0 7276tps rr=5.0 7024tps rr=4.0 6736tps rr=4.5 6859tps rr=2.5 5588tps rr=2.0 4510tps rr=1.5 3405tps rr=1.0 2287tps rr=4.5 7310tps rr=3.5 6704tps rr=3.0 6637tps rr=2.5 5578tps 6000 rr=4.0 7323tps rr=1.5 3410tps rr=1.0 2288tps 20.00 40.00 60.00 80.00 100.00 端到端延时-中位数(s) 120.00 140.00
27. 效果:首Token 延时和Token 平均延时对比 semi-PD+SGLang结果 SGLang结果 120 2.5 P99 TTFT 系统中99%请求的 首Token延时不超过的值 2 80 60 40 降低78% 1.5 降低 5.6倍 1 0.5 20 P99 ITL 系统中99%请求的 Token间平均延时不超过的值 测试配置 DeepSeek-V3模型 FP8, TP8, H200 输入均值2k, 输出均值256 TTFT(s) 100 0 0 1 1.5 2 2.5 3 3.5 4 4.5 5 1 1.5 2 2.5 3 3.5 4 4.5 5 请求率(req/s) 请求率(req/s)
28. 效果:请求完成率实时对比 完成请求比率随时间变化 测试配置 DeepSeek-V3模型 FP8, TP8, H20 输入均值2k, 输出均值256 输入请求率=4.0 request/s semi-PD+SGLang结果 SGLang结果 时间(s)
29. 03 面向华为昇腾的推理优化部署实践
30. 推理部署趋势的关键词 关键词:超节点、大EP、长文本 智能变化 ① 模型规模↑ Llama3系列:405B DeepSeek-V3:671B Kimi-K2:1T… ② MoE专家数目↑ Mixtral-8x7B:8个专家 DeepSeek-V3:256个专家 Kimi-K2:384个专家… ③ 上下文长度↑ 对话:<1k Test-time scaling [1] :~8k Agent [2] :>50k [1] DeepSeek team, “DeepSeek Technical Report”, arXiv preprint arXiv. 2412.19437 (2024). [2] Q. Wu et al, “AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation”. arXiv preprint arXiv. 2308.08155 (2023). 推理部署 “超节点” 多卡间通信瓶颈 需要超节点架构 “大EP” 专家拆分至不同卡实 现高并发计算 “长文本” 多卡间通信瓶颈 需要超节点架构
31. 昇腾怎么从能用到好用? 能用 好用 910B tokens/s/NPU 首个支持大EP 、PD 分离功能的国产芯片 700-800 增加15倍 1. 长文本支持仍有诸多挑战 Prefill阶段注意 力计算量平方增 长 50-60 实例推理 离好用仍有距离 Decode阶段 Vector单元计算 压力大 Attention和MoE 对计算访存分歧 呈更大剪刀差 集群推理 2. 超节点高性能、低灵活性 910C 大量定制优化,社区和学 术界难以基于良好的软件 1943 tokens/s/NPU 基础 自发 开展创造 CloudMatrix 384 超节点 规模 和 模型规模 难以灵 活匹配
32. 能用:性价比昇腾 vs 英伟达 1)性价比比肩英伟达;2)910B性价比不低于910C Method Batch Size KV Length TFLOPS TPOT Throughput Throughput Throughput per TPLOPS per TPLOPS DeepSeek (Blog) on H800 N/A 4,989 1979 (FP8) ~50.0 1,850 DeepSeek (Profile) on H800 128 4,096 1979 (FP8) ~50.2 2,325 SGLang (Simu. MTP) on H100 128 Max Power per Node (KW) Max Power per GPU(KW) 0.93 0.93 10-13 1.25-1.63 1.17 1.17 10-13 1.25-1.63 Tokens per J Tokens per J 1.48 1.48 1.86 1.86 4,000 1979 (FP8) ~55.6 2,172 1.10 1.10 10-13 1.25-1.63 1.74 1.74 CloudMatrix- 96 Infer 4,096 1504 (INT8) 49.4 1,943 1.29 1.29 15-16 1.87-2 1.03 1.03 Atlas 800I A2 (910B) - 626 (INT8) 100.0 766 1.22 1.22 5-6 0.63-0.75 1.21 1.21 -
33. 好用:长文本推理仍有诸多挑战 长文本的需求:数据、应用与能力 集群使高效长文本推理成为可能 单Token的内存占用:约1MB *DeepSeek-V3,考虑激活存储复用 推理能力 具身智能 回应用户前产生很长的内部思维链 实 例 推 理 Token存储 (激活和cache) 约占40% 模型权重约占60% 仅能支持4k左右上下文 更多空间用于Token存储 随着思考时间(思维链总长度)增加, 强推理模型表现会持续提高 [1] 有长程记忆的模型通过与环境的交互, 逐渐发展出新的认知能力 [2] 集 群 推 理 [1] OpenAI. "Learning to Reason with LLMs." OpenAI, www.openai.com/index/learning-to-reason-with-llms/. Released 12 Sept. 2024. [2] Jiang, Xun et al. “Long Term Memory: The Foundation of AI Self-Evolution.” (2024). Token存储 (激活和cache) 约占95%! 模型权重约占5%
34. 长文本场景带来的问题跃迁 华为昇腾服务器推理部署最佳实践 Prefill阶段注意力计算:呈二次方增长 思路:集群的多卡协作优势 计算 MLA算子优化 MoE算子优化 通信 计算-通信重叠 框架 长文本场景的新挑战 P/D分离式系统 上下文长度:2k~4k 序列并行引入权重和KV Cache通信 思路:基于超节点优化并行和任务编排 策略 模型规模和集群规模匹配失衡、 Attention和MoE对计算访存需求失衡 思路:利用UB搭建的微服务架构 >100k
35. 面向长文本场景的集群推理 问题1 长文本下的计算问题:Attention成为瓶颈对标量核压力增加 向量计算在昇腾芯片可能成为新瓶颈 Prefill 阶段Attention计算和上下文呈二次方 随长度增加,标量计算对算子需求迅速增长, 昇腾AIC、AIV算力悬殊问题凸显 450 400 Attention Feed-Forward 350 300 250 AIV算力紧张,如 何协同AIC和AIV成 为新问题 200 Time (ms) 150 100 50 0 -50 0 10 20 30 40 Context Length (K) 50 60 70
36. 面向长文本场景的集群推理 问题2 长文本加剧KV Cache存储均衡问题,传输KV Cache成为新瓶颈 不同卡KV Cache 的Placement 导致 计算和存储均衡问题 R i Placement举例如下 KV Cache 第i条请求 … NPU0 KV Cache 0 NPU1 KV Cache 1 R 100 NPU 0 NPU 1 请求少 ,KV cache多 请求多 ,KV cache少 计算利用 率不足 query KV Cache R 2 R 1 多卡间KV Cache 传输通信量大,如何掩盖KV Cache 传输延时 存储空间 不足 计算过载 延时增加 存储利用 率低 Attention GB量级传输 长文本KV Cache拆分到多卡存储 注意力计算时,若传KV cache则数据传输量大
37. 面向长文本场景的集群推理 问题3 长文本场景加剧了集群推理中的资源匹配的难度 如何灵活自适应匹配节点规模和模型规模 注意力部分对计算需求高、MoE阶段对访存需求高 复制高 频专家 1 1个共享专家复制32份 + 256个路由专家 + 如何匹配注意力和MoE 所需计算资源 2 … N s 𝐾 𝑐𝑎𝑐ℎ𝑒 32个冗余专家 =320份专家权重 𝑄 𝑎𝑡𝑡𝑛_𝑚𝑎𝑝 𝑉 𝑐𝑎𝑐ℎ𝑒 专家并行EP=320(解码阶段),即单实例需要160张NPU 如何匹配?换个模型又该如何 MLA_1 (44.7%) 注意力部分计算富集:计算压力大 𝑖𝑛𝑝𝑢𝑡 Batch size 超节点CloudMatrix384,共384张NPU cache length 𝑤𝑒𝑖𝑔ℎ𝑡 𝑜𝑢𝑡𝑝𝑢𝑡 MoE部分显存需求富集:存储压力大 Batch size=32 Cache length=32k MLA_2 (40.6% )
38. 我们在昇腾基础软件上的技术积累 计算:GEMM/Group GEMM 算子优化 通信:计算通信重叠FlashOverlap  基于CCE(底层编程语言)实现更精细的计算、数据搬运和流水 编排  联合昇腾高性能计算库catlass和通信库hccl完成实践  精细的L2->L1-L0数据搬运和复用策略  相比顺序执行性能提升高达1.35倍  GEMM算子相比aclNN优化性能提升高达1.5倍 Llama3-8B典型矩阵乘法形状相比aclNN提 升高达1.5倍 GEMM 算子时间对比 [N=K=4096] aclnn infini speedup 0.6 1.60 1.47 1.50 1.44 1.41 0.4 1.50 1.47 1.40 1.31 0.3 1.30 1.22 1.20 1.19 1.14 0.2 1.06 0.1 1.08 1.06 1.00 1.00 1.00 1.10 1.01 1.00 1.02 1.02 0.99 0.90 0 M 1.50 0.5  基于控制信号实现计算和通信双流并行且解除数据依赖
39. 集群推理方法论 输入 输出 模型规模 芯片算力 访存带宽 显存容量 节点规模 软硬协同 𝑓 约束:满足SLO 目标:最大化并发 图融合 等价图替换 计 算 通信重叠方式 并行范式:EP/TP 通 信 xPyD: PD实例配比 框 架
40. 长文本场景的集群推理整体方案 思路 计算、通信、框架设计实现通信/访存量降低和灵活资源匹配 全局调度器 Prefill注意 力计算量 可表示为 NPU0 = R1 请求路由 请求路由 请求路由 以全掩码注意力 作为任务划分方式 多个全掩码注意力 任务分发至多卡计算 R50 … R80 R1 多卡计算Decode注意力仅传 输激活而非KV cache + 对角线附近少 量计算 … NPU1 NPU0 NPU0 NPU0 NPU0 NPU0 NPU0 NPU0 NPU0 计算:全掩码注意力任务分发 提升卡内注意力计算效率 注意力实例 注意力实例 (Prefill) 注意力实例 (Prefill) (Prefill) 注意力实例 注意力实 (Prefill) 例 MoE实例 (Prefill) 注意力实例 注意力实例 (Prefill) 注意力实例 (Prefill) (Decode) 激活/KV cache传输 激活/KV cache传输 UB 平面 框架:以大算子为粒度的微服务架构 实现注意力、MoE的计算需求和超节点规模灵活匹配 Prefill实例 请求/KV cache路由 NPU0 NPU1 由路由保证卡间存储均衡 减少KV cache动态传输 通信:KV Cache Placement策 略减少KV cache通信
41. 04 以有限算力架构 释放终端应用潜能
42. 端侧应用落地迎接爆发 亟需强推理能力 云端协同释放算力,数十亿终端进入大模型时代 基座模型预训练 未来泛端侧应用需要>100tokens/s 推理能力 泛端侧应用大模型推理性能需求 模型微调/推理 模型云端部署 算力资源优化 算力协同及数据 返回 • • 经推测,GPT-4o/o1参数量超过200B 实际端侧应用需要4o/o1能力的模型实现100~1000 token/s 的推理性能 基座模型及算力 调用 GPT-4o/o1 (~200B+强化学习) 端侧协同推理 AI手机年出货 5.52亿台 注2 端侧模型部署 AI PC年出货 1.02亿台 注3 端侧智能 机器人 场景增量学习 智能汽车年出货 近5000万台 注4 自动驾驶 感知决策 >100 token/s [Tesla HW3] 无人机 具身智能 路径规划 动作决策 >100 token/s >1000 token/s [Nature 2023封面文章] [Jim Fan, NV高级研究科学家]
43. 端侧大模型推理的效率挑战 ① 计算挑战 GPU 算力高计算快 ② 存储挑战 CPU 算力低计算慢 云模型 模型参数多 0.68s CPU GPU 0.15s 计算大模型 CPU速度比GPU速度慢4倍 单处理器 无调度低延时 多处理器 通信+调度 × 各部分计算延时占比 (Llama2-7B GPU16层,CPU16层) 延时 端设备 内存容量小 ③ 协同挑战 DeepSeek-R1模 型约 617GB 参数 内存相差 2个数量级 单机内存 仅12GB 无法在本地运行 端侧内存容量与云模型参数量 相差2个数量级 GPU Laptop CPU 多处理器协同计算 需要复杂的通信和调度
44. 端侧大模型核心技术 端侧应用智能:单用户、少请求 计算挑战 提升生成式模型的 计算利用率 存储挑战 端侧存储难以容纳 参数和中间变量 协同挑战 多处理器硬件资源 协同处理 投机解码等算法优化 编译调度等系统优化 模型轻量化设计 模型卸载技术 任务拆分与并行等 异构计算优化 Speculative FlashAttention Decoding (NeurIPS 22) 降低注意力的存 储量和访存量 Transformer计 算的必需算子 (PMLR 23) 推测解码利用小 模型做串行生 成、大模型并行 验证 实现2-3倍加速 AWQ KTransformers (MLSys 24 BP) 通道维度权重激活 数据均衡方案 近无损W3A16量 化 较FP16有3倍加速 (GitHub 25) 针对DeepSeek- V3的专家卸载 在单张4090上运 行DeepSeek-V3 FlexGen PowerInfer (ICML 22) 提出大模型卸载技 术卸载模型权重和 KV cache 30B模型在16GB GPU上运行 (SOSP 24) 使用稀疏激活利用 GPU和CPU协同计算 FFN 在消费级台式机上, 相较llama.cpp提升5 倍吞吐率 FlexInfer (EuroSys 25) 引入基于虚拟内存的 张量协调 CPU - GPU 资源用于 LLM 推理 相比于mmap速度提 升5倍 端侧推理应用技术Milestone
45. 单用户下大模型端侧推理 关键分析:单用户下大模型推理是底库很大的搜索分类问题 单用户 Tokenize 少请求 Prompt Attention FFN Attention FFN Attention FFN 级联计算 where 每一层均是搜索过程 go do can I are good Output …… 数万规模的词表 搜索底库(~3万) 搜索分类 I 一个词 Attention FFN LM_head
46. 端侧推理引擎:SpecEE 核心思想:利用小参数的LLM作为推测模型缩减搜索底库 单用户 Tokenize 少请求 Prompt Attention FFN Attention FFN Attention FFN …… Attention FFN 级联计算 where go do can I are good Output 搜索分类 Thank 推测模型 数万规模的词表 搜索底库(~3万) It I 底库 缩减后词表 搜索底库 (~3) 难度 I 一个词 LM_head
47. 端侧推理引擎:SpecEE 技术核心:基于缩减后搜索底库动态调整单用户下级联计算 根据输入动态调整级联计算 单用户 Tokenize 少请求 Prompt Attention FFN Attention FFN Attention FFN …… 级联计算 计算 where go do can I good Output Attention FFN Thank are 推测模型 数万规模的词表 搜索底库(~3万) It I 搜索分类 底库 缩减后词表 搜索底库(~3) I 难度 一个词 LM_head
48. SpecEE 技术细节:如何高效动态调整级联计算 算法:低开销高精度调整级联计算 系统:动态调度引擎适配端侧部署 ①调整模型 实现 低开销 词 1 Start 自适应调度引擎 概 率 pred=MLP(info) T’ = LocalResult 在线调度 发生 突变 0.5 弹性激活 预测器 Correction Alg. pred >threshold 0 N 0 Y 8 16 24 层数 T’=T 20 Forward Y Early Exiting 线下调度 end logits=LM_head(X) T=GlobalResult ②修正算法 实现 高精度 √××√ 在线调度 概率变化取代冗余特征 N 线下调度 16 19 环形队列存储 前文早退位置 start 根据前文早退信息, 动态调整预测器激活位置 0 5 10 15 20 25 30 根据统计数据, 选取早退概率高的预测器 End 预测模型与修正算法双重保障实现低开销高精度 引入自适应调度引擎实现弹性激活调整机制
49. SpecEE 结果:推进速度与精度的帕累托前沿 SpecEE 精度 # 速度更快 # 精度更高 llama.cpp 归一化加速比
50. 05 以大模型推理技术创新 融合人工智能产业创新
51. 破解推理Scaling时代 大模型推理系统的效率挑战 端设备 云平台 优化目标:降低延时 优化目标:满足用户延时要求,提升吞吐率 核心特点:单用户、少请求 核心特点:多用户、多请求 重叠传输 延时开销 小规模负载计算 (利用率: 50%→90%) 协同挑战 多处理器硬件资源 协同处理 存储需求 (存储量 100GB→10GB) 大规模负载并行计算 计算挑战 提升生成式模型的 计算利用率 满足用户目标延时 调度挑战 不同用户间资源竞 争及延时需求 存储挑战 同时存储大量请求 的KV cache 提升显存利用效率 (利用率 70%→90%)
52. 推理系统上云 打造云端AI产业生态创新引擎 高效集群推理,加速大模型能力注入千行百业 等近百家AI应用/企业排队入驻中 徐汇模速空间算力生态平台 北京海淀公共算力服务平台 杭州市算力资源服务平台 登上央视1套 《新闻联播》 投入运营 云平台 semi-PD 投入运营 投入运营 cloud.infini-ai.com 大模型服务平台 全球首创第三代推理集群系统,推理性能行业第一
53. 推理系统入端 释放智能终端应用潜能 高效端侧推理,软硬协同加速下一代智能终端落地 大模型推理引擎 端到端性能提高 70% 提升 提升 25%+ 70%+ 文生文大模型 端模型 文生图大模型 面向应用场景的微调大模型 多模态大模型 面向各类智能终端的大模型推理引擎 端软件 YOGA Pro 14 元启版 自研端侧大模型推理芯片 3D堆叠 ThinkBook 14+ 元启版 端设备 SpecEE Prefill Decode 多芯粒互 联 大模型处理器LPU 端芯片 “端模型+端软件+端IP”智能终端一体化解决方案 全球首创推测性早退技术,AI PC推理速度行业第一 • 量产软件合作 • 签订战略合作备忘录 • 建立联合实验室 • 联合定义终端场景
54. 端侧实时守护 云侧全局智能 端设备 云平台 实时响应 弹性扩展 推理系统 小规模负载计算 传输延时开销 协同 多处理器硬件资源 协同处理 存储需求 计算 提升生成式模型的 计算利用率 存储 同时存储大量请求 的KV cache 大规模负载并行计算 用户目标延时 调度 不同用户间资源竞 争及延时需求 提升显存利用效率
55. 端+ 云推理加速 数量级降低大模型落地成本 云平台 端设备 提高端侧 硬件能效 降低端侧 模型参数量 提升 系统吞吐 提高端侧硬 件利用率 降低 请求延时 => 成本 模型轻量化 存储机制 轻量化模型 并行调度 算法设计 高精度模型 算法 设计 硬件 数据结构 稀疏化 剪枝 数据表示 低比特 量化 高能效 架构 前端编译 多处理 器协同 后端算子 硬件定 制优化 用户 请求 存储优化 前缀 缓存 存储管理 分页 存储 请求调度 阶段 处理 模型并行 模型 切片 计算图 算子 优化
56. 释放无穹算力,让AGI触手可及 基础设施的“魔法” 1995 2025 让民用电走进 让大模型成本 10000 个县镇 10000 倍下降
57.
58. THANKS 大模型正在重新定义软件 Large Language Model Is Redefining The Software

首页 - Wiki
Copyright © 2011-2025 iteam. Current version is 2.147.1. UTC+08:00, 2025-11-04 13:37
浙ICP备14020137号-1 $访客地图$