AI 2.0 时代的大模型推理:从模型到硬件的协同优化
如果无法正常显示,请先停止浏览器的去广告插件。
        
                1. AI 2.0 时代的大模型推理:
从模型到硬件的协同优化
曾书霖            
                        
                2. 目录
01 以智能革命 引领大模型推理范式变革
02 以弹性算力集群 驱动云侧智能升级
03 面向华为昇腾的推理优化部署实践
04 以有限算力架构 释放终端应用潜能
05 以大模型推理技术创新 融合人工智能产业创新            
                        
                3.             
                        
                4. 01
以智能革命 引领大模型推理范式变革            
                        
                5. 以人工智能为代表的第四次工业革命(智能革命)极大提升人类生产力
信息技术
电力
蒸汽机
提升各产业生产力
加速工业发展
解放农业生产力
人工智能
智能化应用创造价值
第一次 机械革命 第二次 电气革命
体力密集型生产
生产100米布/人日 体力密集型生产
组装一辆汽车/人日
1800
1825
1850
1875
1900
世界GDP增速
第四次 智能革命
第三次 数字革命
创造性劳动
药物发现
未知时间→月量级
重复性脑力工作
100阶线性方程组求解
1800人小时→0.05人小时
1925
1950
1975
2000
世界GDP总量
2025
Future            
                        
                6. 生产工具与驱动方式的创新
工业革命 机械革命 电气革命 数字革命 智能革命
工具创新 蒸汽机 内燃机 互联网 智能算法
人类生产力水平与认知边界不断突破
替代劳动 体力重复劳动 流程化劳动 知识管理劳动 创造性劳动
驱动方式 蒸汽动力 火电动力 知识信息 半导体芯片            
                        
                7. 模型推理:技术协同的中枢与产业价值的放大器
智能革命
智能算法
“人工智能+”制造
“人工智能+”金融
“人工智能+”能源
“人工智能+”医疗 …
产业价值放大器
模型训练
模型推理
创造性劳动
半导体芯片
替代
技术协同的中枢
用户
请求
调度
云平台
计算图优化
推理
框架
模型
压缩
算子优化
调度优化
端侧设备            
                        
                8. 自2012 年以来生成模型发展的关键节点
国
外
标 2017年谷歌提 2019年谷
Transformer 歌提出T5
志 出
Transformer架构奠 架构
性 定了LLM基础,开 验证"Text-
节 启大模型时代
to-Text"范式
在NLP任务中
点
的通用性
2017
2019
国
内
标
志
性
2016年商汤、旷世崛起
节 以计算机视觉技术为核心,推动AI
点 在安防等领域的落地
2020年OpenAI 2022年
提出GPT-3
OpenAI
展示LLM强大的的 InstructGPT
2023年
OpenAI
ChatGPT爆火
少样本学习能力, 提出利用RLHF讲 引爆全球生成式AI
引发业界对大模型 LLM与人类对
应用,标志AI进入
的研究热潮
齐,ChatGPT的 大规模普及阶段
基础
2020
2021 2022
2023年
Meta开源
Llama
后续逐步成为
全球第一大大
模型开源模型
及生态
2023
2024年OpenAI
SORA爆火 2024年OpenAI
提出O1系列模型
火爆全球的视频生成
软件,首次实现1分
钟长视频的生成,且
画面一致性较高 将长思维链推理技术
带入主流,总结Test
Time Scaling,显著
提升模型的推理能力
2024
2021年百度推
出ERNIE-3.0 智谱推出
ChatGLM
在多项NLP任务中
超越GPT-3 第一个国产大模型 后续逐步成为继
Meta Llama之后
的全球第二大大模
型开源模型及生态
阿里通义千问
开源
2025
2025年
2024年生数推 百模大战
国内多家公司 DeepSeek开源
出ViDU
相继发布自研 R1推理模型
生数科技发布国内
大模型,API
首个文生视频模
服务价格降低
型,距离Sora发布
10倍以上
仅2个月
比肩OpenAI O1算
法性能的同时,成
本仅为5%~10%            
                        
                9. 尺度定律(Scaling Law)逐步转向推理规模扩展
Intelligence
国
外
标 2017年谷歌提 2019年谷
Transformer 歌提出T5
志 出
Transformer架构奠 架构
性 定了LLM基础,开 验证"Text-
节 启大模型时代
to-Text"范式
在NLP任务中
点
的通用性
2017
2019
2020年OpenAI 2022年
提出GPT-3
OpenAI
展示LLM强大的的 InstructGPT
2023年
OpenAI
ChatGPT爆火
少样本学习能力, 提出利用RLHF讲 引爆全球生成式AI
引发业界对大模型 LLM与人类对
应用,标志AI进入
的研究热潮
齐,ChatGPT的 大规模普及阶段
基础
2020
2021 2022
2023
2023年
Meta开源
Llama
2024年OpenAI
SORA爆火 2024年OpenAI
提出O1系列模型
火爆全球的视频生成
软件,首次实现1分
钟长视频的生成,且
画面一致性较高 将长思维链推理技术
带入主流,总结Test
Time Scaling,显著
提升模型的推理能力
Test-Time Scaling
“Reasoning”
后续逐步成为
全球第一大大
模型开源模型
及生态
推理规模扩展
2024
2025
国
Post-Training Scaling
内
补充增强训练规模扩展
标
智谱推出
2021年百度推
阿里通义千问
2025年
志
2024年生数推 百模大战
Pre-Training
Scaling
ChatGLM
国内多家公司 DeepSeek开源
出ERNIE-3.0
开源
性
出ViDU
第一个国产大模型 后续逐步成为继
相继发布自研 R1推理模型
在多项NLP任务中
2016年商汤、旷世崛起
预训练规模扩展
生数科技发布国内
节 以计算机视觉技术为核心,推动AI
大模型,API
超越GPT-3
Meta Llama之后
比肩OpenAI O1算
首个文生视频模
服务价格降低 Compute
的全球第二大大模
点 在安防等领域的落地
法性能的同时,成
型,距离Sora发布
型开源模型及生态
Ref:NVIDIA CEO Jensen Huang Keynote at CES 2025
仅2个月
10倍以上
本仅为5%~10%            
                        
                10. 模型推理计算范式转变导致计算需求激增
GPT - o1的计算范式变化:CoT + 强化学习
推
理
阶
段
GPT-4
Post-Training
GPT-4o
o1-mini
o1
GPT-4o mini
80%
RLHF
Base model
70%
o1
基础能力
GPT-4
o1
RLHF
Base model
RL
Safety
增强逻辑 Think 内容安全
Answer
Think&Summary
思考/CoT摘要
Answer
生成答案
60%
训
练
阶
段
Pre-Training
增加模型的推理迭代次数,计算量增加2个量
级
10x
50%
~60x
40%
30%
~100x
20%
10%
0%
0
20
40
60
80
100
归一化算力需求成本*
678x
47410
1E+4
1E+2
69.93
1E+0
原模型
*ref:OpenAI o1-mini | OpenAI
原模型+推理缩放定律            
                        
                11. Deepseek 等模型推动应用落地加速带来推理需求爆发
未来推理算力需求或是预训练需求的百倍以上
推理算力需求“喷发式增
长”
预训练时代即将结束
Ilya,NeurIPS 2024
黄仁勋,GTC 2025
步入2025 年,受限于预训练数据、大模
型迭代周期、硬件成本等因素
为了保持模型的响应速度,让用户不
会因等待而失去耐心,我们现在需要
将计算速度提高10倍,黄仁勋表示:
整体计算需求
轻松增长至100倍
Pre-Training Scaling
收益正在衰减
70%
中国亿级用户APP
已有
进行了“AI转型”
共962个传统APP备案了深度合成算法
Ref:QuestMobile A产业洞察研究院 2025年1月
推理模型需要在回答之前进行多轮内
部推理,因此计算需求大得多,响应
时间也更长。            
                        
                12. 大模型推理系统形态
AIPC
手机
100-1000 token/s *
应用需求:
5-10
token/s
现有实现: 20-25
现有实现:
token/s
模型:Qwen2.5-7B
硬件设备:骁龙8 Gen1
推理框架:llama.cpp+OpenCL
模型:Qwen2-7B
硬件设备:AMD Krackan
推理框架:llama.cpp
端侧推理系统
*前沿应用——机器人智能的基本需求,参考自Deray, Jeremie, Joan Sola, and Juan Andrade-Cetto,
“Joint on-manifold self-calibration of odometry model and sensor extrinsics using pre-
integration.” 2019 European Conference on Mobile Robots (ECMR). IEEE, 2019.
一体机
云服务
25-30k token/s/节点 +
理论值:
现有实现: ~8000
现有实现: ~14.8k
token/s
token/s/节点
模型:DeepSeek-R1
硬件设备:8xH20
推理框架:SGLang
模型:DeepSeek-R1
硬件设备:22台H800
推理框架:DeepSeek
云侧推理系统
+ 理论估计上界可达性,假设集群配置为计算瓶颈,考虑计算量和网络延迟计算上界            
                        
                13. 大模型推理系统形态
端侧推理系统
手机
AIPC
一体机
云服务
优化目标:降低延时
核心特点:单用户、少请求
*
100-1000
token/s
请求
应用需求:
5-10
token/s
用户
现有实现: 20-25
现有实现:
token/s
模型:Qwen2.5-7B
硬件设备:骁龙8 Gen1
推理框架:llama.cpp+OpenCL
端侧设备
模型:Qwen2-7B
硬件设备:AMD Krackan
推理框架:llama.cpp
端侧推理关键问题:资源受限
端侧推理系统
*前沿应用——机器人智能的基本需求,参考自Deray, Jeremie, Joan Sola, and Juan Andrade-Cetto,
“Joint on-manifold self-calibration of odometry model and sensor extrinsics using pre-
integration.” 2019 European Conference on Mobile Robots (ECMR). IEEE, 2019.
理论值:
25-30k token/s/节点 +
现有实现: ~8000
现有实现: ~14.8k
token/s
token/s/节点
模型:DeepSeek-R1
硬件设备:8xH20
推理框架:SGLang
模型:DeepSeek-R1
硬件设备:22台H800
推理框架:DeepSeek
云侧推理系统
+ 理论估计上界可达性,假设集群配置为计算瓶颈,考虑计算量和网络延迟计算上界            
                        
                14. 大模型推理系统形态
端侧推理系统
手机
AIPC
一体机
云侧推理系统
云服务
优化目标:降低延时 优化目标:满足用户延时要求,提升吞吐率
核心特点:单用户、少请求 核心特点:多用户、多请求
*
100-1000
token/s
请求
应用需求:
5-10
token/s
用户
现有实现: 20-25
现有实现:
token/s
模型:Qwen2.5-7B
硬件设备:骁龙8 Gen1
推理框架:llama.cpp+OpenCL
端侧设备
模型:Qwen2-7B
硬件设备:AMD Krackan
推理框架:llama.cpp
端侧推理关键问题:资源受限
端侧推理系统
*前沿应用——机器人智能的基本需求,参考自Deray, Jeremie, Joan Sola, and Juan Andrade-Cetto,
“Joint on-manifold self-calibration of odometry model and sensor extrinsics using pre-
integration.” 2019 European Conference on Mobile Robots (ECMR). IEEE, 2019.
25-30k
token/s/节点
请求
理论值:
+
现有实现: ~8000
用户1
token/s
...
现有实现: ~14.8k
模型:DeepSeek-R1
硬件设备:8xH20
用户N
推理框架:SGLang
token/s/节点
模型:DeepSeek-R1
计算集群
硬件设备:22台H800
推理框架:DeepSeek
云侧推理关键问题:资源调度
云侧推理系统
+ 理论估计上界可达性,假设集群配置为计算瓶颈,考虑计算量和网络延迟计算上界            
                        
                15. 大模型推理系统的效率挑战
端侧推理系统 云侧推理系统
优化目标:降低延时 优化目标:满足用户延时要求,提升吞吐率
核心特点:单用户、少请求 核心特点:多用户、多请求
重叠传输
延时开销
小规模负载计算
(利用率:
50%→90%)
协同挑战
多处理器硬件资源
协同处理
存储需求
(存储量
100GB→10GB)
大规模负载并行计算
计算挑战
提升生成式模型的
计算利用率
满足用户目标延时
调度挑战
不同用户间资源竞
争及延时需求
存储挑战
同时存储大量请求
的KV cache
提升显存利用效率
(利用率
70%→90%)            
                        
                16. 02
以弹性算力集群 驱动云侧智能升级            
                        
                17. 挑战:云侧大模型推理
① 计算挑战
Prefill阶段
计算密集型
Decode阶段
访存密集型
③ 调度挑战
② 存储挑战
云侧集群
存储容量大
推理服务
存储利用率低
用户需求
低延时
input = "用python实现冒
泡排序"
输入的prompt
Prefill
只服务我
延时最低
output = "def"
第1个token
系统需求
高吞吐率
服务多请求
以提升吞吐率
Decode
output = "def bubble"
第2个token
Decode
output = "def bubble_"
第3个token
集群存储
TB量级
请求不等长
存储碎片造成利
用率低(~70%)
计算集群
请求
……
Prefill和Decode两阶段计算特性不同
需分别针对性优化计算
请求动态生成引入存储碎片
导致系统存储利用率低
用户间存在资源竞争
在满足用户目标前提下提升系统吞吐率            
                        
                18. 背景:云侧大模型核心技术
云侧推理服务:多用户、多请求
计算挑战
提升生成式模型的
计算利用率
存储挑战
同时存储大量请求
的KV cache
调度挑战
不同用户间资源竞
争及延时需求
算子和计算图优化
分页式存储
前缀缓存
批处理、请求顺
序、阶段间并行优
化
FlashAttention FastServe Splitwise
(NeurIPS 22)
降低注意力的存
储量和访存量
Transformer计
算的必需算子 (arXiv 23)
面向LLM请求顺序优化
多级队列近似最短剩余
时间策略
开启关于请求顺序方面
的研究 (ISCA 24)
LLM推理服务
P/D分离式计算
去除了阶段间延
时干扰
Orca vLLM Sarathi-Serve SGLang
(OSDI 22)
连续批处理
方法
LLM推理服
务的基本调
度方法
1个数量级吞
吐率提升 (SOSP 22)
KV cache分页
式存储
LLM推理服务
的基本存储方
法
2-4倍吞吐率提
升 (OSDI 24)
P/D请求混合批
处理
融合式架构基本
批处理方式
2倍吞吐率提升
云侧推理服务技术Milestone
(NeurIPS 24)
前缀缓存技术
复用请求间重复
的KV cache
6倍吞吐率提升            
                        
                19. 背景:融合式与分离式实例
融合式实例:P/D计算和存储共享资源
Prefill
请求
单个
融合
实例
Decode
请求
分离式实例:P/D计算和存储资源分离
Prefill Prefill
实例 请求
计算
融合 GPU SMs 计算
分离 GPU SMs
存储
融合 GPU HBM 存储
分离 GPU HBM
请求的Prefill和Decode阶段均在相同实例
进行计算和存储
代表
框架
[1] W. Kwon, et al. ” Efficient Memory Management for Large Language Model Serving with PagedAttention.”, SOSP, 2023.
[2] L. Zheng, et al. “SGLang: Efficient Execution of Structured Language Model Programs”, NeurIPS, 2024.
Decode
请求
Decode
实例
GPU SMs
KV cache
GPU HBM
请求在Prefill实例上完成Prefill阶段后,传输KV cache至
Decode实例进行计算
代表
框架
[3] DeepSeek-AI. “DeepSeek-V3 Technique Report”, arXiv, 2025.
[4] R. Qin, et al. “Mooncake: Trading More Storage for Less Computation”, FAST, 2025.            
                        
                20. 思路:融合式与分离式实例分析
融合式实例:P/D计算和存储共享资源
Prefill
请求
单个
融合
实例
GPU SMs
存储
融合 GPU HBM
请求的Prefill和Decode阶段均在相同实例
进行计算和存储
代表
框架
[1] W. Kwon, et al. ” Efficient Memory Management for Large Language Model Serving with PagedAttention.”, SOSP, 2023.
[2] L. Zheng, et al. “SGLang: Efficient Execution of Structured Language Model Programs”, NeurIPS, 2024.
Decode请求
请求1,2,4 请求3,5
不同阶段请求互相等待
Decode
请求
计算
融合 Prefill请求
计算
劣势
存储
优势
请求混合批处理
或
请求1,2,3,4,5
由编译器调度计算资源
P/D间请求延时干扰严重
P/D计算资源配比不可控
P/D计算之间无需传递KV cache
KV cache能使用所有存储资源            
                        
                21. 思路:融合式与分离式实例分析
计算
优势
P/D隔离计算无延时干扰
可以通过GPU数配比计算资源
存储不均衡
Prefill 实例
KV cache生成
后即传输
存储
劣势
分离式实例:P/D计算和存储资源分离
Decode 实例
长期存储KV
cache
实例切换需转移存储
Decode
实例1
切换
Prefill
实例1
Decode
实例2
P/D实例间KV cache存储不均衡
(例,P: 23% v.s. D: 72%*)
资源调整涉及存储搬移开销
*Llama3-70B, Prefill实例TP=4, Decode实例TP=4, ShareGPT数据集
Prefill Prefill
实例 请求
计算
分离 GPU SMs
存储
分离 GPU HBM
Decode
请求
Decode
实例
GPU SMs
KV cache
GPU HBM
请求在Prefill实例上完成Prefill阶段后,传输KV cache
至Decode实例进行计算
代表
框架
[3] DeepSeek-AI. “DeepSeek-V3 Technique Report”, arXiv, 2025.
[4] R. Qin, et al. “Mooncake: Trading More Storage for Less Computation”, FAST, 2025.            
                        
                22. 思路:融合式与分离式实例分析
融合式实例:P/D计算和存储共享资源
计算
劣势
存储
优势
P/D间请求延时干扰严重
计算
优势
P/D计算资源配比不可控
P/D计算之间无需传递KV cache
分离式实例:P/D计算和存储资源分离
✓
KV cache能使用所有存储资源
*Llama3-70B, Prefill实例TP=4, Decode实例TP=4, ShareGPT数据集
存储
劣势
P/D隔离计算无延时干扰
可以通过GPU数配比计算资源
P/D实例间KV cache存储不均衡
(例,P: 23% v.s. D: 72%*)
资源调整涉及存储搬移开销
✓            
                        
                23. 方案:semi - PD 实例
计算分离 & 存储融合:P/D计算资源隔离,但是共享存储资源
计算优势
Prefill
请求
Decode
请求
P/D计算资源隔离且分为不同数据流
P/D隔离计算无延时干扰
可以通过GPU数配比计算资源
计算
融合
存储
融合
GPU SMs
GPU HBM
但是共享相同的存储资源
P/D计算之间无需传递KV cache
KV cache能使用所有存储资源
单个semi-PD实例
存储优势            
                        
                24. 方案:semi - PD 技术细节
技术细节:计算分离 & 存储融合
技术细节:低开销资源调整机制
Prefill进程
计算
分离
GPU SMs
挑战
请求1,2,4
P/D间资源调整模型权重重载、KV cache拷贝
开销,造成请求阻塞
GPU SMs
请求3,5
Decode进程
P/D阶段的计算分别由不同的进程(抽象为worker)完
成
进程间实现SM粒度的计算资源划分
优
化
前
Prefill进程
请求1,2,4
请求3,5
Decode进程
GPU SMs
计算资源调整
重载+拷贝 请求1,2,4
重载+拷贝 请求3,5
常驻进程(为新进程广播存储地址)
存储
融合
原子化显存分配
查询地址,更新
存储量,
Prefill
请求
存储
原子化显存分配
查询地址,更新
存储量,
Decod
e请求
通过原子化的显存分配避免P/D worker显存管理的冲突
优
化
后
方案
请求1,2,4
Prefill进程
请求3,5
Decode进程
请求1,2,4
请求3,5
引入常驻进程管理模型权重和KV cache存储,
无需重载和拷贝            
                        
                25. 方案:semi - PD 应用适配
实例推理场景 集群推理场景
每张GPU上的P/D worker独立、异步地
与并行组进行通信,通信总量不变 semi-PD实例作为可选实例之一,与P/D实例
共同参与请求路由
单个semi-PD实例
用户
请求
API server
请求路由
请求
KV cache
Prefill
实例
Decode
实例
semi-PD
实例
分布式KV cache存储和传输管理
*以TP=2, PP=2为例            
                        
                26. 效果:更低的延时 更高的吞吐率
8000
测试配置
DeepSeek-V3模型
FP8, TP8, H200
输入均值2k, 输出均值256
同时取得10%的吞吐率提升
和2倍的延时降低
rr=3.0
6621tps
吞吐率(token/s,
semi-PD+SGLang结果
SGLang结果
rr=3.5
7197tps
rr=2.0
4504tps
4000
2000
0
0.00
rr=5.0
7276tps
rr=5.0
7024tps
rr=4.0
6736tps
rr=4.5
6859tps
rr=2.5
5588tps
rr=2.0
4510tps
rr=1.5
3405tps
rr=1.0
2287tps
rr=4.5
7310tps
rr=3.5
6704tps
rr=3.0
6637tps
rr=2.5
5578tps
6000
rr=4.0
7323tps
rr=1.5
3410tps
rr=1.0
2288tps
20.00
40.00
60.00
80.00
100.00
端到端延时-中位数(s)
120.00
140.00            
                        
                27. 效果:首Token 延时和Token 平均延时对比
semi-PD+SGLang结果
SGLang结果
120
2.5
P99 TTFT
系统中99%请求的
首Token延时不超过的值
2
80
60
40
降低78%
1.5
降低
5.6倍
1
0.5
20
P99 ITL
系统中99%请求的
Token间平均延时不超过的值
测试配置
DeepSeek-V3模型
FP8, TP8, H200
输入均值2k, 输出均值256
TTFT(s)
100
0
0
1 1.5 2 2.5 3 3.5 4 4.5 5 1 1.5 2 2.5 3 3.5 4 4.5 5
请求率(req/s) 请求率(req/s)            
                        
                28. 效果:请求完成率实时对比
完成请求比率随时间变化
测试配置
DeepSeek-V3模型
FP8, TP8, H20
输入均值2k, 输出均值256
输入请求率=4.0 request/s
semi-PD+SGLang结果
SGLang结果
时间(s)            
                        
                29. 03
面向华为昇腾的推理优化部署实践            
                        
                30. 推理部署趋势的关键词
关键词:超节点、大EP、长文本
智能变化
① 模型规模↑
Llama3系列:405B
DeepSeek-V3:671B
Kimi-K2:1T…
② MoE专家数目↑
Mixtral-8x7B:8个专家
DeepSeek-V3:256个专家
Kimi-K2:384个专家…
③ 上下文长度↑
对话:<1k
Test-time scaling [1] :~8k
Agent [2] :>50k
[1] DeepSeek team, “DeepSeek Technical Report”, arXiv preprint arXiv. 2412.19437 (2024).
[2] Q. Wu et al, “AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation”. arXiv preprint arXiv. 2308.08155 (2023).
推理部署
“超节点”
多卡间通信瓶颈
需要超节点架构
“大EP”
专家拆分至不同卡实
现高并发计算
“长文本”
多卡间通信瓶颈
需要超节点架构            
                        
                31. 昇腾怎么从能用到好用?
能用
好用
910B
tokens/s/NPU
首个支持大EP 、PD 分离功能的国产芯片
700-800
增加15倍
1. 长文本支持仍有诸多挑战
Prefill阶段注意
力计算量平方增
长
50-60
实例推理
离好用仍有距离
Decode阶段
Vector单元计算
压力大
Attention和MoE
对计算访存分歧
呈更大剪刀差
集群推理
2. 超节点高性能、低灵活性
910C
大量定制优化,社区和学
术界难以基于良好的软件
1943 tokens/s/NPU
基础 自发 开展创造
CloudMatrix 384 超节点
规模 和 模型规模 难以灵
活匹配            
                        
                32. 能用:性价比昇腾 vs 英伟达
1)性价比比肩英伟达;2)910B性价比不低于910C
Method Batch Size KV Length TFLOPS TPOT Throughput Throughput
Throughput
per
TPLOPS
per TPLOPS
DeepSeek
(Blog) on
H800 N/A 4,989 1979 (FP8) ~50.0 1,850 DeepSeek
(Profile) on
H800 128 4,096 1979 (FP8) ~50.2 2,325 SGLang
(Simu. MTP)
on H100 128 Max Power
per Node
(KW) Max Power
per
GPU(KW)
0.93
0.93 10-13 1.25-1.63
1.17
1.17 10-13 1.25-1.63
Tokens per J
Tokens per J
1.48
1.48
1.86
1.86
4,000 1979 (FP8) ~55.6 2,172 1.10
1.10 10-13 1.25-1.63 1.74
1.74
CloudMatrix- 96
Infer 4,096 1504 (INT8) 49.4 1,943 1.29
1.29 15-16 1.87-2 1.03
1.03
Atlas 800I
A2 (910B) - 626 (INT8) 100.0 766 1.22
1.22 5-6 0.63-0.75 1.21
1.21
-            
                        
                33. 好用:长文本推理仍有诸多挑战
长文本的需求:数据、应用与能力
集群使高效长文本推理成为可能
单Token的内存占用:约1MB
*DeepSeek-V3,考虑激活存储复用
推理能力
具身智能
回应用户前产生很长的内部思维链
实
例
推
理
Token存储
(激活和cache)
约占40%
模型权重约占60%
仅能支持4k左右上下文
更多空间用于Token存储
随着思考时间(思维链总长度)增加,
强推理模型表现会持续提高 [1]
有长程记忆的模型通过与环境的交互,
逐渐发展出新的认知能力 [2]
集
群
推
理
[1] OpenAI. "Learning to Reason with LLMs." OpenAI, www.openai.com/index/learning-to-reason-with-llms/. Released 12 Sept. 2024.
[2] Jiang, Xun et al. “Long Term Memory: The Foundation of AI Self-Evolution.” (2024).
Token存储
(激活和cache)
约占95%!
模型权重约占5%            
                        
                34. 长文本场景带来的问题跃迁
华为昇腾服务器推理部署最佳实践
Prefill阶段注意力计算:呈二次方增长
思路:集群的多卡协作优势
计算
MLA算子优化
MoE算子优化
通信
计算-通信重叠
框架
长文本场景的新挑战
P/D分离式系统
上下文长度:2k~4k
序列并行引入权重和KV Cache通信
思路:基于超节点优化并行和任务编排
策略
模型规模和集群规模匹配失衡、
Attention和MoE对计算访存需求失衡
思路:利用UB搭建的微服务架构
>100k            
                        
                35. 面向长文本场景的集群推理
问题1
长文本下的计算问题:Attention成为瓶颈对标量核压力增加
向量计算在昇腾芯片可能成为新瓶颈
Prefill
阶段Attention计算和上下文呈二次方
随长度增加,标量计算对算子需求迅速增长,
昇腾AIC、AIV算力悬殊问题凸显
450
400
Attention
Feed-Forward
350
300
250
AIV算力紧张,如
何协同AIC和AIV成
为新问题
200
Time
(ms) 150
100
50
0
-50
0
10
20
30
40
Context Length (K)
50
60
70            
                        
                36. 面向长文本场景的集群推理
问题2
长文本加剧KV Cache存储均衡问题,传输KV Cache成为新瓶颈
不同卡KV Cache 的Placement 导致
计算和存储均衡问题
R i
Placement举例如下
KV Cache
第i条请求
…
NPU0 KV Cache 0
NPU1 KV Cache 1
R 100
NPU 0 NPU 1
请求少 ,KV cache多 请求多 ,KV cache少
计算利用
率不足
query
KV Cache
R 2
R 1
多卡间KV Cache 传输通信量大,如何掩盖KV
Cache 传输延时
存储空间
不足
计算过载
延时增加
存储利用
率低
Attention
GB量级传输
长文本KV Cache拆分到多卡存储
注意力计算时,若传KV cache则数据传输量大            
                        
                37. 面向长文本场景的集群推理
问题3
长文本场景加剧了集群推理中的资源匹配的难度
如何灵活自适应匹配节点规模和模型规模
注意力部分对计算需求高、MoE阶段对访存需求高
复制高
频专家
1
1个共享专家复制32份 + 256个路由专家
+
如何匹配注意力和MoE 所需计算资源
2
…
N s
𝐾 𝑐𝑎𝑐ℎ𝑒
32个冗余专家
=320份专家权重
𝑄 𝑎𝑡𝑡𝑛_𝑚𝑎𝑝
𝑉 𝑐𝑎𝑐ℎ𝑒
专家并行EP=320(解码阶段),即单实例需要160张NPU
如何匹配?换个模型又该如何
MLA_1
(44.7%)
注意力部分计算富集:计算压力大
𝑖𝑛𝑝𝑢𝑡
Batch size
超节点CloudMatrix384,共384张NPU
cache
length
𝑤𝑒𝑖𝑔ℎ𝑡
𝑜𝑢𝑡𝑝𝑢𝑡
MoE部分显存需求富集:存储压力大
Batch size=32
Cache length=32k
MLA_2
(40.6%
)            
                        
                38. 我们在昇腾基础软件上的技术积累
计算:GEMM/Group GEMM 算子优化
通信:计算通信重叠FlashOverlap
 基于CCE(底层编程语言)实现更精细的计算、数据搬运和流水
编排
 联合昇腾高性能计算库catlass和通信库hccl完成实践
 精细的L2->L1-L0数据搬运和复用策略
 相比顺序执行性能提升高达1.35倍
 GEMM算子相比aclNN优化性能提升高达1.5倍
Llama3-8B典型矩阵乘法形状相比aclNN提
升高达1.5倍
GEMM 算子时间对比 [N=K=4096]
aclnn
infini
speedup
0.6
1.60
1.47
1.50
1.44
1.41
0.4
1.50
1.47
1.40
1.31
0.3
1.30
1.22
1.20
1.19
1.14
0.2
1.06
0.1
1.08
1.06
1.00 1.00 1.00
1.10
1.01
1.00
1.02
1.02
0.99
0.90
0
M
1.50
0.5
 基于控制信号实现计算和通信双流并行且解除数据依赖            
                        
                39. 集群推理方法论
输入
输出
模型规模
芯片算力
访存带宽
显存容量
节点规模
软硬协同
𝑓
约束:满足SLO
目标:最大化并发
图融合
等价图替换 计
算
通信重叠方式
并行范式:EP/TP 通
信
xPyD:
PD实例配比 框
架            
                        
                40. 长文本场景的集群推理整体方案
思路
计算、通信、框架设计实现通信/访存量降低和灵活资源匹配
全局调度器
Prefill注意
力计算量
可表示为
NPU0
=
R1
请求路由
请求路由
请求路由
以全掩码注意力
作为任务划分方式
多个全掩码注意力
任务分发至多卡计算
R50
…
R80
R1
多卡计算Decode注意力仅传
输激活而非KV cache
+
对角线附近少
量计算
…
NPU1
NPU0
NPU0
NPU0
NPU0
NPU0
NPU0
NPU0
NPU0
计算:全掩码注意力任务分发
提升卡内注意力计算效率
注意力实例
注意力实例
(Prefill)
注意力实例
(Prefill)
(Prefill)
注意力实例
注意力实
(Prefill)
例
MoE实例
(Prefill)
注意力实例
注意力实例
(Prefill)
注意力实例
(Prefill)
(Decode)
激活/KV cache传输 激活/KV cache传输
UB 平面
框架:以大算子为粒度的微服务架构
实现注意力、MoE的计算需求和超节点规模灵活匹配
Prefill实例
请求/KV cache路由
NPU0
NPU1
由路由保证卡间存储均衡
减少KV cache动态传输
通信:KV Cache Placement策
略减少KV cache通信            
                        
                41. 04
以有限算力架构 释放终端应用潜能            
                        
                42. 端侧应用落地迎接爆发 亟需强推理能力
云端协同释放算力,数十亿终端进入大模型时代
基座模型预训练
未来泛端侧应用需要>100tokens/s 推理能力
泛端侧应用大模型推理性能需求
模型微调/推理
模型云端部署
算力资源优化
算力协同及数据
返回
•
•
经推测,GPT-4o/o1参数量超过200B
实际端侧应用需要4o/o1能力的模型实现100~1000
token/s 的推理性能
基座模型及算力
调用
GPT-4o/o1
(~200B+强化学习)
端侧协同推理
AI手机年出货
5.52亿台 注2
端侧模型部署
AI PC年出货
1.02亿台 注3
端侧智能
机器人
场景增量学习
智能汽车年出货
近5000万台 注4
自动驾驶
感知决策
>100 token/s
[Tesla HW3]
无人机
具身智能
路径规划
动作决策
>100 token/s
>1000 token/s
[Nature 2023封面文章] [Jim Fan, NV高级研究科学家]            
                        
                43. 端侧大模型推理的效率挑战
① 计算挑战
GPU
算力高计算快
② 存储挑战
CPU
算力低计算慢
云模型
模型参数多
0.68s
CPU
GPU
0.15s
计算大模型
CPU速度比GPU速度慢4倍
单处理器
无调度低延时
多处理器
通信+调度
×
各部分计算延时占比
(Llama2-7B GPU16层,CPU16层)
延时
端设备
内存容量小
③ 协同挑战
DeepSeek-R1模
型约 617GB 参数
内存相差
2个数量级
单机内存 仅12GB
无法在本地运行
端侧内存容量与云模型参数量
相差2个数量级
GPU Laptop
CPU
多处理器协同计算
需要复杂的通信和调度            
                        
                44. 端侧大模型核心技术
端侧应用智能:单用户、少请求
计算挑战
提升生成式模型的
计算利用率
存储挑战
端侧存储难以容纳
参数和中间变量
协同挑战
多处理器硬件资源
协同处理
投机解码等算法优化
编译调度等系统优化
模型轻量化设计
模型卸载技术
任务拆分与并行等
异构计算优化
Speculative
FlashAttention Decoding
(NeurIPS 22)
降低注意力的存
储量和访存量
Transformer计
算的必需算子
(PMLR 23)
推测解码利用小
模型做串行生
成、大模型并行
验证
实现2-3倍加速
AWQ KTransformers
(MLSys 24 BP)
通道维度权重激活
数据均衡方案
近无损W3A16量
化
较FP16有3倍加速 (GitHub 25)
针对DeepSeek-
V3的专家卸载
在单张4090上运
行DeepSeek-V3
FlexGen PowerInfer
(ICML 22)
提出大模型卸载技
术卸载模型权重和
KV cache
30B模型在16GB
GPU上运行 (SOSP 24)
使用稀疏激活利用
GPU和CPU协同计算
FFN
在消费级台式机上,
相较llama.cpp提升5
倍吞吐率
FlexInfer
(EuroSys 25)
引入基于虚拟内存的
张量协调 CPU - GPU
资源用于 LLM 推理
相比于mmap速度提
升5倍
端侧推理应用技术Milestone            
                        
                45. 单用户下大模型端侧推理
关键分析:单用户下大模型推理是底库很大的搜索分类问题
单用户
Tokenize
少请求
Prompt
Attention
FFN
Attention
FFN
Attention
FFN
级联计算
where
每一层均是搜索过程
go
do
can I
are
good
Output
……
数万规模的词表
搜索底库(~3万)
搜索分类
I
一个词
Attention
FFN
LM_head            
                        
                46. 端侧推理引擎:SpecEE
核心思想:利用小参数的LLM作为推测模型缩减搜索底库
单用户
Tokenize
少请求
Prompt
Attention
FFN
Attention
FFN
Attention
FFN
……
Attention
FFN
级联计算
where
go
do
can I
are
good
Output
搜索分类
Thank
推测模型
数万规模的词表
搜索底库(~3万)
It
I
底库
缩减后词表
搜索底库
(~3)
难度
I
一个词
LM_head            
                        
                47. 端侧推理引擎:SpecEE
技术核心:基于缩减后搜索底库动态调整单用户下级联计算
根据输入动态调整级联计算
单用户
Tokenize
少请求
Prompt
Attention
FFN
Attention
FFN
Attention
FFN
……
级联计算
计算
where
go
do
can I
good
Output
Attention
FFN
Thank
are
推测模型
数万规模的词表
搜索底库(~3万)
It
I
搜索分类
底库
缩减后词表
搜索底库(~3)
I
难度
一个词
LM_head            
                        
                48. SpecEE 技术细节:如何高效动态调整级联计算
算法:低开销高精度调整级联计算
系统:动态调度引擎适配端侧部署
①调整模型
实现 低开销 词 1
Start
自适应调度引擎
概
率
pred=MLP(info)
T’ = LocalResult
在线调度
发生
突变
0.5
弹性激活
预测器
Correction Alg.
pred
>threshold
0
N
0
Y
8
16
24
层数
T’=T
20
Forward
Y
Early
Exiting
线下调度
end
logits=LM_head(X)
T=GlobalResult
②修正算法
实现 高精度
√××√
在线调度
概率变化取代冗余特征
N
线下调度
16
19
环形队列存储
前文早退位置
start
根据前文早退信息,
动态调整预测器激活位置
0
5
10 15 20 25 30
根据统计数据,
选取早退概率高的预测器
End
预测模型与修正算法双重保障实现低开销高精度
引入自适应调度引擎实现弹性激活调整机制            
                        
                49. SpecEE 结果:推进速度与精度的帕累托前沿
SpecEE
精度
# 速度更快
# 精度更高
llama.cpp
归一化加速比            
                        
                50. 05
以大模型推理技术创新 融合人工智能产业创新            
                        
                51. 破解推理Scaling时代 大模型推理系统的效率挑战
端设备 云平台
优化目标:降低延时 优化目标:满足用户延时要求,提升吞吐率
核心特点:单用户、少请求 核心特点:多用户、多请求
重叠传输
延时开销
小规模负载计算
(利用率:
50%→90%)
协同挑战
多处理器硬件资源
协同处理
存储需求
(存储量
100GB→10GB)
大规模负载并行计算
计算挑战
提升生成式模型的
计算利用率
满足用户目标延时
调度挑战
不同用户间资源竞
争及延时需求
存储挑战
同时存储大量请求
的KV cache
提升显存利用效率
(利用率
70%→90%)            
                        
                52. 推理系统上云 打造云端AI产业生态创新引擎
高效集群推理,加速大模型能力注入千行百业
等近百家AI应用/企业排队入驻中
徐汇模速空间算力生态平台
北京海淀公共算力服务平台
杭州市算力资源服务平台
登上央视1套
《新闻联播》
投入运营
云平台
semi-PD
投入运营
投入运营
cloud.infini-ai.com 大模型服务平台
全球首创第三代推理集群系统,推理性能行业第一            
                        
                53. 推理系统入端 释放智能终端应用潜能
高效端侧推理,软硬协同加速下一代智能终端落地
大模型推理引擎
端到端性能提高
70%
提升 提升
25%+ 70%+
文生文大模型
端模型
文生图大模型
面向应用场景的微调大模型
多模态大模型
面向各类智能终端的大模型推理引擎
端软件
YOGA Pro 14 元启版
自研端侧大模型推理芯片
3D堆叠
ThinkBook 14+ 元启版
端设备
SpecEE
Prefill
Decode
多芯粒互
联
大模型处理器LPU
端芯片
“端模型+端软件+端IP”智能终端一体化解决方案
全球首创推测性早退技术,AI PC推理速度行业第一
• 量产软件合作
• 签订战略合作备忘录
• 建立联合实验室
• 联合定义终端场景            
                        
                54. 端侧实时守护 云侧全局智能
端设备 云平台
实时响应 弹性扩展
推理系统
小规模负载计算
传输延时开销
协同
多处理器硬件资源
协同处理
存储需求
计算
提升生成式模型的
计算利用率
存储
同时存储大量请求
的KV cache
大规模负载并行计算
用户目标延时
调度
不同用户间资源竞
争及延时需求
提升显存利用效率            
                        
                55. 端+ 云推理加速 数量级降低大模型落地成本
云平台
端设备
提高端侧
硬件能效
降低端侧
模型参数量
提升
系统吞吐
提高端侧硬
件利用率
降低
请求延时
=> 成本
模型轻量化
存储机制
轻量化模型
并行调度
算法设计
高精度模型
算法
设计
硬件
数据结构
稀疏化
剪枝
数据表示
低比特
量化
高能效
架构
前端编译
多处理
器协同
后端算子
硬件定
制优化
用户
请求
存储优化
前缀
缓存
存储管理
分页
存储
请求调度
阶段
处理
模型并行
模型
切片
计算图
算子
优化            
                        
                56. 释放无穹算力,让AGI触手可及
基础设施的“魔法”
1995 2025
让民用电走进
让大模型成本
10000 个县镇 10000 倍下降            
                        
                57.             
                        
                58. THANKS
大模型正在重新定义软件
Large Language Model Is Redefining The Software