飞桨大模型推理实践:从集中式部署到分离式部署架构演进
如果无法正常显示,请先停止浏览器的去广告插件。
1. 飞桨大模型推理实践
——从集中式部署到分离式部署架构演进
蒋佳军
2. 目录
01 飞桨大模型推理部署背景
02 集中式部署架构优化
03 分离式部署架构优化
04 总结与展望
3.
4. 01
飞桨大模型推理背景
5. 大模型推理需求激增
Google 2025 年第二季度月
处理Token 量 思考模型RL 训练中推理耗时
占比 IDC 预测推理工作负载占比
980万亿 80%+ 73%
推理Token 调用量 大模型RL 训练 推理服务器需求
数据来源:Google 《Q2 earningscall: CEO’s remarks》
数据来源:IDC| 浪潮信息 《2025 年 中国人工智能计算力发展评估报告》
6. 大模型推理基础流程
分离式部署
集中式部署
请求
Decode Step
Decode阶
段的Batch
请求
插入新的请求
新插入的
Prefill阶段
请求
P/D调度
分配P/D
组合
Decode阶段
计算中Step
Decode阶段
已完成Step
读取已
计算的
KV向量
写入新
计算的
KV向量
Prefill
Node
Prefill
Node
Prefill阶段正
在计算
Decode阶
段的Batch
请求
Prefill
与Decode 混合Batch: 动
态插入提升吞吐
KV Cache
传输
显存池
存储换计算:KV 向量缓存
加速Decode 计算
Decode
Node
Decode
Node
Decode
Node
PD 分离:模型推理拆为Prefill
、
KVCache 传输和Decode 三个独立阶段
7. FastDeploy :飞桨高效大模型推理工具
FastDeploy
生态兼容的统一接口设计
飞桨CINN编译器结合图优化
高性能低比特量化推理
低时延高吞吐投机解码框架
ERNIE 4.5
使用界面 兼容vLLM 的离线推理接口
推理服务
缓存管理
大规模P/D 分离
DeepSeek
Qwen
模型支持
兼容OpenAI 协议的服务协议
缓存异步LRU 汰换
多级缓存索引
推理优化
大规模多机PD分离架构
并行策略
CUDA
多国产化硬件后端支持
Graph
多机负载均衡
上下文缓存
分块预填充
自适应增量传输
量化策略
高性能通信 稀疏注意力 仅权重量化 注意力机制量化
CINN 编译优化 投机解码 权重激活量化 KV Cache 量化
PaddlePaddle
…
8. 02
集中式部署架构优化
9. 集中式部署架构优化
量化压缩
Weight Only INT8/INT4
国产芯片P800
Weight Only NT2 CCQ 量化
混合精度计算
KVCache 量化
W4A8
MEPC 量化
注意力量化
INT8 高性能优化
分布式上下文缓存
投机解码
分块预填充
多头解码
图优化与CUDA
Graph
稀疏注意力 PLAS
查表计算优化
10. 量化压缩:WINT2 压缩算法CCQ
(Convolutional Code Quantization)
Weight
(INT4/INT8)
大模型推理 显存占用比例 (GB)
60
Weight
(BF16)
Round(W/S)
40
Scale
20
加载时量化为INT4/INT8 精度降低权重显存占用
0
模型权重
激活值
KV Cache
Weight
(INT4/INT8)
ERNIE - 4.5- 21B - A3B 模型A800 单卡BF16 部署权
重显存占用超过50%
Weight
(BF16)
Round(W *S)
x
Activation
(BF16)
Scale
模型 权重 ERNIE - 4.5- 21B - A3B 42GB ERNIE - 4.5- VL - 28B - A3B 55GB 3.5 7.2 9.5
ERNIE - 4.5- 300B - A47B 562GB - 30 11.3 18.5
ERNIE - 4.5- VL - 424B - A47B 789GB 313 21.3 111
文心系列模型权重大小对比
Kernel读取Weight 反量化为BF16 计算保障精度
Weight(BF16)
加载过
程在线
量化
0.075 47 96 127
0.236 - 127 48 78
2.465 127 9 45
Scale
Weight(INT8)
计算过
程反量
化
3.5 7.2 9.5
- 30 11.3 18.4
313 22.2 111
Weight(BF16)
11. 量化压缩:WINT2 压缩算法CCQ
(Convolutional Code Quantization)
解决标量低比特压缩精度损失 和向量量化的推理效率低 问题
标量量化
向量量化
卷积码
最常用且直观
的量化方式,
但在低比特如
2 bit 下精度失
严重
CCQ
飞桨自研高性
能低比特大模
型WINT2 压缩
算法
将向量分组映射,得到“索引表”和“
码本”,
保留向量数据相关性,解决标量压缩的精度
损失。但同时也带来推理查表性能 问题
图例来源:https://
speechprocessingbook.aalto.fi
/Modelling/Vector_quantization_VQ.html
通过卷积码构建“码本”,消除反量
化过程的查表,仅需移位和掩码
反量化,优化推理性能
12. 量化压缩: WINT2 压缩CCQ 算法
84.47
86.07 86.73
IFEval
OTPS
CMMLU
CCQ
GGUF
57.91
38.45
82.19
Ceval
ERNIE - 4.5- 300B - A47 模型, 2x NVIDIA
H20 - 141GB, 52 core
Intel(R)Xeon(R) Platinum 8563C
276.42
TPS
197.58
FastDeploy
CCQ 算法量化与反量化过程
85.26
80.22
LLAMA.CPP
CCQ 与GGUF 量化对比
H20 单卡即可实现文心4.5 300B 大模型部署
ERNIE - 4.5- 300B - A47B 权重大小
GSM8K
DROP
MMLU
RTN(WINT8) 281GB 96.62 91.13 86.52
RTN(WINT4) 149GB 96.21 91.17 86.16
CCQ(WINT2) 89GB 95.30 88.34 82.31
13. 量化压缩:MoE 模型的W4A8 多专家并行协同量化
MEPC 算法
Mo E 模型W4A8 量化挑战
(Multi- Expert Parallel Collaboration
)
专家并行协同量化
量化效率
• 专家多粒度小,计算资源利用不充分
• 激活所有专家,需要大量训练数据
• 多专家拼接并行校准,提升计算资源利用率
• 激活专家推算未激活专家系数,降低训练数据量
跨节点异常点转移算法
• 通过权重重排操作,所奖有的outliers
迁移,集中到一
张卡,减少整体的量化损失
量化效果
• 张量并行下异常点多节点分布问题
• 节点内的异常值影响
层自适应的旋转转置
• 分块旋转与排列结合,兼顾推理效率和异常值平滑
• 根据各层特点自适应选择优先处理激活或处理权重
14. 量化压缩:MoE 模型的W4A8 多专家并行协同量化
文心4.5模型精度接近无损 ,相比FP8 吞吐提升 17%~30%
1000000
111083 129726
100000
10000
6761
8781
1000
ERNIE-4.5-300B
FD-8bit
基于MEPC算法解决MoE模型的量化效率与效果问题
ERNIE-4.5-21B
FD-W4A8
W4A8与FP8推理吞吐对比
8 x NVIDIA H800 - 80GB ,CUDA 12.8
48 core Intel(R) Xeon(R) Platinum 8468V
15. 突破长文性能瓶颈:可插拔式稀疏注意力PLAS
低成本蒸馏微调注意力
门控选择重要性块
模型
根据输入长度自适应选择 Full
Attention 或 Sparse Attention
Head 及Token 维度对齐实现高性能
推理同时加速P/D 性能
精度 (LongBenchV2)
性能
FullAttention PLAS TTFT TPOT QPS
ERNIE - 4.5- 300B - A47B -
128K 40.02 40.05(+0.03%) - 30% - 34% +23%
ERNIE - 4.5- 21B - A3B - 128K 30.82 30.41(- 0.41%) - 48% - 31% +48%
16. 国产昆仑P800 芯片性能优化
优化1:整网BF16 存储+FP16 计算方案
FP16 方案 BF16 + FP32
FP16 BF16
cast
GEMM
(FP16)
FP32
优化3 :基于查表优化复杂函数计算
优化2 :INT4 *INT8 直接计算
BF16+FP16
权重
BF16
INT4
cast_te
(per token)
𝑆𝑤𝑖𝑠ℎ 𝛽 𝑥 =
Dequat
激活
FP32
GEMM
(FP32)
FP32
FP16
GEMM
(FP16)
𝑒 𝑥 𝑖
𝑆𝑜𝑓𝑡𝑚𝑎𝑥 𝑥 =
σ 𝑗 𝑒 𝑥 𝑗
INT8
INT8
𝑥
1 + 𝑒 −𝛽𝑥
GEMM
(INT8)
FP32
cast
cast
FP16
FP16
cast
BF16
激活
lookup_table
权重
INT8
INT4
table
量化
x
index
N
[0, N- 1]
GEMM
(INT8)
模型效果
无法达标
性能劣化
30%
效果性能
达标
利用硬件特性,发挥算力
优势,性能提升 10% !
…
利用硬件查表指令,实现对复杂函
数快速计算,性能提升 5% !
17. 分布式多级上下文缓存高效管理
Cache 感知调度
全局索引
查询优化
请求调度
内存分配
连续性优化
GPU 换
至CPU
引擎同步读取Cache
Cache 管理异步执行LRU
引擎读写与KVCache 的LRU 异步解耦
零拷贝优化
AttentionStore 0 2 9
DRAM 4 7 6
3 … …
Cache
流水线并行优化
正反向索引
高效构建查询
驱逐
释放
CPU
Cache
写入KV
Cache
异步LRU
非阻塞管理
AttentionStore
Master
GPU
Cache
Engine
LLM Engine
HBM
读取CPU
KV
读取KV
多设备并行读写
SSD SSD
SSD SSD
0
基于最小堆管理
KV Cache 存储块
2
4
基于普通列表管理,分配显存地
址 [0,2,9,4]
3
7
6
9
基于最小堆管理,分配显存地址
[0,2,3,4]
优化后显存分配地址连续性强,更友好跨介质间的数据拷贝
18. 03
分离式部署架构优化
19. 分离式部署需求分析
集中式推理问题
Prefill与Decode所需资源类型不同
Prefill
为计算密集型,依赖算力强劲的GPU 加速
Decode 为存储密集型,依赖更高的内存带宽
1
Prefill混合并行带来的性能波动
Prefill
与Decode 混合并行的『木桶效应』:长输入的Prefill
任务导
致Decode 阶段时延急剧上升
2
资源浪费和成本增加
生产环境中Prefill
与Decode 的资源需求随输入输出长度动态变
化,集中式的部署无法灵活按需配置资源
3
独立优化与异构部署
针对Prefill
与Decode 分别做推理上的优化,采
用不同的硬件满足计算和存储需求
更优的性能与更可靠的SLO
摆脱『木桶效应』,更快的请求响应速度,同时解
决长输入请求带来的时延上升问题,保障稳定性
精细化资源管理
通过系统输入输出长度变化,以及对首Token ,
Token 间时延的要求,精细调整Prefill/Decode 资源
20. 分离式部署架构
分离式部署挑战
…
负载均衡
相比集中式部署,需分别平衡Prefill
与Decode 的负载;针对MoE 模型EP 并
行,需进一步平衡各专家的负载
Request
(p0, d3)
Prefill
0
Request
(p1,d1)
Prefill
1
Prefill
2
Prefill
3
KV传输与通信
Prefill
计算的KV
传输至Decode
P refill
计算完的KV 需要跨进程跨节点传输给Decode 计算,额外引入传输耗
时。在MoE 模型采用EP 并行后,进一步引入专家间数据传输
系统运维
Decode
0
Decode
1
Decode
2
Decode
3
分离式部署架构中,各Prefill
和Decode 不再是独立的实例节点,Prefill
需感
知所有的Decode 实例,同时处理在KV Cache 传输或者Decode 实例异常问
题
PD 分离下,请求先在Prefill
计算完生成首
Token ,再在Decode 继续生成剩余的Token
21. 分离式部署与分布式上下文缓存加速推理
请求
负载均衡
查询Cache 命中
全局KVCache 索引
Prefill负载均衡
Prefill
各DP 负载指标为未完成请求
Token 总数与Cache 命中Token 数差
值,Scheduler以此为均衡条件进行
调度
Token 流
Scheduler
Decode 流式返
回生成的Token
PrefillDP 从Scheduler 拉取分配给自己的请求
Cache 索引
定期同步
Prefill_0DP_0
EP0
Decode_0
Prefill_0DP_1
EP1
EP2
EP3
EP4 EP5
Attention EPLB
申请Cache
资源
EP0
DP_0
EP1
Decode_0
EP2
DP_1
EP4 EP5
Attention EPLB
EP3
Decode负载均衡
Decode 各DP 负载指标为未守成请
求数,Scheduler以此为均衡条件进
行调度
Attention
读取Prefix
Cache
HBM
专家负载均衡
收集Prefill/Decode 各DP 上专家负
载,定期重排各节点及各卡上的专
家权重
Cache 加载
至HBM
EPLB
写入KV
Cache
Cache
HBM
Cache
Attention
KV
传输
HBM
EPLB
Cache
HBM
Cache
Cache 同
步至AS
AttentionStore
(DRAM/SSD
Cache)
AttentionStore
(DRAM/SSD
Cache)
AttentionStore
(DRAM/SSD
Cache)
AttentionStore
(DRAM/SSD
Cache)
22. KV 传输与通信优化
轻量高效的RDMA
传输协议自适应的增量Cache 传输
传输库
• 轻量: 部署简单轻量,仅需基础的RDMA 运行环境即
仅传输新增部分的 Cache
同一节点内
NVLink
Prefill
可使用
• 高性能:减少CQE 数量和支持PCIe Relaxed Ordering
等优化,单线程传输效率更高,多线程带宽打满
Decode
跨节点
Prefill
RDMA
NIC
Prefill
Decode
Cache
Cache
Decode
• 动态建连:支持PD 比例动态扩缩容
Layerwise 方式掩盖传输耗时
RDMA
单线程传输速度对比
Decode
Prefill
60
40 layer0
20 layer1
0 layer2
1K
2K
4K
8K
FastDeploy
16K
32K
Mooncake
64K
128K
256K
…
KV Transfer
KV Transfer
KV Transfer
KV Transfer
layer0
layer1
layer2
…
23. 基于DeepEP 的自适应双阶段通信优化
纯RDMA
通信带宽受限
自适应双阶段通信优化
• EP 并行度低的场景下,存在大量节点内通信
• 节点内通信采用NVLink ,节点间通信采用RDMA
• 跨节点通信第一阶段基于RDMA 将数据传输至对
应节点对应GPU 卡,第二阶段在对应节点内基于
NVLink 将数据传至其它GPU 卡
• 跨节点通信存在重复使用RDMA 进行传输需求
RDMA 通信
EP0
Node 0 Node 1
Token Token
EP1
EP2
EP3
EP4
NVLink 通信
RDMA 通信
EP5
EP6
EP16 通信效
率提升1倍
EP7
EP0
Node 0 Node 1
Token Token
EP1
EP2
EP3
EP4
EP5
EP6
EP7
24. 分离式系统稳定性保障
稳定性保障
Scheduler调度
服务发现
重调度与实例更新
• 重调度接口支持Prefill/Decode 即时通知调度处理异常请求
• 专家负载均衡定期滚动更新,实例异步权重加载
PD 流转过程异常 系统无感的EPLB
请求即时重调度
异步滚动重排
PD 实例集群
续推Agent
•
针对实例软硬件问题,即时将异常请求与已生成结果拼接进
行续推,避免PV Lost同时,优化计算资源
抢占Agent
•
针对集群资源动态调整需求,结合续推Agent ,实现推理实
例实时退出
实例间RDMA
建连实时更新
Prefill
Decode
软硬件问题异常
请求续推处理
续推Agent
Decode
Prefill
Prefill
Decode
结合续推实现系
统资源无损实时
抢占
抢占Agent
25. 文心大模型的分离式部署优化
PD 分离分布式架构,文心性能再提升
ITPS 56K ,OTPS
21K ,TPOT
50ms
ERNIE - 4.5- 300B - A47B
Prefill
Proposal
多Token
上下文
FP8
MTP
调度层Query 均衡
Ngram
+
服务层Token 均衡
INT4 KV
Step1: Daft
Token
Step2: Verify
Verify
Decode
引擎层专家负载均衡
Tree Attention
W4A8
Prefill/Decode/KV传输优化
动态置信度
自适应双阶段通信优化
投机解码加速优化
PD 负载均衡
多级负载均衡优化
26. 04
总结与展望
27. 文心飞桨推理架构的演进史
2025.06
2023.03
2023.08
PagedAttention
文心一言发布
支持大模型动态插
入与KV Cache
支持PagedAttention
及异步调度,性能优
于vLLM
2024.10 FastDeploy
分离式部署 部署代码全面重构
升级,对外正式开
源FastDeploy 2.0
Prefill
与Decode 的
分离,以及分布式
PrefixCaching 上线
28. 未来计划
四级缓存
通过集群KVCache 池化支持推
理实例从其它推理实例获取
KVCache 加速Prefill
计算
Prefill
AF 分离进一步推理资源
管理精细化
CPU 传输优化资源利用率
KV传输
DRAM
GPU 直传依赖提前占用Decode
显存资源导致资源利用不充分,
Decode
HBM
HBM
KVCache
KVCache
NVLink /RDMA 传输
新增CPU 传输优化吞吐
AF分离
针对Attention 与FFN 任务的差异
进一步精细化部署的资源管理,
降低推理成本
DRAM/ SSD KVCache
集群Cache 池化作为第四
级缓存
DRAM/SSD
KVCache
29.
30. THANKS
大模型正在重新定义软件
Large Language Model Is Redefining The Software