百度AI网络的架构创新与优化之路
如果无法正常显示,请先停止浏览器的去广告插件。
1. 李虎
2. 目录
3.
4. 演进方向
• 超大规模
• 超大算力
• 超大带宽
xAI-10万卡 2024.7
META-2.4万卡*2 2024.4
ChatGpt-1万卡 2022.11
2024
交付10万卡+
单集群最大3.2万
2023.3.16
文心一言发布,万卡-ROCE集群
2021年底
交付 万卡-IB集群
2025-2026
国内十万卡
5. 集群规模
训练性能
• 3.2T超高带宽接入(8*400G)
• 单集群支持10万卡+
• 支持跨AZ RDMA
• 自适应路由,全局无损网络,
零拥塞
• 多导轨架构
稳定性
• 交换机PingMesh,获取AI
集群的真实网络质量
• 超高精度Telemetry,
10ms采集精度
6. 拓扑3:分POD方案
拓扑1:LE层分导轨方案
SP
LE
LE
…
SP
LE
SP
LE
SP
LE
LE
LE
LE
…
拓扑2:双平面方案
1 2 3 n
…
GPU
POD-1-4096卡
64
1
2 3 n
…
GPU
POD-n-4096卡
64
7. SP
SP
…
SP
SP
单集群最大规模:10万卡+
• 多导轨方案
LE
LE
LE
LE
LE
LE
LE
LE
• 4096卡,AlltoAll通信控制2层网络内,适
…
1 2 3 4
…
64
• 512卡,同号卡单跳通信
用MOE场景
1
2 3 4
…
64
全自研交换机(12.8T/25.6T/51.2T)
• H800,单端口400G 交换机128*400G
GPU
GPU
8. • 极致性能
• 超高稳定性
• 秒级监控 / 1 分钟故障止损
102T交换机上线
128*800G
9. 64*100G
64*400G
25.6T 25.6T
25.6T 25.6T
64*400G 64*800G
51.2T
2024Q1 102T
2025年H2
64*400G 128*400G
12.8T
64*100G
新一代芯片红利
• 成本
• 电力/机柜
• 性能
64*400G
8K*400G 规模
25.6T 51.2T
640台 192台
32,768
400G光模块 16,384
400G光模块
10. HPN网络架构感知GPU服务器节点所在的UnitID
同一任务优先调度至相同UnitID的节点
任务内各节点按照UnitID进行排序
感知网络拓扑/调度原则:
同TOR -->同POD -->同集群
11. Adaptive Routing
ECMP
1
2
3
…
控制器方案
N
1
2
3
…
DDC
Disaggregated Distributed Chassis
1
N
flow
1
2
3
…
2
3
…
N
N
Pkt1
Pkt2
Pkt3
Pkt4
1 N 1 N 1 N 1 N
GPU GPU GPU GPU GPU GPU GPU GPU
ECMP方案,传统方案
• 可基于ECMP hash因子做优化
逐包转发,依赖网卡AR能力
逐流转发,hash到某一条链路
逐流信元转发,交换机重装
12. AR和ECMP对比
all_reduce
all_gather
AR
传统ECMP方案
拥塞问题难以解决
broadcast
ECMP 1QP
reduce
reduce_scatter
ECMP 8QP
Adaptive Routing
相比于ECMP-8QP最大提升20%
百度厂内2023年已默认部署
13. 1
2
3
…
N
flow
开启AR前
Pkt1
Pkt2
Pkt3
1
N
Pkt4
ECMP
GPU1
GPU2
逐流转发,hash到某一条链路
1
2
3
…
N
开启AR后
乱序
1
GPU1
N
Adaptive
Routing
GPU2
逐包hash,将某一条流,各个包hash
到不同的链路,网卡侧做乱序重组
14.
15. 项目背景:
• 网卡不支持AR功能
• 解决HPN无法部署AR时,网络hash 冲突问题
项目收益:
• 集群训练性能提升2%-5%
• 摆脱网卡AR技术绑定,引入低成本网卡
512卡 llamma测试,
ECN明显减少
业务千卡训练优化5.3%
16. • 交换机支持1s监控
• 多项采集数据
• 流量/队列/PFC/ECN/丢包/缓存等
250ms监控
• 端侧支持10ms 监控
10ms监控
17. • 自研交换机PingMesh能力,覆盖网络全部路径
• 将传统的服务器PingMesh能力,移植到交换机上
• 实现了100%可信(无噪点)、秒级感知、1分钟定位(网络质量完成自证)
丢包1/10万
18. 性能优化
•
•
•
NCCL All Reduce:BUFFSIZE参数优化可以
显著提升长距吞吐
网络拥塞:定制LBN等特性彻底解除网络拥
塞,提升集合通信性能
框架切分:设计实验证明将DP切分至长距
离链路可达最优性能
实验局组网
GAJL实验局组网:
• GPU服务器
• DCN TH5交换机
• DCI J2C+大buffer交换机
• 城域DWDM光传输系统
• 10-100km距离可切换光纤
• 10km空芯光纤(提升
30%NCCL性能)
万卡长距离实战
•
完整模型训练
空芯光纤
普通光纤
空芯光纤
普通光纤
训练:
• 长距仅承载DP流量
• Minibatch size = 16
• 开启DP overlap
• 在增大BUFFSIZE
下,100km的性能损
失可以降低至3.12%.
百度厂内( 25Q1 )成功部署
万卡,40km的双机房方案,并
稳定运行
19. NCF
1
2
…
3
DDC
机房内无拥塞
信元转发
NCP
1
J3AI+
20
2
3
4
… 127 128
GPU
GPU
• 摆脱网卡依赖(Adaptive Routing)
• 提供HPN第二解决方案
• 探索DDC实现跨AZ RDMA ,全局无拥塞方案
DDC
机房内无拥塞
J3AI
GPU
GPU
• 解决GPU卡混布
J3AI+
80km 全局无拥塞
J3AI
GPU
IP转发
J3AI+
3.2T无拥塞
Deepbuff
J3AI+
DDC
GPU
20. HPN网络
1
2
…
1
3
4
5
N
6
7
8
...
GPU
GPU
...
GPU
Prefill
Prefill
TOR
13 14 15 16
•
GPU
...
GPU
•
Decod
100G/200G
VPC网络
...
AlltoAll
AlltoAll / 同号卡
GPU
针对DeepSeek引入的MoE、PD分离等新型分布式
架构对网络基础设施提出的革命性要求,我们通过
系统性网络拓扑重构与协议优化,实施了多个维度
的关键性技术升级:
•
TOR
LE1
TOR
…
LE8
TOR
流量差异化管理
• 针对DeepSeek,alltoall流量与训练流量网络
分队列管理,提升alltoall流量的通信性能
• 针对DeepSeek优化RDMA参数ECN/PFC
时延优化
• 定制严格的建设标准
• 服务器-交换机 Max 40米
• 交换机-交换机 Max 100米
DP分离场景下的亲和性调度
• 针对不同的Decod、 Prefill结合网络制定专属
的亲和性策略
• D<-->P走DCN网络,极致挤压网络性能,
DCN支持收敛比1:1
21.
22. 大模型正在重新定义软件
Large Language Model Is Redefining The Software