百度AI网络的架构创新与优化之路

1. 李虎

2. 目录

3.

4. 演进方向 • 超大规模 • 超大算力 • 超大带宽 xAI-10万卡 2024.7 META-2.4万卡*2 2024.4 ChatGpt-1万卡 2022.11 2024 交付10万卡+ 单集群最大3.2万 2023.3.16 文心一言发布，万卡-ROCE集群 2021年底交付万卡-IB集群 2025-2026 国内十万卡

5. 集群规模训练性能 • 3.2T超高带宽接入（8*400G） • 单集群支持10万卡+ • 支持跨AZ RDMA • 自适应路由，全局无损网络，零拥塞 • 多导轨架构稳定性 • 交换机PingMesh，获取AI 集群的真实网络质量 • 超高精度Telemetry， 10ms采集精度

6. 拓扑3：分POD方案拓扑1：LE层分导轨方案 SP LE LE … SP LE SP LE SP LE LE LE LE … 拓扑2：双平面方案 1 2 3 n … GPU POD-1-4096卡 64 1 2 3 n … GPU POD-n-4096卡 64

7. SP SP … SP SP 单集群最大规模：10万卡+ • 多导轨方案 LE LE LE LE LE LE LE LE • 4096卡，AlltoAll通信控制2层网络内，适 … 1 2 3 4 … 64 • 512卡，同号卡单跳通信用MOE场景 1 2 3 4 … 64 全自研交换机（12.8T/25.6T/51.2T） • H800，单端口400G 交换机128*400G GPU GPU

8. • 极致性能 • 超高稳定性 • 秒级监控 / 1 分钟故障止损 102T交换机上线 128*800G

9. 64*100G 64*400G 25.6T 25.6T 25.6T 25.6T 64*400G 64*800G 51.2T 2024Q1 102T 2025年H2 64*400G 128*400G 12.8T 64*100G 新一代芯片红利 • 成本 • 电力/机柜 • 性能 64*400G 8K*400G 规模 25.6T 51.2T 640台 192台 32,768 400G光模块 16,384 400G光模块

10. HPN网络架构感知GPU服务器节点所在的UnitID 同一任务优先调度至相同UnitID的节点任务内各节点按照UnitID进行排序感知网络拓扑/调度原则：同TOR -->同POD -->同集群

11. Adaptive Routing ECMP 1 2 3 … 控制器方案 N 1 2 3 … DDC Disaggregated Distributed Chassis 1 N flow 1 2 3 … 2 3 … N N Pkt1 Pkt2 Pkt3 Pkt4 1 N 1 N 1 N 1 N GPU GPU GPU GPU GPU GPU GPU GPU ECMP方案，传统方案 • 可基于ECMP hash因子做优化逐包转发，依赖网卡AR能力逐流转发，hash到某一条链路逐流信元转发，交换机重装

12. AR和ECMP对比 all_reduce all_gather AR 传统ECMP方案拥塞问题难以解决 broadcast ECMP 1QP reduce reduce_scatter ECMP 8QP Adaptive Routing 相比于ECMP-8QP最大提升20% 百度厂内2023年已默认部署

13. 1 2 3 … N flow 开启AR前 Pkt1 Pkt2 Pkt3 1 N Pkt4 ECMP GPU1 GPU2 逐流转发，hash到某一条链路 1 2 3 … N 开启AR后乱序 1 GPU1 N Adaptive Routing GPU2 逐包hash，将某一条流，各个包hash 到不同的链路，网卡侧做乱序重组

14.

15. 项目背景： • 网卡不支持AR功能 • 解决HPN无法部署AR时，网络hash 冲突问题项目收益： • 集群训练性能提升2%-5% • 摆脱网卡AR技术绑定，引入低成本网卡 512卡 llamma测试， ECN明显减少业务千卡训练优化5.3%

16. • 交换机支持1s监控 • 多项采集数据 • 流量/队列/PFC/ECN/丢包/缓存等 250ms监控 • 端侧支持10ms 监控 10ms监控

17. • 自研交换机PingMesh能力，覆盖网络全部路径 • 将传统的服务器PingMesh能力，移植到交换机上 • 实现了100%可信(无噪点)、秒级感知、1分钟定位（网络质量完成自证）丢包1/10万

18. 性能优化 • • • NCCL All Reduce：BUFFSIZE参数优化可以显著提升长距吞吐网络拥塞：定制LBN等特性彻底解除网络拥塞，提升集合通信性能框架切分：设计实验证明将DP切分至长距离链路可达最优性能实验局组网 GAJL实验局组网： • GPU服务器 • DCN TH5交换机 • DCI J2C+大buffer交换机 • 城域DWDM光传输系统 • 10-100km距离可切换光纤 • 10km空芯光纤（提升 30%NCCL性能）万卡长距离实战 • 完整模型训练空芯光纤普通光纤空芯光纤普通光纤训练： • 长距仅承载DP流量 • Minibatch size = 16 • 开启DP overlap • 在增大BUFFSIZE 下，100km的性能损失可以降低至3.12%. 百度厂内（ 25Q1 ）成功部署万卡，40km的双机房方案，并稳定运行

19. NCF 1 2 … 3 DDC 机房内无拥塞信元转发 NCP 1 J3AI+ 20 2 3 4 … 127 128 GPU GPU • 摆脱网卡依赖（Adaptive Routing） • 提供HPN第二解决方案 • 探索DDC实现跨AZ RDMA ，全局无拥塞方案 DDC 机房内无拥塞 J3AI GPU GPU • 解决GPU卡混布 J3AI+ 80km 全局无拥塞 J3AI GPU IP转发 J3AI+ 3.2T无拥塞 Deepbuff J3AI+ DDC GPU

20. HPN网络 1 2 … 1 3 4 5 N 6 7 8 ... GPU GPU ... GPU Prefill Prefill TOR 13 14 15 16 • GPU ... GPU • Decod 100G/200G VPC网络 ... AlltoAll AlltoAll / 同号卡 GPU 针对DeepSeek引入的MoE、PD分离等新型分布式架构对网络基础设施提出的革命性要求，我们通过系统性网络拓扑重构与协议优化，实施了多个维度的关键性技术升级： • TOR LE1 TOR … LE8 TOR 流量差异化管理 • 针对DeepSeek，alltoall流量与训练流量网络分队列管理，提升alltoall流量的通信性能 • 针对DeepSeek优化RDMA参数ECN/PFC 时延优化 • 定制严格的建设标准 • 服务器-交换机 Max 40米 • 交换机-交换机 Max 100米 DP分离场景下的亲和性调度 • 针对不同的Decod、 Prefill结合网络制定专属的亲和性策略 • D<-->P走DCN网络，极致挤压网络性能， DCN支持收敛比1:1

21.

22. 大模型正在重新定义软件 Large Language Model Is Redefining The Software