百度AI网络的架构创新与优化之路

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 李虎
2. 目录
3.
4. 演进方向 • 超大规模 • 超大算力 • 超大带宽 xAI-10万卡 2024.7 META-2.4万卡*2 2024.4 ChatGpt-1万卡 2022.11 2024 交付10万卡+ 单集群最大3.2万 2023.3.16 文心一言发布,万卡-ROCE集群 2021年底 交付 万卡-IB集群 2025-2026 国内十万卡
5. 集群规模 训练性能 • 3.2T超高带宽接入(8*400G) • 单集群支持10万卡+ • 支持跨AZ RDMA • 自适应路由,全局无损网络, 零拥塞 • 多导轨架构 稳定性 • 交换机PingMesh,获取AI 集群的真实网络质量 • 超高精度Telemetry, 10ms采集精度
6. 拓扑3:分POD方案 拓扑1:LE层分导轨方案 SP LE LE … SP LE SP LE SP LE LE LE LE … 拓扑2:双平面方案 1 2 3 n … GPU POD-1-4096卡 64 1 2 3 n … GPU POD-n-4096卡 64
7. SP SP … SP SP 单集群最大规模:10万卡+ • 多导轨方案 LE LE LE LE LE LE LE LE • 4096卡,AlltoAll通信控制2层网络内,适 … 1 2 3 4 … 64 • 512卡,同号卡单跳通信 用MOE场景 1 2 3 4 … 64 全自研交换机(12.8T/25.6T/51.2T) • H800,单端口400G 交换机128*400G GPU GPU
8. • 极致性能 • 超高稳定性 • 秒级监控 / 1 分钟故障止损 102T交换机上线 128*800G
9. 64*100G 64*400G 25.6T 25.6T 25.6T 25.6T 64*400G 64*800G 51.2T 2024Q1 102T 2025年H2 64*400G 128*400G 12.8T 64*100G 新一代芯片红利 • 成本 • 电力/机柜 • 性能 64*400G 8K*400G 规模 25.6T 51.2T 640台 192台 32,768 400G光模块 16,384 400G光模块
10. HPN网络架构感知GPU服务器节点所在的UnitID 同一任务优先调度至相同UnitID的节点 任务内各节点按照UnitID进行排序 感知网络拓扑/调度原则: 同TOR -->同POD -->同集群
11. Adaptive Routing ECMP 1 2 3 … 控制器方案 N 1 2 3 … DDC Disaggregated Distributed Chassis 1 N flow 1 2 3 … 2 3 … N N Pkt1 Pkt2 Pkt3 Pkt4 1 N 1 N 1 N 1 N GPU GPU GPU GPU GPU GPU GPU GPU ECMP方案,传统方案 • 可基于ECMP hash因子做优化 逐包转发,依赖网卡AR能力 逐流转发,hash到某一条链路 逐流信元转发,交换机重装
12. AR和ECMP对比 all_reduce all_gather AR 传统ECMP方案 拥塞问题难以解决 broadcast ECMP 1QP reduce reduce_scatter ECMP 8QP Adaptive Routing 相比于ECMP-8QP最大提升20% 百度厂内2023年已默认部署
13. 1 2 3 … N flow 开启AR前 Pkt1 Pkt2 Pkt3 1 N Pkt4 ECMP GPU1 GPU2 逐流转发,hash到某一条链路 1 2 3 … N 开启AR后 乱序 1 GPU1 N Adaptive Routing GPU2 逐包hash,将某一条流,各个包hash 到不同的链路,网卡侧做乱序重组
14.
15. 项目背景: • 网卡不支持AR功能 • 解决HPN无法部署AR时,网络hash 冲突问题 项目收益: • 集群训练性能提升2%-5% • 摆脱网卡AR技术绑定,引入低成本网卡 512卡 llamma测试, ECN明显减少 业务千卡训练优化5.3%
16. • 交换机支持1s监控 • 多项采集数据 • 流量/队列/PFC/ECN/丢包/缓存等 250ms监控 • 端侧支持10ms 监控 10ms监控
17. • 自研交换机PingMesh能力,覆盖网络全部路径 • 将传统的服务器PingMesh能力,移植到交换机上 • 实现了100%可信(无噪点)、秒级感知、1分钟定位(网络质量完成自证) 丢包1/10万
18. 性能优化 • • • NCCL All Reduce:BUFFSIZE参数优化可以 显著提升长距吞吐 网络拥塞:定制LBN等特性彻底解除网络拥 塞,提升集合通信性能 框架切分:设计实验证明将DP切分至长距 离链路可达最优性能 实验局组网 GAJL实验局组网: • GPU服务器 • DCN TH5交换机 • DCI J2C+大buffer交换机 • 城域DWDM光传输系统 • 10-100km距离可切换光纤 • 10km空芯光纤(提升 30%NCCL性能) 万卡长距离实战 • 完整模型训练 空芯光纤 普通光纤 空芯光纤 普通光纤 训练: • 长距仅承载DP流量 • Minibatch size = 16 • 开启DP overlap • 在增大BUFFSIZE 下,100km的性能损 失可以降低至3.12%. 百度厂内( 25Q1 )成功部署 万卡,40km的双机房方案,并 稳定运行
19. NCF 1 2 … 3 DDC 机房内无拥塞 信元转发 NCP 1 J3AI+ 20 2 3 4 … 127 128 GPU GPU • 摆脱网卡依赖(Adaptive Routing) • 提供HPN第二解决方案 • 探索DDC实现跨AZ RDMA ,全局无拥塞方案 DDC 机房内无拥塞 J3AI GPU GPU • 解决GPU卡混布 J3AI+ 80km 全局无拥塞 J3AI GPU IP转发 J3AI+ 3.2T无拥塞 Deepbuff J3AI+ DDC GPU
20. HPN网络 1 2 … 1 3 4 5 N 6 7 8 ... GPU GPU ... GPU Prefill Prefill TOR 13 14 15 16 • GPU ... GPU • Decod 100G/200G VPC网络 ... AlltoAll AlltoAll / 同号卡 GPU 针对DeepSeek引入的MoE、PD分离等新型分布式 架构对网络基础设施提出的革命性要求,我们通过 系统性网络拓扑重构与协议优化,实施了多个维度 的关键性技术升级: • TOR LE1 TOR … LE8 TOR 流量差异化管理 • 针对DeepSeek,alltoall流量与训练流量网络 分队列管理,提升alltoall流量的通信性能 • 针对DeepSeek优化RDMA参数ECN/PFC 时延优化 • 定制严格的建设标准 • 服务器-交换机 Max 40米 • 交换机-交换机 Max 100米 DP分离场景下的亲和性调度 • 针对不同的Decod、 Prefill结合网络制定专属 的亲和性策略 • D<-->P走DCN网络,极致挤压网络性能, DCN支持收敛比1:1
21.
22. 大模型正在重新定义软件 Large Language Model Is Redefining The Software

首页 - Wiki
Copyright © 2011-2025 iteam. Current version is 2.147.0. UTC+08:00, 2025-10-28 22:47
浙ICP备14020137号-1 $访客地图$