网络驱动大规模 AI 训练 - 阿里云可预期网络 HPN 7.0 架构

如果无法正常显示，请先停止浏览器的去广告插件。

相关话题： #阿里巴巴

1. 网络驱动大规模 AI 训练阿里云可预期网络 HPN 7.0 架构阿里云资深网络架构师席永青

3. 席永青阿里云资深网络架构师，数据中心架构负责人团队负责阿里云高性能数据中心网络系统的整体架构设计和发展规划主导阿里云AI智算网络HPN7.0架构的设计和落地

4. 阿里云可预期网络HPN7.0架构 Ø 高性能网络系统进入可预期时代 Ø GPU集群对网络的关键要求 Ø 阿里云 HPN 7.0 架构 Ø GPU centric 高性能网络系统未来展望

5. 阿里云可预期网络HPN7.0架构 Ø 高性能网络系统进入可预期时代 Ø GPU集群对网络的关键要求 Ø 阿里云 HPN 7.0 架构 Ø GPU centric 高性能网络系统未来展望

6. AI 计算重新定义数据中心网络架构 from CPU centric to GPU centric 网络性能进入可预期时代：From Best-effort to the Predictable Network 第一个10年经典网络信息化，传统 IT  互联互通网络以协议为中心设备黑盒，人肉运维 IETF 定义互联标准第二个10年 SDN 软件定义网络 Now：AI Infrastructure AI 计算定义网络互联网应用 超大规模 & 弹性 AI 大模型  大算力  可预期性能互联网应用重新定义网络系统 AI 计算重新定义数据中心架构软件定义网络（SDN）设备白盒解耦，运维自动化， SONiC 为代表的网络开源生态高性能智算网络端网融合，计算/存储和网络协同生态：开放解耦与闭环并存

7. 集群算力的关键要素规模扩展的高性能持续可靠的稳定性

8. 网络是算力SCALE OUT的核心计算理论实际网络性能即算力 100% 通信通信同步 80% 60% GPU0 Load Data Forward backward Update GPU1 Load Data Forward backward Update GPU2 Load Data Forward backward GPU3 Load Data Forward backward average Grad Update Update 40% 20 0% 128 1024 4096 10240

9. 阿里云可预期网络HPN7.0架构 Ø 高性能网络系统进入可预期时代 Ø GPU集群对网络的关键要求 Ø 阿里云 HPN 7.0 架构 Ø GPU centric 高性能网络系统未来展望

10. 传统网络集群设计不再适用AI计算互联拓扑差异大传统通用计算集群 PSW AI 大模型训练集群 PSW ASW ASW N N N N PCIe PCIe PCIe PCIe CPU CPU CPU CPU 单网卡，无内部互联单机带宽200G 东西向+南北向流量，长短RTT 单机多网卡，机内8卡高速互联单机带宽3.2T GPU direct RDMA，超短RTT

11. 传统网络集群设计不再适用AI计算流量模型的网络诉求差异大传统通用计算集群 AI 大模型训练集群成本、性能、稳定性、弹性扩展持续稳定的性能计算Service 计算 Client 存储通信同步提供计算存储服务的通用计算，相对持续稳定的流量最优的性价比与扩展性提供模型训练的AI计算，高突发、高并发的流量提升训练效率，缩短训练时间，加速业务迭代

12. 传统网络集群设计不再适用AI计算连接数差异大传统通用计算集群 100k级别连接 AI 大模型训练集群 60+级别连接数

13. AI集群高性能网络系统关键要求 3 监控运营系统监控/问题定位/资源编排交通管理 1 APP 网络协议/CC 2 车端到端传输网卡/协议/CC 路 A A HPN集群架构交换机/拓扑架构/路由HASH P P … P P D D D … D D D APP P P … P P A A 网络协议/CC

14. AI集群高性能网络系统关键要求 DMA、0拷贝，协议栈带宽和时延 A A A A 单流e2e数据传输效率 D D P … D P D … D P D P P P … P P A A incast流控快速适应多打一的高效带宽利用 D D P … D P D … D P D P P P … P P A A A A A A 网络HASH的均匀性少量大流在网络链路上的负载均匀性 D D D P P … P P D … … P D P P D P A A A A s pl a cros pl a ne1 1 2 3 … ne 60 适合的集群物理架构带宽、规模、千卡、万卡层级，计算存储 ne2 pl a 1 1 1 G === G A A 2 G 2 === 3 … D 60 P 2 G A … … A … D P A A

15. 阿里云可预期网络HPN7.0架构 Ø 高性能网络系统进入可预期时代 Ø GPU集群对网络的关键要求 Ø 阿里云 HPN 7.0 架构 Ø GPU centric 高性能网络系统未来展望

16. AI 计算网络集群架构演进 Infra网络演进，from CPU-centric to GPU-centric 未来 AI Infra 网络集群 Scale up / Scale out 液冷， 100k+ N*800G N*1.6T AI智算集群 ASW ASW 400G G1 1.6T 400G G2 1.6T 8*100G 2*10G 2*25G 2*50G AS W AS W G3 1.6T 400G G4 ASW … 400G 400G G5 1.6T 1.6T NVLink G6 1.6T ASW 400G G7 1.6T ASW 400G G8 1.6T 机内GPU间高速互联 8*400G 单机单网卡，最大2*100G网络带宽 … AS W 400G ASW 2*100G … AS W … 单机多网卡，3.2T及以上网络带宽 AS W AS W AS W AS W NI C NI C NI C NI C PCIe PCIe PCIe PCIe CP U CP U CP U CP U 传统通用计算集群

17. 阿里云HPN7.0 – 为AI设计的高性能网络架构全球首个基于 51.2T Ethernet 交换芯片的高性能 GPU 互联集群多轨+双平面网络拓扑，单层千卡 Segment，两层万卡，存算分离/10万+级规模超大集群 Back-end GPU 互联网络 c p e1 n a l 1 2 lane p s ros 3 N … p e2 n a l 2 1 3 … A === 1 === G … D N P … P A … A D 2 1 G Front-end 存储+VPC 网络 2 A G G Back-end GPU互联网络 • 3.2T带宽 • 单层千卡，两层万卡 Front-end 存储+VPC网络 • 400G RDMA 存储 • 可用区共享存储 400G RoCEv2 RDMA，自研 HPCC 流控自研 ACCL 通信库，全局协同/拓扑感知

18. 阿里云HPN7.0 – 为AI设计的高性能网络架构为大模型极致性能设计的HPN7.0架构 Tier2 万卡GPU，双平面 Tier1 千卡GPU，多轨+双上联 …… ….. Tier1 千卡GPU，多轨+双上联 …… Data 模型视角 GPU集群视角

19. 阿里云HPN7.0 – 为AI设计的高性能网络架构 10.63% 6.23% 集合通信提升最高超 1倍模型训练性能提升 10% HPN7.0被SIGCOMM24收录 AI网络集群架构领域的首篇顶会论文架构设计细节将会在论文中详述

20. 阿里云HPN7.0 – 为AI设计的高性能网络架构 RSC RSM 极简设计的硬件系统，模块化架构标准UNP • 128x 400G ，QSFP112 MSA • PHYless设计，极致时延 • 支持LPO光模块，极致能耗 • S 3 IP OCM/BMC/Fans/机箱等标准模组 • 快速使能multi-source，TTM • 开放生态，轻松演进

21. 阿里云可预期网络HPN7.0架构 Ø 高性能网络系统进入可预期时代 Ø GPU集群对网络的关键要求 Ø 阿里云 HPN 7.0 架构 Ø GPU centric 高性能网络系统未来展望

22. AI基础设施网络架构未来展望 AI 计算驱动云基础设施架构变革 From CPU-centric to GPU-centric GPU 高功耗驱动 IDC 基础设施变革（风冷到液冷）服务器形态从单机  单机多卡  Rack级多卡新型物理网络拓扑/端网融合架构：GPU 多卡互联的 scale-up网络（如NV switch）和数据中心 scale-out 网络（如 RDMA）协同设计 AI 并行计算对网络高性能的需求驱动高性能网络协议演进

23. AI基础设施网络架构未来展望 DC infra，from CPU-centric to GPU-centric CPU-centric 独立服务器部署，网络连接 Scale Out 以太网交换机 GPU-centric Rack 级优化 Scale Up，高性能网络连接 Scale Out 高性能网络交换机 CPU 服务器 GPU Scale-Out 传统网络 CPU 服务器 CPU 服务器 Scale-Out 高性能网络 GPU GPU GPU 。。。 CPU 服务器风冷典型 20KW 16~24 独立服务器 CPU inner X Switch/... 液冷典型 > 50KW AI Rack Scale-Up 内部互联

24. AI基础设施网络架构未来展望 GPU SRAM GPU HBM GPU SRAM GPU HBM GPU SRAM GPU HBM Host Memory CPU DRAM Host Memory CPU DRAM in-box scale up Host Memory CPU DRAM Data / ckpt Memory / SSD in-box scale up GPU SRAM GPU HBM Host Memory CPU DRAM … Data / ckpt Memory / SSD GPU direct RDMA Ethernet scale out ckpt storage RDMA Ethernet scale out CPFS scale up + scale out 网络，融合设计规模，拓扑通信框架容错设计电力和物理布局

25. AI基础设施网络架构未来展望 10w+算力级别的网络集群，100T网络交换芯，新型网络硬件系统

26.

27.