网络驱动大规模 AI 训练 - 阿里云可预期网络 HPN 7.0 架构

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 网络驱动大规模 AI 训练 阿里云可预期网络 HPN 7.0 架构 阿里云 资深网络架构师 席永青
2.
3. 席永青 阿里云 资深网络架构师,数据中心架构负责人 团队负责阿里云高性能数据中心网络系统的整体架构设计和发展规划 主导阿里云AI智算网络HPN7.0架构的设计和落地
4. 阿里云可预期网络HPN7.0架构 Ø 高性能网络系统进入可预期时代 Ø GPU集群对网络的关键要求 Ø 阿里云 HPN 7.0 架构 Ø GPU centric 高性能网络系统未来展望
5. 阿里云可预期网络HPN7.0架构 Ø 高性能网络系统进入可预期时代 Ø GPU集群对网络的关键要求 Ø 阿里云 HPN 7.0 架构 Ø GPU centric 高性能网络系统未来展望
6. AI 计算重新定义数据中心网络架构 from CPU centric to GPU centric 网络性能进入可预期时代:From Best-effort to the Predictable Network 第一个10年 经典网络 信息化,传统 IT  互联互通 网络以协议为中心 设备黑盒,人肉运维 IETF 定义互联标准 第二个10年 SDN 软件定义网络 Now:AI Infrastructure AI 计算定义网络 互联网应用 超大规模 & 弹性 AI 大模型  大算力  可预期性能 互联网应用重新定义网络系统 AI 计算重新定义数据中心架构 软件定义网络 (SDN) 设备白盒解耦,运维自动化, SONiC 为代表的网络开源生态 高性能智算网络 端网融合,计算/存储和网络协同 生态:开放解耦与闭环并存
7. 集群算力的关键要素 规模扩展的高性能 持续可靠的稳定性
8. 网络是算力SCALE OUT的核心 计算 理论 实际 网络性能即算力 100% 通信 通信 同步 80% 60% GPU0 Load Data Forward backward Update GPU1 Load Data Forward backward Update GPU2 Load Data Forward backward GPU3 Load Data Forward backward average Grad Update Update 40% 20 0% 128 1024 4096 10240
9. 阿里云可预期网络HPN7.0架构 Ø 高性能网络系统进入可预期时代 Ø GPU集群对网络的关键要求 Ø 阿里云 HPN 7.0 架构 Ø GPU centric 高性能网络系统未来展望
10. 传统网络集群设计不再适用AI计算 互联拓扑差异大 传统通用计算集群 PSW AI 大模型训练集群 PSW ASW ASW N N N N PCIe PCIe PCIe PCIe CPU CPU CPU CPU 单网卡,无内部互联 单机带宽200G 东西向+南北向流量,长短RTT 单机多网卡,机内8卡高速互联 单机带宽3.2T GPU direct RDMA,超短RTT
11. 传统网络集群设计不再适用AI计算 流量模型的网络诉求差异大 传统通用计算集群 AI 大模型训练集群 成本、性能、稳定性、弹性扩展 持续稳定的性能 计算Service 计算 Client 存储 通信 同步 提供计算存储服务的通用计算,相对持续稳定的流量 最优的性价比与扩展性 提供模型训练的AI计算,高突发、高并发的流量 提升训练效率,缩短训练时间, 加速业务迭代
12. 传统网络集群设计不再适用AI计算 连接数差异大 传统通用计算集群 100k级别连接 AI 大模型训练集群 60+级别连接数
13. AI集群高性能网络系统关键要求 3 监控运营系统 监控/问题定位/资源编排 交通管理 1 APP 网络协议/CC 2 车 端到端传输 网卡/协议/CC 路 A A HPN集群架构 交换机/拓扑架构/路由HASH P P … P P D D D … D D D APP P P … P P A A 网络协议/CC
14. AI集群高性能网络系统关键要求 DMA、0拷贝,协议栈带宽和时延 A A A A 单流e2e数据传输效率 D D P … D P D … D P D P P P … P P A A incast流控快速适应 多打一的高效带宽利用 D D P … D P D … D P D P P P … P P A A A A A A 网络HASH的均匀性 少量大流在网络链路上的负载均匀性 D D D P P … P P D … … P D P P D P A A A A s pl a cros pl a ne1 1 2 3 … ne 60 适合的集群物理架构 带宽、规模、千卡、万卡层级,计算存储 ne2 pl a 1 1 1 G === G A A 2 G 2 === 3 … D 60 P 2 G A … … A … D P A A
15. 阿里云可预期网络HPN7.0架构 Ø 高性能网络系统进入可预期时代 Ø GPU集群对网络的关键要求 Ø 阿里云 HPN 7.0 架构 Ø GPU centric 高性能网络系统未来展望
16. AI 计算网络集群架构演进 Infra网络演进,from CPU-centric to GPU-centric 未来 AI Infra 网络集群 Scale up / Scale out 液冷, 100k+ N*800G N*1.6T AI智算集群 ASW ASW 400G G1 1.6T 400G G2 1.6T 8*100G 2*10G 2*25G 2*50G AS W AS W G3 1.6T 400G G4 ASW … 400G 400G G5 1.6T 1.6T NVLink G6 1.6T ASW 400G G7 1.6T ASW 400G G8 1.6T 机内GPU间高速互联 8*400G 单机单网卡,最大2*100G网络带宽 … AS W 400G ASW 2*100G … AS W … 单机多网卡,3.2T及以上网络带宽 AS W AS W AS W AS W NI C NI C NI C NI C PCIe PCIe PCIe PCIe CP U CP U CP U CP U 传统通用计算集群
17. 阿里云HPN7.0 – 为AI设计的高性能网络架构 全球首个基于 51.2T Ethernet 交换芯片的高性能 GPU 互联集群 多轨+双平面网络拓扑,单层千卡 Segment,两层万卡,存算分离/10万+级规模超大集群 Back-end GPU 互联网络 c p e1 n a l 1 2 lane p s ros 3 N … p e2 n a l 2 1 3 … A === 1 === G … D N P … P A … A D 2 1 G Front-end 存储+VPC 网络 2 A G G Back-end GPU互联网络 • 3.2T带宽 • 单层千卡,两层万卡 Front-end 存储+VPC网络 • 400G RDMA 存储 • 可用区共享存储 400G RoCEv2 RDMA,自研 HPCC 流控 自研 ACCL 通信库, 全局协同/拓扑感知
18. 阿里云HPN7.0 – 为AI设计的高性能网络架构 为大模型极致性能设计的HPN7.0架构 Tier2 万卡GPU,双平面 Tier1 千卡GPU,多轨+双上联 …… ….. Tier1 千卡GPU,多轨+双上联 …… Data 模型视角 GPU集群视角
19. 阿里云HPN7.0 – 为AI设计的高性能网络架构 10.63% 6.23% 集合通信提升最高超 1倍 模型训练性能提升 10% HPN7.0被SIGCOMM24收录 AI网络集群架构领域的首篇顶会论文 架构设计细节将会在论文中详述
20. 阿里云HPN7.0 – 为AI设计的高性能网络架构 RSC RSM 极简设计的硬件系统,模块化架构标准UNP • 128x 400G ,QSFP112 MSA • PHYless设计,极致时延 • 支持LPO光模块,极致能耗 • S 3 IP OCM/BMC/Fans/机箱等标准模组 • 快速使能multi-source,TTM • 开放生态,轻松演进
21. 阿里云可预期网络HPN7.0架构 Ø 高性能网络系统进入可预期时代 Ø GPU集群对网络的关键要求 Ø 阿里云 HPN 7.0 架构 Ø GPU centric 高性能网络系统未来展望
22. AI基础设施网络架构 未来展望 AI 计算驱动云基础设施架构变革 From CPU-centric to GPU-centric GPU 高功耗驱动 IDC 基础设施变革(风冷到液冷) 服务器形态从 单机  单机多卡  Rack级多卡 新型物理网络拓扑/端网融合架构:GPU 多卡互联的 scale-up网络(如NV switch)和 数据中心 scale-out 网络(如 RDMA)协同设计 AI 并行计算对网络高性能的需求驱动 高性能网络协议演进
23. AI基础设施网络架构 未来展望 DC infra,from CPU-centric to GPU-centric CPU-centric 独立服务器部署,网络连接 Scale Out 以太网交换机 GPU-centric Rack 级优化 Scale Up,高性能网络连接 Scale Out 高性能网络交换机 CPU 服务器 GPU Scale-Out 传统网络 CPU 服务器 CPU 服务器 Scale-Out 高性能网络 GPU GPU GPU 。。。 CPU 服务器 风冷 典型 20KW 16~24 独立服务器 CPU inner X Switch/... 液冷 典型 > 50KW AI Rack Scale-Up 内部互联
24. AI基础设施网络架构 未来展望 GPU SRAM GPU HBM GPU SRAM GPU HBM GPU SRAM GPU HBM Host Memory CPU DRAM Host Memory CPU DRAM in-box scale up Host Memory CPU DRAM Data / ckpt Memory / SSD in-box scale up GPU SRAM GPU HBM Host Memory CPU DRAM … Data / ckpt Memory / SSD GPU direct RDMA Ethernet scale out ckpt storage RDMA Ethernet scale out CPFS scale up + scale out 网络, 融合设计 规模,拓扑 通信框架 容错设计 电力和物理布局
25. AI基础设施网络架构 未来展望 10w+算力级别的网络集群,100T网络交换芯,新型网络硬件系统
26.
27.

Home - Wiki
Copyright © 2011-2024 iteam. Current version is 2.138.0. UTC+08:00, 2024-12-22 09:19
浙ICP备14020137号-1 $Map of visitor$