网络驱动大规模 AI 训练 - 阿里云可预期网络 HPN 7.0 架构
如果无法正常显示,请先停止浏览器的去广告插件。
1. 网络驱动大规模 AI 训练
阿里云可预期网络 HPN 7.0 架构
阿里云 资深网络架构师 席永青
2.
3. 席永青
阿里云 资深网络架构师,数据中心架构负责人
团队负责阿里云高性能数据中心网络系统的整体架构设计和发展规划
主导阿里云AI智算网络HPN7.0架构的设计和落地
4. 阿里云可预期网络HPN7.0架构
Ø 高性能网络系统进入可预期时代
Ø GPU集群对网络的关键要求
Ø 阿里云 HPN 7.0 架构
Ø GPU centric 高性能网络系统未来展望
5. 阿里云可预期网络HPN7.0架构
Ø 高性能网络系统进入可预期时代
Ø GPU集群对网络的关键要求
Ø 阿里云 HPN 7.0 架构
Ø GPU centric 高性能网络系统未来展望
6. AI 计算重新定义数据中心网络架构
from CPU centric to GPU centric
网络性能进入可预期时代:From Best-effort to the Predictable Network
第一个10年
经典网络
信息化,传统 IT 互联互通
网络以协议为中心
设备黑盒,人肉运维
IETF 定义互联标准
第二个10年
SDN 软件定义网络
Now:AI Infrastructure
AI 计算定义网络
互联网应用 超大规模 & 弹性 AI 大模型 大算力 可预期性能
互联网应用重新定义网络系统 AI 计算重新定义数据中心架构
软件定义网络 (SDN)
设备白盒解耦,运维自动化,
SONiC 为代表的网络开源生态 高性能智算网络
端网融合,计算/存储和网络协同
生态:开放解耦与闭环并存
7. 集群算力的关键要素
规模扩展的高性能
持续可靠的稳定性
8. 网络是算力SCALE OUT的核心
计算
理论
实际
网络性能即算力
100%
通信
通信
同步
80%
60%
GPU0 Load Data Forward backward Update
GPU1 Load Data Forward backward Update
GPU2 Load Data Forward backward GPU3 Load Data Forward backward
average
Grad
Update
Update
40%
20
0%
128
1024
4096
10240
9. 阿里云可预期网络HPN7.0架构
Ø 高性能网络系统进入可预期时代
Ø GPU集群对网络的关键要求
Ø 阿里云 HPN 7.0 架构
Ø GPU centric 高性能网络系统未来展望
10. 传统网络集群设计不再适用AI计算
互联拓扑差异大
传统通用计算集群
PSW
AI 大模型训练集群
PSW
ASW
ASW
N N N N
PCIe PCIe PCIe PCIe
CPU CPU CPU CPU
单网卡,无内部互联
单机带宽200G
东西向+南北向流量,长短RTT
单机多网卡,机内8卡高速互联
单机带宽3.2T
GPU direct RDMA,超短RTT
11. 传统网络集群设计不再适用AI计算
流量模型的网络诉求差异大
传统通用计算集群 AI 大模型训练集群
成本、性能、稳定性、弹性扩展 持续稳定的性能
计算Service
计算
Client
存储
通信
同步
提供计算存储服务的通用计算,相对持续稳定的流量
最优的性价比与扩展性
提供模型训练的AI计算,高突发、高并发的流量
提升训练效率,缩短训练时间,
加速业务迭代
12. 传统网络集群设计不再适用AI计算
连接数差异大
传统通用计算集群
100k级别连接
AI 大模型训练集群
60+级别连接数
13. AI集群高性能网络系统关键要求
3
监控运营系统
监控/问题定位/资源编排
交通管理
1
APP
网络协议/CC
2
车
端到端传输
网卡/协议/CC
路
A
A
HPN集群架构
交换机/拓扑架构/路由HASH
P
P
…
P
P
D
D
D
…
D
D
D
APP
P
P
…
P
P
A
A
网络协议/CC
14. AI集群高性能网络系统关键要求
DMA、0拷贝,协议栈带宽和时延
A
A
A
A
单流e2e数据传输效率
D
D
P
… D
P
D
…
D
P
D
P
P
P
…
P
P
A
A
incast流控快速适应
多打一的高效带宽利用
D
D
P
… D
P
D
…
D
P
D
P
P
P
…
P
P
A
A
A
A
A
A
网络HASH的均匀性
少量大流在网络链路上的负载均匀性
D
D
D
P
P
…
P
P
D
…
…
P
D
P
P
D
P
A
A
A
A
s pl a
cros
pl a
ne1
1
2
3
…
ne
60
适合的集群物理架构
带宽、规模、千卡、万卡层级,计算存储
ne2
pl a
1
1
1
G
===
G
A
A
2
G
2
===
3
…
D
60
P
2
G
A
…
…
A
…
D
P
A
A
15. 阿里云可预期网络HPN7.0架构
Ø 高性能网络系统进入可预期时代
Ø GPU集群对网络的关键要求
Ø 阿里云 HPN 7.0 架构
Ø GPU centric 高性能网络系统未来展望
16. AI 计算网络集群架构演进
Infra网络演进,from CPU-centric to GPU-centric
未来 AI Infra 网络集群
Scale up / Scale out
液冷, 100k+
N*800G
N*1.6T
AI智算集群
ASW
ASW
400G
G1
1.6T
400G
G2
1.6T
8*100G
2*10G
2*25G
2*50G
AS
W
AS
W
G3
1.6T
400G
G4
ASW …
400G 400G
G5
1.6T
1.6T
NVLink
G6
1.6T
ASW
400G
G7
1.6T
ASW
400G
G8
1.6T
机内GPU间高速互联
8*400G
单机单网卡,最大2*100G网络带宽
…
AS
W
400G
ASW
2*100G
…
AS
W
…
单机多网卡,3.2T及以上网络带宽
AS
W
AS
W
AS
W
AS
W
NI
C NI
C NI
C NI
C
PCIe PCIe PCIe PCIe
CP
U CP
U CP
U CP
U
传统通用计算集群
17. 阿里云HPN7.0 – 为AI设计的高性能网络架构
全球首个基于 51.2T Ethernet 交换芯片的高性能 GPU 互联集群
多轨+双平面网络拓扑,单层千卡 Segment,两层万卡,存算分离/10万+级规模超大集群
Back-end GPU 互联网络
c
p
e1
n
a
l
1
2
lane
p
s
ros
3
N
…
p
e2
n
a
l
2
1
3
…
A
===
1
===
G
…
D
N
P … P
A … A
D
2
1
G
Front-end 存储+VPC 网络
2
A
G
G
Back-end GPU互联网络
• 3.2T带宽
• 单层千卡,两层万卡
Front-end 存储+VPC网络
• 400G RDMA 存储
• 可用区共享存储
400G RoCEv2 RDMA,自研 HPCC 流控
自研 ACCL 通信库, 全局协同/拓扑感知
18. 阿里云HPN7.0 – 为AI设计的高性能网络架构
为大模型极致性能设计的HPN7.0架构
Tier2 万卡GPU,双平面
Tier1 千卡GPU,多轨+双上联
……
…..
Tier1 千卡GPU,多轨+双上联
……
Data
模型视角
GPU集群视角
19. 阿里云HPN7.0 – 为AI设计的高性能网络架构
10.63%
6.23%
集合通信提升最高超 1倍 模型训练性能提升 10%
HPN7.0被SIGCOMM24收录
AI网络集群架构领域的首篇顶会论文
架构设计细节将会在论文中详述
20. 阿里云HPN7.0 – 为AI设计的高性能网络架构
RSC
RSM
极简设计的硬件系统,模块化架构标准UNP
• 128x 400G ,QSFP112 MSA
• PHYless设计,极致时延
• 支持LPO光模块,极致能耗
• S 3 IP OCM/BMC/Fans/机箱等标准模组
• 快速使能multi-source,TTM
• 开放生态,轻松演进
21. 阿里云可预期网络HPN7.0架构
Ø 高性能网络系统进入可预期时代
Ø GPU集群对网络的关键要求
Ø 阿里云 HPN 7.0 架构
Ø GPU centric 高性能网络系统未来展望
22. AI基础设施网络架构 未来展望
AI 计算驱动云基础设施架构变革
From CPU-centric to GPU-centric
GPU 高功耗驱动 IDC 基础设施变革(风冷到液冷)
服务器形态从 单机 单机多卡 Rack级多卡
新型物理网络拓扑/端网融合架构:GPU 多卡互联的 scale-up网络(如NV switch)和 数据中心
scale-out 网络(如 RDMA)协同设计
AI 并行计算对网络高性能的需求驱动 高性能网络协议演进
23. AI基础设施网络架构 未来展望
DC infra,from CPU-centric to GPU-centric
CPU-centric
独立服务器部署,网络连接 Scale Out
以太网交换机
GPU-centric
Rack 级优化 Scale Up,高性能网络连接 Scale
Out
高性能网络交换机
CPU 服务器
GPU
Scale-Out
传统网络
CPU 服务器
CPU 服务器
Scale-Out
高性能网络
GPU
GPU
GPU
。。。
CPU 服务器
风冷
典型 20KW
16~24 独立服务器
CPU
inner X Switch/...
液冷
典型 > 50KW
AI Rack
Scale-Up
内部互联
24. AI基础设施网络架构 未来展望
GPU
SRAM
GPU
HBM
GPU
SRAM
GPU
HBM GPU
SRAM
GPU
HBM
Host Memory
CPU DRAM Host Memory
CPU DRAM
in-box
scale up
Host Memory
CPU DRAM
Data / ckpt
Memory / SSD
in-box
scale up
GPU
SRAM
GPU
HBM
Host Memory
CPU DRAM
…
Data / ckpt
Memory / SSD
GPU direct RDMA
Ethernet scale out
ckpt storage RDMA
Ethernet scale out
CPFS
scale up + scale out 网络, 融合设计
规模,拓扑
通信框架
容错设计
电力和物理布局
25. AI基础设施网络架构 未来展望
10w+算力级别的网络集群,100T网络交换芯,新型网络硬件系统
26.
27.