超节点时代的开源基础软件构建实践

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 超节点时代的开源基础软件 构建实践 胡欣蔚
2. 目录 01 什么是超节点 02 超节点基础软件的挑战 03 智算超节点的基础软件 04 通算超节点的基础软件 05 案例分享 06 未来展望
3.
4. 通用计算:需要提升资源利用率,优化或卸载IO处理,解决CPU 瓶颈 虚拟化:云厂商资源利用率普遍较低 大数据:业务负载动态变化,资源无法精准预测,导致过度分配 a) 资源未分配:平台未出售 或保留资源 b) 资源搁浅:由于服务器中 缺少其他资源而无法分配 c) 资源未充分利用:已分配 给虚拟机,但未使用 默认资源分配和实际峰值间存在巨大差距,过度配置会导致资源浪费,降低集群利用率 From:AutoToken: Predicting Peak Parallelism for Big Data Analytics at Microsoft From:Coach: Exploiting Temporal Patterns for All-Resource Oversubscription in Cloud Platforms 数据库:内存不足时数据落盘,导致SQL执行效率大幅下降 分布式存储:高速介质与高性能网络发展,CPU成为瓶颈 内存增加减少落盘,性能提升趋势 4000 3702.07 3041.99 2969.03 3000 0.25 0.22 2000 2920.41 0.27 2867.96 0.29 0.1 0 0 1G 1.5G 2G 处理时间 4G RDMA (2*100GbE) NVMe 提升Work Memory大小,减少数据落盘,复杂SQL执行性能将提升 From:开源数据库GreenPlum实测数据 能提升幅度大于CPU性能 CPU 100% 8G 性能提升比例 NVMe SSD性能 + 网络性 摩尔定律失效 CPU瓶颈 0.3 0.2 1000 0 分布式存储系统4K随机写 0.4 54.2% 提升,目前在存储系统中 CPU已成为瓶颈,预计后 续发展CPU依然是瓶颈 25.3% 存储系统瓶颈拆解 From:分布式存储软件测试数据
5. 智能计算:需要高带宽、低时延、规模组网、高可靠的互联技术 1、高带宽:训练单模型的算力规模持续指数级别增长,由于GPU/NPU 2、低时延:智能语音对话的实时交互、 慢“思考”超长Reasoning过程的低 内存容量和算力的限制,需要将训练任务切分到多卡上进行并行训练, 延迟等待要求,AI Agent应用的机-机交互场景的多任务快速响应,极致用户 这就引入了额外的并行通信,卡间通信量随着模型参数量的增加急剧增 体验正驱动推理业务向极低时延下的高吞吐性能目标演进。 长。 智能体任务执行链路需3~5次任务调用, 保障客户体验,响应速度需提升3~5倍 语音交互涵盖多段处理,模型进行推 理时延要求在5ms以下才能满足要求 Estimated Compute Model GPT-2 (2019) ~4e21 FLOP GPT-3 (2020) ~3e23 FLOP + ~2 OOMs GPT-4 (2023) 8e24 to 4e25 FLOP + ~1.5–2 OOMs AI应用 AI耳机 Growth 蓝牙 传输 从 GPT-2 到 GPT-4,训练算力增加了3000-10000倍 3、规模组网:随着AI大模型的训练任务由百亿稠密走向万亿稀疏,摸高 十万、百万亿稀疏,需要的算力从P级增长到10E级,对规模组网的诉求 也日益增长。 2022 千亿稠密 LLaMA 千亿稠密 2023 千亿稠密 LLaMA 2 千亿稠密 多模态大模 型 计) Sora 万亿稀疏 讯飞星火 3.0 Gemini 千亿稠密 1.0 ChatGLM BLOOM GPT5 (预 盘古4.0 1.8万亿稀疏 ChatGP T 网络 传输 语音解码 Prefill 语音编码 Decode 4、高可靠:由于AI训练时需要对所有计算单元的计算结果进行规约等操作, 单卡故障会影响整个整个训练集群,随着模型参数量的增长,AI集群的规模 的扩大,集群可靠性MTBF由天级降低为小时级,减小集群停机时间,提升 GPT4/4V GPT- 3 中心推理 文生视频 10万亿稀疏 Gemini 1.5 100万Token长 LLaMA 序列 文心一言 4.0 混元大模型 万亿稀疏 3 万亿稀疏 Gemini 2.0(预 计) 10万亿稀疏+多模 态 模型 OPT-175B Llama3.1- 千亿稠密 2024 运行稳定性是AI大模型训推集群普遍存在的挑战。 2025 405B 集群大小 训练总时长 MTBF 1K 60days 19.2 hours 16K 54days 2.78 hours From:OPT: Open Pre-trained Transformer Language Models, https://arxiv.org/abs/2205.01068 From:The Llama 3 Herd of Models, https://arxiv.org/abs/2407.21783
6. 高速互联的多样性对等算力构成超节点,是硬件发展的趋势  Scale out -> Scale up ➢ 传统松耦合思路导致器件更大规模和更低的性能获得 ➢ 高带宽、低时延通讯和远程内存语义形成紧耦合分布式系统,在一定规模下(1K Server, 200K core)具备更高性能 from: 《Coming of Age in the Fifth Epoch of Distributed Computing》  CPU为中心的异构计算 -> 多样性算力对等计算架构 ➢ CPU作为主控节点,承担任务调度、数据搬运和加速器协调,存在性能瓶颈,且一旦故障将 导致整系统瘫痪 ➢ 不同计算单元以对等方式协同工作,可以实现最优算力匹配,降低数据搬运开销,且去中心 化,避免单点故障  以服务器为基础的硬件系统 -> 集群+资源池化的硬件系统 ➢ 传统分布式以服务器节点为基础,带来负载不均衡、资源碎片化、算力与IO不协调带来的冗 余浪费,是影响分布式系统的关键 ➢ 单纯工艺引进带来的红利,没法被应用感知,需要打破构成算力基础4大件之间的语义及空 间隔离 from: 《Coming of Age in the Fifth Epoch of Distributed Computing》  基于总线网络的跨节点通信-> 基于内存语义的消息通信 基于内存共享的消息通信 ➢ Scale up域内跨芯片和节点通信时,传统的基于总线/网络的通信开销大,灵活性低,在时 延敏感性业务上表现不友好 ➢ 基于内存共享的消息通讯代替网络通讯,实现极低通讯时延 from: 《 TxCocket: an innovative solution for efficient cross-node data transmission enabled by CXL- based shared memory 》
7. 业界高速互联总线百家争鸣,Scale- Up 超节点已是技术热点 互联网厂商开始自研AI芯片和超节点 设备商利用自身优势,推出不同解决方案,积极应对 互联网厂商 AI芯片 Scale up协议 超节点节奏 Google 博通/MTK ICI(私有) 已商用 AWS Marvell /Alchip NeuronLinkV3 已商用 腾讯 沐曦/壁仞 设备商 英伟达 AMD Scale up 协议 协议/芯片开放 模式 超节点开放模式 NVLink 标准封闭 授权IP或Chiplet 1、提供NVL超节点 2、允许三方 GPU/CPU二选一接 入NVL系统 UAlink 标准开放 Marvell/Synopsy s提供IP 1、提供超节点 2、交换机由第三方 提供 ETH-X 未商用 博通 SUE 标准开放 1、不提供超节点, 2、提供定制ASIC和 交换芯片 华为 UB 标准开放 提供灵衢超节点, 已商用发布 阿里 平头哥 ALS(UALink) 128卡超节点 已发布 字节 自研 ETHLink(SUE) 未商用 总线变化,超节点池化和对等架构,需要系统基础软件重构发挥算力优势
8. 超节点基础软件的挑战
9. 那么代价是什么 • 爆炸半径变大 • 连接方式复杂度高 • 静默错误影响提升 1 可靠性降低 • 异构算力 • 异质内存 • 跨节点访存和通讯带宽共享,时延互相干扰 2 理论与实践的差距 • 基础软件面向超节点和传统服务器集群分 别构建 • 业务超出单一范式 3 已有业务迁移复杂
10. 基础软件面临多方面挑战 复杂应用:“单一负载”走向“多样负载异构融合” 单计算范式为主,烟囱式构建 云原生 数据库 大数据 AI 云原生 技术栈 数据库技 术栈 大数据 技术栈 AI 技术栈 多计算范式融合的新形态应用 • 大模型应用:Agent、RAG、 Compound AI • 大模型训推:RLXF、PD分离、O1 • 数智融合:大数据+AI • 函数微服务融合 • … 核心挑战 ➢ 如何精准匹配“复杂应用的多样算力需求”和“复杂超 节点的多样算力供给”? • • 应用高性能,依赖“计算/内存/带宽/时延”的调度,匹 配负载需要 池化高资源利用率,依赖“应用弹性扩缩容、统一调度, 实现硬件资源高效时空复用” ➢ 如何保障超节点应用的高可用? 复杂硬件:多样异构、大规模高速互联 异构算力对等互联 2D Mesh-Mesh 2D Star-Mesh • 故障半径变大:规模大,硬件复杂,故障半径从单节点到 超节点,需要软件层面实现高容错、高可用 ➢ 如何简化超节点应用开发运维? • • 如何降低异构多样硬件使用门槛方便应用接入 如何简化分布式应用开发部署运维 ➢ 如何使业务“零”修改,平滑迁移到超节点? • • 业务面的网络、存储以及内存分配,池化后如何保持接口 兼容并发挥性能优势 复杂的管理面软件,需要抽象形成公共软件,避免管理面 烟囱式生长
11. 超节点基础软件
12. 总体架构 高阶服务 操作系统 超节点系统软件架构 APP APP APP APP ①高阶服务层: 在业务框架层针对超 超节点系统高阶服务 系统服务 节点架构调整优化,面向业务提供新的 抽象和高阶API,充分释放架构优势 ②操作系统层: 操作系统超节点组 操作系统超节点基础组件 操作系统 (openEuler 等) 件,实现操作系统的基础架构使能, 支 撑超节点生态易用 超节点硬件资源池 ③硬件系统层: 超节点管理,实现互 Scale-Up互联总线 … 超节点管理 CPU池 CPU池 CPU池 CPU池 CPU池 XPU池 CPU池 CPU池 DPU池 CPU池 CPU池 SSU池 CPU池 CPU池 NIC池 硬件系统 连配置及设备资源管理,是实现异构对 等和资源池化的基础。
13. 高阶服务:超节点亲和的 AI 框架设计思路 总体架构 高阶服务 操作系统 把超节点看成是一台“超级计算机”,而不仅仅是互联更快的集群 硬件变化点 对等架构 超节点亲和架构 ③ 模型脚本 用户 <并行声明,集群> “超级计算机”→ 超节点 “计算 单元” NPU池 NPU0 ② … NPU1 NPU n 资源池化 “缓存” Statefull→Stateless, HBM作为缓存、池化内存作为存储 ② 并行:SPMD→MPMD 齐步走变成异步走,集合通信走向单边通信 HBM HBM0 ① AI模型:计算与状态耦合→分离 HBM1 HBMn ① 网络拓扑分层多样 ③编程:命令式→声明式 内存池 “存储器” DRAM0 DRAM1 … DRAMn 算法与并行策略解耦
14. 总体架构 高阶服务 操作系统 计算/状态管理耦合 → 分离 HBM 变为缓存,内存池为存储,提供更好的性价比和弹性 解决思路 关键挑战 ➢ 模型权重和序列长度快速增长,HBM容量成为瓶颈 1. 1200B的MoE稀疏模型,训练时权重和状态HBM开销 达到16.8TB 参 数 量 开 销 67B, 0.9TB 236B, 3.3TB 671B, 9.3TB 1200B, 16.8TB 缓存,权重、KVCache等状态全局存储在统一的DRAM内存池中 ➢ 挑战:远端存储带来的时延问题 ➢ 关键技术:计算图全局编排,通过预取隐藏传输时延 TO BE AS IS 状态分片,存储在HBM 全局状态存储在内存池,HBM作为缓存 NPU0 DS-V1 DS-V2 DS-V3 DS-R2 2. 推理时,KV Cache的HBM开销大小随序列长度线性增长 137.3GB 开 销 ➢ 思路:计算与状态分离:基于昇腾内存池化架构,将HBM作为状态 4.3GB 8.6GB 4K序列 8K序列 34.3GB 32K序列 NPU… NPU0 … HBM 状态-0 HBM 状态… HBM 状态缓存 DRAM0 NPU… UB DRAM1 HBM 状态缓存 … DRAM… 统一DRAM内存池,存储状态全局 128K序列 测试条件:DeepSeekV3,671B;BF16,BS=64, DP4EP4TP4 ➢ 预期效果:更好的性价比(相同的HBM放下更大的模型);更好的可 靠性和弹性,秒级故障恢复和伸缩;更简单的并行策略
15. 总体架构 高阶服务 操作系统 并行- SPMD → MPMD 卡间并行与卡内并行结合,发挥超节点对等架构优势 关键挑战 ➢ 多模态、MoE、强化学习等场景,模型结构多样化,当前 SPMD模式(每张卡同步执行相同任务),易出现负载不均、 资源空闲 • 多模态的不同子模型负载不同,SPMD模式叠加流水并行易出现流水线空泡 解决思路 ➢ 思路:细粒度的并行+细粒度的通信 ➢ 关键技术:ND-MPMD+基于内存语义的单边通信 • ND-MPMD:基于对等算力池进行设备分组配置,实现卡间、卡内多 核间多任务并发,提升集群算力利用率 1D PP并行 ND-MPMD 并行架构 • MoE类模型通信执行耗时长,当前通信与计算掩盖比例不足 DeepSeekV3 EP通信占比17%,掩盖比例61%,理想掩盖比例90%, 未掩盖通信执行期间Cube核算力浪费;未来随着专家数的增加,EP 通信开销挑战会更大 2D PP+子图 并行 3D PP+子图+多核 并行 当前并行配置只支持模型 在PP维度均匀切分,对多 模态及MoE类模型不友好 多模态模型涉及多种模型 结构组合,子图并行针对 不同模型结构做最适配的 并行配置 MoE模型通信耗时久、专 家模块负载差异大,多核 并行可实现细粒度通算并 发、核级负载均衡 内存语义的单边通信:细粒度单边通信消除非必要同步,内存语义 减少host-device交互,减少断流 ➢ 预期结果:集群利用率提升15% •
16. 总体架构 编程- 命令式并行 → 声明式并行 面向超节点多样分层网络拓扑,实现新算法快速适配 高阶服务 操作系统 关键挑战 解决思路 ➢ 新算法新硬件适配周期长(1~2周) 1. 大模型算法在快速发展,需要新的并行 策略优化组合 关键技术: ➢ 算法和并行策略解耦,用户仅需声明并行需求,框架根据用户声明和硬件 集群拓扑,生成昇腾亲和的并行策略 ➢ 支持动静转换,开发态选择动态图调试,生产态使用JIT加速 模型和算法 稠密Transformer DP、PP、TP、SP 稀疏MoE DP、PP、TP、SP、EP Diffusion DP、FSDP 长序列 SP、CP 强化学习 MPMD … 2. 并行策略 模型定义:支持用户自定义并行编程及声明式编程,手自一体 模块-1 模块-2 <并行声明> <手动并行> 声明式并行编程:根据集群拓扑自动生成并行策略 算子并行切分 … 插入通信算子 执行序优化 集群架构演进,并行策略需持续配套 集群架构 并行策略 单机8 DIE TP8,其他依靠PP切分 单机16 DIE 高维TP(TP16),减少PP 8k节点超平面互联 拓扑感知高维TP(TP16),减少PP 动静结合:支持动静转换,动态图调试,静态图加速 动态图 编译优化 静态图 图算融合 … 预期效果:算法快速迁移,灵活组合;并行策略调优周期天级~小时级
17. 总体架构 高阶服务 操作系统 函数分布式编程: 单机编程体验,为开发者屏蔽分布式、硬件细节 方式2:少量修改自动分布式并行 方式1:原生函数编程 (有状态) (无状态) @yr.instance @yuanrong.invoke class Bill(): def mc_simulation(spot): public JsonObject process(String request, Context context) { def __init__(self, customerName) # 省略若干行单次蒙特卡洛模拟逻辑 self.customerName = customerName return … self.totalMoney = 0 // 省略业务逻辑若干行... // 库存管理函数调用另一出库函数 “ outbound ” n = 100 // 隐藏分布式调度、注册发现、弹性、LB、RPC通信 s = … JsonObject resp = ref.get(); // 获取调用的结果 return resp; } if __name__ == "__main__": Function func = new Function(context, “outbound”); ObjectRef<JsonObject> ref = func.invoke(request); def add(self, money): # invoke快速返回异步future # for循环隐藏n次分布式并行函数调度执行 futures = [mc_simulation.invoke(s) for i in range(0, n)] self.totalMoney = self.totalMoney + mone y return self.totalMoney def get(self): return self.totalMoney # 调用"记账"应用 instance = Bill.invoke("Jimmy") # 同步阻塞获取n个并行处理结果 instance.add.invoke(1234) outputs = yuanrong.get(futures) ret = instance.get.invoke(); # 打印出1234 print(yr.get(ret))
18. 总体架构 高阶服务 操作系统 函数系统: 构建灵衢亲和的实例弹性和数据共享技术,实现极致性能和高资源利用率 • 实现应用的高效分布式运行:当前实例弹性、迁移等基于传统网络构建,时间达到秒级,无法实现超节点亲和的分布式算力的极致弹性和业务无感 • 实现超节点内实例的高密部署:单实例基于最大资源预留配置,无法按需分配资源,难以实现超节点内的高密部署,同时不影响业务运行。 关键技术 Domain Scheduler • 实例迁移 群实际资源使用视图选取合适节点,基于灵衢高带宽和 Remote-fork等 BusProxy BusProxy 实例调度 实例调度 请求分发 请求分发 超节点快速实例复制:程序运行中可动态创建新函数实例,调度器根据集 能力,函数实例(百M镜像大小)水平扩容速度从3秒提升至300ms • 内存垂直弹性:按实例实际运行情况动态调整实例内存资源配额(如容器 /JVM大小),在保证业务正常运行前提下,释放多余资源支持节点上调度 2 uRPC JVM/容器 垂直弹性 Remote-fork 1 openEuler 2 更多实例。当节点内存资源不足时通过灵衢Memorylink实现跨节点内存 互借,支持实例内存垂直扩容,避免超出单节点物理内存导致OOM 水平弹性 • 进程/函数迁移 3 借入 借出 openEuler 有状态实例自动迁移:监测各节点资源使用情况,当节点资源不足时,可 将部分有状态实例的请求保持住,通过灵衢网络快速将状态跨节点迁移并 保持实例ID不变,完成后恢复请求分发,实现业务无感 Memlink 内存互借 Page 18
19. 总体架构 高阶服务 操作系统 操作系统:异构硬件统一抽象解耦、统一内存地址空间,支持资源全局微 秒级调度、计算资源动态组合扩展、设备间高性能通信 操作系统灵衢组件:在OS在原有内存管理、 APP Virtualization Service Core DataBase UB Service Core ① 新总线设备管理 User Space Kernel Space BigData sysfs udev UB User Driver AI 3rd UB Service Core ③池化内存管理 通信、设备管理和虚拟化框架上扩展支持灵 衢,扩展的4个功能分别是: ... ④新总线通信 ① 新总线设备管理:基于bus/device/driver ②虚拟化 设备管理模型,扩展提供UB总线、UB设 glibc (memory) UBMM Lib socket UBComm Lib qemu libvirt edk2 UBPU 备管理能力,实现计算节点内UB设备热插 拔、配置。 UB Device Mgmt Pooled Memory Mgmt Device Mgmt (bus/device/driver) NUMA DMA/SVA Memory Mgmt ② 虚拟化:基于KVM、vfio框架,扩展提供 vfio-ub Connection Mgmt & Communication 总线驱动 UB Firmware HPC KVM UB设备直通虚机能力。 vfio 设备驱动 CPU Pool DPU Pool NPU Pool BIOS/Firmware SSU Pool GPU Pool ... UnifiedBus OS 现有组件 UB OS Compnent ③ 池化内存管理:基于OS已有NUMA、 DMA/SVA内存管理框架,扩展提供UB总 线域内内存语义访问能力,实现跨计算节 点跨设备内存借用、共享。 ④ 通信:提供异步通信能力,实现跨计算节 点、跨设备通信和远程调用。 Vendor Component Other component
20. 总体架构 高阶服务 操作系统 设备管理:多种总线和设备,需要软件统一抽象和管理,并兼容现有Linux生态 UB设备管理 功能设备 memory nvme 功能设备 netdev memory UNIC/UDMA/… 远端内存抽象管理 UB设备管理/设备驱动 (ub_bus_type/ub_entity/ub_driver) CXL设备管理/设备驱动 (基于PCIE管理) 设备管理 Linux设备模型 (Bus/Device/Driver) 访问硬件 初始化硬件 内存 存储 CXL ACPI/… 远端内存抽象管理 Linux设备模型 (Bus/Device/Driver) UB硬件 … 冷热内存管理 冷热内存管理 设备管理 CXL设备管理 网络 访问硬件 初始化硬件 UB硬件 CXL.io 多总线的设备、远端内存等,需要有统一抽象和管理,避免多烟囱式发展 CXL.mem ... 公共组件 总线相关实现
21. 总体架构 高阶服务 操作系统 虚拟化: 转成PCIE 设备直通虚机,虚机OS 二进制兼容,无感获取高带宽低时延收益 VM VM 1. 虚机支持Scale-Up总线模拟,实现数据面超节点设备的直通,虚机使用远端设 备池按需弹性扩展; 应用 应用 超节点Native 驱动 PCI 驱动 2. 超节点设备转成PCIE设备直通虚机,Guest OS二进制兼容不修改,并获取性能 超节点Native 设备 PCI Dev 收益 UB直通案例:新增xml接口描述UB设备 超节点设备虚拟化 数据面直通映 射 设备模拟 Native直通 PCIE转换 北向提供API+XML接口 libvirt VFIO Scale-Up总线支持 C API python API Scale-Up总线 XML libvirtd DPU … DPU SSD 设备池 … SSD 池化资源管理 管理节点 API未修改,100%兼容 扩展
22. 总体架构 高阶服务 操作系统 内存管理:实现内存池化访问和共享,超节点内内存流动提升利用率 UB参考技术方案 业务策略 超节点管理引擎 ① OBMM:支撑内存快速拆借和超节点内存共享。 管理节点 ② NUMA.remote: 远端内存公共抽象管理,通过numa 内存使用方 内存提供方 OBMM库 3 agent agent OBMM库 1 1 冷热统计 内存借入借出接口 内存借入借出接口 内存冷热管理 (SMAP) 页面迁移 用户态 用户态 内核态 内核态 1 OBMM OBMM 内存申请 预清零 数据通路 数据通路 RAS增强 RAS增强 1 UBUS 驱动 预清零 节点上下线。 ③ 内存冷热管理:通过内存冷热管理,冷页放置在远端内 存 内存拆借能力:单节点可支持借用3T+内存,提升内存利用 率。 内存共享能力:支持超节点内基于内存语义的共享,降低多 机之间内存拷贝,提高性能。 UMMU框架 1 NUMA. remote NUMA预创建 2 远端内存上下线
23. 总体架构 高阶服务 操作系统 超节点通信:提供socket 兼容、Scale - Up 网络原生支持等多种高性能方案 关键技术 UB参考技术方案 TCP UB原生 RDMA socket兼容 UB socket兼容 UB APP TCP APP URPC API Socket API user kernel TCP/IP协议栈 2 URPC远程过程调 3 URMA异步编程接口: 方式一:应用进程替换so, 用接口: ➢ 报文发送接口: ➢ client发起远程函数 urma_post_jetty_send_wr(... 应用零代码修改 1 1 URMA API 2 调用: 方式二:应用修改一行代码 Socket抽象层 SMC-R/D 1 Socket兼容方式 3 UMS RDMA URPC 2 URMA urpc_func_call(...) ➢ 下发接收任务接口: ➢ Server返回调用结 urma_post_jetty_recv_wr(...) 果: 1 urpc_func_return(...) Eth driver RDMA driver ) UB driver ➢ 获取发送和接收结果接 口: urma_poll_jfc(...) 业务价值 硬件 以太网卡 CPU 对等架构超节点 DPU SSU NPU 1、内存语义提供1us级低时延通信; 2、异步通信语义实现TB级超大带宽通信; 3、应用可基于兼容接口零修改快速上线,也可以基于UB原生接口实现极致性能;
24. 一些案例分享
25. 虚拟化:内存借用和虚机热迁移逃生通道,内存超分25% ,利用率提升20%+ • 发挥超节点低时延、语义和池化特性,IaaS层达成内存流式利用,提升基础资源利用率,内存超分25%场景,性能下降<5%; • 基于超节点低时延内存语义+资源动态调度,支持超大规格虚机(1K+vCPU/10T+内存规格),满足云上大机诉求。 基于Rack内存池和大带宽,构建动态资源调度能力,实现高可靠的内存超分方案 资源碎片率(越低越好) 节点2 节点1 VM 12 极速批量迁 移、升级 9.00 6 hypervisor 虚机迁移 虚机迁移 5.00 5.00 4 MXE Engine 内存借用 内存 调度 策略 虚机 迁移 策略 Rack内存池+大带宽 典型集群200台:月->周/天 ➢ 无损扩容:TB级大带宽传输,虚 机热迁移中断<50ms,业务无感 云管平台 hypervisor 虚机热迁移效率: 8 内存超分部署 云管平台 关键能力指标 ➢ 12.00 10 内存动态分配 功能 14 VM VM 业务价值 内存借用 2 ➢ 支持超大vCPU规格 超大规格虚 典型规格800C/1920C 机,使能 “云上大机” ➢ 支持超大规格内存 典型规格3T/6T 0 优化前 优化后 优化前 优化后 CPU 计算型 内存 内存型 极速热迁移, 提升售卖率 ➢ 降计算资源碎片,提升售卖率 vCPU碎片率12%->5% 内存碎片率9%->5%
26. 数据库:为数据库构筑低时延通讯和池化内存底座,TP 提升20% ,AP 提升50% ,RTO < 6s • 超节点内通讯:加速数据库集群模块间通讯,及分布式系统全局资源分配 • 内存借用/内存共享:将ms级网络/存储IO操作转换成ns级内存语义操作,加速SQL算子执行、数据访问、及故障恢复 APPs/导入/导出 TCP/IP 业务价值 超节点服务器 计算节点 #1 计算节点 #n … 数据库内核 模块 数据库内核 高 速 互 联 总 线 通讯通道 内存访问通道 … 内存借用 存储节点 #m 集群模块之间采用超节点内低时延/高带宽通讯 ➢ 采用超节点内通讯原子操作提升分布式系统全局资源 分配性能,提高线性扩展比 ➢ 内存池 存储节点 #1 ➢ OLTP 内存节点 #2 内存节点 #1 竞争力手段 内存借用 多级缓存池管理,动态扩缩。热数据存入本地内存, 温数据存入远端内存池,基于访问热度动态迁移。 内存共享 ➢ 500.00 5.00 优化前(ms) ◆ 2节点TP, TPC-C,215.9WtpmC ->264.3WtpmC,提升22.4% 优化后(ms) ◆ 2节点AP, TPC-H,Q22总时间 1806.2s ->1091.9s,加速比1.65 0.00 0.00 22.4% 3000000 2500000 2000000 1500000 1000000 500000 0 RTO TP C -H TP C-C 加速比 OLAP 12 10 8 6 4 2 0 基于负载的弹性内存扩展,加速SQL算子(排序、聚合 、JOIN类)处理,降低数据溢盘 ➢ 解耦内存层,共享数据,加速复杂SQL算子shuffling 处理,降低数据重分布 优化前(s) 优化后(s) ◆ 90WtpmC,RTO 5.1s RTO ➢ 缓存脏页,加速故障恢复,降低RTO ➢ 集群异常主动通知,数据库异常检测时间降为毫秒级
27. 大数据:基于内存语义和高性能通讯,批数据分析时长缩短20% ,实时数 据处理性能提升25% • Spark:基于内存借用和内存共享的池化算子库提升算子效率;基于超节点内通信的shuffle加速和计算侧缓存提升数据通信效率。 • Flink:基于内存共享的通信加速,减少内存拷贝和免序列化;基于超节点内通信的计算侧缓存,加速checkpoint读写速度。 池化内存与高性能通信,削峰填谷,减少数据落盘,提升性能与利用率 Yarn/k8s NM RM 业务价值 功能 关键能力指标 ④YARN plugin Spark Flink  算子性能:内存借用减少数据落盘,提升 Executor Executor TaskManager ①池化算子库 Scan ③基于内存共享的通信加速 Join 算子性能 TaskManager 高性能  高效数据传输:内存共享实现UB数据交换, 减少序列化和降低传输时延  高时效性:flink性能提升,助力搜推场景 Shuffle Manager 模型更新从小时级到分钟级 ②计算侧缓存 Daemeon Daemeon Memory Memory 超节点内通信 SSD SSD 共享内存池  快速恢复:基于计算侧缓存的checkpoint, 高可靠 实现任务快速恢复  削峰:基于内存借用,减小任务峰值导致 的OOM概率
28. 大模型训练:超节点以架构创新,实现有效算力对裸算力超线性增长25.6% • 基于TB级大带宽、低时延内存直访,实现超节点架构创新,384卡间高速互联带宽无收敛,显著扩大高速互联域 • D2D跨级带宽提升15倍,D2D一跳转发时延降70%,支撑训练性能3.14倍提升 超节点架构 NP U … NP U NP U … NP U 高速互联总线扩大高速互联域,跨节点通信性能显著提升 NP U … NP U 服务器集群 未掩盖通信37% 超节点集群 未掩盖通信16% DeepSeek V3预训练 计算通信占比 并行:PP8/DP64/EP64 DeepSeek V3训练 计算通信占比 并行:PP8/DP64/EP64 灵衢总线扩大高速互联域:384超节点 NP U … NP U NP U … NP U NP U … 未掩盖 NP U 并行模式 通信不可掩盖性程度 数据并行 DP 低,可大部分掩盖 张量并行 TP 高,通常不可掩盖 流水并行 PP 中,可部分掩盖 序列并行 CP 高,通常不可掩盖 专家并行 EP 高,通常不可掩盖 跨机(8卡)后通信带宽劣化87% 通信带宽 节点内 /时延 节点间 计算 8卡 400Gb/s ~ 384卡 并行域 ➢ D2D带宽(跨机双向) 400Gbps → 784GBps, 提升15倍 ↑ ➢ D2D 一跳转发时延500ns → 150ns,降70% ↓ 超节点内 784GB/s 超节点间 500ns 400GB/s 150ns 关键能力指标 跨机(8-384卡)通信带宽不劣化 通信带宽 /时延 500ns 功能 集合 通信 性能 未掩盖通信 16% 计算 通信 业务价值 150ns 8卡 ~ 800Gb/s 384卡 并行域 训练 性能 ➢ 2.5倍裸算力,3.14倍训 练性能,超线性增长 25.6%
29. 大模型推理: 基于对等互连架构,实现多层级KV 池数据直通,推理性能提升 10%+ • 基于灵衢总线的全对等架构构建多层级KV池,提升以查代算的KV缓存命中率,首Token时延TTFT降低40%+。 • 基于内存语义的同步和异步访存实现数据的低时延交换,跨实例KV直通传输免拷贝,数据传输时延降低30%+。 多层级KV Cache池扩展缓存空间,提升以查代算的KV缓存命中率,降低TTFT 基于内存池提升KV Cache复用性能收益 ( LLAMA3 70B,多轮对话数据集) Decode池 Prefill池 NPU NPU NPU NPU AIC AIC AIC AIC AIV AIV AIV AIV DVPP DVPP DVPP DVPP HBM KV(A) HBM KV(B) HBM KV(A) HBM CPU CPU CPU CPU DDR DDR KV(B) DDR DDR DDR DDR DDR DDR SSD SSD SSD SSD 灵衢 业务价值 性能维度 优化 推理吞吐(tokens/s) 23.8% 首Token时延(ms) 45.5% 功能 关键能力指标 ➢ 实例选择调度:感知缓存局 部性,匹配KV Cache复用 直通和非直通传输时延比较(us) 比例高的实例服务请求; 多层级KV Cache池化系统 ➢ 池化共享:纵向多层级介质 扩 容 缓 存 空 间 , 横 向 D- D/H-D 直 通 加 速 传 输 , KV 加载和卸载数据的性能提升 10%+;
30. 推荐:发挥H2D 、rH2D 高带宽、DDR 池化以及低时延语义能力,提升万亿稀疏 推荐模型性能30% ↑, 对比PS 架构大幅提升易用性 • 发挥B低时延、语义、高带宽特性,优化百卡上万亿稀疏EMB协同计算效率,优化万亿EMB训练A2A计算线性度; • 发挥低时延、语义和池化特性,优化推荐特征处理、万亿EMB查询缓存效率,提升推理全链路延迟性能,优化延迟约束下 推理吞吐性能; 业务价值 D2D, A2A 64~256卡,scaling up网络(推理1 卡) AICore AICore … AICore HBM HBM … HBM CPU CPU CPU Embedding冷热交换 H2D, rH2D, H2H DDR CPU 多样性算力的细粒度语义互访,提高万亿EMB稀疏 NPU计算并行度和数据交互效率,简化软件开销 Vector H2D, rH2D, H2H HBM (去重优化带宽, 带来cpu负荷) Vector HBM CPU CPU DDR DDR … CPU DDR Vector 关键能力指标 训练吞吐 性能 ➢ 推理延迟 约束吞吐 性能 ➢ 运维易用 性 ➢ 训练吞吐:小集群提升20%↑,百卡 集群场景提升40%↑; HBM CPU DDR 特征缓存效率提升30%,特征计算 和EMB交换效率提升30%,优化推 理集群MFU提升20%; SSD池 SSD Parameter Server … 功能 硬 件 Rack内存池+ 大带宽 大rH2D域、高 H2D\D2rH带宽、语义 简化编程模型,降低训推集群系统 的运维成本
31. 超节点的基础软件: openEuler 实践与开源项目 系统服务 核心子系统 池化底座 开源项目 描述 openYuanrong 面向超节点的函数运行环境 sysSentry 超节点系统故障巡检/故障隔离服务;配合系统级CR,异构任务通过迁移避免可用 openEuler Copilot 超节点系统亚健康状态的检测和定位 FalconFS 超节点高性能分布式存储池 XMFS 跨节点共享内存文件系统 MemLink 超节点内存的弹性和高效复用 xSched CPU与XPU间负载均衡 xMig 虚拟机热迁移迁移,内存和设备池化共享免迁移 GMEM 基于 GMEM 的驱动程序可以无缝共享虚拟地址空间,完成 CPU 和设备之间的协同 gVirt XPU一虚多 与 多虚多 SMC-UB 基于共享内存语义通信 OBMM 内存池化基础能力,支持超节点内存借用 UBVirt 对池化IO设备进行AA聚合、AP主备倒换,实现高带宽和高可靠
32. 未来展望
33. 极致性能发挥 • 2 应用高性能,依赖“计算/内存/带 平滑过渡 3 • 宽/时延”的调度,匹配负载需要 • • • 池化高资源利用率,依赖“应用弹 性扩缩容、统一调度,实现硬件 资源高效时空复用” 1 4 共建共享 • • 超节点的硬件实现方式当前百花齐 放,但是软件生态不应该割裂。共 性问题在开源项目中解决。 复杂的管理面软件,需要抽象形成 公共软件,避免管理面烟囱式生长 存量业务容易迁移到新的超节 点硬件 如何简化超节点应用开发运维? 如何降低异构多样硬件使用门 槛方便应用接入 未来创新引领 • 构建围绕超节点基础软 件的开源社区 超节点不是集群,需要新的技术 视角来支持架构和实现的演进 • 如何保障超节点应用的高可用?
34.
35. THANKS 超节点 重新定义 数据中心硬件 异构融合 重新定义 数据中心基础软件 AI 重新定义 数据中心业务

首页 - Wiki
Copyright © 2011-2025 iteam. Current version is 2.147.1. UTC+08:00, 2025-11-04 05:12
浙ICP备14020137号-1 $访客地图$