大规模智算集群的管理与性能调优实践

如果无法正常显示，请先停止浏览器的去广告插件。

1. 大规模智算集群的管理与性能调优实践天翼云云网产品事业部研发专家黄坚

3. 演讲嘉宾介绍黄坚天翼云研发专家研发方向：云原生、AI算力基础设施重点关注： • AI智算平台研发工作 • 大规模智算集群的性能诊断和调优 • 国产算力生态适配

4. 目录 • 大规模智算集群的痛点问题 • 运维及管理实战思路和方案 • 云骁智算平台及落地实践 • 智算平台未来展望

5. 目录 • 大规模智算集群的痛点问题 • 运维及管理实战思路和方案 • 云骁智算平台及落地实践 • 智算平台未来展望

6. 大模型分布式训练模型并行 Ref: Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism

7. 大模型分布式训练流水线并行 • 计算密度大 • 显存要求高 • 通信占比大算力标准化程度非常高模型并行数据并行

8. 智算集群工程化交付大规模智算交付：6阶58步 1 LLD设计 1.1 设计文档获取 1.2 IP资源获取 2 安装与初始化 2.1 设备安装与上架 3 部署调测 3.1 管理交换机配置 4 集群验证 4.1 配置检查 5 集群优化 5.1 物理链路检查验收整改 6.1 表格准备 2.2 保压测试 3.2 NPU OS安装 4.2 单机综合测试 1.3 初始化要求获取 2.3 设备上电 3.3 网卡驱动安装 4.3 综合测试项整改 1.4 集成规范解读 2.4 配置项梳理 3.4 Raid卡驱动升级 4.4 单机模型训练测试 1.5 集成方案输出 2.5 固件升级 3.5 业务交换机配置 2.6 BIOS配置 3.6 ROCE交换机配置 2.7 BMC配置 3.7 交换机配置校验 6.7 专业组验收 2.8 BIOS配置项检查 3.8 普通网卡配置 6.8 专业组验收项整改 2.9 BIOS密码配置 3.9 NPU软件栈安装 6.9 云调结单 2.10 厂商名检查 3.10 NPU网络配置 6.10 软集验收组验收 3.11 DPU rshim安装 6.11 软集问题整改 3.12 DPU 网络配置 6.12 软集完成 1.6 LLD输出 2.11 设备型号名检查 2.12 序列号收集 2.13 压测环境搭建 2.14 硬件压测 2.15 压测报告解读 4.5 集合通信测试 4.6 集群模型训练测试 5.2 性能瓶颈分析 6 5.3 网络参数调整优化 6.2 测试报告准备 6.3 表格导入云调系统 6.4 自动化预验收 6.5 自动验收项整改 6.6 自动验收通过 3.13 HPFS OS安装 3.14 磁盘阵列配置 3.15 OS配置项检查 3.16 线缆检查需特别关注点关键节点难点

9. 大集群等于大算力？智算中心 AI算力 3000P+ MTBF 平均任务稳定运行时长低 MTTR 根故障恢复时间相对长光纤个光模块张 AI加速卡台 AI服务器台网络交换机台存储服务器

10. 最大程度发挥算力的挑战 • 挑战1：智算业务与底层算力高耦合 • 挑战2：故障发现及性能调优，无法依托单一指标 • 挑战3：百万器件管理复杂度高

11. 目录 • 大规模智算集群的痛点问题 • 运维及管理实战思路和方案 • 云骁智算平台及落地实践 • 智算平台未来展望

12. 集群性能 - 单机配置正确性检查 • 加速卡驱动 • CUDA/CANN版本 • 网卡驱动 • NCCL/HCCL版本 • nvidia-fabric-manager • pytorch版本 • nvidia_peermem • transformer版本 • GPU拓扑 • deepspeed版本 • GPU主频 • megatron版本 • PM模式

13. 集群性能 - 集群软硬件一致性 • 加速卡驱动 • 网卡驱动 • 内核版本 • 操作系统 • CPU配置 • 内存配置 • RDMA网卡配置 • RDMA网卡命名 • 业务面网卡 • 服务器存储挂载点 • CUDA/CANN版本

14. 集群性能 - 健康检查 • 加速卡健康检查 • 根目录可用量 • HBM健康检查 • 容器空间容量 • 加速卡残留进程 • 防火墙状态 • RDMA端口状态 • • RDMA网络连通性 CPU健康检查 • 内存容量检测 • leaf-spine网络链路闪断 • 业务网口状态检查解决硬件异常问题

15. 集群稳定性 - 算力网络拓扑展示训练任务的告警拓扑展示随时了解训练任务的健康状态交换机服务器、交换机的告警染色的拓扑形态呈现随时随地了解智算集群健康状态交换机裸金属

16. 训中观测 - 核心指标解析 • power_usage ：GPU是否忙？ • gpu_ulitization：有任务占用，粗粒度 • sm_active: GPU真正工作 • tensor_active：tensor core工作情况 • fp64_active：fp64工作情况 • fp32_active：fp32工作情况 • fp16_active：fp16工作情况

17. 多维度性能基线丈量开源大模型不同算力的性能表现 • 集合通讯基线 • RDMA网络吞吐基线 • 加速卡算力模型训练基线加速卡 - IB网卡 - 切分方式 - 集群规模

18. 目录 • 大规模智算集群的痛点问题 • 运维及管理实战思路和方案 • 云骁智算平台及落地实践 • 智算平台未来展望

19. 云骁智算平台集“异构计算+高速存储+无损网络+算力加速+高效运营”五大能力一体的计算加速平台，提供高性能算力底座、计算加速、故障诊断等服务云骁 - 计算加速平台集群管理算力加速故障诊断高性能算力底座异构计算高性能存储智算数据中心AIDC 高性能网络

20. 云骁智算平台 - 集群稳定性保障核心指标全覆盖多维度综合测软硬件故障全面分可配置的集群速，丈量算力析诊断级运维输出

21. 国产化之路覆盖算力、存储、网络、平台各层次，可支撑大模型训练推理的全国产智算基础设施平台，国内最早提供大模型训练用昇腾算力的云服务商 • 自研TeleCloud OS完全替代openStack • 具备一云多芯超大规模信创资源池管理和智能调度能力 • 基于国产GPU实现智算训练、推理服务能力和超算能力 • 自研RDMA网络和存储技术，打造高性能的信创算力底座 • 性能深度优化，SPEC Cloud性能测试中多项指标测评分数全球领先 • 自研分布式存储引擎LAVA，替代开源Ceph存储；推出新一代云硬盘XSSD，提供百万IOPS、小于100微秒时延

22. 目录 • 大规模智算集群的痛点问题 • 运维及管理实战思路和方案 • 云骁智算平台及落地实践 • 智算平台未来展望

23. 智算工程关注点性能与稳定开箱即用国产化  数万卡集群的算力加速  数百项的基础组件的自动化交付  非CUDA生态的技术路线演进  百万级元器件的故障快速恢复  降低训练、推理工具使用门槛  大模型训推最佳实践

24. 国云注智智算升级