大规模智算集群的管理与性能调优实践
如果无法正常显示,请先停止浏览器的去广告插件。
1. 大规模智算集群的管理与性能调优实践
天翼云云网产品事业部研发专家 黄坚
2.
3. 演讲嘉宾介绍
黄坚 天翼云研发专家
研发方向:云原生、AI算力基础设施
重点关注:
• AI智算平台研发工作
• 大规模智算集群的性能诊断和调优
• 国产算力生态适配
4. 目录
• 大规模智算集群的痛点问题
• 运维及管理实战思路和方案
• 云骁智算平台及落地实践
• 智算平台未来展望
5. 目录
• 大规模智算集群的痛点问题
• 运维及管理实战思路和方案
• 云骁智算平台及落地实践
• 智算平台未来展望
6. 大模型分布式训练
模
型
并
行
Ref: Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism
7. 大模型分布式训练
流水线并行
• 计算密度大
• 显存要求高
• 通信占比大
算力标准化程度非常高
模
型
并
行
数据并行
8. 智算集群工程化交付
大规模智算交付:6阶58步
1
LLD设计
1.1 设计文档获取
1.2 IP资源获取
2
安装与初始化
2.1 设备安装与上架
3
部署调测
3.1 管理交换机配置
4
集群验证
4.1 配置检查
5
集群优化
5.1 物理链路检查
验收整改
6.1 表格准备
2.2 保压测试 3.2 NPU OS安装 4.2 单机综合测试 1.3 初始化要求获取 2.3 设备上电 3.3 网卡驱动安装 4.3 综合测试项整改 1.4 集成规范解读 2.4 配置项梳理 3.4 Raid卡驱动升级 4.4 单机模型训练测试 1.5 集成方案输出 2.5 固件升级 3.5 业务交换机配置 2.6 BIOS配置 3.6 ROCE交换机配置 2.7 BMC配置 3.7 交换机配置校验 6.7 专业组验收
2.8 BIOS配置项检查 3.8 普通网卡配置 6.8 专业组验收项整改
2.9 BIOS密码配置 3.9 NPU软件栈安装 6.9 云调结单
2.10 厂商名检查 3.10 NPU网络配置 6.10 软集验收组验收
3.11 DPU rshim安装 6.11 软集问题整改
3.12 DPU 网络配置 6.12 软集完成
1.6 LLD输出
2.11 设备型号名检查
2.12 序列号收集
2.13 压测环境搭建
2.14 硬件压测
2.15 压测报告解读
4.5 集合通信测试
4.6 集群模型训练测试
5.2 性能瓶颈分析
6
5.3 网络参数调整优化
6.2 测试报告准备
6.3 表格导入云调系统
6.4 自动化预验收
6.5 自动验收项整改
6.6 自动验收通过
3.13 HPFS OS安装
3.14 磁盘阵列配置
3.15 OS配置项检查
3.16 线缆检查
需特别关注点
关键节点
难点
9. 大集群等于大算力?
智算中心
AI算力 3000P+
MTBF
平均任务稳定
运行时长低
MTTR
根
故障恢复时间
相对长
光纤
个
光模块
张
AI加速卡
台
AI服务器
台
网络交换机
台
存储服务器
10. 最大程度发挥算力的挑战
• 挑战1:智算业务与底层算力高耦合
• 挑战2:故障发现及性能调优,无法依托单一指标
• 挑战3:百万器件管理复杂度高
11. 目录
• 大规模智算集群的痛点问题
• 运维及管理实战思路和方案
• 云骁智算平台及落地实践
• 智算平台未来展望
12. 集群性能 - 单机配置正确性检查
• 加速卡驱动 • CUDA/CANN版本
• 网卡驱动 • NCCL/HCCL版本
• nvidia-fabric-manager • pytorch版本
• nvidia_peermem • transformer版本
• GPU拓扑 • deepspeed版本
• GPU主频 • megatron版本
• PM模式
13. 集群性能 - 集群软硬件一致性
• 加速卡驱动
• 网卡驱动
• 内核版本
• 操作系统
• CPU配置
• 内存配置
• RDMA网卡配置
• RDMA网卡命名
• 业务面网卡
• 服务器存储挂载点
• CUDA/CANN版本
14. 集群性能 - 健康检查
• 加速卡健康检查 • 根目录可用量
• HBM健康检查 • 容器空间容量
• 加速卡残留进程 • 防火墙状态
• RDMA端口状态 • • RDMA网络连通性 CPU健康检查
• 内存容量检测
• leaf-spine网络链路闪断 • 业务网口状态检查
解决硬件
异常问题
15. 集群稳定性 - 算力网络拓扑展示
训练任务的告警拓扑展示
随时了解训练任务的健康状态
交换机
服务器、交换机的告警染色的拓扑形态呈现
随时随地了解智算集群健康状态
交换机
裸金属
16. 训中观测 - 核心指标解析
• power_usage :GPU是否忙?
• gpu_ulitization:有任务占用,粗粒度
• sm_active: GPU真正工作
• tensor_active:tensor core工作情况
• fp64_active:fp64工作情况
• fp32_active:fp32工作情况
• fp16_active:fp16工作情况
17. 多维度性能基线
丈量开源大模型不同算力的性能表现
• 集合通讯基线
• RDMA网络吞吐基线
• 加速卡算力
模型训练基线
加速卡 - IB网卡 - 切分方式 - 集群规模
18. 目录
• 大规模智算集群的痛点问题
• 运维及管理实战思路和方案
• 云骁智算平台及落地实践
• 智算平台未来展望
19. 云骁智算平台
集“异构计算+高速存储+无损网络+算力加速+高效运营”五大能力一体的计算加速平台,提供高性
能算力底座、计算加速、故障诊断等服务
云骁 - 计算加速平台
集群管理
算力加速
故障诊断
高性能算力底座
异构计算
高性能存储
智算数据中心AIDC
高性能网络
20. 云骁智算平台 - 集群稳定性保障
核心指标全覆盖 多维度综合测 软硬件故障全面分 可配置的集群
速,丈量算力 析诊断 级运维
输出
21. 国产化之路
覆盖算力、存储、网络、平台各层次,可支撑大模型训练推理的全国产智算基础设施平台,国内最早提供大模型训练用昇腾算力的云服务商
• 自研TeleCloud OS完全替代openStack
• 具备一云多芯超大规模信创资源池管理和智能调度能力
• 基于国产GPU实现智算训练、推理服务能力和超算能力
• 自研RDMA网络和存储技术,打造高性能的信创算力底座
• 性能深度优化,SPEC Cloud性能测试中多项指标测评分数全球领先
• 自研分布式存储引擎LAVA,替代开源Ceph存储;推出新一代云硬
盘XSSD,提供百万IOPS、小于100微秒时延
22. 目录
• 大规模智算集群的痛点问题
• 运维及管理实战思路和方案
• 云骁智算平台及落地实践
• 智算平台未来展望
23. 智算工程关注点
性能与稳定
开箱即用
国产化
数万卡集群的算力加速 数百项的基础组件的自动化交付 非CUDA生态的技术路线演进
百万级元器件的故障快速恢复 降低训练、推理工具使用门槛 大模型训推最佳实践
24. 国云注智 智算升级