混合场景下大规模 GPU 集群构建与实践

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 大模型 AI Infra 挑战与实践 MiniMax技术总监 / 星龙
2.
3. 目录 CATALOG 01 关于MiniMax 02 基础设施现状 03 数据存储实践与挑战 04 大规模训练集群构建 05 实践收益
4. 01 PART ONE 关于MiniMax About MiniMax
5. MiniMax 成立于 2021 年12月,是一家 专注于推动通用人工智能技术突破的科 技创业公司。 我们的愿景是「与用户共创智能」。 自研文本、语音、图像等多种模态通用 大模型,包括万亿MoE大语言模型。 MiniMax 开放平台为企业及开发者提供 安全、灵活、可靠的API服务。
6. 02 PART TWO 基础设施现状 Status of infrastructure
7. 1 灵活性 && 成本的考量  公司高速发展 • 稳定 && 高效 • 成本最优   资源角度 : 混合 • CPU--云 • GPU--部分场景迁移IDC 基础组件角度:云原生  规模化效应--效果和成本收益MAX
8. 2 基础环境  业务全球化 : 切分国内外环境--海外业务/集群  成本和灵活性: 多云/IDC--混合云场景  基础设施复杂度高:Kubernetes 作为资源层抽象
9. 03 PART THREE 数据处理实践 与挑战 Data Storage Practices & Challenges
10. 1.1、数据处理 - 计 算  数据分布的挑战 多模态/无结构化 数据量大 多混合资源(GPU 来加速) 资源利用/处理效率 工具链与技术栈的差异
11. 1.2、数据处理 - 计 算  解决方案 : 计算引擎的迁移与混合使用 半结构化的场景保留Spark 选择 Spark 的原因 Spark Operator 非结构化场景使用 Job 作为灵活性的补充 迁移到 Job 的原因 迁移到 Ray 的原因 逐步改造为 Ray 解决计算效率和迭代效率的问题 Job Controller Ray Operator k8s
12. 2、数据处理 - 存储 1、Posix 文件协议为主,提供 HDFS/S3 协议 2、远程缓存以及本地高速临时读写
13. 3、数据处理 - 资源供给  资源供给是制约数据处理速度的关键问题。 集群维度: 多个集群间做统一入口 时间维度: 利用好不同业务集群的空闲时间 单机资源维度: 利用好空闲 CPU/GPU
14. 04 PART FOUR 大规模训练集 群构建 Large-scale training cluster construction
15. 1、平台层架构 入口层: • 统一平台入口层, 通过队列控制和分 发 集群层: • 基于 Volcano 二次开发的批调度器 来作为资源分配的组件 物理资源层: • 只用设备插件(非虚拟化) • kubernetes 来管理裸金属资源
16. 2、网络架构   FatTree 结构, Infiniband/RoCE NCCL 统一封装, 针对网络特点/故障做优化 端到端优化 并行策略 通信方式 NCCL 通信链路 最大化发挥不同集群优势 端到端构建定位止损方式 不同集群现状 Infiniband/ RoCE 集群 网络top设计 硬件故障(难以定位和处理) Infiniband: 优点:延迟低,Sharp(在网计算能 力) 缺点:黑盒, 价格贵 RoCE: 优点 : 价格便宜, 可控 缺点 : 存在网络拥塞问题 Fat-Tree结构
17. 3、故障检测  故障影响大, 涉及底层多个硬件  框架/通信库/平台联合检测解决 Spine Leaf/Spine 网络链路拥塞 Leaf/Spine 交换机故障 交换机端口降速/Flapping Leaf2 Leaf1 Fabric-Manager 故障 NVLink P2P 故障 NVSwitch 故障 GPU XID 错误 Host NIC 网卡故障 NIC NIC NIC PCIe 降速 PCle PCle PCle GPU GPU GPU GPU/Memory GPU/Memory GPU/Memory CPU/Memory 故障导致宕机
18. 05 PART FIVE 实践收益 Practice & Benefits
19. 机器效率 :  优化训练效率, 做 Profiling 提升训练框架效 率  端到端设计提升模型 MFU  调整机器排布和优化通信算法来降低通信耗时  迭代计算/存储范式提升资源运行效率 实践收益 工作效率 : Future & Prospects  标准化交付验收和自检自愈系统, 降低故障率, 减少人力消耗  优化技术选型降低学习上手成本 组织的效率 :  协作最佳实践平台化
20.
21.

Home - Wiki
Copyright © 2011-2024 iteam. Current version is 2.138.0. UTC+08:00, 2024-12-22 09:23
浙ICP备14020137号-1 $Map of visitor$