混合场景下大规模 GPU 集群构建与实践

1. 大模型 AI Infra 挑战与实践 MiniMax技术总监 / 星龙

2.

3. 目录 CATALOG 01 关于MiniMax 02 基础设施现状 03 数据存储实践与挑战 04 大规模训练集群构建 05 实践收益

4. 01 PART ONE 关于MiniMax About MiniMax

5. MiniMax 成立于 2021 年12月，是一家专注于推动通用人工智能技术突破的科技创业公司。我们的愿景是「与用户共创智能」。自研文本、语音、图像等多种模态通用大模型，包括万亿MoE大语言模型。 MiniMax 开放平台为企业及开发者提供安全、灵活、可靠的API服务。

6. 02 PART TWO 基础设施现状 Status of infrastructure

7. 1 灵活性 && 成本的考量  公司高速发展 • 稳定 && 高效 • 成本最优   资源角度 : 混合 • CPU--云 • GPU--部分场景迁移IDC 基础组件角度：云原生  规模化效应--效果和成本收益MAX

8. 2 基础环境  业务全球化 : 切分国内外环境--海外业务/集群  成本和灵活性: 多云/IDC--混合云场景  基础设施复杂度高：Kubernetes 作为资源层抽象

9. 03 PART THREE 数据处理实践与挑战 Data Storage Practices & Challenges

10. 1.1、数据处理 - 计算  数据分布的挑战多模态/无结构化数据量大多混合资源（GPU 来加速）资源利用/处理效率工具链与技术栈的差异

11. 1.2、数据处理 - 计算  解决方案 : 计算引擎的迁移与混合使用 半结构化的场景保留Spark 选择 Spark 的原因 Spark Operator 非结构化场景使用 Job 作为灵活性的补充 迁移到 Job 的原因 迁移到 Ray 的原因 逐步改造为 Ray 解决计算效率和迭代效率的问题 Job Controller Ray Operator k8s

12. 2、数据处理 - 存储 1、Posix 文件协议为主，提供 HDFS/S3 协议 2、远程缓存以及本地高速临时读写

13. 3、数据处理 - 资源供给  资源供给是制约数据处理速度的关键问题。集群维度：多个集群间做统一入口时间维度：利用好不同业务集群的空闲时间单机资源维度：利用好空闲 CPU/GPU

14. 04 PART FOUR 大规模训练集群构建 Large-scale training cluster construction

15. 1、平台层架构入口层： • 统一平台入口层, 通过队列控制和分发集群层： • 基于 Volcano 二次开发的批调度器来作为资源分配的组件物理资源层： • 只用设备插件（非虚拟化） • kubernetes 来管理裸金属资源

16. 2、网络架构   FatTree 结构, Infiniband/RoCE NCCL 统一封装, 针对网络特点/故障做优化端到端优化并行策略通信方式 NCCL 通信链路最大化发挥不同集群优势端到端构建定位止损方式不同集群现状 Infiniband/ RoCE 集群网络top设计硬件故障（难以定位和处理） Infiniband：优点：延迟低,Sharp(在网计算能力) 缺点：黑盒, 价格贵 RoCE：优点 : 价格便宜, 可控缺点 : 存在网络拥塞问题 Fat-Tree结构

17. 3、故障检测  故障影响大, 涉及底层多个硬件  框架/通信库/平台联合检测解决 Spine Leaf/Spine 网络链路拥塞 Leaf/Spine 交换机故障交换机端口降速/Flapping Leaf2 Leaf1 Fabric-Manager 故障 NVLink P2P 故障 NVSwitch 故障 GPU XID 错误 Host NIC 网卡故障 NIC NIC NIC PCIe 降速 PCle PCle PCle GPU GPU GPU GPU/Memory GPU/Memory GPU/Memory CPU/Memory 故障导致宕机

18. 05 PART FIVE 实践收益 Practice & Benefits

19. 机器效率 :  优化训练效率, 做 Profiling 提升训练框架效率  端到端设计提升模型 MFU  调整机器排布和优化通信算法来降低通信耗时  迭代计算/存储范式提升资源运行效率实践收益工作效率 : Future & Prospects  标准化交付验收和自检自愈系统, 降低故障率, 减少人力消耗  优化技术选型降低学习上手成本组织的效率 :  协作最佳实践平台化

20.

21.