混合场景下大规模 GPU 集群构建与实践
如果无法正常显示,请先停止浏览器的去广告插件。
1. 大模型 AI Infra
挑战与实践
MiniMax技术总监 / 星龙
2.
3. 目录
CATALOG
01 关于MiniMax
02 基础设施现状
03 数据存储实践与挑战
04 大规模训练集群构建
05 实践收益
4. 01
PART ONE
关于MiniMax
About MiniMax
5. MiniMax 成立于 2021 年12月,是一家
专注于推动通用人工智能技术突破的科
技创业公司。
我们的愿景是「与用户共创智能」。
自研文本、语音、图像等多种模态通用
大模型,包括万亿MoE大语言模型。
MiniMax 开放平台为企业及开发者提供
安全、灵活、可靠的API服务。
6. 02
PART TWO
基础设施现状
Status of infrastructure
7. 1 灵活性 &&
成本的考量
公司高速发展
• 稳定 && 高效
• 成本最优
资源角度 : 混合
• CPU--云
• GPU--部分场景迁移IDC
基础组件角度:云原生
规模化效应--效果和成本收益MAX
8. 2 基础环境
业务全球化 : 切分国内外环境--海外业务/集群
成本和灵活性: 多云/IDC--混合云场景
基础设施复杂度高:Kubernetes 作为资源层抽象
9. 03
PART THREE
数据处理实践
与挑战
Data Storage Practices & Challenges
10. 1.1、数据处理
- 计
算
数据分布的挑战
多模态/无结构化
数据量大
多混合资源(GPU 来加速)
资源利用/处理效率
工具链与技术栈的差异
11. 1.2、数据处理
- 计
算
解决方案 : 计算引擎的迁移与混合使用
半结构化的场景保留Spark
选择 Spark 的原因
Spark Operator
非结构化场景使用 Job
作为灵活性的补充
迁移到 Job 的原因
迁移到 Ray 的原因
逐步改造为 Ray
解决计算效率和迭代效率的问题
Job Controller
Ray Operator
k8s
12. 2、数据处理 - 存储
1、Posix 文件协议为主,提供 HDFS/S3 协议
2、远程缓存以及本地高速临时读写
13. 3、数据处理 - 资源供给
资源供给是制约数据处理速度的关键问题。
集群维度:
多个集群间做统一入口
时间维度:
利用好不同业务集群的空闲时间
单机资源维度:
利用好空闲 CPU/GPU
14. 04
PART FOUR
大规模训练集
群构建
Large-scale training cluster construction
15. 1、平台层架构
入口层:
• 统一平台入口层, 通过队列控制和分
发
集群层:
• 基于 Volcano 二次开发的批调度器
来作为资源分配的组件
物理资源层:
• 只用设备插件(非虚拟化)
• kubernetes 来管理裸金属资源
16. 2、网络架构
FatTree 结构,
Infiniband/RoCE
NCCL 统一封装, 针对网络特点/故障做优化
端到端优化
并行策略
通信方式
NCCL
通信链路
最大化发挥不同集群优势
端到端构建定位止损方式
不同集群现状
Infiniband/ RoCE 集群
网络top设计
硬件故障(难以定位和处理)
Infiniband:
优点:延迟低,Sharp(在网计算能
力)
缺点:黑盒, 价格贵
RoCE:
优点 : 价格便宜, 可控
缺点 : 存在网络拥塞问题
Fat-Tree结构
17. 3、故障检测
故障影响大, 涉及底层多个硬件
框架/通信库/平台联合检测解决
Spine
Leaf/Spine 网络链路拥塞
Leaf/Spine 交换机故障
交换机端口降速/Flapping
Leaf2
Leaf1
Fabric-Manager 故障
NVLink P2P 故障
NVSwitch 故障
GPU XID 错误
Host
NIC 网卡故障 NIC NIC NIC
PCIe 降速 PCle PCle PCle
GPU GPU GPU
GPU/Memory GPU/Memory GPU/Memory
CPU/Memory
故障导致宕机
18. 05
PART FIVE
实践收益
Practice & Benefits
19. 机器效率 :
优化训练效率, 做 Profiling 提升训练框架效
率
端到端设计提升模型 MFU
调整机器排布和优化通信算法来降低通信耗时
迭代计算/存储范式提升资源运行效率
实践收益 工作效率 :
Future &
Prospects 标准化交付验收和自检自愈系统, 降低故障率,
减少人力消耗
优化技术选型降低学习上手成本
组织的效率 :
协作最佳实践平台化
20.
21.