大模型场景下智算平台的设计与优化实践

如果无法正常显示，请先停止浏览器的去广告插件。

1. 大模型场景下智算平台的设计与优化实践肖松 2024.06.14

2. 引言不同时期对智算平台的需求 2018 客户A 我资源比较少，几十卡的规模，如何提升卡的利用率？客户B 我的模型跑起来耗时长，能加速吗？客户C 我想跑大模型，需要多少资源？网络如何构建？多长时间能跑完？客户D 国产卡怎么用？能否与 NV 卡一起使用？ 2024 2

3. 目录 01 大模型时代，智算平台新特点 4 02 智算平台需解决的问题 6 03 大模型场景技术实践 8 04 对于智算平台发展的未来思考 25

4. 01 大模型时代，智算平台新特点小模型 vs. 大模型

5. 大模型时代，智算平台新特点小模型 vs. 大模型 GPT-4（大模型） ResNet50（小模型）参数 158秒 $15 55天 $2150万训练时长训练成本训练时长训练成本 25M（0.025B） vs. 参数 1800B 工程问题增强：耗时长凸显大模型训推加速需求新增：成本高带来稳定性需求，减少资源闲置增强：参数爆炸突破显存墙，多机多卡成为常态新要求增强：卡间和机间高性能通信愈发重要算力 128 块 V100 算力 8192 块 H100 维持： GPU切分在小模型和推理场景依然存在数据 167G （ImageNet）数据 13T 新增：数据集处理加速新增：新卡适配和芯片利旧，多芯混合调度新增：数据湖存储和高性能存储 *数据来源：非官方数据，为业界推测 5

6. 02 智算平台需解决的问题基础设施、调度、应用、运维

7. 智算平台需解决的问题基础设施、调度、应用、运维训练数据应用推理 • 数据集下载和转储加速 • 训练任务的性能优化 • 推理任务的性能优化 • 数据集的清洗和加工处理 • 任务的监控和容错 • 在线服务的监控告警 • Flash Checkpoint 资源管理调度任务管理 • 大规模异构算力高效调度和分配 • 多种AI框架和并行策略支持 • 算力虚拟化 • AI 任务调度和任务流管理 • 云原生容器化存储算力基础设施 • 适配多种异构芯片 • 优化存储读写性能 • 固件、OS内核、驱动兼容 • 镜像加速、镜像预铺 • 混合多芯运维网络 • 搭建和调试高性能网络 7

8. 03 大模型场景技术实践基础设施层

9. 基础设施——混合多芯国产卡能否与 NV 卡一起使用？拟合性能系数统一并行策略 AI 效能矩阵图谱通信整合 9

10. 基础设施——高性能存储如何实现数据集加速？如何 I/O 加速？镜像加速镜像服务流式读取 P2P加速超大镜像预加载 P2P镜像分发 MEM MEM MEM MEM D I S K D I S K D I S K D I S K 流式镜像拉取训练数据加速高性能并行文件系统 TCP/InfiniBand/RoCE TCP 并行文件存储 PFS 分布式缓存加速存储 RapidFS 全SSD闪存 RDMA链路加速托管 BCC/BBC 集群模型加速对象存储 BOS 标准存储低频存储大吞吐数据湖存储冷存储归档存储分布式缓存加速 10

11. 基础设施——高性能网络如何实现通信库加速？ 3层无收敛RDMA网络 Tor拓扑感知调度 NCCL通信拓扑感知 Up to 512 Up to 512 Up to 16K+ 11

12. 03 大模型场景技术实践调度层

13. 调度——GPU虚拟化如何提高单卡资源利用率？用户态方案 CUDA driver API，提供显存限制，算力时分复用 CUDA runtime API，提供远程调用，显存限制，算力时分复用内核态方案内核模块修改，提供显存限制，算力时分复用 Full/para-虚拟化，内核模块修改，MMIO拦截，显存划分，算力时分复用硬件方案 Nvidia MIG NV官方，硬件划分，提供显存划分、算力划分、编解码划分（1/7）昆仑2 SR-IOV SR-IOV，硬件划分，提供显存划分、算力划分（1/3、1/2） 13

14. 调度——GPU虚拟化双引擎 GPU 虚拟化用户态优势：性能好，长尾延迟低缺点：故障隔离差内核态优势：故障隔离好缺点：有一定性能损耗 14

15. 调度——资源管理和调度逻辑如何调度资源？配额管理调度会话插件集合入队 Gang调度 PodGroup Pod Pod Pod 多租户资源管理 Gang抢占资源分配集群资源视图 Binpack/Spread调度资源回收 CPU/MEM 亲和性调度 GPU拓扑异构芯片(独占/共享) 资源抢占 Tor架构感知 RDMA 自定义资源选择最优调度资源调度回填混部调度 15

16. 03 大模型场景技术实践应用层

17. 应用——AIAK 训推加速如何优化训练和推理性能？兼容Llama2、ChatGLM2等20余种开源模型，一键部署，透明加速大模型训练加速镜像数据并行优化并行优化大模型推理加速镜像张量并行优化显存优化图精简流水线并行优化显存重算量化/剪枝/蒸馏访存密集型算子融合显存卸载细粒度显存切分算子融合算子优化数学等价代换/死代码移除算子融合注意力机制优化 GEMM/Conv 长尾运算融合背靠背 GEMM 融合调度优化访存优化模板化优化算子优化训练性能提升30%+ 推理性能提升60%+ 17

18. 应用——训练容错如何提升训练稳定性？任务无效训练时间 = 故障中断次数写Ckpt总时长 • • × (任务故障恢复时长 • • 降低节点故障率提升故障感知召回率提升调度效率降低节点MTTR + 任务故障重算时长) + 任务常态降低Ckpt时长，缩短Ckpt间隔周期基础设施稳定性调度容错效率框架容错代价硬件故障快速感知任务异常快速感知 Ckpt 存储加速硬件端到端上线预检测重调度容错异步Ckpt加速节点热维修/秒级冷迁移恢复镜像/数据缓存加速分布式Ckpt加速主流框架/分布式库，打开开关即可容错 Pytorch Deepspeed Megatron PaddlePaddle … 18

19. 应用——Flash Checkpoint 如何降低 Checkpoint 时间？ Checkpoint 容错机制带来了计算时间片浪费有效训练时间有效训练时间 Checkpoint 等待 Checkpoint 等待传统方案 FlashCKPT 训练框架同步写 Memory 加速层同步 close Memory 同步写 Memory 加速层异步 close checkpoint操作，提升整体有效训练时长。业务可制定更细粒度的检查点策略，从而降低故障恢复时间 Memory NVME SSD 流式分块上传训练框架 FlashCKPT 并行内存写入，快速完成分布式，异步写等待 last part 3 小时每日节省有效训练时长远端对象存储并行文件存储PFS 小时级CKPT，容错恢复时间长秒级CKPT，更细粒度的打点恢复 1 秒千亿大模型CKPT 写入 19

20. 03 大模型场景技术实践运维

21. 运维目标可观测能力运维目标故障处理容量管理&优化任务性能调优发现任务告警（变更告警、故障告警、阈值告警）集群资源视图（集群资源概览，利用率、分配率变化&趋势，任务资源概览）任务性能大盘（训推吞吐指标，任务并行策略、性能关联参数）快速定位任务稳定性大盘（任务关联的节点、组件，配套服务健康情况）任务收敛监控&告警（监控任务loss收敛情况，异常报警）根因排查根因排查（集群、任务事件，任务运行日志）节点资源视图（节点资源详情、GPU分配/利用分析）智能排障建议（基于大模型的智能故障分析）任务资源视图（任务资源详情、GPU使用分析、 Pod分配情况）分阶段指标（诊断训练分阶段耗时，助力训练性能调优）故障定位时间小时级->分钟级发现资源瓶颈提升分配/利用率发现任务性能瓶颈，避免空跑辅助止损 21

22. 03 大模型场景技术实践百度百舸架构和演进

23. 智算平台架构百度百舸大模型任务增强百舸组件百舸资源池大模型训推任务加速镜像大模型IO加速方案开源大模型定制优化 Flash Checkpoint 高性能算子高效显存利用大镜像预加载高效并行策略高性能训推框架大规模镜像P2P加速 AI基础组件 AI编排调度稳定性&容错可观测大盘高性能网络插件深度学习框架多维故障感知集群资源视图高性能存储插件 AI 任务编排自动任务容错任务稳定性大盘异构资源调度任务工作流管理通信测试工具性能监控&调优 30% 60% 训练吞吐提升推理吞吐提升 98.8% 有效训练时长 95% 带宽有效性 CCE K8S集群 A800/H800/昆仑/升腾异构算力高性能分布式存储PFS 万卡RDMA网络 23

24. 百度百舸发展历程 AI硬核能力积累百舸1.0 AI基础设施产品化百舸2.0 AI基础设施云原生化百舸3.0 一站式大模型算力平台支撑百度核心业务发展视觉&自然语言处理自动驾驶&生命科学大模型新业态 AI可观测大盘 AI容器服务孔明超级计算集群通信&算子加速自动故障容错 X-MAN 超级AI服务器太行.弹性裸金属 AIAK大模型训推加速工具包云原生作业调度智能故障诊断 RDMA高性能网络沧海.高性能存储 GPU容器虚拟化 Flash Checkpoint 大镜像分发加速百度十年AI实践 2021 2022 2023 24

25. 对智算平台发展的一些思考

26. 智算平台个人思考定位承上启下，向下纳管异构资源，向上承载 AI 平台核心屏蔽下层的复杂性，或许未来能像使用 CPU 一样使用 GPU 发展不再满足资源纳管，对 AI 研发栈的需求越来越旺盛趋势预训练门槛变高，领域微调变多，模型推理或许会迎来爆发 26

27. T H A N K S