MegatronApp:面向万亿参数大模型的训练与推理增强实践

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. MegatronApp :面向万亿参数大模 型的训练与推理增强实践 赵伯罕
2. 目录 01 大模型训练中的典型困境 02 MegatronApp :把训练从“黑箱”变为“可控系统” 03 MegaScan :让慢节点无处藏身 04 MegaFBD :解耦前后向计算实例 05 MegaDPP :弹性流水线调度 06 MegaScope 07 总结与展望 :训练过程实时可观测
3.
4. 01 大模型训练中的典型困境
5. 模型参数迈向万亿级新纪元 过去五年,大模型规模从百亿级跨越到万亿级,训 练架构也从单机单卡演进至跨节点的3D并行。 2025 2024 2022 2020 PaLM GPT-3 175 B 参数 开启超大规模预训练时代 54 0 B 参数 预示未来突破与更高智能水 平 DeepSeek R1 671 B 参数 强调规模化与性能兼顾 Kimi K2 1 T 参数 展示跨千亿到万亿的飞跃
6. 从单卡到万卡:训练范式的质变带来新的挑战 DP TP/PP/DP/EP 组合 + 可切换调度 从单维到多目标系统优化 挑战一:可靠性与运维挑战 万卡规模将“小概率故障”放大为高频事件流;没有高效排障能力就很难维持长时稳定训 练。 挑战二:状态观测复杂化 训练过程产生的中间结果增加,单位时间内需要保存和处理的数据量增大。 挑战三:性能波动的影响被放大 在流水线与集体通信的耦合下,局部抖动会被放大成全局停顿或收敛退化,在大规模集 群中造成的损失变大。 MegaScale: Scaling Large Language Model Training to More Than 10,000 GPUs
7. Megatron 与分布式大模型 Megatron-LM的三种并行策略 1 Megatron-LM发展历程 初代 Megatron-LM 2019 Megatron-LM 并入 DeepSpeed 2021 Megatron-LM 多分支演进 2023 数据并行 DP 把同一个完整模型复制到多张卡上,每张卡处理 不同数据分片并在迭代中同步梯度/参数。 社区增强与 Megatron-Core 出现 2024 Megatron-LM Megatron-Core is a self contained, light weight PyTorch library that packages everything essential for training large scale transformer. It offer rich collection of GPU techniques to optimize memory, compute and communication inherited from Megatron-LM and Transformer Engine with cutting-edge innovations on system-level efficiency. 2 3 张量并行 TP 把单层内的大张量运算(如矩阵乘)按维度切到 多张卡上同时算,再通过张量级通信聚合结果。 流水线并行 PP 把模型按层切成多个阶段,把一个批次拆成微批 在各阶段流水线并行流动以重叠计算与通信。
8. Megatron-LM框架下大模型训练中的新需求 高可用服务 高效率训练 高吞吐 训练过程中保证GPU 资源的整体利用效率 低成本 对于给定任务,在保证训练效率的前提下降低所 需的硬件平台配置 稳定性 效率和效果 不可兼得 长时间训练性能不剧烈抖动,出现问题可快速检 测、快速恢复 可观测性 训练过程中对训练产生的中间结果进行实时监 控、保存和分析,定位因果链
9. 02 MegatronApp :把训练从 “黑箱”变为“可控系统”
10. 算秩未来与上海期智研究院联合开源MegatronApp 高可用:慢节点检测 自适应:智能调度 可观测:LLM可视化 高效率:F-B分离 Megatron - LM 框架下开源智能加速工具
11. MegatronApp :把大模型训练从“黑箱”变为“可控系统” 检测 MegaScan MegaDPP自适应调度 慢节点检测 弹性自适应调度框架,提升复杂并行 场景下的鲁棒性与扩展性。 精准识别落后节点,迅速定位网卡、 GPU、PCIe 和交换机异常。 可视 MegatronApp 闭环加强训练效率 MegaScope 可视化 调度 MegaFBD F-B 分离 实时捕获压缩模型状态,提供直观、 可解释的大模型可视化路径。 前后向任务解耦执行,消除通信瓶 颈,提升异构计算效率。 解耦
12. 03 MegaScan :让慢节点 无处藏身
13. 大模型训练中的排障困境 全自动化的训练日志重组与分析 大模型训练由于数据量大、日 志复杂,面临排障困境。 数据规模与存储压力 万卡集群每步产生的 Trace/ 日志量爆炸,聚合与查询成 本高。 日志分析困难 监控指标众多且耦合性强,难以快速定位源头问题,再 加上集体通信把单点慢广播成全局慢,容易误判根因。
14. MegaScan 测试:通过慢节点检测功能定位问题节点 1 MegaScan 从DP组 → TP组 → PP组找到在各个维度下都最慢的 集合通信本身带有同步语义,因此如果某个 rank的操作比其他同组成员更慢,这个rank 可能有问题。 rank,并通过分析其算子耗时来定位性能瓶颈(网卡、GPU等)。 测试场景: 由于设备过热引起GPU通信延迟增大,并导致其他设备 同步出现问题,多个队列操作缓慢。 组内定位 2 组间溯源 追踪当前通信组内最慢的rank,然后切换通 信组(TP 组 → DP 组 → PP 组) 3 定位根源慢节点 找出在每个组中都是最慢的rank,即为根源 慢节点 结论:经过MeagtronApp分析后,精准定位故障设备,缩短排障时间。 4 移除根源慢节点 将目标节点从调度列表中移除
15. CUDA Event 驱动的毫秒级追踪 可视化流程 训练结束后 通 过 通 信 组 全 局 ID 把 AllReduce 、 P2P事 件 配 对 , 找 到 事件注入原理 同步锚点。以Rank0为基准,用锚 点迭代对齐其他rank时钟,误差随 通信密度收敛。 MegaScan在kernel前后插入 CUDA Event,利用GPU硬件时间 戳记录算子级延迟,异步读取无阻 塞。同时把微批ID、通信字节、对 等rank等元数据注入trace,为后续 根因定位提供数据底座。 各rank JSON被聚合、时钟对齐并 输出Chrome Tracing格式,可直 接用chrome://tracing或Perfetto 打开,时间线精确到微秒,为工程 师提供直观的可视化工具。
16. MegaScan 实战案例
17. MegaScan 实战案例:组内慢信号传播 Observation 1: TP Group 0 - 1 AllReduce Time: Rank1 is shorter than Rank0 (green circle < red circle, because Rank0 is waiting for Rank1)
18. MegaScan 实战案例:跨组慢信号传播 Observation 2 : DP Group 0- 2 Decoder Overall Time: Rank 0 is longer than Rank 2 (Chain Effectof Above Two: slowness propagation 1- > 0- > 2 because Rank 0 and Rank 2 will have a AllReduce of Grad later)
19. MegaScan 实战案例 日志处理开销 日志采集开销
20. 04 MegaFBD :解耦 前后向计算实例
21. 前后向计算同卡的三大冲突导致训练效率低 冲突1 冲突2 冲突3 显存瓶颈 资源争用 异构设备闲置 显存无法提前释放,随着 batch size 或sequence length放大,峰值显存成 为瓶颈,GPU 利用率下降。 前向与后向的网络与计算 争用资源,导致训练效率 低下。 CPU 、NPU 等异构设备在 传统方案中闲置,需要解 耦。
22. 本质:前向与后向计算存在结构性差异 二者在显存消耗、通信模式、FLOPs分布与功耗轨迹上存在高度不一致。
23. MegaFBD 实例级解耦与差异化并行度配置 GPU 0 vRank 0 Forward 传统3D 并行 v.s. MegaFBD 并行 vRank 1 Forward GPU 2 GPU 3 Rank 0 Backward Rank 1 Backward
24. MegaFBD 线程级worker 设计思路 虚拟rank与通信协调器设计 1 虚拟rank机制 MegaFBD 为前向、后向分别创建虚拟rank,维持原框架 分区逻辑。物理上可把轻量级前向实例映射至低算力卡, 后向留在高算力GPU ,实现异构调度。 高算力GPU CPU or 低算力卡 通信协调器 线程级worker 通过bitvector 表注册集合通信请求,控制 线程确认所有成员就绪后按组序号执行,避免死锁。该 机制使通信调度开销降至O(G) ,兼容TP 、PP 、DP 任意 组合。 2
25. MegaFBD 多线程通信协调
26. Mega FBD实战案例 MegaFBD 通过解耦前后向实例和灵活的并行配置,将单卡平均实效(FLOPS)提升了23%
27. MegaDPP 05 :弹性流水线调度
28. 传统3D 并行下的流水线调度策略 过往调度策略的共性:确定性调度 2018 GPipe 同步,Flush,一次性前传→一 次性反传 PipeDream Zero-Bubble PP 异步,1F1B- RR + 权重版本缓存 后向传播拆分、前置通信、V 形映射 2019 2021 2023 2024 Megatron-LM BitPipe 同步,Flush,交错1F1B 同步,双向流水,V 形映射,与 交错1F1B
29. 1F1B的刚性瓶颈 W 权重更新延迟 通信- 显存trade- off 传统1F1B的权重更新必须等最后一段 后向结束,导致训练效率低下。 C 我们为什么需 要动态流水线 调度? 通信窗口受限 在实际训练场景中往往是其中之一成为实 际瓶颈,但是刚性调度无法灵活调整 M 默认stage 均匀 传统方案中,通信窗口被微批次的发射节奏 锁死,任一stage变慢即拖垮整条流水线。 对异构计算和算传burst场景兼容性差 H
30. 深度优先与广度优先在线切换 两种遍历策略的动态决策 Breadth-first Computation 让同一chunk 上的所有微批次尽快完成,可提前触发梯度同步、 拉长通信隐藏窗口。 Depth-first Computation 先让同一微批次数据跨chunk 推进,可提前释放激活降低峰值内 存。 动态决策 调度器根据实时内存与带宽的可用情况在两种策略间切换。
31. 基于贪心算法的实时决策 双重队列动态决策 双向p2p队列 每个rank维护两条队列来缓存收到的forward/backward 输入 前后向独立策略 MegaDPP 可以根据队列内的存量情况和既定策略来决定当前优 先执行的计算 动态决策 调度器根据根据当前前后向输入的到达情况灵活决定计算顺序, 从而提升低网络带宽、算力负载不均 等场景下的训练效率。
32. MegaDPP Original: MegaDPP: 扩展通讯窗口
33. Mega DPP实战案例 MegaDPP 通过流水线重排将 P2P 发送窗口最多增大 76%,Allreduce 窗口最多增大 100%
34. 06 MegaScope :训练 过程实时可观测
35. 主流可视化工具在大模型训练中的局限性 模型参数的增长对系统的可视化能力提出了 前所未有的挑战。 但常见的开源可视化工具无法平衡可解释性 和性能开销。 Insight 1 指标维度固定 只展示框架预定义指标,不支持用户自定义的训 练信号采集 High Target BertViz High Low 2 强耦合与手工导出 需用户主动插入代码导出张量,且对大模型而言 导出代价高昂 Cost Low Analysis of Mainstream Visualization Tools 3 缺乏交互与注入能力 仅提供静态或流式可视化,无法在训练过程中注 入干预信号
36. MegaScope ——为Megatron - LM 设计的可视化LLM 系统 开销低于3% 秒级反馈动态 训练实测显示,MegaScope 在模型训练过程中算 力开销低于3% ,且支持随时开关。 实时监控权重变化/注意力得分,秒级反馈模型训 练动态。 轻量 支持自定义 实时 支持用户多维度自定义,如观测指标、过滤器和视 图。 支持动态交互 从“看见”到“验证”——交互钻取 + 扰动注入 + 复 盘回放,帮助定位与决策。 可定制 可交互
37. MegaScope 兼顾可观测性与性能 如何像监测心跳一样监测模型训练状态? 四维观测+实时动态 1 注册式API+自定义指标&过滤器 3 2 按需采样+在线压缩
38. MegaScope 实战案例
39. MegaScope 实战案例:Jailbreak语义探究 借助MegaScope的PCA降维功能观察成功/失败case对应的隐藏层状态
40. MegaScope 实战案例:领域知识语义探究 借助MegaScope的注意力得分热力图功能观察领域知识对应的注意力分布
41. MegaScope 实战案例:观测开销 训练模式下展示QKV, MLP1, MLP2等层内中间结果,保留不同序列长度的可视化数据平均开销低于3%
42. 07 总结与展望
43. MegatronApp 改变训练范式 更快、更稳、更清晰 在线快速排障 全自动生成可视化监控和慢节点检测,故障定位从数小时降至分钟级,大幅提升排障效率。 智能化调度 训练集群网络带宽需求降低50 % ,大幅提升应对拥塞能力 训练效率优化 单卡效率提升23%+ ,为大规模训练带来显著收益。 可观测、可解释 实时收集分析训练中间结果,观测开销 <3%
44. MegatronApp 下半年Roadmap 1 2 3 4 MegaScope LLM 可视化 MegaFBD F-B 分离技术 推理侧推出快/慢模式;推出更多 的扰动模式和可解释性模版 新增机制支持自由调整前后向实 例比例以适配不同负载特征。 MegaDPP自适应流水线调度 引入更多可选的调度决策选项以 兼容现有的流水线调度算法,以 适配更复杂的负载变化情况。 MegaScan 慢节点检测 引入更细粒度的事件分类,便于 控制开销;加入对EP/CP等并行 模式的支持;进一步优化检测算 法的准确性。
45. 未来计划与开源邀请 开源、免费、联创、共享 未来计划 团队计划新增自动故障恢复、FP8 混合精度追踪及 推理阶段监控,并同步跟进Megatron - Core 新特 性,持续优化工具链。 开源邀请 MegatronApp 已完全开源在 github.com/OpenSQZ/MegatronApp ,欢迎社区 提交PR 、扩展新后端与可视化插件,共同构建面 向下一代异构集群的开放训练基座。
46.
47. THANKS 大模型正在重新定义软件 Large Language Model Is Redefining The Software

Home - Wiki
Copyright © 2011-2025 iteam. Current version is 2.147.1. UTC+08:00, 2025-11-03 05:13
浙ICP备14020137号-1 $Map of visitor$