腾讯AngelPTM大模型训练框架优化与实践支撑混元大模型训练的训练框架

如果无法正常显示，请先停止浏览器的去广告插件。

相关话题： #腾讯

1. 腾讯AngelPTM大模型训练框架优化与实践支撑混元大模型训练的训练框架空白演示 Lorem ipsum dolor sit amet, consectetur adipisicing elit. 薛金宝 2024.6

3. 1 大模型发展趋势和训练面临的挑战 3

4. 大模型成为人工智能发展的重要方向模型参数规模指数级增长 • 生成式大模型突飞猛进，5年时间，模型参数规模增长100万倍，达到万亿量级 • Scaling Law [1] ：数据越多、模型越大，模型学习能力越强，模型效果越好 [1]OpenAI “Scaling Laws for Neural Language Models”,https://arxiv.org/abs/2001.08361, 2020

5. 大模型发展趋势-模态变化文生文 ChatGPT Llama3 文生图文生视频多模态全模态 Stable Diffusion DiT Sora STDiT GPT4V Gemini GPT5

6. 大模型发展趋势-MOE以及更长Context Window Expert 1 120层 Expert 2 FFN 层 … Expert 16 门控模块 Self-Attention 层（共享参数） Decoder-Only  总参量：~1.8T  训练数据：~13T Tokens  激活2个Expert (111B 参数/Expert)  Self-Attention层是55B的共享参数  Context Window，最初是8K，逐步精调至32K  模型容量/效果  模型参数量越大效果越好  相同激活参数量，MoE更好  训练/推理成本  成本低，e.g., GLaM[1]训练成本相当于GPT-3的1/3，推理成本相当于GPT-3的1/2，但效果超过GPT-3  终身学习  各类数据，知识和特征分布不同，容易出现知识干扰和 [1] GLaM: Efficient Scaling of Language Models with Mixture-of-Experts 遗忘 [2] Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity [3] Lifelong Language Pretraining with Distribution-Specialized Experts  Dense模型数据的配比挑战很大，配比小的数据很难表 [4] https://the-decoder.com/gpt-4-architecture-datasets-costs-and-more-leaked/ 现较好

7. 大模型训练的挑战显存需求大模型结构参数规模模型状态显存需求激活值显存需求 (Bs=1,Seq=4 k) 算力规模大预估模型状态存储最少卡数（A100- 40G） Bert 0.33B 5.94G 0.22G 1张 LLaMA 70B 1260G 5G 32张 GPT3 176B 3168G 7.64G 80张 GPT4 1800B 32400G 10.81G 810张网络通信量大模型结构参数规模通信量(梯度) TP通信 BS=64/Seq= 4K BERT 0.33B 0.66G - LLAMA 70B 140G 1374.39G GPT3 176B 352G 2104.54G GPT4 1800B 3600G 2768.24G

8. 2 大模型训练框架AngelPTM 8

9. AngelPTM大模型概述参数多计算量大大模型训练推理面临双重挑战 ç 万亿参数 ç GPU算力受限 A100 1.6E24 Flops ç 腾讯Angel机器学习平台 A800 H800 H20 开源框架为高端GPU卡设计高性能产出混元万亿参数模型，训练性能是业界开源框架的2.6倍，推理性能是业界2.3倍大规模单个训练任务突破万卡规模，达到99%线性加速比，并实现万卡长稳训练 ç 低成本 GPU利用率MFU指标突破62%，业界领先(字节55%），训练成本下降60%，推理成本下降70% 训练产出混元万亿MoE模型业务应用 ç H200 H100 突破低端卡限制，性能达到业界领先 400+业务精调，服务调用量2.3亿  2023年中国电子学会科技进步云上输出 ç 框架协同多个Oteam 云帆文生图 AI大模型基础设施影响力一等奖，腾讯首次 ç  VLDB、SIGMOD、EMNLP3篇国际顶会论文，VLDB最佳论文  12项发明专利，多篇媒体报道 9

10. AngelPTM大模型训练框架图

11. AngelPTM：ZeROCache存储优化技术提高模型容量90%  GPU显存与系统内存统一编址，统一视角管理，扩大了显存可存储模型的容量  基于定长内存Chunk段的内存管理，定长申请复用，避免频繁申请释放模型存储容量提升90%，同时，使得24G/40G低配GPU卡也可训练大模型，突破了高端算力限制，目前已基于40G显存低配卡训练出腾讯混元千亿大模型、24G低配卡实现模型精调；效果：1T内存+40G显存可训练60B模型；2T内存+80G显存最大可训练120B模型

12. AngelPTM：多维并行加速训练效率 w0 w1 w2 w3 Allreduce AllReduce AllGather / ReduceScatter Send / Recv w0,0 w0,1 w0,2 w0 w1 w2 w3 w1,0 w1,1 w1,2 w1,3 + w0,3 Tensor + Sequence Parallel w0 w1 w2 w3 w0 w1 w2 w1,2 w1,3 w3 Allgather/ReduceScatter w0,0 1D并行（数据并行）数据并行度：12 2D并行（数据并行+张量并行）数据并行度：4 张量并行度：3 w0,1 3D并行（数据并行+张量并行+流水并行）数据并行度：2 张量并行度：3 流水并行度：2 数据并行：提高数据吞吐张量并行：引入通信，多卡分担显存压力流水并行：流水线提高并行效率，P2P低通信量序列并行：LayerNorm和Dropout的计算和激活值被平摊到各个设备，减少冗余计算和显存开销

13. AngelPTM：大规模之计算通信流水线与低精度量化技术挑战：在多维并行策略中，需避免计算、通信操作串行，以及采用低精度更少字节数，进一步降低网络通信量计算与通信异步流水线计算通信Overlap，多流异步解决机间通信效率 FP8低精度量化通信降低一倍 BF16通信量 FP8通信量

14. MOE：Expert并行+Expert TP+Expert DP实现万亿MOE模型的高效训练 • Router 选择 • Expert Choice • Top-1，2 • MoE并行策略 • Expert Parallel +Data Parallel（EP+DP） • 支持Dense部分采用Tensor Parallel +Sequence Parallel（TP+SP） • 支持Expert部分采用Tensor Parallel +Sequence Parallel（TP+SP） • 支持Pipeline Parallel（PP） • MoE通信优化 • 通过Expert Sequence Parallel减少Expert Tensor Parallel 带来的冗余通信 • All2all通信计算overlap

15. AngelPTM：Context并行实现100M Context Window训练  精度无损，增加GPU卡量， context windows理论上支持无限大  固定GPU的情况下，如果要继续增大context windows，需要降低单卡的显存压力，可以通过激活值offload优化显存  可增加卡的情况下，通信压力会上升，可对通信计算overlap进行优化

16. AngelPTM：Context并行实现100M Context Window训练  精度无损，context windows 长度受限于GPU卡数量，支持窗口长度和Ring Attention一致。  针对decoder-only模型优化计算负载不均衡。

17. AngelPTM：负载均衡的流水并行+特定重计算 FIRST STAGE STAGE2 显存占用大 FIRST STAGE 部分layer重计算 STAGE3 … 显存占用大计算量大 Stage 均衡化划分+计算换显存 STAGE2 STAGE3 EMBEDDING STAGE MODEL PARALLEL LAST STAGE … LAST STAGE

18. AngelPTM：整体训练性能是业界开源框架的2.6倍大模型训练效率对比腾讯自研大模型训练框架AngelTPM 业界传统大模型 Benchmark训练方案 15.2天 40天

19. 3 大模型超大规模集群训练优化和实践 1 9

20. 大模型大规模训练挑战  训练性能能否线性扩展？实现大规模训练性能的Scale law，即随着卡数增加训练性能线性增加  大规模训练通信压力大有效带宽低、带宽利用不均衡带宽利用率低  大模型训练BatchSize扩大是否有特定的Scale law，即BatchSize的增大不影响模型效果  大规模训练故障频繁，持续长时间稳定训练如何保障？  GPU卡硬件故障导致训练中断  训练速度异常  训练卡顿  GPU卡精度异常

21. 大规模大BatchSize训练，平衡训练效率和模型效果突破NLP 4M BatchSize限制，持续提高算力利用率简单的BatchSize增大会导致模型效果变差利用BatchSize和Lr的Scaling Law突破大BatchSize影响模型效果的挑战，提高大模型训练GPU利用率[1] [1] https://arxiv.org/pdf/2405.14578

22. 大规模训练通信优化： GPU通信拓扑感知，软硬件协同亲和性优化提高通信效率大规模训练网络通信挑战： 1. 网络通信随着卡数增加通信带宽衰减 2. 单个集群多个任务同时运行，每个任务分配GPU不全满足集群亲和性 3. 随着模型增大，通信量增加，通信耗时增加 GPU拓扑感知路由，全链路零丢包优选前通信路径优选后通信路径负载均衡技术和通讯库优化，带宽利用率提升3倍 3D并行机制网络亲和性优化，TP以及DP走最优网络路径，PP通信次之，保证通信效率，通信带宽达到有效带宽80%

23. 大规模训练稳定性优化 360 全方位监控多团队保障提前预警故障，问题机器实时提出，快速恢复训练自动续训机制保障任务快速恢复，减少中断耗时

24. 大规模训练优化成果万卡加速比99%，线性扩展任务稳定性99.5%

25. 支撑腾讯混元训练以及司内600+个业务的训练

26. Thanks 2 6