腾讯AngelPTM大模型训练框架优化与实践支撑混元大模型训练的训练框架

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 腾讯AngelPTM大模型训练框架优化与实践 支撑混元大模型训练的训练框架 空白演示 Lorem ipsum dolor sit amet, consectetur adipisicing elit. 薛金宝 2024.6
2.
3. 1 大模型发展趋势和训练面临的挑战 3
4. 大模型成为人工智能发展的重要方向 模型参数规模 指数级增长 • 生成式大模型突飞猛进,5年时间,模型参数规模增长100万倍,达到万亿量级 • Scaling Law [1] :数据越多、模型越大,模型学习能力越强,模型效果越好 [1]OpenAI “Scaling Laws for Neural Language Models”,https://arxiv.org/abs/2001.08361, 2020
5. 大模型发展趋势-模态变化 文生文 ChatGPT Llama3 文生图 文生视频 多模态 全模态 Stable Diffusion DiT Sora STDiT GPT4V Gemini GPT5
6. 大模型发展趋势-MOE以及更长Context Window Expert 1 120层 Expert 2 FFN 层 … Expert 16 门控模块 Self-Attention 层(共享参数) Decoder-Only  总参量:~1.8T  训练数据:~13T Tokens  激活2个Expert (111B 参数/Expert)  Self-Attention层是55B的共享参数  Context Window,最初是8K,逐步精调至32K  模型容量/效果  模型参数量越大效果越好  相同激活参数量,MoE更好  训练/推理成本  成本低,e.g., GLaM[1]训练成本相当于GPT-3的1/3, 推理成本相当于GPT-3的1/2,但效果超过GPT-3  终身学习  各类数据,知识和特征分布不同,容易出现知识干扰和 [1] GLaM: Efficient Scaling of Language Models with Mixture-of-Experts 遗忘 [2] Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity [3] Lifelong Language Pretraining with Distribution-Specialized Experts  Dense模型数据的配比挑战很大,配比小的数据很难表 [4] https://the-decoder.com/gpt-4-architecture-datasets-costs-and-more-leaked/ 现较好
7. 大模型训练的挑战 显存需求大 模型结 构 参数 规模 模型状态 显存需求 激活值显存 需求 (Bs=1,Seq=4 k) 算力规模大 预估模型状 态存储最少 卡数 (A100- 40G) Bert 0.33B 5.94G 0.22G 1张 LLaMA 70B 1260G 5G 32张 GPT3 176B 3168G 7.64G 80张 GPT4 1800B 32400G 10.81G 810张 网络通信量大 模型结构 参数规模 通信量(梯度) TP通信 BS=64/Seq= 4K BERT 0.33B 0.66G - LLAMA 70B 140G 1374.39G GPT3 176B 352G 2104.54G GPT4 1800B 3600G 2768.24G
8. 2 大模型训练框架AngelPTM 8
9. AngelPTM大模型概述 参数多计算量大 大模型训练推理 面临双重挑战 ç 万亿参数 ç GPU算力受限 A100 1.6E24 Flops ç 腾讯Angel机器学习平台 A800 H800 H20 开源框架为高端GPU卡设计 高性能 产出混元万亿参数模型,训练性能是业界开源框架的2.6倍,推理性能是业界2.3倍 大规模 单个训练任务突破万卡规模,达到99%线性加速比,并实现万卡长稳训练 ç 低成本 GPU利用率MFU指标突破62%,业界领先(字节55%),训练成本下降60%,推理成本下降70% 训练产出混元 万亿MoE模型 业 务 应 用 ç H200 H100 突破低端卡限制,性能达到业界领先 400+业务精调,服务调用量2.3亿  2023年中国电子学会科技进步 云上输出 ç 框架协同多个Oteam 云帆 文生图 AI大模型基础 设施 影 响 力 一等奖,腾讯首次 ç  VLDB、SIGMOD、EMNLP3篇 国际顶会论文,VLDB最佳论文  12项发明专利,多篇媒体报道 9
10. AngelPTM大模型训练框架图
11. AngelPTM:ZeROCache存储优化技术提高模型容量90%  GPU显存与系统内 存统一编址,统一 视角管理,扩大了 显存可存储模型的 容量  基于定长内存Chunk段的内存管理,定长申 请复用,避免频繁申请释放 模型存储容量提升90%,同时,使得24G/40G低配GPU卡也可 训练大模型,突破了高端算力限制,目前已基于40G显存低配 卡训练出腾讯混元千亿大模型、24G低配卡实现模型精调; 效果:1T内存+40G显存可训练60B模型;2T内存+80G显存最大可训练120B模型
12. AngelPTM:多维并行加速训练效率 w0 w1 w2 w3 Allreduce AllReduce AllGather / ReduceScatter Send / Recv w0,0 w0,1 w0,2 w0 w1 w2 w3 w1,0 w1,1 w1,2 w1,3 + w0,3 Tensor + Sequence Parallel w0 w1 w2 w3 w0 w1 w2 w1,2 w1,3 w3 Allgather/ReduceScatter w0,0 1D并行 (数据并行) 数据并行度:12 2D并行 (数据并行+张量并行) 数据并行度:4 张量并行度:3 w0,1 3D并行 (数据并行+张量并行+流水并行) 数据并行度:2 张量并行度:3 流水并行度:2 数据并行:提高数据吞吐 张量并行:引入通信,多卡分担显存压力 流水并行:流水线提高并行效率,P2P低通信量 序列并行:LayerNorm和Dropout的计算和激活值 被平摊到各个设备,减少冗余计算和显存开销
13. AngelPTM:大规模之计算通信流水线与低精度量化技术 挑战:在多维并行策略中,需避免计算、通信操作串行,以及采用低精度更少字节数,进一步降低网络通信量 计算与通信异步流水线 计算通信Overlap,多流异步解决机间通信效率 FP8低精度量化通信 降低一倍 BF16通信量 FP8通信量
14. MOE:Expert并行+Expert TP+Expert DP实现万亿MOE模型的高效训练 • Router 选择 • Expert Choice • Top-1,2 • MoE并行策略 • Expert Parallel +Data Parallel(EP+DP) • 支持Dense部分采用Tensor Parallel +Sequence Parallel(TP+SP) • 支持Expert部分采用Tensor Parallel +Sequence Parallel(TP+SP) • 支持Pipeline Parallel(PP) • MoE通信优化 • 通过Expert Sequence Parallel减少Expert Tensor Parallel 带来的冗余通信 • All2all通信计算overlap
15. AngelPTM:Context并行实现100M Context Window训练  精度无损,增加GPU卡量, context windows理论上支持无 限大  固定GPU的情况下,如果要继续 增大context windows,需要降 低单卡的显存压力,可以通过激 活值offload优化显存  可增加卡的情况下,通信压力会 上升,可对通信计算overlap进行 优化
16. AngelPTM:Context并行实现100M Context Window训练  精度无损,context windows 长度受限于GPU卡数量,支持 窗口长度和Ring Attention一致。  针对decoder-only模型优化计 算负载不均衡。
17. AngelPTM:负载均衡的流水并行+特定重计算 FIRST STAGE STAGE2 显存占用大 FIRST STAGE 部分layer重计算 STAGE3 … 显存占用大 计算量大 Stage 均衡化划分+计算换显存 STAGE2 STAGE3 EMBEDDING STAGE MODEL PARALLEL LAST STAGE … LAST STAGE
18. AngelPTM:整体训练性能是业界开源框架的2.6倍 大模型训练效率对比 腾讯自研大模型 训练框架AngelTPM 业界传统大模型 Benchmark训练方案 15.2天 40天
19. 3 大模型超大规模集群训练优化和实践 1 9
20. 大模型大规模训练挑战  训练性能能否线性扩展?实现大规模训练 性能的Scale law,即随着卡数增加训练性 能线性增加  大规模训练通信压力大有效带宽低、 带宽利用不均衡带宽利用率低  大模型训练BatchSize扩大是否有特定 的Scale law,即BatchSize的增大不影 响模型效果  大规模训练故障频繁,持续长时间稳定训 练如何保障?  GPU卡硬件故障导致训练中断  训练速度异常  训练卡顿  GPU卡精度异常
21. 大规模大BatchSize训练,平衡训练效率和模型效果 突破NLP 4M BatchSize限制,持续提高算力利用率 简单的BatchSize增大会导致模型效果变 差 利用BatchSize和Lr的Scaling Law突破大BatchSize影响模型效果的挑战,提 高大模型训练GPU利用率[1] [1] https://arxiv.org/pdf/2405.14578
22. 大规模训练通信优化: GPU通信拓扑感知,软硬件协同亲和性优化提高通信效率 大规模训练网络通信挑战: 1. 网络通信随着卡数增加通信带宽衰减 2. 单个集群多个任务同时运行,每个任务分配GPU不全满足集群亲和性 3. 随着模型增大,通信量增加,通信耗时增加 GPU拓扑感知路由,全链路零丢包 优选前通信路径 优选后通信路径 负载均衡技术和通讯库优化,带宽利用率提升3倍 3D并行机制网络亲和性优化,TP以及DP走最优网络路径,PP通信次之, 保证通信效率,通信带宽达到有效带宽80%
23. 大规模训练稳定性优化 360 全方位监控 多团队保障提前预警故障,问题机器实时提出,快速恢复训练 自动续训机制保障任务快速恢复,减少中断耗时
24. 大规模训练优化成果 万卡加速比99%,线性扩展 任务稳定性99.5%
25. 支撑腾讯混元训练以及司内600+个业务的训练
26. Thanks 2 6

Home - Wiki
Copyright © 2011-2024 iteam. Current version is 2.139.0. UTC+08:00, 2024-12-24 09:20
浙ICP备14020137号-1 $Map of visitor$