腾讯AngelPTM大模型训练框架优化与实践支撑混元大模型训练的训练框架
如果无法正常显示,请先停止浏览器的去广告插件。
1. 腾讯AngelPTM大模型训练框架优化与实践
支撑混元大模型训练的训练框架
空白演示
Lorem ipsum dolor sit amet, consectetur adipisicing elit.
薛金宝
2024.6
2.
3. 1
大模型发展趋势和训练面临的挑战
3
4. 大模型成为人工智能发展的重要方向
模型参数规模
指数级增长
• 生成式大模型突飞猛进,5年时间,模型参数规模增长100万倍,达到万亿量级
• Scaling Law [1] :数据越多、模型越大,模型学习能力越强,模型效果越好
[1]OpenAI “Scaling Laws for Neural Language Models”,https://arxiv.org/abs/2001.08361, 2020
5. 大模型发展趋势-模态变化
文生文
ChatGPT
Llama3
文生图 文生视频 多模态 全模态
Stable Diffusion
DiT Sora
STDiT GPT4V
Gemini GPT5
6. 大模型发展趋势-MOE以及更长Context Window
Expert 1
120层
Expert 2
FFN 层
…
Expert 16
门控模块
Self-Attention 层(共享参数)
Decoder-Only
总参量:~1.8T
训练数据:~13T Tokens
激活2个Expert (111B 参数/Expert)
Self-Attention层是55B的共享参数
Context Window,最初是8K,逐步精调至32K
模型容量/效果
模型参数量越大效果越好
相同激活参数量,MoE更好
训练/推理成本
成本低,e.g., GLaM[1]训练成本相当于GPT-3的1/3,
推理成本相当于GPT-3的1/2,但效果超过GPT-3
终身学习
各类数据,知识和特征分布不同,容易出现知识干扰和
[1] GLaM: Efficient Scaling of Language Models with Mixture-of-Experts
遗忘
[2] Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity
[3] Lifelong Language Pretraining with Distribution-Specialized Experts
Dense模型数据的配比挑战很大,配比小的数据很难表
[4] https://the-decoder.com/gpt-4-architecture-datasets-costs-and-more-leaked/
现较好
7. 大模型训练的挑战
显存需求大
模型结
构
参数
规模
模型状态
显存需求
激活值显存
需求
(Bs=1,Seq=4
k)
算力规模大
预估模型状
态存储最少
卡数
(A100-
40G)
Bert 0.33B 5.94G 0.22G 1张
LLaMA 70B 1260G 5G 32张
GPT3 176B 3168G 7.64G 80张
GPT4 1800B 32400G 10.81G 810张
网络通信量大
模型结构 参数规模 通信量(梯度) TP通信
BS=64/Seq=
4K
BERT 0.33B 0.66G -
LLAMA 70B 140G 1374.39G
GPT3 176B 352G 2104.54G
GPT4 1800B 3600G 2768.24G
8. 2
大模型训练框架AngelPTM
8
9. AngelPTM大模型概述
参数多计算量大
大模型训练推理
面临双重挑战
ç
万亿参数
ç
GPU算力受限
A100
1.6E24 Flops
ç
腾讯Angel机器学习平台
A800
H800
H20
开源框架为高端GPU卡设计
高性能 产出混元万亿参数模型,训练性能是业界开源框架的2.6倍,推理性能是业界2.3倍
大规模 单个训练任务突破万卡规模,达到99%线性加速比,并实现万卡长稳训练
ç
低成本 GPU利用率MFU指标突破62%,业界领先(字节55%),训练成本下降60%,推理成本下降70%
训练产出混元
万亿MoE模型
业
务
应
用
ç H200
H100
突破低端卡限制,性能达到业界领先
400+业务精调,服务调用量2.3亿
2023年中国电子学会科技进步
云上输出
ç
框架协同多个Oteam
云帆
文生图
AI大模型基础
设施
影
响
力
一等奖,腾讯首次
ç
VLDB、SIGMOD、EMNLP3篇
国际顶会论文,VLDB最佳论文
12项发明专利,多篇媒体报道
9
10. AngelPTM大模型训练框架图
11. AngelPTM:ZeROCache存储优化技术提高模型容量90%
GPU显存与系统内
存统一编址,统一
视角管理,扩大了
显存可存储模型的
容量
基于定长内存Chunk段的内存管理,定长申
请复用,避免频繁申请释放
模型存储容量提升90%,同时,使得24G/40G低配GPU卡也可
训练大模型,突破了高端算力限制,目前已基于40G显存低配
卡训练出腾讯混元千亿大模型、24G低配卡实现模型精调;
效果:1T内存+40G显存可训练60B模型;2T内存+80G显存最大可训练120B模型
12. AngelPTM:多维并行加速训练效率
w0
w1
w2
w3
Allreduce
AllReduce
AllGather /
ReduceScatter
Send / Recv
w0,0
w0,1
w0,2
w0 w1 w2 w3
w1,0 w1,1 w1,2 w1,3
+
w0,3
Tensor + Sequence Parallel
w0
w1
w2
w3
w0
w1 w2
w1,2 w1,3
w3
Allgather/ReduceScatter
w0,0
1D并行
(数据并行)
数据并行度:12
2D并行
(数据并行+张量并行)
数据并行度:4
张量并行度:3
w0,1
3D并行
(数据并行+张量并行+流水并行)
数据并行度:2
张量并行度:3
流水并行度:2
数据并行:提高数据吞吐
张量并行:引入通信,多卡分担显存压力
流水并行:流水线提高并行效率,P2P低通信量
序列并行:LayerNorm和Dropout的计算和激活值
被平摊到各个设备,减少冗余计算和显存开销
13. AngelPTM:大规模之计算通信流水线与低精度量化技术
挑战:在多维并行策略中,需避免计算、通信操作串行,以及采用低精度更少字节数,进一步降低网络通信量
计算与通信异步流水线
计算通信Overlap,多流异步解决机间通信效率
FP8低精度量化通信
降低一倍
BF16通信量
FP8通信量
14. MOE:Expert并行+Expert TP+Expert DP实现万亿MOE模型的高效训练
• Router 选择
• Expert Choice
• Top-1,2
• MoE并行策略
• Expert Parallel +Data Parallel(EP+DP)
• 支持Dense部分采用Tensor Parallel +Sequence Parallel(TP+SP)
• 支持Expert部分采用Tensor Parallel +Sequence Parallel(TP+SP)
• 支持Pipeline Parallel(PP)
• MoE通信优化
• 通过Expert Sequence Parallel减少Expert Tensor Parallel 带来的冗余通信
• All2all通信计算overlap
15. AngelPTM:Context并行实现100M Context Window训练
精度无损,增加GPU卡量,
context windows理论上支持无
限大
固定GPU的情况下,如果要继续
增大context windows,需要降
低单卡的显存压力,可以通过激
活值offload优化显存
可增加卡的情况下,通信压力会
上升,可对通信计算overlap进行
优化
16. AngelPTM:Context并行实现100M Context Window训练
精度无损,context windows
长度受限于GPU卡数量,支持
窗口长度和Ring Attention一致。
针对decoder-only模型优化计
算负载不均衡。
17. AngelPTM:负载均衡的流水并行+特定重计算
FIRST STAGE
STAGE2
显存占用大
FIRST STAGE
部分layer重计算
STAGE3
…
显存占用大
计算量大
Stage 均衡化划分+计算换显存
STAGE2
STAGE3
EMBEDDING STAGE MODEL
PARALLEL
LAST STAGE
…
LAST STAGE
18. AngelPTM:整体训练性能是业界开源框架的2.6倍
大模型训练效率对比
腾讯自研大模型
训练框架AngelTPM
业界传统大模型
Benchmark训练方案
15.2天
40天
19. 3
大模型超大规模集群训练优化和实践
1
9
20. 大模型大规模训练挑战
训练性能能否线性扩展?实现大规模训练
性能的Scale law,即随着卡数增加训练性
能线性增加
大规模训练通信压力大有效带宽低、
带宽利用不均衡带宽利用率低
大模型训练BatchSize扩大是否有特定
的Scale law,即BatchSize的增大不影
响模型效果
大规模训练故障频繁,持续长时间稳定训
练如何保障?
GPU卡硬件故障导致训练中断
训练速度异常
训练卡顿
GPU卡精度异常
21. 大规模大BatchSize训练,平衡训练效率和模型效果
突破NLP 4M BatchSize限制,持续提高算力利用率
简单的BatchSize增大会导致模型效果变
差
利用BatchSize和Lr的Scaling Law突破大BatchSize影响模型效果的挑战,提
高大模型训练GPU利用率[1]
[1] https://arxiv.org/pdf/2405.14578
22. 大规模训练通信优化: GPU通信拓扑感知,软硬件协同亲和性优化提高通信效率
大规模训练网络通信挑战:
1. 网络通信随着卡数增加通信带宽衰减
2. 单个集群多个任务同时运行,每个任务分配GPU不全满足集群亲和性
3. 随着模型增大,通信量增加,通信耗时增加
GPU拓扑感知路由,全链路零丢包
优选前通信路径
优选后通信路径
负载均衡技术和通讯库优化,带宽利用率提升3倍
3D并行机制网络亲和性优化,TP以及DP走最优网络路径,PP通信次之,
保证通信效率,通信带宽达到有效带宽80%
23. 大规模训练稳定性优化
360 全方位监控
多团队保障提前预警故障,问题机器实时提出,快速恢复训练
自动续训机制保障任务快速恢复,减少中断耗时
24. 大规模训练优化成果
万卡加速比99%,线性扩展
任务稳定性99.5%
25. 支撑腾讯混元训练以及司内600+个业务的训练
26. Thanks
2
6