太极 Angel 助力生成式大模型高效落地
如果无法正常显示,请先停止浏览器的去广告插件。
1. 腾讯Angel助力生成
式大模型高效落地
混元大模型推理负责人—刘凯
2.
3. 2017 – 2019
2013 – 2016
• 深度学习通用推理引擎
• 电磁场GPU加速
• PowerPC系统软件开发
2016 – 2017
2019 - 至今
•
•
•
Angel-HCF&Angel-SNIP
首个工业落地的INT4&稀疏化
混元大模型推理方向负责人
4. 目录
• 生成式AI技术之部署挑战解析
• Angel-HCF助力生成式AI部署优化
• Angel-SNIP助力生成式AI无损压缩
• Angel助力混元大模型大规模落地应用
5. 生成式AI技术之部署挑战解析
6. 快速增长的模型规模
Ø 模型规模快速增长,1~2年提升1个量级
Ø 随着MoE结构的提出,模型整体参数量突破万亿
Ø 23年开始模型窗口长度不断加大,各大公司逐步开放至百K~M级别
训练GPU显存容量(GB)
训练GPU计算能力(TFLOPS)
训练GPU显存带宽(GB)
96
80
80
80
4096
990
80
990
3430
2039
40
缓慢增长的设备能力
32
V100
Ø 如何使用更差的卡来优化大模型的训
2039
练和推理效率
1520
312
312
312
900
148
125
Ø GPU显存增长缓慢,停滞在100G以下
3430
A100-40G A100-80G
A800
H100
H800
H20
V100
Ø 在现有卡的基础上设计怎样的模型结
A100-40G A100-80G
A800
H100
H800
H20
V100
A100-40G A100-80G
A800
H100
H800
H20
构能在同等参数规模下获得更好的训
推理GPU显存容量(GB)
Ø GPU计算能力1代增长3倍左右
48
48
推理GPU计算能力(TFLOPS)
48
推理GPU显存带宽(GB)
933
362
Ø 显存带宽1代增长0.5~1倍
864
864
864
Ø 如何充分发挥国产芯片能力来打造国
600
24
24
181
165
16
125
120
300
产大模型
65
T4
越发严格的禁令
Ø 训练卡:A100、H100、A800、H800全面禁售
Ø 推理卡:L40S、L40、A30全面禁售
Ø 中国特供:H20、L20算力大幅削减,仅保留20~30%
A10
A30
L20
L40
L40S
T4
A10
A30
练和推理性能
L20
L40
L40S
T4
A10
A30
L20
L40
L40S
7. 周期 体量 收益
模型训练 1~3月 千级别 学术、社会正收益
经济负收益
模型推理 半年~数年 千~万级别 学术、社会正收益
经济正收益
支
撑
Ø 太极Angel-HCF
Ø 太极Angel-SNIP
太极Angel研发模型压缩组件SNIP+推理部署加速组件HCF,保障腾讯混元大模型高便捷、高性能、低成本的落地应用
8. Angel-HCF助力生成式AI部署优化
Ø Angel-HCF之显存优化
Ø Angel-HCF之计算优化
Ø Angel-HCF之通信优化
Ø Angel-HCF之调度优化
9. Angel-HCF之显存优化
GPU显存占用拆分
Ø 模型权重:固定大小,模型参数量 * 数据类型
Ø KV-Cache:动态大小,输入输出规模 * 隐层规模 * 层
Ø 激活空间:动态大小,输入规模 * 隐层规模
数
一阶段优化
Ø 大模型热+禁令影响下,如何在更小的
分布式存储
三阶段优化
二阶段优化
Context-Loop
Buffer全共享
卡上部署大模型
Ø 大模型走向生产阶段,降低显存提升并
腾讯混元的解法
再升级
升级
发能有效降低成本
Ø 超长文火热的当下,如何缓解激活空间
权重
显存的凸显
Prefill
PagedAttention
量化压缩
INT8
FP8
INT4
激活 INT8 FP8 INT4
KV INT8 FP8 INT4
细化显存粒度
10. Angel-HCF之计算优化
Ø 高效算子集合:自定义Kernel、cutlass、cublasLt、开源实现
Ø 图优化&层融合:Graph-Optimizer+人工辅助优化
Ø 压缩适配:w8a8、2:4硬件稀疏化等
11. Angel-HCF之通信优化
Ø 百亿以上大模型需要分布式部署,卡间、机间通信逐步成为瓶颈 Ø 针对不同的模型规模及结构、需要选择不同的并行方式
Ø 腾讯基于NCCL二次开发,推出自研TCCL加速通信库 Ø PP并行由于过大的Bubble Time并不适合一般推理场景
Ø 依托腾讯内部的星脉网络架构,为大模型训练推理提供高效的网络通信性能 Ø 事无绝对:MoE + PP有奇效(处理好GlobalBatch&MiniBatch关系)
通信量:O ����
VS
通信量:O ���
12. Angel-HCF之调度优化
Ø Triton+HCF Backend完成调度优化
Ø 基础功能:动态Batch、排队、拒绝、流式、Continuous、group等
Ø 新增功能:请求中止降低无效运算、新增内部调度器提高吞吐等
Triton Server
Infer
Request
Scheduler
优先级、排队、
batch、拒绝等
基础功能
HCF Backend
执行队列
状态机
KV-Cache管理器
拒绝队列
Stop
Request
用户历史请求生成长度
线上近期请求平均生成长度
降低无效运算:
1、Token维度调度,弱化Batch和SeqLen
2、KV-Cache以最优窗口进行申请
内部调度优化
Scheduler
Batch、KV、交
换、提前退出等
用户中止、网络断联、审核问题等
LLM
Generation
Infer Iter
Request Queue
Streaming
Responses
请求
(最大生成长度X)
调度器
执行队列
1、完成生成、释放槽位
Infer Pool
2、生成未完成、逐步扩大窗口获取更多槽位
完成原因
Ø 正常完成:Eos、StopWord、MaxLength、策略停止等
Ø 异常完成:超参异常、执行队列等待超时、Cache不足等
13. Angel-HCF助力生成式AI部署优化
Ø 优化手段:显存优化、计算优化、通信优化、调度优化
Ø 优化目标:降低耗时、提升并发&吞吐、降低成本
Ø 其他尝试:国产AI芯片、端侧部署等
14. Angel-SNIP助力生成式AI无损压缩
Ø Angel-SNIP之量化压缩
Ø Angel-SNIP之蒸馏压缩
Ø Angel-SNIP之并行解码
Ø Angel-SNIP之结构稀疏
15. Angel-SNIP之量化压缩
W8A16
W4A16
FP8
策略:仅量化模型权重,推理时反量化回BF16,主要目的减少存储读写开销,量化比特数为8
特点:无需校准,直接产出量化模型,时间成本开销最小,推理节省接近一半的显存开销,精度损失最小,大规模测试
中都基本无损
策略:进一步将权重量化的比特数减少到4,减少更多读写开销。采用GPTQ优化策略,更好保持精度,需要少量校准集
进行GPTQ优化
特点:算法耗时短,自研量化工具在7B模型上1小时内产出量化模型加速效果优于W8A16,精度损失在0.5%之内
策略:采用W8A8C8的策略,权重存储、kernel计算和KV-Cache的存储都采用FP8精度,H卡之后支持FP8,需要少量校准集
进行FP8校准
特点:算法耗时短,半小时内完成校准,FP8相比于INT8具有更佳的精度保持效果,推理速度在不同Batch Size下均表
现优异
问题
FP8的出现,是否还有必要专门做量化压缩???
16. Angel-SNIP之文生文蒸馏压缩
需求场景
Ø 部分业务场景无尺寸合适的小模型可用
Ø 从头训练小模型成本高(预训练+增训+SFT)
需求场景
Ø 原模型延迟过高,实际业务中需要倍数压缩模型参数
MHA MHA MHA
FFN FFN FFN
MHA MHA MHA
… MHA … MHA …
FFN FFN FFN
原始模型 层裁剪 混合裁剪
FFN
Ø 已有精简模型训练不佳,需要借助大模型提升训练效果
蒸馏效果
Ø 压缩比80%,使用20%参数量的学生,达到原始模型效果
结构
场景1
Ø 支持热启动、冷启动两种方案
Ø 支持同构和异构的蒸馏压缩模式
场景2
模型 Pass@1
教师 34B 76
学生 7B distill 75
教师 70B 72
学生 7B-MoE distill 70
FFN
FFN
MHA
结论
• 继承大模型的部分权重,有利于小模型更快收敛
• 相比从头过大量数据训练(预训练+增训)小模型,仅需
20%的增训数据,便可快速裁剪出尺寸、效果相当的模型
• 整体可节省 5X 以上的训练成本
17. Angel-SNIP之文生图&视频蒸馏压缩
质感与性能并重
步数蒸馏
30步-4s
100步-12s
100步-12s
原模型
VS
30步-4s
蒸馏模型
100步-12s
30步-4s
存在问题
100步-12s
文生图面临的问题:出图质感 vs 性能
原模型
Ø 训练稳定性较难保障
Ø 蒸馏后的小模型质较差
30步-4s
蒸馏模型
原模型(12s)评分 蒸馏模型(4s)评分
unet结构(3分档评分方式) 29.77 29.58(<1%)
dit结构(3分档评分方式) 35.6 34.67(<1%)
unet结构+插件(5分档评分方式) 81.28 81.98(<1%)
改进方案
Ø 构造高质量数据集蒸馏:训练效率高、出图质感高
Ø 基于渐进式的跨步蒸馏:训练稳定、质感与性能并重
原模型
蒸馏模型
18. Angel-SNIP之文生图—首个中英双语DIT架构—全面开源
Ø 官网: https://dit.hunyuan.tencent.com/
Ø 代码: https://github.com/Tencent/HunyuanDiT
Ø 模型: https://huggingface.co/Tencent-Hunyuan/HunyuanDiT
Ø 论文:https://tencent.github.io/HunyuanDiT/asset/Hunyuan_DiT_Tech_Report_05140553.pdf
19. Angel-SNIP之并行解码
Ø 大模型的效果好;但推理耗时长,大规模部署成本高
Ø 小模型的推理耗时短,部署成本低;但往往效果不及预期
提升大模型单次生成token数
小模型推理,大模型校验
均衡推理时耗及模型效果
5X 投机采样
大模型解码率 小模型解码率 pass@1
100% - 76.8%
- 100% 67.7%
投机采样 19.96% 81.04% 75.6%
10X 投机采样 大模型解码率 小模型解码率 pass@1
100% - 82.9%
- 100% 67.7%
16.7% 83.30% 83.5%
large model
(codellama-34b)
small model
(codellama-7b)
large model
(codellama-70b)
small model
(codellama-7b)
投机采样
20. Angel-SNIP之结构稀疏
Ø NVIDIA从Ampere系列显卡开始支持硬件结构化稀疏
Ø 结构化稀疏可以有效降低存储和提升计算速度
PPL最优
存在问题
Ø 数据量需求大
结
构
化
稀
疏
加
速
ACC最优
Ø 资源消耗过大
Ø 产出时间过长
算法改进
Ø 少量数据,不需要训练
Ø 不需要更新参数
Ø 引入波动量Entropy
加速明显
21. Angel-SNIP助力生成式AI无损压缩
Ø 压缩算法多种多样,各有特点
Ø 要根据实际场景选择最适合的方法
Ø 不被固有方法束缚,积极尝试新方法
22. Angel助力混元大模型大规模落地应用
23. Angel助力混元大模型落地应用
Ø 混元已接入600+司内业务,实现技术与应用同行
24. Angel助力混元大模型落地应用—文生文—腾讯会议小助手
25. Angel助力混元大模型落地应用—文生图—公众号自动配图
26. Angel助力混元大模型落地应用—多模态
27. 总结
生成式AI
部署挑战
HCF助力部
署优化
SNIP助力
无损压缩
混元大模型
落地应用
Ø 快速增长的模型规模 Ø 显存优化 Ø 量化压缩 Ø 文生文
Ø 缓慢增长的设备硬件能力 Ø 计算优化 Ø 蒸馏压缩 Ø 文生图
Ø 愈发严格的禁令 Ø 通信优化 Ø 并行解码 Ø 多模态
Ø 产品化后的超大体量 Ø 调度优化 Ø 结构稀疏
28. 革命尚未成功,同志仍需努力
29.
30.