太极 Angel 助力生成式大模型高效落地

如果无法正常显示，请先停止浏览器的去广告插件。

1. 腾讯Angel助力生成式大模型高效落地混元大模型推理负责人—刘凯

3. 2017 – 2019 2013 – 2016 • 深度学习通用推理引擎 • 电磁场GPU加速 • PowerPC系统软件开发 2016 – 2017 2019 - 至今 • • • Angel-HCF&Angel-SNIP 首个工业落地的INT4&稀疏化混元大模型推理方向负责人

4. 目录 • 生成式AI技术之部署挑战解析 • Angel-HCF助力生成式AI部署优化 • Angel-SNIP助力生成式AI无损压缩 • Angel助力混元大模型大规模落地应用

5. 生成式AI技术之部署挑战解析

6. 快速增长的模型规模 Ø 模型规模快速增长，1~2年提升1个量级 Ø 随着MoE结构的提出，模型整体参数量突破万亿 Ø 23年开始模型窗口长度不断加大，各大公司逐步开放至百K~M级别训练GPU显存容量（GB）训练GPU计算能力（TFLOPS）训练GPU显存带宽（GB） 96 80 80 80 4096 990 80 990 3430 2039 40 缓慢增长的设备能力 32 V100 Ø 如何使用更差的卡来优化大模型的训 2039 练和推理效率 1520 312 312 312 900 148 125 Ø GPU显存增长缓慢，停滞在100G以下 3430 A100-40G A100-80G A800 H100 H800 H20 V100 Ø 在现有卡的基础上设计怎样的模型结 A100-40G A100-80G A800 H100 H800 H20 V100 A100-40G A100-80G A800 H100 H800 H20 构能在同等参数规模下获得更好的训推理GPU显存容量（GB） Ø GPU计算能力1代增长3倍左右 48 48 推理GPU计算能力（TFLOPS） 48 推理GPU显存带宽（GB） 933 362 Ø 显存带宽1代增长0.5~1倍 864 864 864 Ø 如何充分发挥国产芯片能力来打造国 600 24 24 181 165 16 125 120 300 产大模型 65 T4 越发严格的禁令 Ø 训练卡：A100、H100、A800、H800全面禁售 Ø 推理卡：L40S、L40、A30全面禁售 Ø 中国特供：H20、L20算力大幅削减，仅保留20~30% A10 A30 L20 L40 L40S T4 A10 A30 练和推理性能 L20 L40 L40S T4 A10 A30 L20 L40 L40S

7. 周期体量收益模型训练 1~3月千级别学术、社会正收益经济负收益模型推理半年~数年千~万级别学术、社会正收益经济正收益支撑 Ø 太极Angel-HCF Ø 太极Angel-SNIP 太极Angel研发模型压缩组件SNIP+推理部署加速组件HCF，保障腾讯混元大模型高便捷、高性能、低成本的落地应用

8. Angel-HCF助力生成式AI部署优化 Ø Angel-HCF之显存优化 Ø Angel-HCF之计算优化 Ø Angel-HCF之通信优化 Ø Angel-HCF之调度优化

9. Angel-HCF之显存优化 GPU显存占用拆分 Ø 模型权重：固定大小，模型参数量 * 数据类型 Ø KV-Cache：动态大小，输入输出规模 * 隐层规模 * 层 Ø 激活空间：动态大小，输入规模 * 隐层规模数一阶段优化 Ø 大模型热+禁令影响下，如何在更小的分布式存储三阶段优化二阶段优化 Context-Loop Buffer全共享卡上部署大模型 Ø 大模型走向生产阶段，降低显存提升并腾讯混元的解法再升级升级发能有效降低成本 Ø 超长文火热的当下，如何缓解激活空间权重显存的凸显 Prefill PagedAttention 量化压缩 INT8 FP8 INT4 激活 INT8 FP8 INT4 KV INT8 FP8 INT4 细化显存粒度

10. Angel-HCF之计算优化 Ø 高效算子集合：自定义Kernel、cutlass、cublasLt、开源实现 Ø 图优化&层融合：Graph-Optimizer+人工辅助优化 Ø 压缩适配：w8a8、2:4硬件稀疏化等

11. Angel-HCF之通信优化 Ø 百亿以上大模型需要分布式部署，卡间、机间通信逐步成为瓶颈 Ø 针对不同的模型规模及结构、需要选择不同的并行方式 Ø 腾讯基于NCCL二次开发，推出自研TCCL加速通信库 Ø PP并行由于过大的Bubble Time并不适合一般推理场景 Ø 依托腾讯内部的星脉网络架构，为大模型训练推理提供高效的网络通信性能 Ø 事无绝对：MoE + PP有奇效（处理好GlobalBatch&MiniBatch关系）通信量：O �� VS 通信量：O ��

12. Angel-HCF之调度优化 Ø Triton+HCF Backend完成调度优化 Ø 基础功能：动态Batch、排队、拒绝、流式、Continuous、group等 Ø 新增功能：请求中止降低无效运算、新增内部调度器提高吞吐等 Triton Server Infer Request Scheduler 优先级、排队、 batch、拒绝等基础功能 HCF Backend 执行队列状态机 KV-Cache管理器拒绝队列 Stop Request 用户历史请求生成长度线上近期请求平均生成长度降低无效运算： 1、Token维度调度，弱化Batch和SeqLen 2、KV-Cache以最优窗口进行申请内部调度优化 Scheduler Batch、KV、交换、提前退出等用户中止、网络断联、审核问题等 LLM Generation Infer Iter Request Queue Streaming Responses 请求（最大生成长度X）调度器执行队列 1、完成生成、释放槽位 Infer Pool 2、生成未完成、逐步扩大窗口获取更多槽位完成原因 Ø 正常完成：Eos、StopWord、MaxLength、策略停止等 Ø 异常完成：超参异常、执行队列等待超时、Cache不足等

13. Angel-HCF助力生成式AI部署优化 Ø 优化手段：显存优化、计算优化、通信优化、调度优化 Ø 优化目标：降低耗时、提升并发&吞吐、降低成本 Ø 其他尝试：国产AI芯片、端侧部署等

14. Angel-SNIP助力生成式AI无损压缩 Ø Angel-SNIP之量化压缩 Ø Angel-SNIP之蒸馏压缩 Ø Angel-SNIP之并行解码 Ø Angel-SNIP之结构稀疏

15. Angel-SNIP之量化压缩 W8A16 W4A16 FP8  策略：仅量化模型权重，推理时反量化回BF16，主要目的减少存储读写开销，量化比特数为8  特点：无需校准，直接产出量化模型，时间成本开销最小，推理节省接近一半的显存开销，精度损失最小，大规模测试中都基本无损  策略：进一步将权重量化的比特数减少到4，减少更多读写开销。采用GPTQ优化策略，更好保持精度，需要少量校准集进行GPTQ优化  特点：算法耗时短，自研量化工具在7B模型上1小时内产出量化模型加速效果优于W8A16，精度损失在0.5%之内  策略：采用W8A8C8的策略，权重存储、kernel计算和KV-Cache的存储都采用FP8精度,H卡之后支持FP8，需要少量校准集进行FP8校准  特点：算法耗时短，半小时内完成校准，FP8相比于INT8具有更佳的精度保持效果，推理速度在不同Batch Size下均表现优异问题 FP8的出现，是否还有必要专门做量化压缩？？？

16. Angel-SNIP之文生文蒸馏压缩需求场景 Ø 部分业务场景无尺寸合适的小模型可用 Ø 从头训练小模型成本高（预训练+增训+SFT）需求场景 Ø 原模型延迟过高，实际业务中需要倍数压缩模型参数 MHA MHA MHA FFN FFN FFN MHA MHA MHA … MHA … MHA … FFN FFN FFN 原始模型层裁剪混合裁剪 FFN Ø 已有精简模型训练不佳，需要借助大模型提升训练效果蒸馏效果 Ø 压缩比80%，使用20%参数量的学生，达到原始模型效果结构场景1 Ø 支持热启动、冷启动两种方案 Ø 支持同构和异构的蒸馏压缩模式场景2 模型 Pass@1 教师 34B 76 学生 7B distill 75 教师 70B 72 学生 7B-MoE distill 70 FFN FFN MHA 结论 • 继承大模型的部分权重，有利于小模型更快收敛 • 相比从头过大量数据训练（预训练+增训）小模型，仅需 20%的增训数据，便可快速裁剪出尺寸、效果相当的模型 • 整体可节省 5X 以上的训练成本

17. Angel-SNIP之文生图&视频蒸馏压缩质感与性能并重步数蒸馏 30步-4s 100步-12s 100步-12s 原模型 VS 30步-4s 蒸馏模型 100步-12s 30步-4s 存在问题 100步-12s 文生图面临的问题：出图质感 vs 性能原模型 Ø 训练稳定性较难保障 Ø 蒸馏后的小模型质较差 30步-4s 蒸馏模型原模型（12s）评分蒸馏模型（4s）评分 unet结构（3分档评分方式） 29.77 29.58(<1%) dit结构（3分档评分方式） 35.6 34.67(<1%) unet结构+插件（5分档评分方式） 81.28 81.98(<1%) 改进方案 Ø 构造高质量数据集蒸馏：训练效率高、出图质感高 Ø 基于渐进式的跨步蒸馏：训练稳定、质感与性能并重原模型蒸馏模型

18. Angel-SNIP之文生图—首个中英双语DIT架构—全面开源 Ø 官网： https://dit.hunyuan.tencent.com/ Ø 代码： https://github.com/Tencent/HunyuanDiT Ø 模型： https://huggingface.co/Tencent-Hunyuan/HunyuanDiT Ø 论文：https://tencent.github.io/HunyuanDiT/asset/Hunyuan_DiT_Tech_Report_05140553.pdf

19. Angel-SNIP之并行解码 Ø 大模型的效果好；但推理耗时长，大规模部署成本高 Ø 小模型的推理耗时短，部署成本低；但往往效果不及预期提升大模型单次生成token数小模型推理，大模型校验均衡推理时耗及模型效果 5X 投机采样大模型解码率小模型解码率 pass@1 100% - 76.8% - 100% 67.7% 投机采样 19.96% 81.04% 75.6% 10X 投机采样大模型解码率小模型解码率 pass@1 100% - 82.9% - 100% 67.7% 16.7% 83.30% 83.5% large model (codellama-34b) small model (codellama-7b) large model (codellama-70b) small model (codellama-7b) 投机采样

20. Angel-SNIP之结构稀疏 Ø NVIDIA从Ampere系列显卡开始支持硬件结构化稀疏 Ø 结构化稀疏可以有效降低存储和提升计算速度 PPL最优存在问题 Ø 数据量需求大结构化稀疏加速 ACC最优 Ø 资源消耗过大 Ø 产出时间过长算法改进 Ø 少量数据，不需要训练 Ø 不需要更新参数 Ø 引入波动量Entropy 加速明显

21. Angel-SNIP助力生成式AI无损压缩 Ø 压缩算法多种多样，各有特点 Ø 要根据实际场景选择最适合的方法 Ø 不被固有方法束缚，积极尝试新方法

22. Angel助力混元大模型大规模落地应用

23. Angel助力混元大模型落地应用 Ø 混元已接入600+司内业务，实现技术与应用同行

24. Angel助力混元大模型落地应用—文生文—腾讯会议小助手

25. Angel助力混元大模型落地应用—文生图—公众号自动配图

26. Angel助力混元大模型落地应用—多模态

27. 总结生成式AI 部署挑战 HCF助力部署优化 SNIP助力无损压缩混元大模型落地应用 Ø 快速增长的模型规模 Ø 显存优化 Ø 量化压缩 Ø 文生文 Ø 缓慢增长的设备硬件能力 Ø 计算优化 Ø 蒸馏压缩 Ø 文生图 Ø 愈发严格的禁令 Ø 通信优化 Ø 并行解码 Ø 多模态 Ø 产品化后的超大体量 Ø 调度优化 Ø 结构稀疏

28. 革命尚未成功，同志仍需努力

29.

30.