太极 Angel 助力生成式大模型高效落地

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 腾讯Angel助力生成 式大模型高效落地 混元大模型推理负责人—刘凯
2.
3. 2017 – 2019 2013 – 2016 • 深度学习通用推理引擎 • 电磁场GPU加速 • PowerPC系统软件开发 2016 – 2017 2019 - 至今 • • • Angel-HCF&Angel-SNIP 首个工业落地的INT4&稀疏化 混元大模型推理方向负责人
4. 目录 • 生成式AI技术之部署挑战解析 • Angel-HCF助力生成式AI部署优化 • Angel-SNIP助力生成式AI无损压缩 • Angel助力混元大模型大规模落地应用
5. 生成式AI技术之部署挑战解析
6. 快速增长的模型规模 Ø 模型规模快速增长,1~2年提升1个量级 Ø 随着MoE结构的提出,模型整体参数量突破万亿 Ø 23年开始模型窗口长度不断加大,各大公司逐步开放至百K~M级别 训练GPU显存容量(GB) 训练GPU计算能力(TFLOPS) 训练GPU显存带宽(GB) 96 80 80 80 4096 990 80 990 3430 2039 40 缓慢增长的设备能力 32 V100 Ø 如何使用更差的卡来优化大模型的训 2039 练和推理效率 1520 312 312 312 900 148 125 Ø GPU显存增长缓慢,停滞在100G以下 3430 A100-40G A100-80G A800 H100 H800 H20 V100 Ø 在现有卡的基础上设计怎样的模型结 A100-40G A100-80G A800 H100 H800 H20 V100 A100-40G A100-80G A800 H100 H800 H20 构能在同等参数规模下获得更好的训 推理GPU显存容量(GB) Ø GPU计算能力1代增长3倍左右 48 48 推理GPU计算能力(TFLOPS) 48 推理GPU显存带宽(GB) 933 362 Ø 显存带宽1代增长0.5~1倍 864 864 864 Ø 如何充分发挥国产芯片能力来打造国 600 24 24 181 165 16 125 120 300 产大模型 65 T4 越发严格的禁令 Ø 训练卡:A100、H100、A800、H800全面禁售 Ø 推理卡:L40S、L40、A30全面禁售 Ø 中国特供:H20、L20算力大幅削减,仅保留20~30% A10 A30 L20 L40 L40S T4 A10 A30 练和推理性能 L20 L40 L40S T4 A10 A30 L20 L40 L40S
7. 周期 体量 收益 模型训练 1~3月 千级别 学术、社会正收益 经济负收益 模型推理 半年~数年 千~万级别 学术、社会正收益 经济正收益 支 撑 Ø 太极Angel-HCF Ø 太极Angel-SNIP 太极Angel研发模型压缩组件SNIP+推理部署加速组件HCF,保障腾讯混元大模型高便捷、高性能、低成本的落地应用
8. Angel-HCF助力生成式AI部署优化 Ø Angel-HCF之显存优化 Ø Angel-HCF之计算优化 Ø Angel-HCF之通信优化 Ø Angel-HCF之调度优化
9. Angel-HCF之显存优化 GPU显存占用拆分 Ø 模型权重:固定大小,模型参数量 * 数据类型 Ø KV-Cache:动态大小,输入输出规模 * 隐层规模 * 层 Ø 激活空间:动态大小,输入规模 * 隐层规模 数 一阶段优化 Ø 大模型热+禁令影响下,如何在更小的 分布式存储 三阶段优化 二阶段优化 Context-Loop Buffer全共享 卡上部署大模型 Ø 大模型走向生产阶段,降低显存提升并 腾讯混元的解法 再升级 升级 发能有效降低成本 Ø 超长文火热的当下,如何缓解激活空间 权重 显存的凸显 Prefill PagedAttention 量化压缩 INT8 FP8 INT4 激活 INT8 FP8 INT4 KV INT8 FP8 INT4 细化显存粒度
10. Angel-HCF之计算优化 Ø 高效算子集合:自定义Kernel、cutlass、cublasLt、开源实现 Ø 图优化&层融合:Graph-Optimizer+人工辅助优化 Ø 压缩适配:w8a8、2:4硬件稀疏化等
11. Angel-HCF之通信优化 Ø 百亿以上大模型需要分布式部署,卡间、机间通信逐步成为瓶颈 Ø 针对不同的模型规模及结构、需要选择不同的并行方式 Ø 腾讯基于NCCL二次开发,推出自研TCCL加速通信库 Ø PP并行由于过大的Bubble Time并不适合一般推理场景 Ø 依托腾讯内部的星脉网络架构,为大模型训练推理提供高效的网络通信性能 Ø 事无绝对:MoE + PP有奇效(处理好GlobalBatch&MiniBatch关系) 通信量:O ���� VS 通信量:O ���
12. Angel-HCF之调度优化 Ø Triton+HCF Backend完成调度优化 Ø 基础功能:动态Batch、排队、拒绝、流式、Continuous、group等 Ø 新增功能:请求中止降低无效运算、新增内部调度器提高吞吐等 Triton Server Infer Request Scheduler 优先级、排队、 batch、拒绝等 基础功能 HCF Backend 执行队列 状态机 KV-Cache管理器 拒绝队列 Stop Request 用户历史请求生成长度 线上近期请求平均生成长度 降低无效运算: 1、Token维度调度,弱化Batch和SeqLen 2、KV-Cache以最优窗口进行申请 内部调度优化 Scheduler Batch、KV、交 换、提前退出等 用户中止、网络断联、审核问题等 LLM Generation Infer Iter Request Queue Streaming Responses 请求 (最大生成长度X) 调度器 执行队列 1、完成生成、释放槽位 Infer Pool 2、生成未完成、逐步扩大窗口获取更多槽位 完成原因 Ø 正常完成:Eos、StopWord、MaxLength、策略停止等 Ø 异常完成:超参异常、执行队列等待超时、Cache不足等
13. Angel-HCF助力生成式AI部署优化 Ø 优化手段:显存优化、计算优化、通信优化、调度优化 Ø 优化目标:降低耗时、提升并发&吞吐、降低成本 Ø 其他尝试:国产AI芯片、端侧部署等
14. Angel-SNIP助力生成式AI无损压缩 Ø Angel-SNIP之量化压缩 Ø Angel-SNIP之蒸馏压缩 Ø Angel-SNIP之并行解码 Ø Angel-SNIP之结构稀疏
15. Angel-SNIP之量化压缩 W8A16 W4A16 FP8  策略:仅量化模型权重,推理时反量化回BF16,主要目的减少存储读写开销,量化比特数为8  特点:无需校准,直接产出量化模型,时间成本开销最小,推理节省接近一半的显存开销,精度损失最小,大规模测试 中都基本无损  策略:进一步将权重量化的比特数减少到4,减少更多读写开销。采用GPTQ优化策略,更好保持精度,需要少量校准集 进行GPTQ优化  特点:算法耗时短,自研量化工具在7B模型上1小时内产出量化模型加速效果优于W8A16,精度损失在0.5%之内  策略:采用W8A8C8的策略,权重存储、kernel计算和KV-Cache的存储都采用FP8精度,H卡之后支持FP8,需要少量校准集 进行FP8校准  特点:算法耗时短,半小时内完成校准,FP8相比于INT8具有更佳的精度保持效果,推理速度在不同Batch Size下均表 现优异 问题 FP8的出现,是否还有必要专门做量化压缩???
16. Angel-SNIP之文生文蒸馏压缩 需求场景 Ø 部分业务场景无尺寸合适的小模型可用 Ø 从头训练小模型成本高(预训练+增训+SFT) 需求场景 Ø 原模型延迟过高,实际业务中需要倍数压缩模型参数 MHA MHA MHA FFN FFN FFN MHA MHA MHA … MHA … MHA … FFN FFN FFN 原始模型 层裁剪 混合裁剪 FFN Ø 已有精简模型训练不佳,需要借助大模型提升训练效果 蒸馏效果 Ø 压缩比80%,使用20%参数量的学生,达到原始模型效果 结构 场景1 Ø 支持热启动、冷启动两种方案 Ø 支持同构和异构的蒸馏压缩模式 场景2 模型 Pass@1 教师 34B 76 学生 7B distill 75 教师 70B 72 学生 7B-MoE distill 70 FFN FFN MHA 结论 • 继承大模型的部分权重,有利于小模型更快收敛 • 相比从头过大量数据训练(预训练+增训)小模型,仅需 20%的增训数据,便可快速裁剪出尺寸、效果相当的模型 • 整体可节省 5X 以上的训练成本
17. Angel-SNIP之文生图&视频蒸馏压缩 质感与性能并重 步数蒸馏 30步-4s 100步-12s 100步-12s 原模型 VS 30步-4s 蒸馏模型 100步-12s 30步-4s 存在问题 100步-12s 文生图面临的问题:出图质感 vs 性能 原模型 Ø 训练稳定性较难保障 Ø 蒸馏后的小模型质较差 30步-4s 蒸馏模型 原模型(12s)评分 蒸馏模型(4s)评分 unet结构(3分档评分方式) 29.77 29.58(<1%) dit结构(3分档评分方式) 35.6 34.67(<1%) unet结构+插件(5分档评分方式) 81.28 81.98(<1%) 改进方案 Ø 构造高质量数据集蒸馏:训练效率高、出图质感高 Ø 基于渐进式的跨步蒸馏:训练稳定、质感与性能并重 原模型 蒸馏模型
18. Angel-SNIP之文生图—首个中英双语DIT架构—全面开源 Ø 官网: https://dit.hunyuan.tencent.com/ Ø 代码: https://github.com/Tencent/HunyuanDiT Ø 模型: https://huggingface.co/Tencent-Hunyuan/HunyuanDiT Ø 论文:https://tencent.github.io/HunyuanDiT/asset/Hunyuan_DiT_Tech_Report_05140553.pdf
19. Angel-SNIP之并行解码 Ø 大模型的效果好;但推理耗时长,大规模部署成本高 Ø 小模型的推理耗时短,部署成本低;但往往效果不及预期 提升大模型单次生成token数 小模型推理,大模型校验 均衡推理时耗及模型效果 5X 投机采样 大模型解码率 小模型解码率 pass@1 100% - 76.8% - 100% 67.7% 投机采样 19.96% 81.04% 75.6% 10X 投机采样 大模型解码率 小模型解码率 pass@1 100% - 82.9% - 100% 67.7% 16.7% 83.30% 83.5% large model (codellama-34b) small model (codellama-7b) large model (codellama-70b) small model (codellama-7b) 投机采样
20. Angel-SNIP之结构稀疏 Ø NVIDIA从Ampere系列显卡开始支持硬件结构化稀疏 Ø 结构化稀疏可以有效降低存储和提升计算速度 PPL最优 存在问题 Ø 数据量需求大 结 构 化 稀 疏 加 速 ACC最优 Ø 资源消耗过大 Ø 产出时间过长 算法改进 Ø 少量数据,不需要训练 Ø 不需要更新参数 Ø 引入波动量Entropy 加速明显
21. Angel-SNIP助力生成式AI无损压缩 Ø 压缩算法多种多样,各有特点 Ø 要根据实际场景选择最适合的方法 Ø 不被固有方法束缚,积极尝试新方法
22. Angel助力混元大模型大规模落地应用
23. Angel助力混元大模型落地应用 Ø 混元已接入600+司内业务,实现技术与应用同行
24. Angel助力混元大模型落地应用—文生文—腾讯会议小助手
25. Angel助力混元大模型落地应用—文生图—公众号自动配图
26. Angel助力混元大模型落地应用—多模态
27. 总结 生成式AI 部署挑战 HCF助力部 署优化 SNIP助力 无损压缩 混元大模型 落地应用 Ø 快速增长的模型规模 Ø 显存优化 Ø 量化压缩 Ø 文生文 Ø 缓慢增长的设备硬件能力 Ø 计算优化 Ø 蒸馏压缩 Ø 文生图 Ø 愈发严格的禁令 Ø 通信优化 Ø 并行解码 Ø 多模态 Ø 产品化后的超大体量 Ø 调度优化 Ø 结构稀疏
28. 革命尚未成功,同志仍需努力
29.
30.

- 위키
Copyright © 2011-2025 iteam. Current version is 2.139.1. UTC+08:00, 2025-01-16 13:47
浙ICP备14020137号-1 $방문자$