IDEA 研究院预训练大模型的 AI 系统实战

如果无法正常显示，请先停止浏览器的去广告插件。

1. GTSfactory :预训练模型的AI系统实战预训练模型大行其道，AI架构要如何变迁？研究院认知计算与自然语言研究中心陈崇沛

3. 陈崇沛 AI系统架构师曾任职于 vivo人工智能部⻔、阿里巴巴、金蝶中间件现就职于IDEA研究院，担任认知计算与自然语言研究中心架构师职务带领系统工程团队，负责系统工程架构和产品建设工作

4. 关于我们：IDEA研究院认知计算与自然语言研究中心 IDEA 研究院粤港澳大湾区数字经济研究院（International Digital Economy Academy，简称“IDEA研究院”）位于河套深港科技创新合作区深方 IDEA研究院CCNL 园区内，致力于人工智能和数字经济领域的前沿研究与产业落地，是 IDEA研究院认知计算与自然语言研究中心（简称“IDEA研究院一家国际化创新型研究机构。 CCNL”）致力于建设中文自然语言技术的基础设施，打造认知智能的技术新范式。沈向洋 IDEA研究院目前已聚集一批包括院士、世界著名大学教授、世界知名开源系统发明人在内的国际一流技术专家，建成了AI金融与深度学成员组成： IDEA研究院理事⻓习、计算机视觉与机器人、AI平台技术、AI安全普惠系统、认知计算康奈尔大学清华大学中国科学技术大学美国工程院外籍院士英国工程院外籍院士爱丁堡大学北京大学伊利诺伊大学与自然语言五大研究中心，启动了CTO Labs并致力于培育一批国际领先科技企业，带动深圳乃至大湾区万亿级数字经济产业发展。 IDEA基础设施—超级计算集群 80 台DGX服务器 640 张 A100 GPU 已具备8位计算精度下400P算力，32位计算精度下100P以上的算力腾讯微软阿里巴巴百度华为 360

5. 当下的架构问题

6. 20年技术变迁和架构升级随时代而变化：在线 ! 智能 Now 预训练大模型下一代AI架构 2017 Tensorflow1.0 2014 Spark 2011 Dubbo 大数据离在线融合 LAMDA架构 AI工程化 AI平台架构大型互联网应用服务化微服务架构 2003 J2EE1.4 大型企业管理软件单体架构随技术而演化：数据 ! 计算

7. 两类模型，两个答案 GTS模型自动化生产平台定制化模型数量**亿各种应用场景模型生产的人力短缺预训练模型数量**万作为基础设施预训练成本很高建设认知智能的基础设施封神榜开源大模型体系

8. 定制化模型的痛点痛点1 痛点2 数据稀缺场景数据难获取数据标注成本高粤港澳大湾区数字经济研究院 International Digital Economy Academy 人才稀缺高级算法人才培养难模型生产周期⻓ 8

9. AI还处于手工作坊时代粤港澳大湾区数字经济研究院 International Digital Economy Academy 9 珍妮纺纱机，人作为动力，1760’s 当下的AI模型生产手工作坊时代英国兰开夏纺织工厂，蒸汽机作为动力， 1790’s 我们期待的AI模型生产工业化时代

10. 用AI自动化生产AI模型我们的解决方案建一座工厂小样本学习自动化学习解决数据稀缺问题解决人才稀缺问题已经开始免费公测 10

11. GTSfactory自动生产模型的效果 GTSfactory自动生产的模型接近人工最好水平，且每个类别只需十几个样本 FewCLUE FewCLUE 电商评论情感分析普通算法工程师水平 GTS水平 88.45% 88.31% 75.70% MacBERT GTS SOTA 算法专家水平科学文献学科分类 52.30% MacBERT 训练集样本数:32 GTS SOTA 训练集样本数:536 类别数：67 类别数：2 FewCLUE FewCLUE 应用描述主题分类 43.10% MacBERT 48.00% 54.27% 新闻分类 71.40% 61.10% GTS SOTA MacBERT 75.53% GTS 训练集样本数:928 训练集样本数:240 类别数：119 类别数：15 * 部分数据来自FewCLUE： https://www.cluebenchmarks.com/fewclue.html SOTA: FewCLUE上参数量为3.4亿（RobustPrompt）及以下模型最好的效果 MacBERT: 参数量为1.1亿的MacBERT-base 模型微调后的效果 68.42% 62.85% SOTA

12. 当下：大模型时代 10 倍大模型的参数规模每年增加当下最大的大模型10万亿个参数 vs. 人大脑皮层约140亿神经元/100万亿个连接

13. 预训练模型的痛点：生产成本高、难度大、中文模型少模型大、显存小模型已经万亿显存没增⻓⻔槛高缺乏成熟的大模型预训练框架中文模型少 500个只占1% (huggingface)

14. 封神榜：开源的预训练大模型二郎神自然语言理解余元医疗周文王统一模型结构最大的开源中文BERT模型医疗领域，最大开源35亿参数与追一科技共同开发， 13亿参数专注NLU任务，最大开源13亿参数医疗事实判断准确率接近90% 业界首次尝试10亿参数以上规模的单双向统一模型 FewCLUE/ZeroCLUE双料榜单第一支持生成式医疗问答闻仲燃灯 GPT结构 T5/BART结构比干纠错中文的GPT模型，最大开源35亿参数中文T5/BART结构，最大开源7.7亿参数语义纠错，ASR纠错文本生成系列文本生成和文本理解最大开源7.7亿参数下载地址 https://github.com/IDEA-CCNL/Fengshenbang-LM https://huggingface.co/IDEA-CCNL 37 个开源模型太乙多模态多模态预训练模型 2万每月下载量与清华大学、上海交通大学、香港中文大学、小冰、追一科技等合作开源各种模型

15. AI理想照进现实：需要解决一系列系统问题 GTS 模型生产平台封神榜开源大模型体系交互学习并行训练多模型协作显存优化资源调度算力系统&工程定制化模型数量**亿各种应用场景预训练模型数量**万作为基础设施

16. 模型自动化生产中的系统问题

17. GTS是什么：一套多模型协作体系预训练大模型：小样本学习 13亿参数二郎神模型 13亿参数零样本模型 T eacher 大模型第四部分 G enerator 未来设想 1亿参数轻量化小模型预训练大模型：数据增强可下载，可部署 S tudent 大模型小模型 39亿参数BERT模型 50亿参数文本生成模型有标注数据无标注数据

18. GTS又是什么：把算法做成系统 G eneral 新闻分类用户画像提取数据打标 Multi-Task Learning 通用任务类型情感倾向分类意图分类 Meta Learning 第四部分未来设想 Incremental Learning AutoML T raining 融合多种学习范式反诈骗识别交互式学习训练任务编排 3级调度多云算力 s ystem 自动化训练体系

19. GTS模型生产机制的本质：复杂多样的模型交互 G 本生成模型 (50亿) 已标注样本待标注样本 Bert Train Bert Inference VAE T 二郎神模型 (13亿) Fine- tune 开始 G TAPT Inference 数据准备阶段模型生产阶段人 - 模型交互模型 - 模型交互 S TAPT

20. 用人机交互迭代的方式生成样本实时交互人工标注标注队列 ② 异步缓冲生成队列 ③ ① 已标注队列到达水位模型迭代 Bert Bert Inference VAE Inference Fine-tune 样本选择文本生成模型更新

21. 如何实现多模型自动交互： GTS训练编排机制容器注册 Pod 1 Pod 2 Pod 3 Pod 4 TATP G T Fine-tune 样本生成样本标注 Persistent Volume 1、TATP 2.1、G模型样本生成任务编排 2.2、T模型自动打标（编译） 3、Fine-tune GTS-Dispatcher GPU 节点1 GPU 节点2 GPU 节点3 GPU 节点4

22. 三级调度机制：GTS多模型协作的整体设计任务编排（三级）批任务资源调度（一级）任务调度（二级）单体调度优先级队列 DAG 任务模型生产任务拓扑感知资源虚拟化异步任务 Gang-Scheduling 批调度弹性调度资源扩充

23. 多云混合基础架构 – 算力稳定输出&产品灵活部署多云：政务云 • GPU算力阿里云、IDEA计算中心 • 政务云 • 华为云华为云合作产品 GTS 产品服务 SAAS服务预训练： • 大算力的保证 • 大模型研究（离线）定制化模型模型生产： • 模型生产训练 • 在线实时推理产品服务： • 应用、服务 • 商业扩展算力池定制化模型阿里云 IDEA 计算中心训练/推理模型预训练预训练模型训练样本预训练数据 GPU算力 GPU算力

24. System's Value 系统的三大价值复杂训练体系人机交互算力管理模型自动化生产流程模型给人提出问题人给模型提供反馈多算力池协同管理

25. 预训练大模型中的系统问题

26. 大模型的训练方案 Data Parallelism GPU0 GPU0 GPU0 GPU1 GPU1 GPU1 GPU2 GPU2 GPU2 GPU3 GPU3 GPU3 GPU4 GPU4 Stage0 GPU4 GPU5 GPU5 GPU5 GPU6 GPU6 GPU6 GPU7 GPU7 GPU7 节点 0 节点 1 节点 5 节点 6 节点 Stage1 7 节点 11 节点 378 Stage63 节点 379 节点 383 3D并行 • DP：Data Parallelism(数据并行) • PP：Pipeline Model Parallelism(流水并行) • TP：Tensor Model Parallelism(Tensor并行) GPT-3 • 1700亿参数，128 layers • 384 个节点(8 x A100), 3072张A100 • 划分6(DP) x 8(TP) x 64(PP)的并行矩阵 • 6个节点进行数据 (DP) • 8张卡之间做Tensor并行(TP) • 64 stages，2 layer/stage (PP)

27. 模型并行的实现：Megatron Tensor并行 • Transformer专用并行 • Attention和MLP矩阵乘拆分 • 通信开销，不利于多机扩展 Pipeline并行： • 通用的模型并行，按层均匀切分 • micro-batches ，减少串行等待Bubble开销 • PipeDream pipeline • 1F1B pipeline

28. 跨越显存瓶颈：ZeRO 数据并行的增强模式 Stage 1（P os ）： • optimizer states • 显存消耗是原来的26% Stage 2（ P os+g ）： • optimizer states，gradients • 显存消耗是原来的13% Stage 3（ P os+g+p ）： • 显存消耗是原来的1.7% • 通信增加50% CPU Offerload • 反向参数更新 • 前向参数保存

30. 炼丹实例-39亿BERT Encoder类结构做大之后（7亿以上），容易出现loss 训⻜的情况 ➢ ➢ ➢ ➢ 调整学习率、裁剪梯度能缓解，但是需要多次手动调整，而且调整后容易再次训⻜ Post-LayerNorm 调整成Pre-LayerNorm，loss不容易训⻜，训练收敛速度加快，能获得一个有效模型 Base模型上Post-LayerNorm的效果好于Pre-LayerNorm DeepNorm，兼顾了Post-LayerNorm的效果和Pre-LayerNorm的训练稳定性 Post-LayerNorm Pre-LayerNorm

31. “封神”训练框架让大家用好封神榜大模型 Fengshen 框架 ✓ ✓ ✓ ✓ ✓ ✓ ✓ 专为Transformers的大模型、大数据设计 " 支持模型少 " 用户定制化成本高已经Github开源支持封神榜大模型简单易用的pipeline 提供pretrain/finetune等丰富示例对比torch训练性能提升300% 支持TB级别数据，百亿参数模型训练集成DDP、ZeRO等分布式训练技术简单易用的pipeline 针对Transformers的设计 Megatron-LM 让大家参与预训练大模型 PytorchLightning ✓ ✓ ✓ " 支持CV、NLP全领域简单易用的pipeline 分布式简单易用没有自己的模型库兼容已有的丰富模型 HuggingFace ✓ 社区完善，模型丰富 ✓ 集成了分布式 " 集中在finetune，预训练示例少封神框架：https://github.com/IDEA-CCNL/Fengshenbang-LM/tree/main/fengshen 封神文档：https://fengshenbang-doc.readthedocs.io/zh/latest/ 节省显存，加速性能 DeepSpeed ✓ 节省显存，加速性能 ✓ ZeRO/Offload/Sparse Attention等特性 " 没有好用的pipeline

32. 预训练大模型的生产系统大模型应用场景开源Fengshen框架继续训练/Fine-tune 文本分类信息抽取易用的pipline 封神榜模型库二郎神 “封神榜”大模型余元各种结构文本纠错文本生成周文王各种尺寸集成ZeRO 闻仲底层支持原始数据 +24TB/月训练数据 +300GB/月 TensorFlow … 各种任务社区反馈多个维度增加模型多方参与训练平台数据体系大模型生产体系性能提升燃灯各个领域 … Fengshen 自主开发百亿参数 Libai OneFlow合作千亿参数 PyTorch 下一代框架 TensorLab 万亿参数 OneFlow 基础保障

33. 未来设想

34. 下一代深度学习模型的训练和部署系统专家选择专家2 专家1 专家3 专家4 稀疏激活模型 Master 动态结构输入算力池一算力池二计算 Master

35. 关于 IDEA研究院CCNL 认知计算与自然语言研究中心 Since May 2021, 目前40+成员 www.idea.edu.cn/ccnl.html 让机器像人一样去学习建设认知智能的基础设施 GTS模型生产平台 AI自动化生产AI 公测中 “封神榜”大模型开源体系 2021年11月IDEA大会发布目前30+开源模型

36.

37.