超大规模多模态预训练模型M6

1. 超大规模多模态预训练模型M6 达摩院智能计算实验室

2. 输入：女士破洞牛仔裤

3. M6计算中…

4.

5. 输入： +

6. M6计算中…

7. + =

8. 除此之外……

9. M6 天然乳胶上密布着无数个细小网状结构的透气孔，24小时不间断呼吸，有效排出床垫内部的湿热和脏空气，还你洁净清爽的睡眠空间。另外，天然橡胶的柔韧力度，完全符合人体工学的设计，贴合曲线，令你畅享云端舒睡之旅。

10. M6 这是什么动物？斑⻢

11. 本报****报道：印尼中央统计局近日发布数据显示，有多达82.85% 的印尼企业在新冠肺炎疫情严重冲击下营收减少，最严重的降幅甚至超过80%。数据表明，与疫情暴发前相比，绝大部分中小微企业收入下降，部分大型企业也面临困境。现阶段只有14.6%的印尼企业仍能维持同等收入，仅有 2.55%的企业在疫情后营收不降反增。在不同行业中，旅游业受到的影响最大，首当其冲的是住宿和餐饮业，92.47%的企业处于亏损状态。 M6 印尼超八成企业营收下滑

12. 等等……

13. 通用、统一的大模型

14. 预训练+微调人工智能人工智文学 ? 能 </s> </s> 预训练 <s> 科技 ? 微调能人工智 ……

15. 10万亿 1.6万亿 1750亿 3亿 GPT 3亿 BERT 110亿 170亿 T5 Turing- NLG 15亿 GPT-2 GPT-3 Switch Transformer M6

16. 大模型的背后……

17. 数据模型算力

18. 2021年10月 2021年6月 2021年4月十万亿参数M6 512卡低碳模型万亿参数M6 480卡低碳模型 1000亿参数M6 文生图落地应用，论文录用KDD 2021年1月 100亿参数M6 （业界最大规模多模态） 2020年 3亿参数多模态模型 2020年应用于内容理解，初见成效 2021年4月支持各类搜索、文本生成、服饰生成等业务 2021年6月内部服务多个BU，日调用上亿 2021年9月 M6服务化平台上线构建商业化方案

19. M6模型及训练方法 M6：Multi-Modality-to-Multi-Modality Multitask Mega-transformer for Unified Pretraining， KDD 2021

20. Backbone Backbone+ Joint Training Linear Proj ……

21. 大模型在显存上的bottleneck 数据并行模型并行流水并行

22. ZeRO让百亿模型训练变得简单

23. 如果是千亿模型呢……

24. 我们需要更高效的大模型

25. M6-MoE：千亿大模型国内首次研发MoE大模型的工作稀疏MoE模型 + Whale专家并行， 128卡完成千亿模型训练 M6：A Chinese Multimodal Pretrainer， arXiv

26. 视觉问答

27. 图片描述

28. 少样本学习

29. 零样本学习样例

30. MoE还存在很多问题……

31. 专家分组机制 M6-T: Exploring Sparse Expert Models and Beyond, arXiv:2105.15082

32. 专家分组机制 M6-T: Exploring Sparse Expert Models and Beyond, arXiv:2105.15082

33. 专家分组机制 M6-T: Exploring Sparse Expert Models and Beyond, arXiv:2105.15082

34. M6-T：万亿参数大模型 480 张GPU实现了万亿参数模型的高效训练显著加速模型模型收敛速度至 5倍，困惑度评测最优 M6-T: Exploring Sparse Expert Models and Beyond, arXiv

35. 如果是极限规模呢……

36. 十万亿？

37. Pseudo-to-Real：参数共享与解除 M6-10T: A Sharing-Delinking Paradigm for Efficient Multi-Trillion Parameter Pretraining, arXiv

38. Pseudo-to-Real：参数共享与解除 M6-10T: A Sharing-Delinking Paradigm for Efficient Multi-Trillion Parameter Pretraining, arXiv

39. M6-10T：十万亿参数大模型 512 张GPU实现了十万亿参数模型的高效训练相较万亿模型没有显著资源需求增长，效果更优

40. 让大模型走向应用

41. M6服务化平台

42. 任务覆盖广 Kn o Image Generation w le tion Kn o w t illa t s i e D g d le VQ+LM CLS LM CL Kn o Text Generation dge Dist illa wl illa t s i e D edg tion Pretraining Kn o w le dge Dist illa ion Classification tion Search / Recommendation / Advertising

43. 基于文本的图像生成图像量化+M6建模文本和量化编码实现1024*1024分辨率的高清图像生成（对比DALLE的256*256），并实现商业落地女士破洞牛仔裤英伦风厚底ins百搭系带马丁靴

44. 通用领域的图像生成桌子上的笔记本带有钟楼的大型建筑

45. 非自回归图像生成迭代式生成，效率更高，且可以灵活输入多种模态 UFC-BERT: Unifying Multi-Modal Controls for Conditional Image Synthesis, NeurIPS 21’

46. 非自回归图像生成迭代式生成，效率更高，且可以灵活输入多种模态 UFC-BERT: Unifying Multi-Modal Controls for Conditional Image Synthesis, NeurIPS 21’

47. 文本生成任务统一成序列到序列生成形式，可以根据图像和文本生成目标文本 M6微调/小样本学习/零样本学习

48. 商品推荐文案生成

49. 虚拟人主播剧本生成

50. 跨模态表征提取结合双塔结构进行微调，可以得到图像、语言、跨模态的表征可应用于召回和排序场景

51. 跨模态检索家居场景在多项指标显著优于基线模型，应用于召回和排序场景

52. 车辆指代 M6提供文本表征，检索最相关的车辆表征

53. 还有很多……

54. 大规模中文多模态评测基准提供多类型下游任务数据和评测，推动多模态预训练和下游任务发展目前首期包括图像描述、基于文本的图像生成、以及跨模态检索 https://tianchi.com/muge

55. 未来，我们要做些什么？

56. 大模型的未来之路 U 统一通用低碳环保知识推理融合更多的模态，如语音、视频、点云、时间序列等，打破传统任务的局限，学习更全面的能力相比GPT-3，同规模M6能耗已降低至1%。但依然需要更加高效更加低碳的模型设计和训练方法学习多模态大数据依然和认知智能具有较远的距离，知识理解和推理能力依然是AI 大模型的短板道德伦理 AI大模型强大的学习能力可能带来道德和伦理问题，如何让AI更好服务人类依然是难题

57. 感谢观看！