超大规模多模态预训练模型M6

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 超大规模多模态预训 练模型M6 达摩院智能计算实验室
2. 输入: 女 士 破 洞 牛 仔 裤
3. M6计算中…
4.
5. 输入: +
6. M6计算中…
7. + =
8. 除此之外……
9. M6 天然乳胶上密布着无数个细 小网状结构的透气孔,24小 时不间断呼吸,有效排出床 垫内部的湿热和脏空气,还 你洁净清爽的睡眠空间。另 外,天然橡胶的柔韧力度, 完全符合人体工学的设计, 贴合曲线,令你畅享云端舒 睡之旅。
10. M6 这是什么动物? 斑⻢
11. 本报****报道:印尼中央统计局近 日发布数据显示,有多达82.85% 的印尼企业在新冠肺炎疫情严重 冲击下营收减少,最严重的降幅 甚至超过80%。数据表明,与疫情 暴发前相比,绝大部分中小微企 业收入下降,部分大型企业也面 临困境。现阶段只有14.6%的印尼 企业仍能维持同等收入,仅有 2.55%的企业在疫情后营收不降反 增。在不同行业中,旅游业受到 的影响最大,首当其冲的是住宿 和餐饮业,92.47%的企业处于亏 损状态。 M6 印尼超八成企业 营收下滑
12. 等等……
13. 通用、统一的大模型
14. 预训练+微调 人 工 智 能 人 工 智 文学 ? 能 </s> </s> 预训练 <s> 科技 ? 微调 能 人 工 智 ……
15. 10万亿 1.6万亿 1750亿 3亿 GPT 3亿 BERT 110亿 170亿 T5 Turing- NLG 15亿 GPT-2 GPT-3 Switch Transformer M6
16. 大模型的背后……
17. 数据 模型 算力
18. 2021年10月 2021年6月 2021年4月 十万亿参数M6 512卡低碳模型 万亿参数M6 480卡低碳模型 1000亿参数M6 文生图落地应用,论 文录用KDD 2021年1月 100亿参数M6 (业界最大规模多模态) 2020年 3亿参数多模态模型 2020年 应用于内容理解,初 见成效 2021年4月 支持各类搜索、文本生 成、服饰生成等业务 2021年6月 内部服务多个BU, 日调用上亿 2021年9月 M6服务化平台上线 构建商业化方案
19. M6模型及训练方法 M6:Multi-Modality-to-Multi-Modality Multitask Mega-transformer for Unified Pretraining, KDD 2021
20. Backbone Backbone+ Joint Training Linear Proj ……
21. 大模型在显存上的bottleneck 数据并行 模型并行 流水并行
22. ZeRO让百亿模型训练变得简单
23. 如果是千亿模型呢……
24. 我们需要更高效的大模型
25. M6-MoE:千亿大模型 国内首次研发MoE大模型的工作 稀疏MoE模型 + Whale专家并行, 128卡 完成 千亿 模型训练 M6:A Chinese Multimodal Pretrainer, arXiv
26. 视觉问答
27. 图片描述
28. 少样本学习
29. 零样本学习样例
30. MoE还存在很多问题……
31. 专家分组机制 M6-T: Exploring Sparse Expert Models and Beyond, arXiv:2105.15082
32. 专家分组机制 M6-T: Exploring Sparse Expert Models and Beyond, arXiv:2105.15082
33. 专家分组机制 M6-T: Exploring Sparse Expert Models and Beyond, arXiv:2105.15082
34. M6-T:万亿参数大模型 480 张GPU实现了 万亿 参数模型的高效训练 显著加速模型模型收敛速度至 5倍, 困惑度评测最优 M6-T: Exploring Sparse Expert Models and Beyond, arXiv
35. 如果是极限规模呢……
36. 十万亿?
37. Pseudo-to-Real:参数共享与解除 M6-10T: A Sharing-Delinking Paradigm for Efficient Multi-Trillion Parameter Pretraining, arXiv
38. Pseudo-to-Real:参数共享与解除 M6-10T: A Sharing-Delinking Paradigm for Efficient Multi-Trillion Parameter Pretraining, arXiv
39. M6-10T:十万亿参数大模型 512 张GPU实现了 十万亿 参数模型的高效训练 相较万亿模型没有显著资源需求增长,效果更优
40. 让大模型走向应用
41. M6服务化平台
42. 任务覆盖广 Kn o Image Generation w le tion Kn o w t illa t s i e D g d le VQ+LM CLS LM CL Kn o Text Generation dge Dist illa wl illa t s i e D edg tion Pretraining Kn o w le dge Dist illa ion Classification tion Search / Recommendation / Advertising
43. 基于文本的图像生成 图像量化+M6建模文本和量化编码 实现1024*1024分辨率的高清图像生成(对比DALLE的256*256),并实现商业落地 女士破洞牛仔裤 英伦风厚底ins百搭系带马丁靴
44. 通用领域的图像生成 桌子上的笔记本 带有钟楼的大型建筑
45. 非自回归图像生成 迭代式生成,效率更高,且可以灵活输入多种模态 UFC-BERT: Unifying Multi-Modal Controls for Conditional Image Synthesis, NeurIPS 21’
46. 非自回归图像生成 迭代式生成,效率更高,且可以灵活输入多种模态 UFC-BERT: Unifying Multi-Modal Controls for Conditional Image Synthesis, NeurIPS 21’
47. 文本生成 任务统一成序列到序列生成形式,可以根据图像和文本生成目标文本 M6微调/小样本学习/零样本学习
48. 商品推荐文案生成
49. 虚拟人主播剧本生成
50. 跨模态表征提取 结合双塔结构进行微调,可以得到图像、语言、跨模态的表征 可应用于召回和排序场景
51. 跨模态检索 家居场景在多项指标显著优于基线模型,应用于召回和排序场景
52. 车辆指代 M6提供文本表征,检索最相关的车辆表征
53. 还有很多……
54. 大规模中文多模态评测基准 提供多类型下游任务数据和评测,推动多模态预训练和下游任务发展 目前首期包括图像描述、基于文本的图像生成、以及跨模态检索 https://tianchi.com/muge
55. 未来,我们要做些什么?
56. 大模型的未来之路 U 统一通用 低碳环保 知识推理 融合更多的模态,如语音、 视频、点云、时间序列等, 打破传统任务的局限,学习 更全面的能力 相比GPT-3,同规模M6能耗 已降低至1%。但依然需要更 加高效更加低碳的模型设计 和训练方法 学习多模态大数据依然和认 知智能具有较远的距离,知 识理解和推理能力依然是AI 大模型的短板 道德伦理 AI大模型强大的学习能力可 能带来道德和伦理问题,如 何让AI更好服务人类依然是 难题
57. 感谢观看!

Home - Wiki
Copyright © 2011-2024 iteam. Current version is 2.137.1. UTC+08:00, 2024-11-16 07:56
浙ICP备14020137号-1 $Map of visitor$