大模型背后的荆棘之路

如果无法正常显示，请先停止浏览器的去广告插件。

1. 大模型背后的荆棘之路林咏华北京智源人工智能研究院副院长，兼总工程师

3. 开源开放，得以让人工智能技术快速迭代 •大模型更是推动了AI开源社区的进一步蓬勃发展：2023年的AI开源项目比2022年快速增长了59.3%。 •大模型一年，AI开源社区受到前所未有的关注和使用：2023年AI开源项目在github star的总量是2022年的3倍。

4. 选择基座模型构造行业模型训练数据训练行业模型行业应用集成上线部署

5. 第一个问题是选择哪个基座模型？截止到2024年4月底，全球开闭源通用大模型：模型数量主要机构 30 Meta，Mistral AI，DataBricks，MicroSoft，Google 阿里巴巴，智源研究院，上海人工智能实验室&商汤科技，零一万物，深度求索&幻方量化，智谱华章&清华KEG，零一万物，百川智能等通用对话语言大模型 47 Google, OpenAI, Meta, Anthropic, Mistral AI, DataBricks, CohereForAI, MiniMax, Meta, 百度, 智谱华章&清华KEG, 月之暗面, 阶跃星程, 阿里巴巴, 智源研究院, 深度求索&幻方量化, 字节跳动, 上海人工智能实验室&商汤科技, 百川智能, 零一万物, 百川智能, 科大讯飞, 面壁智能等语言模型—代码大模型 19 Meta，BigCode，Stability AI，Salesforce，MicroSoft，深度求索&幻方量化等 27 OpenAI，UW Madison WAIV，Google，HUST，X-PLUG 上海人工智能实验室，阿里巴巴，智源研究院，阶跃星辰，深度求索&幻方量化，零一万物，智谱华章，面壁智能，中科大等多模态文生图大模型 15 OpenAI，Midjourney，Stability AI，kandinsky-community，PromptHero dreamlike.art，Runway，CompVis，智谱，百度，PixArt等多模态文生视频大模型 8 OpenAI，Runway，PixVerse AI，Pika，TencentAILab-CVC，National University of Singapore，潞晨科技，生数科技等通用基座语言大模型通用多模态大模型

6. 当前评测技术的发展跟不上大模型的发展速度 ~2021 2022 GLUE, SuperGLUE, GRIT, ImageNet, COCO, VOC等传统的AI 模型评测集 HELM: 针对语言大模型的整体系统化评测集（以理解能力评测为主，少量生成和认知能力评测）理解能力挑战：对更复杂场景的理解能力、新的跨模态（文图、文视频、3D等）的理解能力评测方法 2023：HEIM: 针对文生图模型的评测体系 2023：MMMU: 多学科图文理解和推理能力的评测集当前多使用各种领域的考试对模型的各种认知除了少量生成任务（如能力进行模拟评测 summarization），主要依靠人类评分认知能力生成能力挑战：依靠人类评测，效率低，客观性和评测质量的一致性难以保证挑战：认知的边界难以确定，另一方面各类考题容易进入训练数据如心智能力（如理解信念, 了解情绪，意图理解，理解复杂现实情景，对话中的解释能力等）、鉴别能力（误解和事实）等 [1] 人类思维能力挑战：需要新的复杂的测试集合、定义新的测试方法。哪怕对于像鉴别是否事实这样的例子，由于生成的内容复杂，传统的理解类评测方法已经不能满足。 [1] Sparks of Artificial General Intelligence: Early experiments with GPT-4, Microsoft

7. 用于比较大模型性能的各种榜单容易激发各种争议 Ø 榜单数量众多，差异性大，缺乏一致性 Ø “刷榜”成为主流，难以规避“作弊”的问题 Ø 没有统一的评测规范，实现的人不同评测结果不同，指标不同结果不同 LLaMA有不同的评测结果，引发广泛关注和讨论

8. 大模型评测的问题问题一：评测集被“过拟合”，难以区分真正的模型性能。评测集合“以新换旧”，“以难换易”。语言理解： SuperCLUE(2019) -> HELM(2021) 认知推理： MMLU() -> GPQA(2023) 代码评测： HumanEval(2021) -> SWE- bench(2023) 图片推理： VQA(2017) -> MMMU(2023) 图片生成： STL-10(2011) -> HEIM(2023)

9. 大模型评测的问题问题一：评测集被“过拟合”，难以区分真正的模型性能。评测集合“以新换旧”，“以难换易” 语言理解： SuperCLUE(2019) -> HELM(2021) 认知推理： MMLU() -> GPQA(2023) 代码评测：问题二：评测方法陈旧，不能反映大模型新的使用场景过去的模型评测，局限在概率选择，但大模型使用场景已经扩展到自由对话、指令跟随、大量内容生成等场景。因此，需要打造新的评测方法。 Few-short prompting: HELM(2021) HumanEval(2021) -> SWE- 模型输出对比：Chatbot Arena bench(2023) Leaderboard (2023) 图片推理： VQA(2017) -> MMMU(2023) 图片生成： STL-10(2011) -> HEIM(2023) 指令跟随：VisIT-Bench (2023) 图像编辑：EditEval (2023) 问题三：新的大模型能力不断出现规划问题：PlanBench 道德推理：MoCa(moral reasoning) 抽象推理：ConceptARC 智能体：AgentBench, MLAgentBench 负责任可信任：DecodingTrust

10. 基础模型的训练数据问题 •基础模型的训练数据？ •没有公开，或仅仅部分公开 •训练数据的放入顺序和迭代次数未必公开 •是否使用了某些trick和特殊数据集，或训练数据被某些测试数据集所污染 •理解基础模型训练数据的重要性： •训练数据是形成模型质量的关键 •是否带来有害信息、偏见等的关键。 •了解训练数据的分布，才能判断模型在某些领域的适用性。 •可以更客观判断模型的性能，而不是仅仅从现有的评测指标进行判断。 •了解模型的数据放入顺序、及数据迭代次数，对预估模型的二次学习能力十分重要。 GSM1K（1250道题）是一个与GSM8K难度分布相同的新的数学评测集。从大模型在GSM1K与GSM8K的性能差异可以看到，部分模型对GSM8K有过拟合的现象。

11. 选择基座模型构造行业模型训练数据训练行业模型行业应用集成上线部署

12. 持续训练中需要解决的行业训练数据问题 •需要针对行业领域进行持续训练学习（CL） •行业领域数据的来源？ •持续学习时，会出现对已训练数据的遗忘现象，如何降低？ •如何构造持续训练的数据集？领域数据和通用预训练数据如何配比？ •对多种领域数据进行训练时，持续训练的顺序？ “Investigating Continual Pretraining in Large Language Models: Insights and Implications”, cohere.com

13. 选择基座模型构造行业模型训练数据训练行业模型行业应用集成上线部署

14. 基座模型的变化，影响行业模型性能和行业应用 •基座模型的升级迭代，带来性能的变化行业应用行业模型持续训练或微调训练基座模型基座模型的性能决定了下游行业模型及行业应用的性能。当所依赖的基座模型发生变化： •重新训练行业模型 •重新测试下游模型性能 •应用集成后的各种出错处理要重新打磨 GPT-4在2023年3月和2024年6月两次版本的性能差异

15. 选择基座模型构造行业模型训练数据训练行业模型行业应用集成上线部署

16. 非英伟达AI芯片软件生态薄弱，迁移成本高时间短，资源有限，生态割裂 •主流AI框架以支持英伟达芯片为主。 •AI芯片需要适配多款框架。每次AI框架版本升级，需要重复适配 •各芯片厂商有自己的底层软件栈，彼此不兼容算子库，通信库编译器影响 •针对大模型需要的算子及优化方法缺失，导致模型无法运行或者运行效率低。 •会出现因为芯片架构和配套的软件实现差异而带来的精度误差问题。 •要在非英伟达芯片上实现大模型训练推理，需要大量移植工作，适配迁移成本很高。多元AI芯片

17. 当我们拿到一个大模型（开源/闭源）后，一切才刚刚开始安全测试、符合监管、规范等上线要求 • 如何获取行业、和应用所需要的训练数据 • 如何打造高质量数据集 • 如何分析数据中出现的问题 • 数据算法算力评测 •如何选择算法、修改算法、修改超参数 •面向不同模态，如何集成不同的算法模块 •如何把“小模型”和“大模型” 的算法能力进行融合当我们拿到一个大模型（开源/闭源）后，一切才刚刚开始 •如何让训练、推理的效率更高 •如何为大模型研发、部署选择AI 芯片系统 •如何在不同的AI芯片上面实现平滑迁移 •如何评测大模型、行业模型 •如何构建自己的评测集 •如何搭建评测工具、实现高效评测

18. 构造行业训练行业选择面对这一路的问题，我们可以做些什么？上线应用行业模型基座部署集成模型训练模型数据

19. 共建人工智能高质量训练数据，推动三大数据使用模式智源研究院牵头，中国网络空间安全协会人工智能数据工作组，全国数十家互联网及大模型企业，中央及北京市多个机构共同努力开源数据 Ø开源高质量数据集 Ø无版权风险的数据开放 Ø支持预训练、微调、文本、多模态等多种人工智能应用场景 Ø已开源44个数据集共2.4TB http://open.flopsera.com/flopsera-open/data 高价值数据贡献-共享数据 Ø成员单位合作共建数据，仅在成员单位间进行共享。 Ø通过贡献数据，获得共享数据的权益。 Ø严格的数据质量评估体系与积分兑换机制 Ø已开放58个数据集共213TB数据 Ø高价值、有版权诉求的行业与领域数据，提升模型性能水平 Ø仅在平台上进行“数算一体” 的使用方式，做到数据不出域。 Ø已上线6个数据集共393TB数据 http://share.flopsera.com/flopsera-share/data-list 支持多种数据汇聚和使用形式，不断扩充数据规模，为大模型行业发展提供坚实的数据支撑

20. • 人工智能数据汇聚与管理：北京人工智能数据平台人工智能数据汇聚与管理：北京人工智能数据平台多模式AI数据运营，数据处理与标注，一键模型训练平台展示人工智能数据运营平台 1、灵活支持三种AI数据运营模式灵活支持免费开源、团体内共享、可信空间内使用等三种AI数据运营模式； 2、数据处理流程插件式工具链配置打通从“原始数据”到“训练数据”的完整数据处理流程，支持插件式工具链配置； 3、多类型数据标注支持采用可扩展架构，支持文本、视觉、语音、自动驾驶等多种类型数据标注； 4、与算力平台深度融合与算力平台紧密结合，支持算力集群的算法模型一键加载数据开启模型训练。代码解释北京智源人工智能研究院、京能数字产业有限公司共同建设 NEW

21. 大模型评测体系及开放评测平台FlagEval 开放平台：https://flageval.baai.ac.cn/ 科技创新2030—“新一代人工智能”“人工智能基础模型支撑平台与评测技术”旗舰项目支持下，联合全国30家单位研制 • 已完成数十个国内外主流开源模型的全面评测，在 • 4大评测领域：NLP、CV、语音、多模态四大领域 2023年完成了1800多模型评测次数，并连续6个月发 • 3大评测对象：大模型、预训练/微调/压缩算法布 “大语言模型月度评测榜单”。 • 支持多芯片、多框架评测，支持国产芯片和框架 • 牵头国际标准、参与国家标准：智源牵头，成立了IEEE 大模型评测标准工作组及语言大模型评测国际标准（P3419）；智源参与了由电子标准院牵头的大模型评测国家标准的制定工作。

22. FlagEval 评测｜全面提升大模型评测能力打造新的评测方法和数据集，推动大模型在语言能力、逻辑推理、及鲁棒性等方面取得进步中文语义评测数据集 (C-SEM) •C-SEM 针对当前大模型的可能存在的缺陷和不足，创新地构造多种层次、多种难度的评测数据，并参考人类的语言思维习惯，考察模型在理解语义时的“思考”过程。面向复杂任务的代码评测集 TACO 挑战性更高：采用大量复杂任务应用题标签维度：968个任务主题、36个算法标签、8个编程技能、5个难度等级；【测试集】 1000题目 – 7万答案样本 •当前开源的 C-SEM v1.0版本共包括四个子评测项，分别从词汇、句子两个级别评测模型的语义理解能力，通用性较强，适用于研究对照语言模型鲁棒性评测集 • 内容扰动鲁棒性评测（北京航空航天大学构建）：针对选择问答、文本分类、代码生成任务下的多个测试集进行字符、单词、句子三个级别进行内容扰动以及对抗性客观评测集细粒度标签辅助模型能力的评测和诊断 model name GPT-4 多语言文图生成评测集 Multilinguale-18 level easy medium pass@1 31.50 19.00 medium_hard 13.00 hard 4.50 very_hard 2.00 CMMU工科图文能力评测集 •工科类的图文题目对大多数模型来说挑战巨大，大量考察了多模态大模型的高准确度的图文理解以及推理能力 •形成覆盖数学、物理、化学、生物等工程学科（选择、填空），分难度，约1万左右的评测集 • 数量：18种语言各7,000个图文对。主观评测集 • 数量：18种语言的各50条prompts • 来源：涉及到绘画，文学，节日，食物，服饰，地标等特定文化概念 A blue car parked on the green grass (一辆蓝色的车停在绿色草坪上) 扰动。 • 格式扰动鲁棒性评测（智源FlagEval团队构建）：基于 MMLU、Gaokao2023_v2.0 等数据集，进行选项格式扰动，考察模型是否真正理解了问题和选项并遵从指令的格式要求作答。如下图，三角形ABC和三角形ADC分别在AC的两侧，\\angle BAC ： \\angle B ： \\angle ACB=4 ： 3 ： 2 ，且 \\angle DAC=40\\degree ．试说明AD \\parallel BC．草原上有许多长颈鹿

23. • FlagEval每月大模型评测：不断提升评测能力，科普各种对评测方法 FlagEval每月大模型评测：不断提升评测能力，科普各种对评测方法 2023年6月高考成绩公布第二天，推出基于2023年高考题的评测，避免训练数据混入 2023年7月模型评测需要区分基础模型和对话模型，不能混为一谈 2023年9月增加通用大模型安全性、推理能力等重要评测 2023年11月 2023年10月指出对大模型评测，指出仅用客观评测，难不能使用概率比较，以观察基础模型的真正而必须严格生成答案生成能力，即“高分低能”如何避免？ 2023年12月新增通用模型的鲁棒性评测

24. • 即将发布“智源评测”（5月17日下午）即将发布“智源评测”（5月17日下午） • 在统一标准下，对国内外百余个开源和商业闭源的语言、视觉与多模态大模型进行系统化能力评估。 • 首次联合权威教育机构参照人类认知发展阶梯进行大模型K12学科能力测验 • 与传媒领域知名高校共同制定文生视频大模型主观评价体系

25. • 多元芯片算力：打造开源开放的统一算子库及编译器统一的开源算子库+编译器模式传统厂商自成体系模式 Pytorch 重要问题： Pytorch 厂商适配算子库厂商适配算子库厂商适配算子库厂商编译器厂商编译器厂商编译器 • 厂商投入巨大：每个厂商都要投入巨大人力开发各自的算子库，并难以统一跟进最新技术 • 用户适配困难：各个厂商算子特性不一致，算子完成度不一致，算子接口不一致统一开源 Triton算子库 Pytorch compiler 开源编译器Triton (厂商适配) 重要收益： • 算子库由社区共同完成，无需厂商各自投入。 • 用户可以获得跨系统的统一算子库，大大减少适配难度。 • 动态图和compile两种模式都获得支持

26. • 为什么选择Triton语言为什么选择Triton语言 • 生态开放 • OpenAI出品，自带开放的人工智能基因 • 开源社区活跃、更新迭代频繁，能够参与共建 • 使用广泛，Github上已被25k+项目依赖性能高效 • 通用算子性能可与CUDA持平 • 自定义算子、融合算子性能更优开发容易 • 后端平台易迁移，多家国产硬件支持 • 可基于Python的编程环境运行 • 比CUDA更低的学习成本、更高的开发效率国内各种 A I 芯片从实验时间成本来说，用CUDA写半个月的Kernel+调一个月性能 —> 用Triton写3天Kernel+调1天性能） —— 网上某位Triton开发者

27. • 智源研究院开源面向大模型的Triton算子库 • 智源研究院开源面向大模型的Triton算子库 • FlagAttention 是首个支持长文本模型训练的、使用 Triton语言开发、易于多种芯片移植适配的高性能Attention算子集。目前已实现 • PiecewiseAttention：支持长文本分段式 Attention 算子 • FlashAttention：提供了multihead attention的高效实现，与CUDA实现相当甚至超过。如：在head dim =64, 带causal masking 的情况下，正向算子速度多种长度下平均比CUDA快18%。 • FlagAttention 继承Triton语言易用性，同样的算子，代码量降低 20%，仅需少量修改即可移植到各种AI芯片 https://github.com/FlagOpen/FlagAttention

28. 组建第一次Triton中国社区活动 —— Triton技术沙龙组建第一次Triton中国社区活动 —— Triton技术沙龙活动目标 •传播Triton技术理念 •促进国内外Triton生态建设 •加强Triton开发者互动交流活动范围 •芯片厂商、互联网公司、高校及科研单位研究人员等专业的 Triton开发者 •所有对Triton技术感兴趣的爱好者时间&地点 •时间：6月2日（周日）下午 •地点：智源大厦（线上+线下）

29.

30. 构筑技术基石，跨越荆棘，迎来繁星满天