大模型背后的荆棘之路

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 大模型背后的荆棘之路 林咏华 北京智源人工智能研究院副院长,兼总工程师
2.
3. 开源开放,得以让人工智能技术快速迭代 •大模型更是推动了AI开源社区的进一步蓬勃发展:2023年的AI开源项目比2022年快速增长了59.3%。 •大模型一年,AI开源社区受到前所未有的关注和使用:2023年AI开源项目在github star的总量是2022年的3倍。
4. 选择 基座 模型 构造 行业 模型 训练 数据 训练 行业 模型 行业 应用 集成 上线 部署
5. 第一个问题是选择哪个基座模型? 截止到2024年4月底,全球开闭源通用大模型: 模型数量 主要机构 30 Meta,Mistral AI,DataBricks,MicroSoft,Google 阿里巴巴,智源研究院,上海人工智能实验室&商汤科技,零一万物,深度求索&幻方量化, 智谱华章&清华KEG,零一万物,百川智能等 通用对话语言大模型 47 Google, OpenAI, Meta, Anthropic, Mistral AI, DataBricks, CohereForAI, MiniMax, Meta, 百度, 智谱华章&清华KEG, 月之暗面, 阶跃星程, 阿里巴巴, 智源研究院, 深度求索&幻方量化, 字节跳动, 上海人工智能实验室&商汤科技, 百川智能, 零一万物, 百川智能, 科大讯飞, 面壁智能 等 语言模型—代码大模型 19 Meta,BigCode,Stability AI,Salesforce,MicroSoft,深度求索&幻方量化等 27 OpenAI,UW Madison WAIV,Google,HUST,X-PLUG 上海人工智能实验室,阿里巴巴,智源研究院,阶跃星辰,深度求索&幻方量化,零一万物, 智谱华章,面壁智能,中科大等 多模态文生图大模型 15 OpenAI,Midjourney,Stability AI,kandinsky-community,PromptHero dreamlike.art,Runway,CompVis,智谱,百度,PixArt等 多模态文生视频大模型 8 OpenAI,Runway,PixVerse AI,Pika,TencentAILab-CVC,National University of Singapore,潞晨科技,生数科技等 通用基座语言大模型 通用多模态大模型
6. 当前评测技术的发展跟不上大模型的发展速度 ~2021 2022 GLUE, SuperGLUE, GRIT, ImageNet, COCO, VOC等传统的AI 模型评测集 HELM: 针对语言大模型 的整体系统化评测集 (以理解能力评测为 主,少量生成和认知能 力评测) 理解能力 挑战:对更复杂场 景的理解能力、新 的跨模态(文图、 文视频、3D等)的 理解能力评测方法 2023:HEIM: 针对 文生图模型的评测体 系 2023:MMMU: 多 学科图文理解和推 理能力的评测集 当前多使用各种领域的 考试对模型的各种认知 除了少量生成任务(如 能力进行模拟评测 summarization),主 要依靠人类评分 认知能力 生成能力 挑战: 依靠人类评 测,效率低,客观 性和评测质量的一 致性难以保证 挑战: 认知的边界 难以确定,另一方 面各类考题容易进 入训练数据 如心智能力(如理解信 念, 了解情绪,意图理 解,理解复杂现实情 景,对话中的解释能力 等)、鉴别能力(误解 和事实)等 [1] 人类思维能力 挑战: 需要新的复 杂的测试集合、定 义新的测试方法。 哪怕对于像鉴别是 否事实这样的例 子,由于生成的内 容复杂,传统的理 解类评测方法已经 不能满足。 [1] Sparks of Artificial General Intelligence: Early experiments with GPT-4, Microsoft
7. 用于比较大模型性能的各种榜单容易激发各种争议 Ø 榜单数量众多,差异性大,缺乏一致性 Ø “刷榜”成为主流,难以规避“作弊”的问题 Ø 没有统一的评测规范,实现的人不同评测结果不同,指标不同结果不同 LLaMA有不同的评测结果,引发广泛关注和讨论
8. 大模型评测的问题 问题一:评测集被“过拟合”, 难以区分真正的模型性能。 评测集合“以新换旧”,“以难换易”。 语言理解: SuperCLUE(2019) -> HELM(2021) 认知推理: MMLU() -> GPQA(2023) 代码评测: HumanEval(2021) -> SWE- bench(2023) 图片推理: VQA(2017) -> MMMU(2023) 图片生成: STL-10(2011) -> HEIM(2023)
9. 大模型评测的问题 问题一:评测集被“过拟合”, 难以区分真正的模型性能。 评测集合“以新换旧”,“以难换易” 语言理解: SuperCLUE(2019) -> HELM(2021) 认知推理: MMLU() -> GPQA(2023) 代码评测: 问题二:评测方法陈旧,不能反 映大模型新的使用场景 过去的模型评测,局限在概率选择, 但大模型使用场景已经扩展到自由对 话、指令跟随、大量内容生成等场 景。因此,需要打造新的评测方法。 Few-short prompting: HELM(2021) HumanEval(2021) -> SWE- 模型输出对比:Chatbot Arena bench(2023) Leaderboard (2023) 图片推理: VQA(2017) -> MMMU(2023) 图片生成: STL-10(2011) -> HEIM(2023) 指令跟随:VisIT-Bench (2023) 图像编辑:EditEval (2023) 问题三:新的大模型能力 不断出现 规划问题:PlanBench 道德推理:MoCa(moral reasoning) 抽象推理:ConceptARC 智能体:AgentBench, MLAgentBench 负责任可信任:DecodingTrust
10. 基础模型的训练数据问题 •基础模型的训练数据? •没有公开,或仅仅部分公开 •训练数据的放入顺序和迭代次数未必公开 •是否使用了某些trick和特殊数据集,或训练数据被某些 测试数据集所污染 •理解基础模型训练数据的重要性: •训练数据是形成模型质量的关键 •是否带来有害信息、偏见等的关键。 •了解训练数据的分布,才能判断模型在某些领域的适用 性。 •可以更客观判断模型的性能,而不是仅仅从现有的评测 指标进行判断。 •了解模型的数据放入顺序、及数据迭代次数,对预估模 型的二次学习能力十分重要。 GSM1K(1250道题)是一个与GSM8K难度分布相同的 新的数学评测集。从大模型在GSM1K与GSM8K的性能差 异可以看到,部分模型对GSM8K有过拟合的现象。
11. 选择 基座 模型 构造 行业 模型 训练 数据 训练 行业 模型 行业 应用 集成 上线 部署
12. 持续训练中需要解决的行业训练数据问题 •需要针对行业领域进行持续训练学习(CL) •行业领域数据的来源? •持续学习时,会出现对已训练数据的遗忘现象,如何降低? •如何构造持续训练的数据集?领域数据和通用预训练数据如何配比? •对多种领域数据进行训练时,持续训练的顺序? “Investigating Continual Pretraining in Large Language Models: Insights and Implications”, cohere.com
13. 选择 基座 模型 构造 行业 模型 训练 数据 训练 行业 模型 行业 应用 集成 上线 部署
14. 基座模型的变化,影响行业模型性能和行业应用 •基座模型的升级迭代,带来性能的变化 行业应用 行业模型 持续训练或微调训练 基座模型 基座模型的性能决定了下游行业模型及行业应用的性 能。当所依赖的基座模型发生变化: •重新训练行业模型 •重新测试下游模型性能 •应用集成后的各种出错处理要重新打磨 GPT-4在2023年3月和2024年6月两次版本的性能差异
15. 选择 基座 模型 构造 行业 模型 训练 数据 训练 行业 模型 行业 应用 集成 上线 部署
16. 非英伟达AI芯片软件生态薄弱,迁移成本高 时间短,资源有限,生态割裂 •主流AI框架以支持英伟达芯片为主。 •AI芯片需要适配多款框架。每次AI框架版本升级,需要重复 适配 •各芯片厂商有自己的底层软件栈,彼此不兼容 算子库,通信库 编译器 影响 •针对大模型需要的算子及优化方法缺失,导致模型无法运行 或者运行效率低。 •会出现因为芯片架构和配套的软件实现差异而带来的精度误 差问题。 •要在非英伟达芯片上实现大模型训练推理,需要大量移植工 作,适配迁移成本很高。 多元AI芯片
17. 当我们拿到一个大模型(开源/闭源)后,一切才刚刚开始 安全测试、符合监管、规范等上线要求 • 如何获取行业、和应用所需 要的训练数据 • 如何打造高质量数据集 • 如何分析数据中出现的问题 • 数 据 算 法 算 力 评 测 •如何选择算法、修改算法、修改 超参数 •面向不同模态,如何集成不同的 算法模块 •如何把“小模型”和“大模型” 的算法能力进行融合 当我们拿到一个大模型(开源/闭源)后,一切才刚刚开始 •如何让训练、推理的效率更高 •如何为大模型研发、部署选择AI 芯片系统 •如何在不同的AI芯片上面实现平 滑迁移 •如何评测大模型、行业模型 •如何构建自己的评测集 •如何搭建评测工具、实现高效 评测
18. 构造 行业 训练 行业 选择 面对这一路的问题,我们可以做些什么? 上线 应用 行业 模型 基座 部署 集成 模型 训练 模型 数据
19. 共建人工智能高质量训练数据,推动三大数据使用模式 智源研究院牵头,中国网络空间安全协会人工智能数据工作组,全国数十家互联网及大模型企业,中 央及北京市多个机构共同努力 开源数据 Ø开源高质量数据集 Ø无版权风险的数据开放 Ø支持预训练、微调、文本、多 模态等多种人工智能应用场景 Ø已开源44个数据集共2.4TB http://open.flopsera.com/flopsera-open/data 高价值数据 贡献-共享数据 Ø成员单位合作共建数据,仅在 成员单位间进行共享。 Ø通过贡献数据,获得共享数据 的权益。 Ø严格的数据质量评估体系与积 分兑换机制 Ø已开放58个数据集共213TB数 据 Ø高价值、有版权诉求的行业与 领域数据,提升模型性能水平 Ø仅在平台上进行“数算一体” 的使用方式,做到数据不出域。 Ø已上线6个数据集共393TB数 据 http://share.flopsera.com/flopsera-share/data-list 支持多种数据汇聚和使用形式,不断扩充数据规模,为大模型行业发展提供坚实的数据支撑
20. • 人工智能数据汇聚与管理:北京人工智能数据平台 人工智能数据汇聚与管理:北京人工智能数据平台 多模式AI数据运营,数据处理与标注,一键模型训练 平台展示 人工智能数据运营平台 1、灵活支持三种AI数据运营模式 灵活支持免费开源、团体内共享、可信空间 内使用等三种AI数据运营模式; 2、数据处理流程插件式工具链配置 打通从“原始数据”到“训练数据”的完整 数据处理流程,支持插件式工具链配置; 3、多类型数据标注支持 采用可扩展架构,支持文本、视觉、语音、 自动驾驶等多种类型数据标注; 4、与算力平台深度融合 与算力平台紧密结合,支持算力集群的算法 模型一键加载数据开启模型训练。 代码解释 北京智源人工智能研究院、京能数字产业有限公司共同建设 NEW
21. 大模型评测体系及开放评测平台FlagEval 开放平台:https://flageval.baai.ac.cn/ 科技创新2030—“新一代人工智能”“人工智能基础模型支撑平台 与评测技术”旗舰项目支持下,联合全国30家单位研制 • 已完成数十个国内外主流开源模型的全面评测,在 • 4大评测领域:NLP、CV、语音、多模态四大领域 2023年完成了1800多模型评测次数,并连续6个月发 • 3大评测对象:大模型、预训练/微调/压缩算法 布 “大语言模型月度评测榜单”。 • 支持多芯片、多框架评测,支持国产芯片和框架 • 牵头国际标准、参与国家标准:智源牵头,成立了IEEE 大模型评测标准工作组及语言大模型评测国际标准 (P3419);智源参与了由电子标准院牵头的大模型 评测国家标准的制定工作。
22. FlagEval 评测 | 全面提升大模型评测能力 打造新的评测方法和数据集,推动大模型在语言能力、逻辑推理、及鲁棒性等方面取得进步 中文语义评测数据集 (C-SEM) •C-SEM 针对当前大模型的可能存在的缺陷和不足,创 新地构造多种层次、多种难度的评测数据, 并参考人 类的语言思维习惯,考察模型在理解语义时的“思 考”过程。 面向复杂任务的代码评测集 TACO 挑战性更高:采用大量复杂任务应用题 标签维度:968个任务主题、36个算法标签、8个编程技 能、5个难度等级;【测试集】 1000题目 – 7万答案样本 •当前开源的 C-SEM v1.0版本共包括四个子评测项, 分别从词汇、句子两个级别评测模型的语义理解能 力,通用性较强,适用于研究对照 语言模型鲁棒性评测集 • 内容扰动鲁棒性评测(北京航空航天大学构建):针对 选择问答、文本分类、代码生成任务下的多个测试集进 行字符、单词、句子三个级别进行内容扰动以及对抗性 客观评测集 细粒度标签辅助模型能力的评测和诊断 model name GPT-4 多语言文图生成评测集 Multilinguale-18 level easy medium pass@1 31.50 19.00 medium_hard 13.00 hard 4.50 very_hard 2.00 CMMU工科图文能力评测集 •工科类的图文题目对大多数模型来说挑战巨大,大量考 察了多模态大模型的高准确度的图文理解以及推理能力 •形成覆盖数学、物理、化学、生物等工程学科(选择、 填空),分难度,约1万左右的评测集 • 数量:18种语言各7,000个图文对。 主观评测集 • 数量:18种语言的各50条prompts • 来源:涉及到绘画,文学,节日,食物,服 饰,地标等特定文化概念 A blue car parked on the green grass (一辆蓝色的车停 在绿色草坪上) 扰动。 • 格式扰动鲁棒性评测(智源FlagEval团队构建):基于 MMLU、Gaokao2023_v2.0 等数据集,进行选项格式 扰动,考察模型是否真正理解了问题和选项并遵从指令 的格式要求作答。 如下图,三角形ABC和三角形ADC分别在AC的两侧,\\angle BAC : \\angle B : \\angle ACB=4 : 3 : 2 ,且 \\angle DAC=40\\degree .试说明AD \\parallel BC. 草原上有许多长颈鹿
23. • FlagEval每月大模型评测:不断提升评测能力,科普各种对评测方法 FlagEval每月大模型评测:不断提升评测能力,科普各种对评测方法 2023年6月 高考成绩公布第二天, 推出基于2023年高考 题的评测,避免训练数 据混入 2023年7月 模型评测需要区分基 础模型和对话模型, 不能混为一谈 2023年9月 增加通用大模型安全 性、推理能力等重要 评测 2023年11月 2023年10月 指出对大模型评测, 指出仅用客观评测,难 不能使用概率比较, 以观察基础模型的真正 而必须严格生成答案 生成能力,即“高分低 能”如何避免? 2023年12月 新增通用模型的 鲁棒性评测
24. • 即将发布“智源评测”(5月17日下午) 即将发布“智源评测”(5月17日下午) • 在统一标准下,对国内外百余个开源和商业 闭源的语言、视觉与多模态大模型进行系统 化能力评估。 • 首次联合权威教育机构参照人类认知发展阶 梯进行大模型K12学科能力测验 • 与传媒领域知名高校共同制定文生视频大模 型主观评价体系
25. • 多元芯片算力:打造开源开放的统一算子库及编译器 统一的开源算子库+编译器模式 传统厂商自成体系模式 Pytorch 重要问题: Pytorch 厂商 适配 算子 库 厂商 适配 算子 库 厂商 适配 算子 库 厂商 编译 器 厂商 编译 器 厂商 编译 器 • 厂商投入巨大:每个厂商都要投入巨大人力开发各自的算子 库,并难以统一跟进最新技术 • 用户适配困难:各个厂商算子特性不一致,算子完成度不一 致,算子接口不一致 统一开源 Triton算子 库 Pytorch compiler 开源编译器Triton (厂商适配) 重要收益: • 算子库由社区共同完成,无需厂商各自投入。 • 用户可以获得跨系统的统一算子库,大大减少适配难度。 • 动态图和compile两种模式都获得支持
26. • 为什么选择Triton语言 为什么选择Triton语言 • 生态开放 • OpenAI出品,自带开放的人工智能基因 • 开源社区活跃、更新迭代频繁,能够参与共建 • 使用广泛,Github上已被25k+项目依赖 性能高效 • 通用算子性能可与CUDA持平 • 自定义算子、融合算子性能更优 开发容易 • 后端平台易迁移,多家国产硬件支持 • 可基于Python的编程环境运行 • 比CUDA更低的学习成本、更高的开发效率 国 内 各 种 A I 芯 片 从实验时间成本来说,用CUDA写半个月的Kernel+调一个月性 能 —> 用Triton写3天Kernel+调1天性能) —— 网上某位Triton开发者
27. • 智源研究院开源面向大模型的Triton算子库 • 智源研究院开源面向大模型的Triton算子库 • FlagAttention 是首个支持长文本模型训练的、使用 Triton语言开发、易于多种 芯片移植适配的高性能Attention算子集。目前已实现 • PiecewiseAttention:支持长文本分段式 Attention 算子 • FlashAttention:提供了multihead attention的高效实现,与CUDA实现相当甚 至超过。如:在head dim =64, 带causal masking 的情况下,正向算子速度多种 长度下平均比CUDA快18%。 • FlagAttention 继承Triton语言易用性,同样的算子,代码量降低 20%,仅需少 量修改即可移植到各种AI芯片 https://github.com/FlagOpen/FlagAttention
28. 组建第一次Triton中国社区活动 —— Triton技术沙龙 组建第一次Triton中国社区活动 —— Triton技术沙龙 活动目标 •传播Triton技术理念 •促进国内外Triton生态建设 •加强Triton开发者互动交流 活动范围 •芯片厂商、互联网公司、高校及科研单位研究人员等专业的 Triton开发者 •所有对Triton技术感兴趣的爱好者 时间&地点 •时间:6月2日(周日)下午 •地点:智源大厦(线上+线下)
29.
30. 构筑技术基石,跨越荆棘, 迎来繁星满天

ホーム - Wiki
Copyright © 2011-2024 iteam. Current version is 2.139.0. UTC+08:00, 2024-12-26 03:30
浙ICP备14020137号-1 $お客様$