AI大模型落地的前景和痛点,兼谈工程师架构师所面临的机会和挑战

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. ArchSummit 全球架构师峰会 AI大模型落地的前景和痛点 兼谈工程师、架构师所面临的机会和挑战 深圳 2023|07|21 李维 NLP科学家 出门问问VP
2. “ 自我介绍一下 李 维 NLP 老司机、劳碌命,前讯飞AI研究院副院长,出门问 问VP。Netbase前首席科学家10年,指挥研发18种语言 的社会媒体舆情系统,成为美国NLP产业应用的经典成 功案例。Cymfony前研发副总,获第一届问答系统第一 名,赢得17个SBIR小企业创新研究项目
3. Outline 01 02 03 大模型风暴 大模型之炼 大模型与AIGC
4. 人类语言通天塔的建成 巴别塔建成日:公元2022年11月30日
5. 为什么说建成了人类语言的通天塔? 比 native 还 native 理解能力 输入 能听 “劳碌命” LLM 输出 会说 生成能力
6. 极其简单的原理 自学习、预训练、生成式 AI (自回归GPT系列) “大号” 的 N-gram 模型 The best thing The best thing The best thing The best thing The best thing The best thing both The best thing both exciting ………… about about about about about about AI AI AI AI AI AI is is is is is is its its its its its its ability ability ability ability ability ability to to to to to to understand understand understand understand understand worlds worlds that worlds that are worlds that are about AI is its ability to understand worlds that are 给定上文,预测下一词: next token prediction
7. 大力出奇迹 —— 千(万)亿级字词/千亿级参数 Raw corpora 文字序列 多维向量 自学习生成式 AI (自回归GPT系列) LLM
8. LLM 任务开放 Way more Open-ended
9. 借用陆奇:We Are Here CF: Web-1 age
10. 人工智能当代简史 11年前的第一次AI深度神经革命,聚焦感知,靠的是带标大数据有监督训练。 5年多前的二次 AI 深度革命,NLP大模型(LLM)为旗帜,AI从感知到认知 ,靠的是自监督预训练。 半年前通天塔的三次AI革命,搞定了自然语言交互,以 ChatGPT 为里程碑。
11. ChatGPT:几乎完美的人机自然语言接口 Few Shots Zero shot 机器迁就人,而不是人迁就机器 Zeroshot/零样本:不依赖标注大数据,克服知识瓶颈 海量样本标注 少样本标注 零样本标注
12. ChatGPT 能力测试 人类知识 部分人类知识 LLM 客户调查 用户粘性、增长性 语言知识 利用已有测试: NLP测试集,高考,各资格考试 Zeroshot 开放类任务理论上没有 测试集,无法定量数据质量(QA )
13. 机器迁就人的结果:人皆码师 码农贵族、产品经理/CXO、数据分析员、用户群体: 底线拉平,LLM 听得懂所有人的指示 为“万众创业”创造了条件
14. NLP“核爆炸”及其影响 新突破导向新生态 ChatGPT 建成语言通天塔 GPT 洗礼后的新生态建设 • 语言大模型搞定人类语言 • 标志感知智能走向认知智能:语言+知识 • 机器迁就人,而不是人迁就机器 • LLM CoPilot 落地,AIGC 前景广阔 • 实体交互方式的革命: 不仅仅是人机 • 用户接口:交互克服人工智障 • 语言模型蕴含了知识模型,虽然并不完备 • LLM Agent 研究值得关注
15. 大模型时代的挑战 模型痛点、领域挑战 模型痛点 领域落地的挑战 • 幻觉问题 • 谁调用谁:插件与外挂 • 稳定性问题 • 领域数据库、业务逻辑、私有数据 • 知识欠缺问题 • 自主AI研究:Agent • 多模态问题 • 与现有领域 Legacy 系统的关系
16. 大模型时代的焦虑 架构师/工程师焦虑:you are not alone! NLP 老司机的焦虑 普罗的焦虑 • 一夜醒来,专业没了 • 工作被取代? • 有说:半年前的专业经验是负资产 • 艺术被颠覆? • AI 系统的涌现,资源的爆发 • 知识更新跑不赢知识增长 • 百花齐放,AI 日新月异
17. “幻觉”: 是 LLM 内在 feature 不是 bug 幻觉与想象力是同义词 预训练的 feature, not a bug 对于部分落地场景的挑战 • 没有“幻觉”,如何讲“故事”(cf《人类简史》) • “一正胡八”: 说谎不“脸红”,真假莫辨,极度误导 • 写小说,不是报道新闻:记者成不了小说家 • 有利于艺术创造任务,却是领域落地的命门 • 长尾细节=噪音,抗噪=遗忘细节 • 加大模型可以减少幻觉,不能根治幻觉 • 模型不是数据库:源于数据,高于数据 • 强化学习可能医治“一本正经”,不能根治“胡说八道” • 张冠李戴是顺畅生成的必然 • 领域场景解决方案:外挂数据库 • 知道自己不知道? 一切都是概率 • 人来把关和核实:可以先假设细节都是不真实的 • 是遗忘,不是“说谎”: 没学会人类的语气词
18. “不稳定”: 是 LLM 内在 feature 不是 bug 不稳定与创造性是同义词 预训练的 feature, not a bug 对于部分落地场景的挑战 • 不稳定,才有创造性、多样性 • 容易做 demo,不容易独立落地 • 生成式LLM的本性:概率模型 • 有利于艺术创造任务,却也是领域落地的命门 • 不稳定=随机采样,太稳定=枯燥重复 • 加大模型可以缓解不稳定,不能根治不稳定 • 模型不是数据库:是条件预测,不是检索 • 多次生成:majority vote • 不稳定带来惊喜或惊恐 • 人来把关和挑选:副驾驶模式,亦可使多次生成
19. 知识欠缺: 是 序列学习LLM之本性 LLM 不是数据库 序列数据预训练的边界 垂直领域的知识短板 • 容易做 demo,不容易独立落地 • 知识渊博,尤其是百科知识和多数常识 • 领域知识欠缺 • 模型不是数据库:是条件预测,不是检索 • 加大模型可以增加知识,不能穷尽知识 • 业务逻辑 • 提示工程:in-context learning, short memory • 传统领域数据库、知识库、术语词典、知识图谱 向量数据库很火 解决背景信息不足 long memory
20. 专家坐台的打造 加强领域内功的副驾驶 CoPilot LLM in-&-out: 既是服务员也 是大厨 既用其语言天才, 也用其知识技能 “坐台”建设负 责离线的调教 仅预设专家流 程化在线介入
21. LLM既是后台又坐前台 LLM赋能的自 主式研究: 主驾驶 Optional 专家把 关或人类反馈 生产力 大爆发 副驾驶逼近主 驾驶: 参照特斯拉 FSD 之路
22. 2 大模型预训练及其微调机制
23. Transformer架构 完全基于注意力机制,完全不用递归和卷积 特别擅长对序列数据中的长距离依赖进行建模,非常适合自然语言处理任务 Encoders 我有一只猫 Decoders (input) I have a cat (output) Transformer seq2seq encoder里面的结构,主要是向量 与矩阵计算 编码信息,一般最常见的是重复6次左右 decoder里面的结构,用来解码生 成下一个目标语言单词的概率分布 Feed Forwad Feed Forwad 计算出每个单词与其他单 词的相关性,然后使用这 些相关性加权求和得到每 个单词的表示向量。 前馈神经网络 Self Attention 自注意力机制 attention Self Attention
24. 参数(权重) 大语言模型,本质上是一个包含了大量参数的神经网络。这个神经网络可以看作是一个复 杂的函数,它接收输入(如一段文本),然后生成输出(如下一个词)。 神经网络的每一层都可以看作是一个函数, 它接收上一层的输出(或者输入数据,如果 它是第一层),然后生成自己的输出。 每个层都包含许多的神经元。每个神经元都 有一个权重,这就是大语言模型的参数。这 些权重在训练过程中被调整,以使模型能够 更好地预测输出。
25. 大模型之预训练 AI大模型就是Foundation Model(基础模型),指通过在大规模宽泛的数据上进行训练后 能适应一系列下游任务的模型。 GPT-3训练数据来自于互联网上的大 量文本,包括维基百科、新闻文章、 网页、论坛、社交媒体等。 模型先进行预训练,即在未标记的文 本上进行多次迭代的自监督学习,以 学习语言的结构和规律。 25
26. “大规模预训练﹢微调”范式提升模型通用性 “预训练+微调”技术,可用一套技术解决不同语言、不同场景、不同 NLP 任务,有效地提 升了开发效率。 针对不同任务进行 微调 海量文本数据 超大规模算力 超大规模预训练 语言模型 行业数据微调 行业、场景应用 未知领域微调 更多微调场景... 26
27. 微调方式:任务对齐 大模型底座更通用,顶层更垂直,fine-tune是在不改动预训练模型的基础上,在模型「顶 层」使模型能够更贴合实际使用场景。 来源 Standford Alpaca: A Strong, Replicable Instruction-Following Model 来源:《follow instructions with human feedback》 RLHF 基于人类反馈的 强化学习 SELF-INSTRUCT 指令微调 大模型底座
28. 基于人类反馈强化的训练:偏好对齐 通过人工标注对模型输出结果打分建立奖励模型,然后通过奖励模型继续循环迭代, OpenAI获得了更真实、更无害,并且更好地遵循用户意图的语言模型InstructGPT。 步骤1:搜集说明数据,训练监督策略 有监督微调(SFT) 搜集说明数据(基于 prompt训练方式的数据 集),训练监督策略 步骤2:搜集比较数据,训练一个奖励模型 奖励模型(RM)训练 对这个prompt训练的数 据集和若干模型的结果 进行抽样 步骤3:搜集说明数据,使用增强学习优化模型 通过PPO根据奖励模型进行强化学习。 新的prompt从数据集中 抽样 借助模型生成输出 Labeler(标注人员)揭示 期望的输出行为 Labeler(标注人员)从最 优到最差将输出结果进 行排序 反馈模型为输出计算一 个反馈结果 数据用来联合监督学习 ,对GPT-3进行微调 这个数据用来训练反馈 模型 反馈结果用来优化策略 28
29. 3 “序列猴子”大模型 及其AIGC 产品矩阵
30. 介绍一下出门问问的大模型与AIGC的模式 三位一体的独特商业模式 飞轮效应凸显
31. CoPilot将会无处不在 每个人/企业都应该有专属的“ChatGPT” 高智商的大脑 动听的声音 好看的外表 智能硬件载体
32. 出门问问大模型:序列猴子-Sequence Monkey 知识 只要给予无限时间,一只猴子几乎必然能够打出任何文字,比 逻辑 对话 如莎士比亚的《哈姆雷特》 语言 推理 如果喂给机器猴子海量的文本序列,通过大规模算力去训练它, 数学 就能练就有智能的“序列猴子” 规划 大模型的能力体系
33.
34. 序列猴子:面向创作者的应用 出门问问研发了多款面向创作者的AIGC产品及应用,为万千创作者构建一站式CoPilot产品矩阵, 打通内容创作全流程。 超 超 注册会员 付费会员
35. 奇妙元—您的AI数字分身 像做PPT一样制作数字人视频和直播 多元化高清数字人 3种形态 海量资产  200+数字形象  形象克隆  3D捏脸  IP激活 丰富语音  1000+音色  2000+声音 风格  40国语言 逼真效果  立体面部  4K高清  超长序列
36. 本视频由出门问问AIGC应用 “奇妙元”通过一张照片生成 声音由“魔音工坊”生成。
37. 25年前的 yours truly 本视频由出门问问AIGC应用 “奇妙元”通过一张照片生成 声音由“魔音工坊”生成。
38. 如今的“我”: 劳碌命 本视频由出门问问AIGC应用 “奇妙元”通过形象克隆生成 声音由“魔音工坊”生成。
39. AIGC产品内测探索通道 奇妙文 write.mobvoi.com 言之画 魔音工坊 奇妙元 paint.mobvoi.com moyin.com weta365.com
40. 魔法小问(App) 大模型与语音助手结合,实现更强、更智能的功能。 魔法小问:“Siri”+“ChatGPT” 大模型大脑 语音助手 个人信息记忆 文档分析 图片生成 数字人形象 好看的外表 好听的声音
41. 企业专属大模型定制 序列猴子大模型,开放生态赋能各行各业 … AIoT 模型定制 律所 教育 形象定制 医疗 声音定制 金融 车企 持续迭代
42. 企业专属大模型开发提供的服务 出门问问为企业客户提供专属的大模型定制化开发服务,确保服务全流程打通与高质量交付。 企业专有数据 模型定制 数据处理 模型训练 私有化部署 参数调优 根据客户的需求和场景 帮助客户在使用大模型 使用企业的数据对模型 针对特定行业或企业内 帮助客户在训练好的大 ,为客户量身定制一个 之前,对其数据进行清 进行训练,并进行模型 部业务场景定制的大模 适合其业务和数据的大 洗、预处理、转换和规 评估。 型,在企业内部进行部 模型。包含API接口定 范化等,以确保数据的 帮助客户在其自身数据 署和应用,以满足客户 以获得更好的性能和准 制、数据定制、模型架 质量和一致性,并使其 上训练大模型,以满足 个性化的应用需求,同 确性。 构与参数定制 符合大模型的输入要求 企业特定的业务需求 时保证数据隐私和安全 模型上进行参数调试,
43. 商业模式 出门问问公有云 通用API 专属API+ 专属CoPilot 企业私有云 专属模型 API 初级私有化 部署 高级私有化 部署  通用数据  企业专有数据  企业专有数据  企业专有数据  企业专有数据  通用模型  通用模型  企业私有模型  通用模型  企业私有模型 通用API接口,快速、稳定 构建向量数据库 私有化数据,训练专属模型 通用模型+CoPilot部署 私有化数据,训练专属模型
44. 前沿动态/商务合作 公众号:飞哥说AI 大模型招聘:LLM@mobvoi.com

Home - Wiki
Copyright © 2011-2024 iteam. Current version is 2.138.0. UTC+08:00, 2024-12-22 02:12
浙ICP备14020137号-1 $Map of visitor$