AI大模型落地的前景和痛点，兼谈工程师架构师所面临的机会和挑战

如果无法正常显示，请先停止浏览器的去广告插件。

1. ArchSummit 全球架构师峰会 AI大模型落地的前景和痛点兼谈工程师、架构师所面临的机会和挑战深圳 2023｜07｜21 李维 NLP科学家出门问问VP

2. “ 自我介绍一下李维 NLP 老司机、劳碌命，前讯飞AI研究院副院长，出门问问VP。Netbase前首席科学家10年，指挥研发18种语言的社会媒体舆情系统，成为美国NLP产业应用的经典成功案例。Cymfony前研发副总，获第一届问答系统第一名，赢得17个SBIR小企业创新研究项目

3. Outline 01 02 03 大模型风暴大模型之炼大模型与AIGC

4. 人类语言通天塔的建成巴别塔建成日：公元2022年11月30日

5. 为什么说建成了人类语言的通天塔？比 native 还 native 理解能力输入能听 “劳碌命” LLM 输出会说生成能力

6. 极其简单的原理自学习、预训练、生成式 AI （自回归GPT系列） “大号” 的 N-gram 模型 The best thing The best thing The best thing The best thing The best thing The best thing both The best thing both exciting ………… about about about about about about AI AI AI AI AI AI is is is is is is its its its its its its ability ability ability ability ability ability to to to to to to understand understand understand understand understand worlds worlds that worlds that are worlds that are about AI is its ability to understand worlds that are 给定上文，预测下一词： next token prediction

7. 大力出奇迹 —— 千（万）亿级字词/千亿级参数 Raw corpora 文字序列多维向量自学习生成式 AI （自回归GPT系列） LLM

8. LLM 任务开放 Way more Open-ended

9. 借用陆奇：We Are Here CF: Web-1 age

10. 人工智能当代简史 11年前的第一次AI深度神经革命，聚焦感知，靠的是带标大数据有监督训练。 5年多前的二次 AI 深度革命，NLP大模型（LLM）为旗帜，AI从感知到认知，靠的是自监督预训练。半年前通天塔的三次AI革命，搞定了自然语言交互，以 ChatGPT 为里程碑。

11. ChatGPT：几乎完美的人机自然语言接口 Few Shots Zero shot 机器迁就人，而不是人迁就机器 Zeroshot/零样本：不依赖标注大数据，克服知识瓶颈海量样本标注少样本标注零样本标注

12. ChatGPT 能力测试人类知识部分人类知识 LLM 客户调查用户粘性、增长性语言知识利用已有测试： NLP测试集，高考，各资格考试 Zeroshot 开放类任务理论上没有测试集，无法定量数据质量（QA ）

13. 机器迁就人的结果：人皆码师码农贵族、产品经理/CXO、数据分析员、用户群体：底线拉平，LLM 听得懂所有人的指示为“万众创业”创造了条件

14. NLP“核爆炸”及其影响新突破导向新生态 ChatGPT 建成语言通天塔 GPT 洗礼后的新生态建设 • 语言大模型搞定人类语言 • 标志感知智能走向认知智能：语言+知识 • 机器迁就人，而不是人迁就机器 • LLM CoPilot 落地，AIGC 前景广阔 • 实体交互方式的革命：不仅仅是人机 • 用户接口：交互克服人工智障 • 语言模型蕴含了知识模型，虽然并不完备 • LLM Agent 研究值得关注

15. 大模型时代的挑战模型痛点、领域挑战模型痛点领域落地的挑战 • 幻觉问题 • 谁调用谁：插件与外挂 • 稳定性问题 • 领域数据库、业务逻辑、私有数据 • 知识欠缺问题 • 自主AI研究：Agent • 多模态问题 • 与现有领域 Legacy 系统的关系

16. 大模型时代的焦虑架构师/工程师焦虑：you are not alone！ NLP 老司机的焦虑普罗的焦虑 • 一夜醒来，专业没了 • 工作被取代？ • 有说：半年前的专业经验是负资产 • 艺术被颠覆？ • AI 系统的涌现，资源的爆发 • 知识更新跑不赢知识增长 • 百花齐放，AI 日新月异

17. “幻觉”：是 LLM 内在 feature 不是 bug 幻觉与想象力是同义词预训练的 feature, not a bug 对于部分落地场景的挑战 • 没有“幻觉”，如何讲“故事”（cf《人类简史》） • “一正胡八”：说谎不“脸红”，真假莫辨，极度误导 • 写小说，不是报道新闻：记者成不了小说家 • 有利于艺术创造任务，却是领域落地的命门 • 长尾细节=噪音，抗噪=遗忘细节 • 加大模型可以减少幻觉，不能根治幻觉 • 模型不是数据库：源于数据，高于数据 • 强化学习可能医治“一本正经”，不能根治“胡说八道” • 张冠李戴是顺畅生成的必然 • 领域场景解决方案：外挂数据库 • 知道自己不知道？一切都是概率 • 人来把关和核实：可以先假设细节都是不真实的 • 是遗忘，不是“说谎”：没学会人类的语气词

18. “不稳定”：是 LLM 内在 feature 不是 bug 不稳定与创造性是同义词预训练的 feature, not a bug 对于部分落地场景的挑战 • 不稳定，才有创造性、多样性 • 容易做 demo，不容易独立落地 • 生成式LLM的本性：概率模型 • 有利于艺术创造任务，却也是领域落地的命门 • 不稳定=随机采样，太稳定=枯燥重复 • 加大模型可以缓解不稳定，不能根治不稳定 • 模型不是数据库：是条件预测，不是检索 • 多次生成：majority vote • 不稳定带来惊喜或惊恐 • 人来把关和挑选：副驾驶模式，亦可使多次生成

19. 知识欠缺：是序列学习LLM之本性 LLM 不是数据库序列数据预训练的边界垂直领域的知识短板 • 容易做 demo，不容易独立落地 • 知识渊博，尤其是百科知识和多数常识 • 领域知识欠缺 • 模型不是数据库：是条件预测，不是检索 • 加大模型可以增加知识，不能穷尽知识 • 业务逻辑 • 提示工程：in-context learning， short memory • 传统领域数据库、知识库、术语词典、知识图谱向量数据库很火解决背景信息不足 long memory

20. 专家坐台的打造加强领域内功的副驾驶 CoPilot LLM in-&-out: 既是服务员也是大厨既用其语言天才，也用其知识技能 “坐台”建设负责离线的调教仅预设专家流程化在线介入

21. LLM既是后台又坐前台 LLM赋能的自主式研究：主驾驶 Optional 专家把关或人类反馈生产力大爆发副驾驶逼近主驾驶：参照特斯拉 FSD 之路

22. 2 大模型预训练及其微调机制

23. Transformer架构完全基于注意力机制，完全不用递归和卷积特别擅长对序列数据中的长距离依赖进行建模，非常适合自然语言处理任务 Encoders 我有一只猫 Decoders (input) I have a cat (output) Transformer seq2seq encoder里面的结构，主要是向量与矩阵计算编码信息，一般最常见的是重复6次左右 decoder里面的结构，用来解码生成下一个目标语言单词的概率分布 Feed Forwad Feed Forwad 计算出每个单词与其他单词的相关性，然后使用这些相关性加权求和得到每个单词的表示向量。前馈神经网络 Self Attention 自注意力机制 attention Self Attention

24. 参数（权重）大语言模型，本质上是一个包含了大量参数的神经网络。这个神经网络可以看作是一个复杂的函数，它接收输入（如一段文本），然后生成输出（如下一个词）。神经网络的每一层都可以看作是一个函数，它接收上一层的输出（或者输入数据，如果它是第一层），然后生成自己的输出。每个层都包含许多的神经元。每个神经元都有一个权重，这就是大语言模型的参数。这些权重在训练过程中被调整，以使模型能够更好地预测输出。

25. 大模型之预训练 AI大模型就是Foundation Model（基础模型），指通过在大规模宽泛的数据上进行训练后能适应一系列下游任务的模型。 GPT-3训练数据来自于互联网上的大量文本，包括维基百科、新闻文章、网页、论坛、社交媒体等。模型先进行预训练，即在未标记的文本上进行多次迭代的自监督学习，以学习语言的结构和规律。 25

26. “大规模预训练﹢微调”范式提升模型通用性 “预训练+微调”技术，可用一套技术解决不同语言、不同场景、不同 NLP 任务，有效地提升了开发效率。针对不同任务进行微调海量文本数据超大规模算力超大规模预训练语言模型行业数据微调行业、场景应用未知领域微调更多微调场景... 26

27. 微调方式：任务对齐大模型底座更通用，顶层更垂直，fine-tune是在不改动预训练模型的基础上，在模型「顶层」使模型能够更贴合实际使用场景。来源 Standford Alpaca: A Strong, Replicable Instruction-Following Model 来源：《follow instructions with human feedback》 RLHF 基于人类反馈的强化学习 SELF-INSTRUCT 指令微调大模型底座

28. 基于人类反馈强化的训练：偏好对齐通过人工标注对模型输出结果打分建立奖励模型，然后通过奖励模型继续循环迭代， OpenAI获得了更真实、更无害，并且更好地遵循用户意图的语言模型InstructGPT。步骤1：搜集说明数据，训练监督策略有监督微调（SFT）搜集说明数据(基于 prompt训练方式的数据集)，训练监督策略步骤2：搜集比较数据，训练一个奖励模型奖励模型（RM）训练对这个prompt训练的数据集和若干模型的结果进行抽样步骤3：搜集说明数据，使用增强学习优化模型通过PPO根据奖励模型进行强化学习。新的prompt从数据集中抽样借助模型生成输出 Labeler(标注人员)揭示期望的输出行为 Labeler(标注人员)从最优到最差将输出结果进行排序反馈模型为输出计算一个反馈结果数据用来联合监督学习，对GPT-3进行微调这个数据用来训练反馈模型反馈结果用来优化策略 28

29. 3 “序列猴子”大模型及其AIGC 产品矩阵

30. 介绍一下出门问问的大模型与AIGC的模式三位一体的独特商业模式飞轮效应凸显

31. CoPilot将会无处不在每个人/企业都应该有专属的“ChatGPT” 高智商的大脑动听的声音好看的外表智能硬件载体

32. 出门问问大模型：序列猴子-Sequence Monkey 知识只要给予无限时间，一只猴子几乎必然能够打出任何文字，比逻辑对话如莎士比亚的《哈姆雷特》语言推理如果喂给机器猴子海量的文本序列，通过大规模算力去训练它，数学就能练就有智能的“序列猴子” 规划大模型的能力体系

33.

34. 序列猴子：面向创作者的应用出门问问研发了多款面向创作者的AIGC产品及应用，为万千创作者构建一站式CoPilot产品矩阵，打通内容创作全流程。超超注册会员付费会员

35. 奇妙元—您的AI数字分身像做PPT一样制作数字人视频和直播多元化高清数字人 3种形态海量资产  200+数字形象  形象克隆  3D捏脸  IP激活丰富语音  1000+音色  2000+声音风格  40国语言逼真效果  立体面部  4K高清  超长序列

36. 本视频由出门问问AIGC应用 “奇妙元”通过一张照片生成声音由“魔音工坊”生成。

37. 25年前的 yours truly 本视频由出门问问AIGC应用 “奇妙元”通过一张照片生成声音由“魔音工坊”生成。

38. 如今的“我”：劳碌命本视频由出门问问AIGC应用 “奇妙元”通过形象克隆生成声音由“魔音工坊”生成。

39. AIGC产品内测探索通道奇妙文 write.mobvoi.com 言之画魔音工坊奇妙元 paint.mobvoi.com moyin.com weta365.com

40. 魔法小问(App) 大模型与语音助手结合，实现更强、更智能的功能。魔法小问：“Siri”+“ChatGPT” 大模型大脑语音助手个人信息记忆文档分析图片生成数字人形象好看的外表好听的声音

41. 企业专属大模型定制序列猴子大模型，开放生态赋能各行各业 … AIoT 模型定制律所教育形象定制医疗声音定制金融车企持续迭代

42. 企业专属大模型开发提供的服务出门问问为企业客户提供专属的大模型定制化开发服务，确保服务全流程打通与高质量交付。企业专有数据模型定制数据处理模型训练私有化部署参数调优根据客户的需求和场景帮助客户在使用大模型使用企业的数据对模型针对特定行业或企业内帮助客户在训练好的大，为客户量身定制一个之前，对其数据进行清进行训练，并进行模型部业务场景定制的大模适合其业务和数据的大洗、预处理、转换和规评估。型，在企业内部进行部模型。包含API接口定范化等，以确保数据的帮助客户在其自身数据署和应用，以满足客户以获得更好的性能和准制、数据定制、模型架质量和一致性，并使其上训练大模型，以满足个性化的应用需求，同确性。构与参数定制符合大模型的输入要求企业特定的业务需求时保证数据隐私和安全模型上进行参数调试，

43. 商业模式出门问问公有云通用API 专属API+ 专属CoPilot 企业私有云专属模型 API 初级私有化部署高级私有化部署  通用数据  企业专有数据  企业专有数据  企业专有数据  企业专有数据  通用模型  通用模型  企业私有模型  通用模型  企业私有模型通用API接口，快速、稳定构建向量数据库私有化数据，训练专属模型通用模型+CoPilot部署私有化数据，训练专属模型

44. 前沿动态/商务合作公众号：飞哥说AI 大模型招聘：LLM@mobvoi.com