走进人工智能2.0

如果无法正常显示，请先停止浏览器的去广告插件。

1. 走进人工智能2.0 肖睿 2025年8月14日杭州 • 北大青鸟人工智能研究院 • 北大计算机学院 • 北大教育学院学习科学实验室一、人工智能的前世今生二、大模型的原理和能力边界三、大模型的现状和发展：技术应用和人才要求学习交流可加微信号：zhixingzhaizhuren 第1页

2. 走进人工智能2.0 一、人工智能的前世今生二、大模型的原理和能力边界三、大模型的现状和发展：技术应用和人才要求一、人工智能的前世今生二、大模型的原理和能力边界三、大模型的现状和发展：技术应用和人才要求学习交流可加微信号：zhixingzhaizhuren 第2页

3. 人工智能的前世今生：1956-2025 n 人工智能：Artifacial Intelligence，AI Ø 1956年：让机器具备人类智能，AGI，达特茅斯会议 Ø 2022年：让机器具备超人类智能（非人类智能），ASI，chatGPT发布 n 人工智能发展的4个时代 1. 古代（1956-1996）：通过规则和知识让机器具备人类智能 2. 近代（1996-2006）：通过数据和学习让机器具备人类智能 3. 现代（2006-2020）：通过神经网络和深度学习让机器具备人类智能 4. 当代（2020-2025）：通过大模型让机器具备人类智能和超人类智能（非人类智能）一、人工智能的前世今生二、大模型的原理和能力边界三、大模型的现状和发展：技术应用和人才要求学习交流可加微信号：zhixingzhaizhuren 第3页

4. 人工智能0.0：古代（1956-1996），规则和知识时代 Ø 第一次浪潮（1956-1968）：规则推理 • 思想准备：冯诺依曼计算机、机器思考、图灵测试 • 哲学基础：唯理论 • 主要原理：制定规则，进行数理推理（确定性，不确定性的概率） • 主要成就：下棋程序，定理机器证明，MIT的搬箱机器人 Ø 第二次浪潮（1986-1996-？）：知识推理 • 哲学基础：唯理论+经验论 • 主要原理：知识工程（知识抽取和知识表达），专家系统（知识库+推理机） • 主要成就：石油勘探、气象预报、军事决策、经济预测等；包括1996年之后的深蓝国际象棋、Watson Ø AI=IT：这个时代，人工智能基本等同于软件程序一、人工智能的前世今生二、大模型的原理和能力边界三、大模型的现状和发展：技术应用和人才要求学习交流可加微信号：zhixingzhaizhuren 第4页

5. 人工智能0.1：近代（1996-2006），机器学习时代 Ø 第三次浪潮（1996-？）：机器学习（数据+学习），小数据集，特征工程 • • 使用统计学习方法建模，三个核心要素：模型、目标、策略 ü 模型是核心：逻辑回归，决策森林，支持向量机，马尔科夫链，人工神经元…… ü 建模方法从规则到学习：从数学模型（分析数学），到数据模型（计算数学） ü 数据模型的能力边界：可以用数据模型模拟世界（数字化、全景化），以史为鉴（IID）主要成就：风险识别（金融、工业、经济）、学术研究 Ø 连接主义（1946-2006）：神经网络模型（黑盒） • 属于机器学习的一种方法，模型采用的是人工神经网络 ü 人工神经网络与人脑最大的共同点是名字（原理、机制和架构并不一样），用神经网络表达数学模型 ü 传统神经网络：霍普菲尔德网络，玻尔兹曼机，….. ü 深度神经网络：深度学习（Hinton，2006） Ø 软件2.0：人工智能是数学、物理学、计算机科学的混合体一、人工智能的前世今生二、大模型的原理和能力边界三、大模型的现状和发展：技术应用和人才要求学习交流可加微信号：zhixingzhaizhuren 第5页

6. 人工智能1.0：现代（2006-2020），深度学习时代 Ø 传统深度学习（2006）：深度神经网络模型，中数据集，端到端 • • 多种神经网络模型：DBN，CNN，RNN，ResNet，Inception，RWKV， …… ü AlphaGO：2016年超过人类棋手 ü ImageNet：2017年超过人眼 ü AlphaFold：2022年超过人类科学家，2024年获得诺贝尔奖主要成就：人脸识别、图像识别、语言翻译、语音识别、物理建模…… Ø 现代深度学习（2017）：Transformer模型，大数据集，注意力机制（大规模并行） • 三种Transformer模型架构：并行矩阵计算（GPU）：堆叠架构，容易扩展 ü 编码器（BERT）：embedding，Ernie1.0， …… ü 混合网络： T5、GLM（早期） ü 解码器（GPT）：生成式人工智能（AIGC），大力出奇迹（大模型，2020）一、人工智能的前世今生二、大模型的原理和能力边界三、大模型的现状和发展：技术应用和人才要求学习交流可加微信号：zhixingzhaizhuren 第6页

7. 人工智能2.0：当代（2020-2025），大模型时代 Ø 模型服务（2020）：MaaS • 全部是Transformer的GPT架构（解码器）：生成式人工智能（AIGC） • 大模型：预训练，生成-理解-决策（RL） ü 大（数据多、参数多、算力多）：B级（Billion，10亿） ü 模型：语言、视觉、多模态 p Transformer：大语言模型（LLM，大模型），多模态模型 ChatGPT（5、4.1、4o、o1、o3、o4）、Claude；Grok、Gemini；Llama、 …… DeepSeek、Step、Qwen；Kimi、MiniMax；GLM、火山(豆包)、元宝、百度…… p Transformer+Diffusion：视觉模型图像： Stable Diffusion、Mid-Journey、DALL.E等视频： Sora、可灵、即梦、Vidu、海螺、veo等 ü 一、人工智能的前世今生模型：通用模型 vs 垂直模型（行业模型） p 接近成熟：传媒、广告、编码、电商等 p 正在发展：教育、医疗、金融、工业、农业等二、大模型的原理和能力边界三、大模型的现状和发展：技术应用和人才要求学习交流可加微信号：zhixingzhaizhuren 第7页

8. 人工智能2.0：当代（2020-2025），大模型时代 Ø Agent（2025）：大模型是新手机，Agent就是app • 大模型的应用已从简单的对话工具（chatGPT、豆包）进化为：任务导向、交付结果的Agent（Manus、Lovart、Lovable等） • Agent的核心架构是：感知（多模态）、决策（LLM；记忆、检索、上下文）、动作（具身驱动、工具调用） • Agent的核心特征是自主（请人类走开）：从human in loop到human on loop Copilot：伙伴模式 Embedding：助手模式人类 AI 人类 AI 人类完成绝大部分工作人类和 AI协作工作人类设立任务目标人类设立任务目标 AI对其中某(几)个任务提供信息或建议 AI完成其中某(几)个流程的初稿人类修改调整确认人类自主结束工作一、人工智能的前世今生人类自主结束工作二、大模型的原理和能力边界 Agent：代理模式人类 AI AI完成绝大部分工作全权代理设立目标任务拆分提供资源工具选择监督结果进度控制自主结束工作三、大模型的现状和发展：技术应用和人才要求学习交流可加微信号：zhixingzhaizhuren 第8页

9. 人工智能2.0：当代（2020-2025），大模型时代 Ø 软件2.0时代 • AI0.1（机器学习）：小数据，人工特征，部分可解释，不具备通用性和跨模态 • AI1.0（深度学习）：大数据，特征表示，基本不可解释，不具备通用性和跨模态 • AI2.0（大模型）：海量数据，自监督学习，完全不可解释，具备通用性和跨模态，最有可能通向AGI的路径通用人工智能 AGI ，Artificial General Intelligence 具备与人类同等智能水平或超越人类智能水平的人工智能系统。 ü OpenAI：在大多数经济价值创造任务中表现优于人类的高度自主系统。 ü AI肖睿团队：90%的智力任务上超过90%的人类，很可能在2030年之前到来。 Level 5. Level 4 . Level 3 . Al通过自我学习, 人类，具备探究 AI学会使用工具，具备自我批判、自科学规律、世界 AI学会求解问题，涌利用工具完成多数我改进以及自我反起源等终极问题现世界知识和类人的人类物理世界问题, 思能力的能力言，在大多数自然复杂逻辑推理能力, 在工具使用方面突语言任务上突破图在问题求解方面突破破图灵测试灵测试图灵测试 Level 2 . Level 1. AI学会使用人类语一、人工智能的前世今生二、大模型的原理和能力边界 AI能力全面超越三、大模型的现状和发展：技术应用和人才要求学习交流可加微信号：zhixingzhaizhuren 第9页

10. 走进人工智能2.0 一、人工智能的前世今生二、大模型的原理和能力边界三、大模型的现状和发展：技术应用和人才要求一、人工智能的前世今生二、大模型的原理和能力边界三、大模型的现状和发展：技术应用和人才要求学习交流可加微信号：zhixingzhaizhuren 第10页

11. 二、大模型的原理和能力边界 n1、大模型的工作原理 n2、大模型的工作过程 n3、大模型的能力边界 n4、大模型的应用场景一、人工智能的前世今生二、大模型的原理和能力边界三、大模型的现状和发展：技术应用和人才要求学习交流可加微信号：zhixingzhaizhuren 第11页

12. 大模型的工作原理: NTP（Next Token Prediction ） 1. 收到提示词示例:“今天天气不错，我决定” Generative （生成式） 2.将输入拆分为token [ “今天”, “天”, “气”, “不” , “错” “,”, “我”, “决定” ] , G P Pre-trained • • T Transformer LLM:Large Language Model 理解token之间的关系识别提示词的整体含义 4.基于上下文预测下一个token • • 为可能的单词分配概率分数示例:{“去”:0.7. “停":0.2,“站":0.1} 5.根据概率分数选择标记示例:“去” 一、人工智能的前世今生二、大模型的原理和能力边界 “token”，可以进行语义计算。 3.采用Transformer架构处理token （预训练）（一种深度神经网络架构）准确地讲，这里不是“字”，是三、大模型的现状和发展：技术应用和人才要求概率预测+文字接龙自回归（AR）：重复步骤4和步骤5直到形成完整的句子示例：今天天气不错，我决定去公园学习交流可加微信号：zhixingzhaizhuren 第12页

13. 大模型的工作过程：预训练-后训练-推理大模型工作过程预训练（自监督）监督微调强化学习 (RLHF等等) 接收输入（提示词）阶段1：模型训练（预训练+后训练）一、人工智能的前世今生二、大模型的原理和能力边界处理输入（上下文）进行推理（测试时计算）生成输出阶段2：推理三、大模型的现状和发展：技术应用和人才要求学习交流可加微信号：zhixingzhaizhuren 第13页

14. 大模型的最新发展（从原子弹到氢弹）：推理深化期 • OpenAI 推出基于 GPT-4o 模型的图像生成功能，取代此前的 DALL·E 3成为 ChatGPT 和 Sora 平台的默认图像引擎 • OpenAI发布o3-mini 、 GPT-4.5，前者推动成本效益推理，后者展现出较高的情感智能。繁荣期跃进期 • • Llama2开源，极大助力全球大模型开发者生态。 • GPT-4 Turbo、Gemini等海外大模型发布，继续提升模型性能。准备期 • ChatGPT发布，全球范围内迅速形成大模型共识。 • • Midjourney发布5.2 • Stable Diffusion XL发布 • GPT4发布，进一步掀起大模型研发 • 脑、ChatGLM等首批模型相继发布。国内闭源大模型快速发展，豆包、混元、商汤3.0、国内开源生态爆发，Baichuan、Qwen、 InternLM、ChatGLM3、Yi-34B等系列模型引领 2023.06 GPT-40、Claude3.5、Gemini1.5、 • 国内推理模型持续跟进。DeepSeek-R1、 QwQ-32B、Kimi1.5、GLM-Zero、 Skywork o1、讯飞星火X1等推理模型陆国内多模态领域进展迅速，在部分领域领先海外，视频生成模型可灵AI、海螺视频、 • 开源热潮。 2022.12 引发热潮，推理性能大幅度提升。续发布，继续突破推理能力的上限。 • 国内快速跟进大模型研发，文心一言 • 3.7-Sonnet、Grok3发布，海外推理模型域的想象力。争格局。 Chat等陆续发布。 1.0、通义千问、讯飞星火、360智 Gemini 2.0 Flash Thinking、Claude- OpenAI发布Sora，极大拓展了AI在视频领 Llama3发布，海外进入“一超多强”的竞盘古3.0、AndesGPT、BlueLM、星火3.0、Kimi 热潮。 • • 2023.12 • 国内模型性能持续提升。DeepSeek-V3、 Vidu、PixVerse等模型陆续发布，并在海 Qwen2.5、豆包-Pro、混元-Turbo与GLM- 外取得较大应用进展。 4-Plus等系列模型综合能力上持续提升。国内通用模型持续提升，Qwen2.5、文心 • DeepSeek-R1通过开源与性价比优势持续 4.0、GLM4、商汤5.5等通用模型陆续更新。生成模型国内开源生态持续引领模型普惠化。推动行业技术普惠化进程。 2024.06 推理模型 2025.03 ref: SuperCLUE团队中文大模型基准测评2025年3月报告一、人工智能的前世今生二、大模型的原理和能力边界三、大模型的现状和发展：技术应用和人才要求学习交流可加微信号：zhixingzhaizhuren 第14页

15. 大语言模型的能力边界 1. 语言能力：理解和生成 2. 知识能力 3. 1. 严肃内容+垃圾信息的混合 2. 知识量大，但缺少内在关联能力 • 幻觉（生成不符合事实的内容） • 知识库限制（公开、私有、即时） • n生成上下文窗口限制（记忆、成本） n幻觉 1. 来源：有损压缩， NTP的温度 1. 提示词（Prompt） 2. 思维链（CoT） 3. 搜索增强（RAG） 4. 知识图谱（KGE） 5. 模型微调（Fine Tune） 2. 观点：创意和创新 n记忆推理能力 n 解决方案 1. 多轮对话：产品设计，计算成本一、人工智能的前世今生二、大模型的原理和能力边界三、大模型的现状和发展：技术应用和人才要求学习交流可加微信号：zhixingzhaizhuren 第15页

16. 生成模型和推理模型适用场景比较项生成模型（GPT-4o、 DeepSeek-V3）推理模型（GPT-o3、 DeepSeek-R1）模型定位专注于通用自然语言处理，多模态能力突出，适合日常对话、内容生侧重于复杂推理与逻辑能力，擅长数学、编程和自然语言推理任务，适合高难度问题求成、翻译以及图文、音频、视频等信息处理。解和专业领域应用。推理能力在日常语言任务中表现均衡，但在复杂逻辑推理（如数学题求解）上在复杂推理任务表现卓越，尤其擅长数学、代码推理任务。准确率较低。多模态支持应用场景支持文本、图像、音频乃至视频输入，可处理多种模态信息。当前主要支持文本输入，不具备图像处理等多模态能力；未来可能通过社区贡献扩展相关功能。适合广泛通用任务，如对话、内容生成、多模态信息处理以及跨语言更适合需要高精度推理和逻辑分析的专业任务，如数学竞赛、编程问题和科学研究；在交流；面向大众市场和商业应用。思路清晰度要求高的场景具有明显优势，比如采访大纲、方案提供流畅的实时对话体验，支持多种输入模态；用户界面友好，适合可展示部分链式思考过程，便于用户理解推理过程；界面和使用体验具有较高的定制性，但整体交互节奏较慢。用户交互体验大众使用。 n 生成模型是玩知识和文字的，推理大模型是玩逻辑和推理的，至于计算问题，还是找计算器吧 n 推理模型也不是万能的，其幻觉通常比生成模型大，很多不需要强推理的场合还是传统的生成模型比较适合一、人工智能的前世今生二、大模型的原理和能力边界三、大模型的现状和发展：技术应用和人才要求学习交流可加微信号：zhixingzhaizhuren 第16页

17. 人工智能：快速冲击智力行业，逐渐侵蚀物理世界人工智能：让机器具备人类智能，让机器具备非人类智能（超人类智能） n 机器学习 n 深度学习 n 大模型 n 大语言模型：DeepSeek n 视觉模型：可灵、即梦 n 多模态模型：GPT-5 一、人工智能的前世今生二、大模型的原理和能力边界三、大模型的现状和发展：技术应用和人才要求学习交流可加微信号：zhixingzhaizhuren 第17页

18. 对现代人工智能的正确认知 Ø 现代人工智能（大模型）的本质 Ø 大模型技术的关键过程 1. 这一波人工智能本质上是数据智能，只要是有时间结构和空间结构的数据，都可以识别出数据分布模式，建立数据模型，从而产生智能。 2. 这一波人工智能的核心是语言智能，通过分析和建模人类语言，获取人类的知识，并进一步获取人类的思维模式。 1. 预训练：中小学，打基础 2. 后训练：RL、SFT。大学，有专业 3. 微调、Prompt。入职实习，能干活 Ø 大模型技术的关键要素 1. Token：万物皆token 2. Attention：熵减即智能 3. GPT：大力出奇迹 3. 或许，AI只是一个我们和他人和祖先和整个人类的意义世界的交互的接口的翻译器。与我们对话的，不是AI，而是AI背后那个人类构造出的意义世界。因此， AI可以成为我们的伙伴和导师，例如： DeepSeek对贪嗔痴的解释。 4. Data：以古鉴今 5. RL：自学成才（决策，探索未知，生成数据） 6. 优化：卷Infra和算法，实事求是，反抽象 7. FT：后训练的艺术 8. TTC：大力出奇迹 AGAIN 9. Prompt：有话好好说 10. Agent：最后的筐一、人工智能的前世今生二、大模型的原理和能力边界三、大模型的现状和发展：技术应用和人才要求学习交流可加微信号：zhixingzhaizhuren 第18页

19. 对现代人工智能的正确认知：AI与IT的区别 n IT：确定性的任务（简单和繁杂），以代码逻辑为核心 •1.0：记忆+计算（冯诺依曼；软件时代） •2.0：记忆+计算+搜索（互联网时代） n AI：不确定的任务（复杂和混沌），以数据模型为核心 •0.0：专家系统：知识+规则 •0.1：机器学习：数据+学习，白盒 •0.1：传统机器学习：人类定义特征，人类估算模型参数 •0.5：人工神经网络：人类定义特征，模型自己学习模型参数 •1.0：深度学习：数据+学习，灰盒（不可控，有错误概率，可解释） •1.0：判别模型：人类只提供数据，端到端学习（模型自己抽取特征，自己学习模型参数） •2.0：大模型：数据+学习，黑盒（不可控，有错误概率，不可解释） •2.0：生成模型：训练阶段+推理阶段；压缩+生成（幻觉） •2.1：推理模型：训练阶段强化学习；推理阶段慢思考 •2.2:：Agent：任务结果导向（感知+大模型上下文工程+行动） n IT应用与AI应用的关键差异： •在互联网时代，用户使用系统的成本很低，边际成本接近于零。 •在AI时代，用户使用系统的成本比较高，有大量的GPU算力需求，边际成本较高。一、人工智能的前世今生二、大模型的原理和能力边界三、大模型的现状和发展：技术应用和人才要求学习交流可加微信号：zhixingzhaizhuren 第19页

20. 走进人工智能2.0 一、人工智能的前世今生二、大模型的原理和能力边界三、大模型的现状和发展：技术应用和人才要求一、人工智能的前世今生二、大模型的原理和能力边界三、大模型的现状和发展：技术应用和人才要求学习交流可加微信号：zhixingzhaizhuren 第20页

21. 三、大模型的现状和发展：技术应用和人才要求 n1、DeepSeek现象分析 n2、大模型的发展趋势 n3、如何使用大模型 ü 1）提示词工程和对话工具 ü 2）上下文工程和Agent n4、AI2.0时代的人才要求一、人工智能的前世今生二、大模型的原理和能力边界三、大模型的现状和发展：技术应用和人才要求学习交流可加微信号：zhixingzhaizhuren 第21页

22. 现象：DeepSeek快速出圈，全民硬控 n 2024年12月26日，DeepSeek推出对标OpenAI GPT-4o的语言模型DeepSeek V3，随后在美国AI 行业内部引起轰动。 n 2025年1月20日，DeepSeek发布对标OpenAI o1 的DeepSeek R1大语言模型，并于1月24日引起美国投资界KOL关注。 n 2025年1月26日，关于DeepSeek颠覆了大模型的商业模式（堆算力、拼资本），引发英伟达股价大跌，DeepSeek首先在美国出圈，引发国际社会讨论。 n 2025年1月底（春节前后），DeepSeek在中国出圈，并上升到中美竞争高度，同时纷纷接入DeepSeek ， DeepSeek成为AI和大模型的代名词。 n DeepSeek让AI跨越了鸿沟。一、人工智能的前世今生二、大模型的原理和能力边界三、大模型的现状和发展：技术应用和人才要求学习交流可加微信号：zhixingzhaizhuren 第22页

23. 到底谁是DeepSeek？公司、模型、产品系统组成部署方案 Ø 生产办公系统：目前多数为定制开发（RAG、Agent等） SaaS 应用服务（网页、APP、桌面软件、设备软件） Ø 对话机器人：目前多数为标准产品，使用云服务 • 免费：DeepSeek、豆包、Kimi、元宝、Monica、秘塔搜索、问小白、Molly R1等 • 收费（月费；充值）：文小言、通义、可灵、即梦、Vidu、Liblib、ChatGPT等 Ø 开源模型：DeepSeek、Qwen、Llama、SD、微调模型等 MaaS 模型服务（数据工程、推理加速、训练框架、API调用） • Ø 闭源模型：OpenAI、Claude、Gemini、Kimi、百度等 • PaaS 平台服务（存储、计算、数据、安全、中间件） IaaS 硬件服务（设备/电脑/服务器/GPU、网络、操作系统）一、人工智能的前世今生二、大模型的原理和能力边界向上提供：私有化部署，公有云服务（DeepSeek官网、硅基流动、火山引擎等）向上提供：公有云服务（OpenAI官网） Ø 私有化部署 • 本地：个人设备或电脑、企业服务器 • 数据中心（IDC）：企业服务器、服务器集群（私有云） Ø 公有云服务：阿里云、火山云、腾讯云、金山云、华为云等；AWS、Azure等三、大模型的现状和发展：技术应用和人才要求学习交流可加微信号：zhixingzhaizhuren 第23页第23页

24. 到底谁是DeepSeek？公司、模型、产品 n DeepSeek于2023年5月成立北京公司， 2023年7月成立杭州公司，是幻方量化孵化出的一家大模型研究机构（目标AGI），160人的团队分布在杭州和北京，是中国AI2.0（大模型）时代的七小龙之一。 • 注：AI1.0（深度学习）时代的四小龙：商汤、旷世、云从、依图 n 除了DeepSeek公司之外，其它六家也被投资界称为中国大模型企业六小虎（智谱AI、百川智能、月之暗面、阶跃星辰、MiniMax、零一万物）。一、人工智能的前世今生二、大模型的原理和能力边界三、大模型的现状和发展：技术应用和人才要求学习交流可加微信号：zhixingzhaizhuren 第24页

25. 到底谁是DeepSeek？公司、模型、产品 Model Base Model DeepSeek-R1-Distill-Qwen-1.5B Qwen2.5-Math-1.5B DeepSeek-R1-Distill-Qwen-7B Qwen2.5-Math-7B DeepSeek-R1-Distill-Llama-8B Llama-3.1-8B DeepSeek-R1-Distill-Qwen-14B Qwen2.5-14B DeepSeek-R1-Distill-Qwen-32B Qwen2.5-32B DeepSeek-R1-Distill-Llama-70B Llama-3.3-70B-Instruct DeepSeek-R1-671B DeepSeek-V3-Base 一、人工智能的前世今生二、大模型的原理和能力边界蒸馏模型，能力稍弱 n 实际上是增加了推理能力的Qwen模型和 Llama模型，不能称为DeepSeek模型。 n 市场上有误解，厂商有误导，甚至Ollama工具的模型选项中也有误导。三、大模型的现状和发展：技术应用和人才要求满血版，能力最强学习交流可加微信号：zhixingzhaizhuren 第25页

26. 到底谁是DeepSeek？公司、模型、产品公司、模型、产品 • 引起中美AI行业内部关注的是：模型 • 引起美国关注的是：模型和公司 • 春节前后在中国出圈的是：产品产品优势（用户可感受到） • 思考过程展示 • 中文好有情商 • 容易获得，使用简单 • 联网和来源引用 • 速度快 • 免费一、人工智能的前世今生二、大模型的原理和能力边界三、大模型的现状和发展：技术应用和人才要求学习交流可加微信号：zhixingzhaizhuren 第26页

27. DeepSeek模型优势 n 基础能力：进入推理模型阶段，并跻身全球第一梯队能力突破开源、低成本、国产自主 DeepSeek以“推理能力+第一梯队性能”为核心基础，叠加：开源开放、超低成本、国产自主研发三大优势，不仅实现技术代际跨越，更推动AI技术普惠化与国产化生态繁荣，成为全球大模型赛道的重要领跑者。混合专家多头潜注意力多Token预测强化学习测试时计算混合精度训练通讯优化并行训练框架直接硬件编程 MOE GRPO DualPipe 一、人工智能的前世今生 MLA TTC HAI MTP FP8 PTX 二、大模型的原理和能力边界 1. 推理能力跃升：DeepSeek大模型核心技术突破，实现复杂推理任务的精准处理与高效执行，覆盖多模态场景应用。 2. 国际竞争力对标：模型综合性能跃居全球第一梯队，技术指标与国际顶尖水平（如GPT系列、Claude等）直接对标，奠定国产大模型的行业标杆地位。 n 核心加分项：开源、低成本、国产自主 1. 开源：技术共享，生态共建 • • 全量开源训练代码、数据清洗工具及微调框架开发者可快速构建教育、金融、医疗等垂直领域应用，推动协同创新。 2. 低成本：普惠企业级AI应用 • 针对H系列芯片做了大量的模型架构优化和系统工程优化。 • • 最后一次训练成本仅$557w ：显著低于行业同类模型，打破高价壁垒。推理成本降低83%：千亿参数模型适配中小企业需求，加速商业化落地。 3. 国产自主：技术自主，缩短差距 • • 将国产模型与美国的代际差距从1-2年缩短至3-5个月，突破“卡脖子” 技术瓶颈。构建多行业专属模型矩阵，全面支持国内产业智能化升级。三、大模型的现状和发展：技术应用和人才要求学习交流可加微信号：zhixingzhaizhuren 第27页

28. DeepSeek V3/R1 模型的创新二、训练及框架：一、基础架构： 1. 混合专家模型（MoE）：DeepSeek采用MoE架构，通过动态选 1. 使用FP8低精度进一步降低训练成本。这一点，是DeepSeek团队非常择最适合输入数据的专家模块进行处理，提升推理能力和效率。 2. 无辅助损失的专家负载均衡策略（EP）：该策略使 DeepSeekMoE在不对优化目标产生干扰的前提下，实现各个专有价值的创新和突破。 2. 3. 3. (Data Parallelism, DP)，大幅提升模型训练速度。强化学习（RL）：DeepSeek-R1在训练中大规模应用强化学习( 4. 显著提升推理能力。 5. 多Token预测（MTP）：通过多Token预测， Deepseek不仅提高了推理速度，还降低了训练成本。通讯优化（DualPipe）：高效的跨节点通信内核，充分利用 IB 和 NVLink 带宽特点，减少通信开销，提高模型推理性能。让模型自我探索和训练)，将传统的PPO替换为GRPO训练算法， 5. 并行训练系统（HAI）：16 路流水线并行(Pipeline Parallelism, PP)、跨 8 个节点的 64 路专家并行(Expert Parallelism, EP)，以及数据并行多头潜在注意力机制（MLA）：MLA通过低秩压缩减少Key- Value缓存，显著提升推理效率。 4. 长链推理技术（TTC）：模型支持数万字的长链推理，可逐步分解复杂问题并进行多步骤逻辑推理。家的负载均衡，避免了某些专家可能会被过度使用，而其他专家则被闲置的现象。 FP8混合精度训练（FP8）：在关键计算步骤使用高精度，其他模型层混合机器编程（PTX）：部分代码直接使用PTX编程提高GPU运行效率。 6. 算子库优化（GEMM等Op）：针对H800计算卡的特点，优化了一部分CUDA的算子库。一、人工智能的前世今生二、大模型的原理和能力边界三、大模型的现状和发展：技术应用和人才要求学习交流可加微信号：zhixingzhaizhuren 第28页

29. DeepSeek V3/R1 模型的创新三、社会价值： 1. 开源生态：使用最为开放的MIT开源协议，吸引了大量研究人员和应用厂商，推动了AI技术的发展。 2. 模型蒸馏支持：DeepSeek-R1同时发布了多个模型蒸馏。 • 虽然这些蒸馏模型的生产初衷是为了验证蒸馏效果，但客观上帮助用户有机会使用移植了 DeepSeek-R1满血版模型的能力的更小的模型，以满足不同应用场景需求。 • 副作用是：给市场和用户造成了很多困扰。 3. AI产品和技术的普及：一、人工智能的前世今生 • 对于大模型研发企业，更加重视infra工程的价值了。 • 对于大模型应用企业，有了更多高效低成本解决方案。 • 对于社会大众，认识到AI是一个趋势，不是昙花一现。 • 对于市场，用户开始主动引入AI，不再怀疑了。 • 对于国家，大幅缩小了中美的核心技术差距。 • 对于全人类，技术平权，造福一方。二、大模型的原理和能力边界三、大模型的现状和发展：技术应用和人才要求学习交流可加微信号：zhixingzhaizhuren 第29页

30. DeepSeek R1模型的能力突破一、人工智能的前世今生二、大模型的原理和能力边界三、大模型的现状和发展：技术应用和人才要求学习交流可加微信号：zhixingzhaizhuren 第30页

31. DeepSeek R1模型的能力突破一、人工智能的前世今生二、大模型的原理和能力边界三、大模型的现状和发展：技术应用和人才要求学习交流可加微信号：zhixingzhaizhuren 第31页

32. DeepSeek R1模型的能力突破一、人工智能的前世今生二、大模型的原理和能力边界三、大模型的现状和发展：技术应用和人才要求学习交流可加微信号：zhixingzhaizhuren 第32页

33. DeepSeek R1 对大模型行业的重大影响 01 02 03 打破垄断价格下调推动创新 DeepSeek-R1以低成本和开源 DeepSeek-R1的API定价仅为 DeepSeek-R1促使行业开始从特性打破以往头部企业巨头割行业均价的1/10,推动了中小型 “唯规模论”转向更加注重据局面企业低成本接入AI,对行业产生 “性价比”和“高效能”方向了积极影响一、人工智能的前世今生二、大模型的原理和能力边界三、大模型的现状和发展：技术应用和人才要求学习交流可加微信号：zhixingzhaizhuren 第33页

34. 使用DeepSeek的方式 n 直接使用官方服务 Ø 访问官网(ai.com 或 https://chat.deepseek.com/)，登录后使用，适合电脑端快速使用，但存在服务不稳定问题。 Ø 下载APP，适合手机平板等移动设备，但同样存在服务不稳定问题。 n 使用第三方服务与API调用 Ø 第三方服务：秘塔AI、微信搜索、Molly R1、问小白等。 Ø API调用：DeepSeek、硅基流动、火山引擎等。获取API密钥调用，适合开发者集成，同样存在服务不稳定问题。 n 本地部署 Ø 个人部署：个人在本地设备运行应用，依赖自身计算资源，灵活便捷。 Ø 企业部署：企业内网或云端搭建私有化系统，支持多用户协作，数据可控。 Ø 一体机：直接购买配置了DeepSeek模型的具备一定算力的一体机。一、人工智能的前世今生二、大模型的原理和能力边界三、大模型的现状和发展：技术应用和人才要求学习交流可加微信号：zhixingzhaizhuren 第34页

35. DeepSeek-R1 应用场景的特点 1. 推理密集型任务 Ø 编程任务中的代码生成、算法设计，媲美Claude 3.5 Sonnet。 Ø 数学问题求解、科学推理和逻辑分析等需要复杂推理的场景。 2. 强推理任务 Ø 需要基于大量知识，进行长链分析和强推理的复杂任务。 Ø 例如：工作方案、科研实验、病理诊断、命理玄学、市场分析、舆情分析、教育教学等。 3. 中文要求高的任务 Ø 理解和使用中国文化背景、习惯用语、古文诗词（如生成春联）。优于ChatGPT的中文能力。 Ø 这一部分用DeepSeek-V3也可以做到。 Ø DeepSeek的语言风格（对齐策略）：不明觉厉。一、人工智能的前世今生二、大模型的原理和能力边界三、大模型的现状和发展：技术应用和人才要求学习交流可加微信号：zhixingzhaizhuren 第35页

36. 人工智能赋能行业的四层障碍一、人工智能的前世今生二、大模型的原理和能力边界三、大模型的现状和发展：技术应用和人才要求学习交流可加微信号：zhixingzhaizhuren 第36页

37. 大模型技术的应用阶段 04 01 目标是利用行业领先的 AI 02 能力，解决更复杂、专业的问题。模型微调提示词知识库目标是快速验证 AI 是否能解决某个特定的业务痛点目标是利用企业内部知识（例如，初步的文本分类、库，提高 AI 在特定领域问简单的信息提取）。答或内容生成的准确性和一、人工智能的前世今生行业模型 03 目标是进一步优化模型在特定任务上的性能，使其更符合企业的具体需求和数据特点。相关性。二、大模型的原理和能力边界三、大模型的现状和发展：技术应用和人才要求学习交流可加微信号：zhixingzhaizhuren 第37页

38. AI与提示词的关系：人类与大模型合作方式一、人工智能的前世今生知识渊博的专家给刚毕业的优秀大学为你解决具体任务生安排任务二、大模型的原理和能力边界三、大模型的现状和发展：技术应用和人才要求给外包员工安排任务学习交流可加微信号：zhixingzhaizhuren 第38页

39. AI与提示词的关系：人类与大模型合作方式喂模式 AI不知道+我知道人类知道 AI知道+我知道简单说给知识和场景（Prompt+know how）将掌握的信息传递给AI。使用详细的描述、举例、甚至提供数简单表达（明确指令：使用清晰的动词和目标，据等方式。等。）比如你了解某个地方的独特方言，而AI的训练数据中没有包含，你需要用文字甚至录音等方式向AI描比如双方都知道“二战” ，你可以直接问“二战爆发的原因是什么？” ,或者更进一步问“比述这种方言的特点，例如发音、词汇等。较一战和二战的异同”。例如“比较”、“总结”、“分析”、“生成” AI知道开放聊 AI知道+我不知道 AI不知道+我不知道提问题多轮对话同频（使用开放式讨论，例如“什么共同进行研究和探索，可以利用AI的计算和分析能力，结合人类的创造力和直觉，共同寻找答案。是”、“如何”、“有哪些”等。）比如AI知道很多关于商业模式的知识，而你不太比如要研究某种尚未被发现的疾病的病因，可以向AI 提供已知的医学数据和研究文献，让AI分析潜在的关了解，你可以问“我在做美术教育，有哪些好的联性，并提出新的研究方向。盈利模式？”。一、人工智能的前世今生二、大模型的原理和能力边界三、大模型的现状和发展：技术应用和人才要求学习交流可加微信号：zhixingzhaizhuren 第39页

40. AI与提示词的关系：人类与大模型有效沟通唉。今天天气确实挺不错的，上了一天班，算了，你猜猜我心情怎么样你猜猜我心情怎么样你这样说我就不困了。你应该心情不太好，有80% 的概率是不开心的你给我一个方法请给我一个python方法，要求可以计算十进制下的加减法内心os：家人们，救命啊，有个人让我猜他心情好不好，还让我给他一个方法，我这里有几百万种方法，给他哪个啊？算了，毁灭吧，随便丢一个得了一、人工智能的前世今生二、大模型的原理和能力边界这个就更明确了，马上给你返回一个具体的方法三、大模型的现状和发展：技术应用和人才要求学习交流可加微信号：zhixingzhaizhuren 第40页

41. 大模型的提示词技巧的总原则 AI 1. 把自己当老板，像对待你的员工一样，对待AI 2. 镜子理论：提示词是人激发和控制AI能力的手段，如同一个骑手的骑术一样 Problem Definition: Delineation of task goals ‘Ok, so the user wants me to...’ Bloom: Reconstruction: Decomposition of problem and initial execution to a potential answer, which may be verified. Reconsideration of initial assumptions, possibly leading to a new answer, and verification of confidence. ‘First, I should...’ ‘Wait, alternatively...’ Final Answer: Qualification of confidence and final answer to return. ‘Ok, I’m sure now...’ 具体内容可以参考AI 肖睿团队的《提示词工程和场景落地》（https://ai.kgc.cn/ai-news/294.html）一、人工智能的前世今生二、大模型的原理和能力边界三、大模型的现状和发展：技术应用和人才要求学习交流可加微信号：zhixingzhaizhuren 第41页

42. DeepSeek提示词技巧1：通用公式任务背景做什么给谁用目标负面限定期望效果担心的问题 “内心戏” 一、人工智能的前世今生二、大模型的原理和能力边界三、大模型的现状和发展：技术应用和人才要求学习交流可加微信号：zhixingzhaizhuren 第42页

43. DeepSeek提示词技巧1：通用公式我要（做）** ，要给**用，希望达到**效果，但担心**问题例如：我要做一个从北京到日本的旅游攻略，要给爸妈用，希望让他们在日本开心的玩20天，但我担心他们玩的累，腿和腰不太好 √ 先抓住总原则正式回答 √ 全面非常考虑o(￣▽￣)ｄ一、人工智能的前世今生二、大模型的原理和能力边界三、大模型的现状和发展：技术应用和人才要求学习交流可加微信号：zhixingzhaizhuren 第43页

44. DeepSeek提示词技巧2：真诚+直接传统 DeepSeek（真诚是必杀技）你现在是一个新能源汽车的市场研究帮我把这份报告包装一下，我要写成周报给分析师，这里有一份调研报告总结需老板看，老板很看重数据。要写成周报，请按周报的格式帮我完成并进行润色，不少于500字。一、人工智能的前世今生二、大模型的原理和能力边界三、大模型的现状和发展：技术应用和人才要求学习交流可加微信号：zhixingzhaizhuren 第44页

45. DeepSeek提示词技巧3：说人话为了避免DeepSeek的回答过于官方、专业，可以尝试这三个字“说人话” 你问：什么是“波粒二象性”，DeepSeek大概率会给出专业且看不懂的回答，和百度百科差不多。但如果给ta一句“说人话”，ta就会生动形象的做一些举例说人话一、人工智能的前世今生二、大模型的原理和能力边界适合场景：科研，了解新事物三、大模型的现状和发展：技术应用和人才要求学习交流可加微信号：zhixingzhaizhuren 第45页

46. DeepSeek提示词技巧4：反向PUA DeepSeek有一套自己的思维链，也就是ta自带的思考逻辑，那么如果你想要DeepSeek更卖力给你搬砖，就需要你运用“反向PUA ” “请你列出10个反对理由再给方案” “如果你是老板，你会怎样批评这个方案？” “这个回答你满意吗？请你把回答复盘至少10轮 ” “你要确认结果正确，做得好给你1千万人民币奖励，做不好把你拉出去枪毙 ” 一、人工智能的前世今生二、大模型的原理和能力边界三、大模型的现状和发展：技术应用和人才要求学习交流可加微信号：zhixingzhaizhuren 第46页

47. DeepSeek提示词技巧5：善于模仿如果你想写一篇文案，用提示词约束，可能效果一般般，但如果你给一篇文章模仿或者让ta模仿谁的语气，DeepSeek大概率会写到你的心趴上。一、人工智能的前世今生二、大模型的原理和能力边界三、大模型的现状和发展：技术应用和人才要求学习交流可加微信号：zhixingzhaizhuren 第47页

48. DeepSeek提示词技巧6：擅长锐评 DeepSeek自带情商，各种语气也能完美拿捏！一、人工智能的前世今生二、大模型的原理和能力边界三、大模型的现状和发展：技术应用和人才要求学习交流可加微信号：zhixingzhaizhuren 第48页

49. DeepSeek提示词技巧6：擅长锐评 ”__________，笑死“句式，触发DeepSeek的毒舌属性一、人工智能的前世今生二、大模型的原理和能力边界三、大模型的现状和发展：技术应用和人才要求学习交流可加微信号：zhixingzhaizhuren 第49页

50. 大模型的提示词工程和上下文工程 n 提示词的发展：多变、内在规律、分化 Ø 提示词的本质：大模型不够聪明，人机是两个物种 Ø 提示词的目标：人机对齐（信息和意图） Ø 提示词的价值流变：对话场景下，越来越成为人类自身的思维工具 ü 典型场景：Vibe Coding（氛围编程：人人做工具、专业提效率、产品完成创意） n 对人类的要求 Ø 定义AI问题：把现实中的问题转化为可以用AI解决的问题 Ø 布置AI任务：在有限的上下文里，清晰的表达，告诉所需的背景信息 Ø 验收AI工作：对回复有预期，对模型回复的好坏可以辨别 n 从“提示词工程”到“上下文工程” Ø 扩展（系统设定、记忆、系统状态等），动态（每次执行会有变化） Ø 教材 vs 教学场景；用户视角 vs 大模型视角一、人工智能的前世今生二、大模型的原理和能力边界三、大模型的现状和发展：技术应用和人才要求学习交流可加微信号：zhixingzhaizhuren 第50页

51. AI2.0时代的人才需求一、应用人才（实际上包括所有人） n 思维要求：用AI技术和工具去解决实际问题，提高工作和生活的效率和质量，赋能行业 n 能力增加：问题定义能力，独立思考能力和判断力，表达和沟通能力 n 能力减少：记忆力和知识储备，计算推理能力，执行力（纪律和毅力），创造力？ n 教育需求：AI通识教育二、IT专业人才（产品经理、开发岗位） n 思维要求：数据思维，模型思维，以人为本，赋能行业，理解场景算法工程师深度学习专家大模型研究员 ... n 能力增加：机器学习-深度学习-大模型原理，数据工程能力 n 能力减少：代码能力，逻辑能力？文档能力，软硬件工程能力（IT项目管理和适配） n 教育需求：新IT教育三、AI2.0专业人才（数据、算法和模型、算力和工程） n 思维要求：数学思维，好奇心和试错思维，热爱人类 n 能力增加1：数据工程能力，数据合成能力大模型开发工程师 AI应用开发工程师 Agent开发工程师 AI产品经理 ... 各行业AI赋能人才日常的AI应用 n 能力增加2：底层软硬件工程能力（芯片、通讯、操作系统） n 能力增加3：大模型范式能力（Transformer、Diffusion、RL等） n 能力减少：数学能力，机器学习传统算法，深度学习传统模型 n 教育需求：AI专业教育一、人工智能的前世今生二、大模型的原理和能力边界三、大模型的现状和发展：技术应用和人才要求学习交流可加微信号：zhixingzhaizhuren 第51页

52. 如何学习和应用大模型所有岗位都需要的人工智能素质 ü !"#$%&'()&*+,-./01,2345678 ü 9:;<=#>?,@;ABCD&EFGH&IJKL ü MN,OPQRS,7PQT8,UVWXYZ ü [\,OPQRS,7PQT8,]];97WX^Z_`VRab n 现代学习方法 n 传统学习方法一、人工智能的前世今生 Ø AI1.0（DOS），甚至AI0.0 Ø AI2.0（Windows） Ø 简本专业课（汽车制造和修理） Ø 懂AI用AI（公交司机、出租司机），拒绝劝退 Ø 缺乏动手场景 Ø 与工作场景和生活场景关联二、大模型的原理和能力边界三、大模型的现状和发展：技术应用和人才要求学习交流可加微信号：zhixingzhaizhuren 第52页

53. 走进人工智能2.0 欢迎交流人是世界的尺度，活在意义之网中，人工智能让这张网更有价值人类需要的是判断力和表达力，不再是记忆力和知识储备人是目的，不是手段，不要去和人工智能比工具性使用人工智能的人淘汰不使用人工智能的人使用人工智能的组织淘汰不使用人工智能的组织一、人工智能的前世今生人工智能时代的策略：把握原理、躬身入局、随时否定自己第53页三、大模型的现状和发展：技术应用和人才要求学习交流可加微信号：zhixingzhaizhuren 二、大模型的原理和能力边界第53页