走进人工智能2.0

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 走进人工智能2.0 肖睿 2025年8月14日 杭州 • 北大青鸟人工智能研究院 • 北大计算机学院 • 北大教育学院学习科学实验室 一、人工智能的前世今生 二、大模型的原理和能力边界 三、大模型的现状和发展:技术应用和人才要求 学习交流可加微信号:zhixingzhaizhuren 第1页
2. 走进人工智能2.0 一、人工智能的前世今生 二、大模型的原理和能力边界 三、大模型的现状和发展:技术应用和人才要求 一、人工智能的前世今生 二、大模型的原理和能力边界 三、大模型的现状和发展:技术应用和人才要求 学习交流可加微信号:zhixingzhaizhuren 第2页
3. 人工智能的前世今生:1956-2025 n 人工智能:Artifacial Intelligence,AI Ø 1956年:让机器具备人类智能,AGI,达特茅斯会议 Ø 2022年:让机器具备超人类智能(非人类智能),ASI,chatGPT发布 n 人工智能发展的4个时代 1. 古代(1956-1996):通过规则和知识让机器具备人类智能 2. 近代(1996-2006):通过数据和学习让机器具备人类智能 3. 现代(2006-2020):通过神经网络和深度学习让机器具备人类智能 4. 当代(2020-2025):通过大模型让机器具备人类智能和超人类智能(非人类智能) 一、人工智能的前世今生 二、大模型的原理和能力边界 三、大模型的现状和发展:技术应用和人才要求 学习交流可加微信号:zhixingzhaizhuren 第3页
4. 人工智能0.0:古代(1956-1996),规则和知识时代 Ø 第一次浪潮(1956-1968):规则推理 • 思想准备:冯诺依曼计算机、机器思考、图灵测试 • 哲学基础:唯理论 • 主要原理:制定规则,进行数理推理(确定性,不确定性的概率) • 主要成就:下棋程序,定理机器证明,MIT的搬箱机器人 Ø 第二次浪潮(1986-1996-?):知识推理 • 哲学基础:唯理论+经验论 • 主要原理:知识工程(知识抽取和知识表达),专家系统(知识库+推理机) • 主要成就:石油勘探、气象预报、军事决策、经济预测等;包括1996年之后的深蓝国际象棋、Watson Ø AI=IT:这个时代,人工智能基本等同于软件程序 一、人工智能的前世今生 二、大模型的原理和能力边界 三、大模型的现状和发展:技术应用和人才要求 学习交流可加微信号:zhixingzhaizhuren 第4页
5. 人工智能0.1:近代(1996-2006),机器学习时代 Ø 第三次浪潮(1996-?):机器学习(数据+学习),小数据集,特征工程 • • 使用统计学习方法建模,三个核心要素:模型、目标、策略 ü 模型是核心:逻辑回归,决策森林,支持向量机,马尔科夫链,人工神经元…… ü 建模方法从规则到学习:从数学模型(分析数学),到数据模型(计算数学) ü 数据模型的能力边界:可以用数据模型模拟世界(数字化、全景化),以史为鉴(IID) 主要成就:风险识别(金融、工业、经济)、学术研究 Ø 连接主义(1946-2006):神经网络模型(黑盒) • 属于机器学习的一种方法,模型采用的是人工神经网络 ü 人工神经网络与人脑最大的共同点是名字(原理、机制和架构并不一样),用神经网络表达数学模型 ü 传统神经网络:霍普菲尔德网络,玻尔兹曼机,….. ü 深度神经网络:深度学习(Hinton,2006) Ø 软件2.0:人工智能是数学、物理学、计算机科学的混合体 一、人工智能的前世今生 二、大模型的原理和能力边界 三、大模型的现状和发展:技术应用和人才要求 学习交流可加微信号:zhixingzhaizhuren 第5页
6. 人工智能1.0:现代(2006-2020),深度学习时代 Ø 传统深度学习(2006):深度神经网络模型,中数据集,端到端 • • 多种神经网络模型:DBN,CNN,RNN,ResNet,Inception,RWKV, …… ü AlphaGO:2016年超过人类棋手 ü ImageNet:2017年超过人眼 ü AlphaFold:2022年超过人类科学家,2024年获得诺贝尔奖 主要成就:人脸识别、图像识别、语言翻译、语音识别、物理建模…… Ø 现代深度学习(2017):Transformer模型,大数据集,注意力机制(大规模并行) • 三种Transformer模型架构:并行矩阵计算(GPU):堆叠架构,容易扩展 ü 编码器(BERT):embedding,Ernie1.0, …… ü 混合网络: T5、GLM(早期) ü 解码器(GPT):生成式人工智能(AIGC),大力出奇迹(大模型,2020) 一、人工智能的前世今生 二、大模型的原理和能力边界 三、大模型的现状和发展:技术应用和人才要求 学习交流可加微信号:zhixingzhaizhuren 第6页
7. 人工智能2.0:当代(2020-2025),大模型时代 Ø 模型服务(2020):MaaS • 全部是Transformer的GPT架构(解码器):生成式人工智能(AIGC) • 大模型:预训练,生成-理解-决策(RL) ü 大(数据多、参数多、算力多):B级(Billion,10亿) ü 模型:语言、视觉、多模态 p Transformer:大语言模型(LLM,大模型),多模态模型 ChatGPT(5、4.1、4o、o1、o3、o4)、Claude;Grok、Gemini;Llama、 …… DeepSeek、Step、Qwen;Kimi、MiniMax;GLM、火山(豆包)、元宝、百度…… p Transformer+Diffusion:视觉模型 图像: Stable Diffusion、Mid-Journey、DALL.E等 视频: Sora、可灵、即梦、Vidu、海螺、veo等 ü 一、人工智能的前世今生 模型:通用模型 vs 垂直模型(行业模型) p 接近成熟:传媒、广告、编码、电商等 p 正在发展:教育、医疗、金融、工业、农业等 二、大模型的原理和能力边界 三、大模型的现状和发展:技术应用和人才要求 学习交流可加微信号:zhixingzhaizhuren 第7页
8. 人工智能2.0:当代(2020-2025),大模型时代 Ø Agent(2025):大模型是新手机,Agent就是app • 大模型的应用已从简单的对话工具(chatGPT、豆包)进化为:任务导向、交付结果的Agent(Manus、Lovart、Lovable等) • Agent的核心架构是:感知(多模态)、决策(LLM;记忆、检索、上下文)、动作(具身驱动、工具调用) • Agent的核心特征是自主(请人类走开):从human in loop到human on loop Copilot:伙伴模式 Embedding:助手模式 人类 AI 人类 AI 人 类 完 成绝 大 部 分 工作 人 类 和 AI协 作 工 作 人 类 设立 任 务 目 标 人类 设立 任务 目标 AI对其中某(几)个任务 提 供 信息 或 建 议 AI完成其中某(几)个流程 的初稿 人类 修改 调整 确认 人 类 自主 结 束 工 作 一、人工智能的前世今生 人类 自主 结束 工作 二、大模型的原理和能力边界 Agent:代理模式 人类 AI AI完 成 绝 大 部 分 工 作 全权代 理 设立目标 任务拆 分 提供 资源 工具选择 监督结果 进度控 制 自主结束工作 三、大模型的现状和发展:技术应用和人才要求 学习交流可加微信号:zhixingzhaizhuren 第8页
9. 人工智能2.0:当代(2020-2025),大模型时代 Ø 软件2.0时代 • AI0.1(机器学习):小数据,人工特征,部分可解释,不具备通用性和跨模态 • AI1.0(深度学习):大数据,特征表示,基本不可解释,不具备通用性和跨模态 • AI2.0( 大模型 ):海量数据,自监督学习,完全不可解释,具备通用性和跨模态,最有可能通向AGI的路径 通用人工智能 AGI ,Artificial General Intelligence 具备与人类同等智能水平或超越人类智能水平的人工智能系统。 ü OpenAI:在大多数经济价值创造任务中表现优于人类的高度自主系统。 ü AI肖睿团队:90%的智力任务上超过90%的人类,很可能在2030年之前到来。 Level 5. Level 4 . Level 3 . Al通过自我学习, 人类,具备探究 AI学会使用工具, 具备自我批判、自 科学规律、世界 AI学会求解问题,涌 利用工具完成多数 我改进以及自我反 起源等终极问题 现世界知识和类人 的 人类物理世界问题, 思能力 的能力 言,在大多数自然 复杂逻辑推理能 力, 在工具使用方面突 语言任务上突破图 在问题求解方面 突破 破图灵测试 灵测试 图灵测试 Level 2 . Level 1. AI学会使用人类语 一、人工智能的前世今生 二、大模型的原理和能力边界 AI能力全面超越 三、大模型的现状和发展:技术应用和人才要求 学习交流可加微信号:zhixingzhaizhuren 第9页
10. 走进人工智能2.0 一、人工智能的前世今生 二、大模型的原理和能力边界 三、大模型的现状和发展:技术应用和人才要求 一、人工智能的前世今生 二、大模型的原理和能力边界 三、大模型的现状和发展:技术应用和人才要求 学习交流可加微信号:zhixingzhaizhuren 第10页
11. 二、大模型的原理和能力边界 n1、大模型的工作原理 n2、大模型的工作过程 n3、大模型的能力边界 n4、大模型的应用场景 一、人工智能的前世今生 二、大模型的原理和能力边界 三、大模型的现状和发展:技术应用和人才要求 学习交流可加微信号:zhixingzhaizhuren 第11页
12. 大模型的工作原理: NTP(Next Token Prediction ) 1. 收到提示词 示例:“今天天气不错,我决定” Generative (生成式) 2.将输入拆分为token [ “今天”, “天”, “气”, “不” , “错” “,”, “我”, “决定” ] , G P Pre-trained • • T Transformer LLM:Large Language Model 理解token之间的关系 识别提示词的整体含义 4.基于上下文预测下一个token • • 为可能的单词分配概率分数 示例:{“去”:0.7. “停":0.2,“站":0.1} 5.根据概率分数选择标记 示例:“去” 一、人工智能的前世今生 二、大模型的原理和能力边界 “token”,可以进行语义计算。 3.采用Transformer架构处理token (预训练) (一种深度神经网络架构) 准确地讲,这里不是“字”,是 三、大模型的现状和发展:技术应用和人才要求 概率预测+文字接龙 自回归(AR):重复步 骤4和步骤5直到形成完 整的句子 示例:今天天气不错,我决 定去公园 学习交流可加微信号:zhixingzhaizhuren 第12页
13. 大模型的工作过程:预训练-后训练-推理 大模型工作过程 预训练 (自监督) 监督微调 强化学习 (RLHF等等) 接收输入 (提示词) 阶段1:模型训练(预训练+后训练) 一、人工智能的前世今生 二、大模型的原理和能力边界 处理输入 (上下文) 进行推理 (测试时计算) 生成输出 阶段2:推理 三、大模型的现状和发展:技术应用和人才要求 学习交流可加微信号:zhixingzhaizhuren 第13页
14. 大模型的最新发展(从原子弹到氢弹):推理 深化期 • OpenAI 推出基于 GPT-4o 模型的图像生 成功能,取代此前的 DALL·E 3成为 ChatGPT 和 Sora 平台的默认图像引擎 • OpenAI发布o3-mini 、 GPT-4.5,前者推 动成本效益推理,后者展现出较高的情 感智能。 繁荣期 跃进期 • • Llama2开源,极大助力全球大模型开发者生态。 • GPT-4 Turbo、Gemini等海外大模型发布,继 续提升模型性能。 准备期 • ChatGPT发布,全球范围内迅速形 成大模型共识。 • • Midjourney发布5.2 • Stable Diffusion XL发布 • GPT4发布,进一步掀起大模型研发 • 脑、ChatGLM等首批模型相继发布。 国内闭源大模型快速发展,豆包、混元、商汤3.0、 国内开源生态爆发,Baichuan、Qwen、 InternLM、ChatGLM3、Yi-34B等系列模型引领 2023.06 GPT-40、Claude3.5、Gemini1.5、 • 国内推理模型持续跟进。DeepSeek-R1、 QwQ-32B、Kimi1.5、GLM-Zero、 Skywork o1、讯飞星火X1等推理 模型陆 国内多模态领域进展迅速,在部分领域领先 海外,视频生成模型可灵AI、海螺视频、 • 开源热潮。 2022.12 引发热潮,推理性能大幅度提升。 续发布,继续突破推理能力的上限。 • 国内快速跟进大模型研发,文心一言 • 3.7-Sonnet、Grok3发布,海外推理模型 域的想象力。 争格局。 Chat等陆续发布。 1.0、通义千问、讯飞星火、360智 Gemini 2.0 Flash Thinking、Claude- OpenAI发布Sora,极大拓展了AI在视频领 Llama3发布,海外进入“一超多强”的竞 盘古3.0、AndesGPT、BlueLM、星火3.0、Kimi 热潮。 • • 2023.12 • 国内模型性能持续提升。DeepSeek-V3、 Vidu、PixVerse等模型陆续发布,并在海 Qwen2.5、豆包-Pro、混元-Turbo与GLM- 外取得较大应用进展。 4-Plus等系列模型综合能力上持续提升。 国内通用模型持续提升,Qwen2.5、文心 • DeepSeek-R1通过开源与性价比优势持续 4.0、GLM4、商汤5.5等通用模型陆续更新。 生成模型 国内开源生态持续引领模型普惠化。 推动行业技术普惠化进程。 2024.06 推理模型 2025.03 ref: SuperCLUE团队 中文大模型基准测评2025年3月报告 一、人工智能的前世今生 二、大模型的原理和能力边界 三、大模型的现状和发展:技术应用和人才要求 学习交流可加微信号:zhixingzhaizhuren 第14页
15. 大语言模型的能力边界 1. 语言能力:理解和生成 2. 知识能力 3. 1. 严肃内容+垃圾信息的混合 2. 知识量大,但缺少内在关联能力 • 幻觉(生成不符合事实的内容) • 知识库限制(公开、私有、即时) • n生成 上下文窗口限制(记忆、成本) n幻觉 1. 来源:有损压缩, NTP的温度 1. 提示词(Prompt) 2. 思维链(CoT) 3. 搜索增强(RAG) 4. 知识图谱(KGE) 5. 模型微调(Fine Tune) 2. 观点:创意和创新 n记忆 推理能力 n 解决方案 1. 多轮对话:产品设计,计算成本 一、人工智能的前世今生 二、大模型的原理和能力边界 三、大模型的现状和发展:技术应用和人才要求 学习交流可加微信号:zhixingzhaizhuren 第15页
16. 生成模型和推理模型适用场景 比较项 生成模型(GPT-4o、 DeepSeek-V3) 推理模型(GPT-o3、 DeepSeek-R1) 模型定位 专注于通用自然语言处理,多模态能力突出,适合日常对话、 内容生 侧重于复杂推理与逻辑能力,擅长数学、编程和自然语言推理任务,适合高 难度问题求 成、翻译以及图文、音频、视频等信息处理。 解和专业领域应用。 推理能力 在日常语言任务中表现均衡,但在复杂逻辑推理(如数学题 求解)上 在复杂推理任务表现卓越,尤其擅长数学、代码推理任务。 准确率较低。 多模态支持 应用场景 支持文本、图像、音频乃至视频输入,可处理多种模态信息。 当前主要支持文本输入,不具备图像处理等多模态能力;未来可能通过社区 贡献扩展相 关功能。 适合广泛通用任务,如对话、内容生成、多模态信息处理以 及跨语言 更适合需要高精度推理和逻辑分析的专业任务,如数学竞赛、编程问题和科 学研究;在 交流;面向大众市场和商业应用。 思路清晰度要求高的场景具有明显优势,比如采访大纲、方案 提供流畅的实时对话体验,支持多种输入模态;用户界面友 好,适合 可展示部分链式思考过程,便于用户理解推理过程;界面和使用体验具有较 高的定制性 ,但整体交互节奏较慢。 用户交互体验 大众使用。 n 生成模型是玩知识和文字的,推理大模型是玩逻辑和推理的,至于计算问题, 还是找计算器吧 n 推理模型也不是万能的,其幻觉通常比生成模型大,很多不需要强推理的场合还是传统的生成模型比较适合 一、人工智能的前世今生 二、大模型的原理和能力边界 三、大模型的现状和发展:技术应用和人才要求 学习交流可加微信号:zhixingzhaizhuren 第16页
17. 人工智能:快速冲击智力行业,逐渐侵蚀物理世界 人工智能:让机器具备人类智能,让机器具备非人类智能(超人类智能) n 机器学习 n 深度学习 n 大模型 n 大语言模型:DeepSeek n 视觉模型:可灵、 即梦 n 多模态模型:GPT-5 一、人工智能的前世今生 二、大模型的原理和能力边界 三、大模型的现状和发展:技术应用和人才要求 学习交流可加微信号:zhixingzhaizhuren 第17页
18. 对现代人工智能的正确认知 Ø 现代人工智能(大模型)的本质 Ø 大模型技术的关键过程 1. 这一波人工智能本质上是数据智能,只要是有时间 结构和空间结构的数据,都可以识别出数据分布 模式,建立数据模型,从而产生智能。 2. 这一波人工智能的核心是语言智能,通过分析和建 模人类语言,获取人类的知识,并进一步获取人 类的思维模式。 1. 预训练:中小学,打基础 2. 后训练:RL、SFT。大学,有专业 3. 微调、Prompt。入职实习,能干活 Ø 大模型技术的关键要素 1. Token:万物皆token 2. Attention:熵减即智能 3. GPT:大力出奇迹 3. 或许,AI只是一个我们和他人和祖先和整个人类 的意义世界的交互的接口的翻译器。与我们对话 的,不是AI,而是AI背后那个人类构造出的意义 世界。因此, AI可以成为我们的伙伴和 导师,例 如: DeepSeek对贪嗔痴的解释。 4. Data:以古鉴今 5. RL:自学成才(决策,探索未知,生成数据) 6. 优化:卷Infra和算法,实事求是,反抽象 7. FT:后训练的艺术 8. TTC:大力出奇迹 AGAIN 9. Prompt:有话好好说 10. Agent:最后的筐 一、人工智能的前世今生 二、大模型的原理和能力边界 三、大模型的现状和发展:技术应用和人才要求 学习交流可加微信号:zhixingzhaizhuren 第18页
19. 对现代人工智能的正确认知:AI与IT的区别 n IT:确定性的任务(简单和繁杂),以代码逻辑为核心 •1.0:记忆+计算(冯诺依曼;软件时代) •2.0:记忆+计算+搜索(互联网时代) n AI:不确定的任务(复杂和混沌),以数据模型为核心 •0.0:专家系统:知识+规则 •0.1:机器学习:数据+学习,白盒 •0.1:传统机器学习:人类定义特征,人类估算模型参数 •0.5:人工神经网络:人类定义特征,模型自己学习模型参数 •1.0:深度学习:数据+学习,灰盒(不可控,有错误概率,可解释) •1.0:判别模型:人类只提供数据,端到端学习(模型自己抽取特征,自己学习模型参数) •2.0:大模型:数据+学习,黑盒(不可控,有错误概率,不可解释) •2.0:生成模型:训练阶段+推理阶段;压缩+生成(幻觉) •2.1:推理模型:训练阶段强化学习;推理阶段慢思考 •2.2::Agent:任务结果导向(感知+大模型上下文工程+行动) n IT应用与AI应用的关键差异: •在互联网时代,用户使用系统的成本很低,边际成本接近于零。 •在AI时代,用户使用系统的成本比较高,有大量的GPU算力需求,边际成本较高。 一、人工智能的前世今生 二、大模型的原理和能力边界 三、大模型的现状和发展:技术应用和人才要求 学习交流可加微信号:zhixingzhaizhuren 第19页
20. 走进人工智能2.0 一、人工智能的前世今生 二、大模型的原理和能力边界 三、大模型的现状和发展:技术应用和人才要求 一、人工智能的前世今生 二、大模型的原理和能力边界 三、大模型的现状和发展:技术应用和人才要求 学习交流可加微信号:zhixingzhaizhuren 第20页
21. 三、大模型的现状和发展:技术应用和人才要求 n1、DeepSeek现象分析 n2、大模型的发展趋势 n3、如何使用大模型 ü 1)提示词工程和对话工具 ü 2)上下文工程和Agent n4、AI2.0时代的人才要求 一、人工智能的前世今生 二、大模型的原理和能力边界 三、大模型的现状和发展:技术应用和人才要求 学习交流可加微信号:zhixingzhaizhuren 第21页
22. 现象:DeepSeek快速出圈,全民硬控 n 2024年12月26日,DeepSeek推出对标OpenAI GPT-4o的 语言模型DeepSeek V3,随后在美国AI 行业内部引起轰动。 n 2025年1月20日,DeepSeek发布对标OpenAI o1 的DeepSeek R1大语言模型,并于1月24日引起美 国投资界KOL关注。 n 2025年1月26日,关于DeepSeek颠覆了大模型的商 业模式(堆算力、拼资本),引发英伟达股价大跌 ,DeepSeek首先在美国出圈,引发国际社会讨论。 n 2025年1月底(春节前后),DeepSeek在中国出圈 ,并上升到中美竞争高度,同时纷纷接入DeepSeek , DeepSeek成为AI和大模型的代名词。 n DeepSeek让AI跨越了鸿沟。 一、人工智能的前世今生 二、大模型的原理和能力边界 三、大模型的现状和发展:技术应用和人才要求 学习交流可加微信号:zhixingzhaizhuren 第22页
23. 到底谁是DeepSeek?公司、模型、产品 系统组成 部署方案 Ø 生产办公系统:目前多数为定制开发(RAG、Agent等) SaaS 应用服务(网页、APP、桌面软件、设备软件) Ø 对话机器人:目前多数为标准产品,使用云服务 • 免费:DeepSeek、豆包、Kimi、元宝、Monica、秘塔搜索、问小白、Molly R1等 • 收费(月费;充值):文小言、通义、可灵、即梦、Vidu、Liblib、ChatGPT等 Ø 开源模型:DeepSeek、Qwen、Llama、SD、微调模型等 MaaS 模型服务(数据工程、推理加速、训练框架、API调用) • Ø 闭源模型:OpenAI、Claude、Gemini、Kimi、百度等 • PaaS 平台服务(存储、计算、数据、安全、中间件) IaaS 硬件服务(设备/电脑/服务器/GPU、网络、操作系统) 一、人工智能的前世今生 二、大模型的原理和能力边界 向上提供:私有化部署,公有云服务(DeepSeek官网、硅基流动、火山引擎等) 向上提供:公有云服务(OpenAI官网) Ø 私有化部署 • 本地:个人设备或电脑、企业服务器 • 数据中心(IDC):企业服务器、服务器集群(私有云) Ø 公有云服务:阿里云、火山云、腾讯云、金山云、华为云等;AWS、Azure等 三、大模型的现状和发展:技术应用和人才要求 学习交流可加微信号:zhixingzhaizhuren 第23页 第23页
24. 到底谁是DeepSeek?公司、模型、产品 n DeepSeek于2023年5月成立北京公司, 2023年7月成立杭州公司,是幻方量化孵化出的一家大模型研 究机构(目标AGI),160人的团队分布在杭州和北京 ,是中国AI2.0(大模型)时代的七小龙之一。 • 注:AI1.0(深度学习)时代的四小龙: 商汤、旷世、云从、依图 n 除了DeepSeek公司之外,其它六家也被投资界称为中国大模型企业六小虎(智谱AI、百川智能、月 之暗面、阶跃星辰、MiniMax、零一万物)。 一、人工智能的前世今生 二、大模型的原理和能力边界 三、大模型的现状和发展:技术应用和人才要求 学习交流可加微信号:zhixingzhaizhuren 第24页
25. 到底谁是DeepSeek?公司、模型、产品 Model Base Model DeepSeek-R1-Distill-Qwen-1.5B Qwen2.5-Math-1.5B DeepSeek-R1-Distill-Qwen-7B Qwen2.5-Math-7B DeepSeek-R1-Distill-Llama-8B Llama-3.1-8B DeepSeek-R1-Distill-Qwen-14B Qwen2.5-14B DeepSeek-R1-Distill-Qwen-32B Qwen2.5-32B DeepSeek-R1-Distill-Llama-70B Llama-3.3-70B-Instruct DeepSeek-R1-671B DeepSeek-V3-Base 一、人工智能的前世今生 二、大模型的原理和能力边界 蒸馏模型,能力稍弱 n 实际上是增加了推理能力的Qwen模型和 Llama模 型, 不能称为DeepSeek模型。 n 市场上有误解,厂商有误导,甚至Ollama工 具的模型选项中也有误导。 三、大模型的现状和发展:技术应用和人才要求 满血版,能力最强 学习交流可加微信号:zhixingzhaizhuren 第25页
26. 到底谁是DeepSeek?公司、模型、产品 公司、模型、产品 • 引起中美AI行业内部关注的是:模型 • 引起美国关注的是:模型和公司 • 春节前后在中国出圈的是:产品 产品优势 (用户可感受到) • 思考过程展示 • 中文好有情商 • 容易获得,使用简单 • 联网和来源引用 • 速度快 • 免费 一、人工智能的前世今生 二、大模型的原理和能力边界 三、大模型的现状和发展:技术应用和人才要求 学习交流可加微信号:zhixingzhaizhuren 第26页
27. DeepSeek模型优势 n 基础能力:进入推理模型阶段,并跻身全球第一梯队 能力突破 开源、低成本、国产自主 DeepSeek以“推理能力+第一梯队性 能”为核心基础,叠加:开源开放、 超低成本、国产自主研发三大优势, 不仅实现技术代际跨越,更推动AI技 术普惠化与国产化生态繁荣,成为全 球大模型赛道的重要领跑者。 混合专家 多头潜注意力 多Token预测 强化学习 测试时计算 混合精度训练 通讯优化 并行训练框架 直接硬件编程 MOE GRPO DualPipe 一、人工智能的前世今生 MLA TTC HAI MTP FP8 PTX 二、大模型的原理和能力边界 1. 推理能力跃升:DeepSeek大模型核心技术突破,实现复杂推理任务的精准处 理与高效执行,覆盖多模态场景应用。 2. 国际竞争力对标:模型综合性能跃居全球第一梯队,技术指标与国际顶尖水平 (如GPT系列、Claude等)直接对标,奠定国产大模型的行业标杆地位。 n 核心加分项:开源、低成本、国产自主 1. 开源:技术共享,生态共建 • • 全量开源训练代码、数据清洗工具及微调框架 开发者可快速构建教育、金融、医疗等垂直领域应用,推动协同创新。 2. 低成本:普惠企业级AI应用 • 针对H系列芯片做了大量的模型架构优化和系统工程优化。 • • 最后一次训练成本仅$557w :显著低于行业同类模型,打破高价壁垒。 推理成本降低83%:千亿参数模型适配中小企业需求,加速商业化落地。 3. 国产自主:技术自主,缩短差距 • • 将国产模型与美国的代际差距从1-2年缩短至3-5个月,突破“卡脖子” 技术瓶颈。 构建多行业专属模型矩阵,全面支持国内产业智能化升级。 三、大模型的现状和发展:技术应用和人才要求 学习交流可加微信号:zhixingzhaizhuren 第27页
28. DeepSeek V3/R1 模型的创新 二、训练及框架: 一、基础架构: 1. 混合专家模型(MoE):DeepSeek采用MoE架构,通过动态选 1. 使用FP8低精度进一步降低训练成本。这一点,是DeepSeek团队非常 择最适合输入数据的专家模块进行处理,提升推理能力和效率。 2. 无辅助损失的专家负载均衡策略(EP):该策略使 DeepSeekMoE在不对优化目标产生干扰的前提下,实现各个专 有价值的创新和突破。 2. 3. 3. (Data Parallelism, DP),大幅提升模型训练速度。 强化学习(RL):DeepSeek-R1在训练中大规模应用强化学习( 4. 显著提升推理能力。 5. 多Token预测(MTP):通过多Token预测, Deepseek不仅提 高了推理速度,还降低了训练成本。 通讯优化(DualPipe): 高效的跨节点通信内核,充分利用 IB 和 NVLink 带宽特点,减少通信开销,提高模型推理性能。 让模型自我探索和训练),将传统的PPO替换为GRPO训练算法, 5. 并行训练系统(HAI):16 路流水线并行(Pipeline Parallelism, PP)、 跨 8 个节点的 64 路专家并行(Expert Parallelism, EP),以及数据并行 多头潜在注意力机制(MLA):MLA通过低秩压缩减少Key- Value缓存,显著提升推理效率。 4. 长链推理技术(TTC):模型支持数万字的长链推理,可逐步分解复杂 问题并进行多步骤逻辑推理。 家的负载均衡,避免了某些专家可能会被过度使用,而其他专家则 被闲置的现象。 FP8混合精度训练(FP8):在关键计算步骤使用高精度,其他模型层 混合机器编程(PTX):部分代码直接使用PTX编程提高GPU运行效率 。 6. 算子库优化(GEMM等Op):针对H800计算卡的特点,优化了一部 分CUDA的算子库。 一、人工智能的前世今生 二、大模型的原理和能力边界 三、大模型的现状和发展:技术应用和人才要求 学习交流可加微信号:zhixingzhaizhuren 第28页
29. DeepSeek V3/R1 模型的创新 三、社会价值: 1. 开源生态:使用最为开放的MIT开源协议,吸引了大量研究人员和应用厂商,推动了AI技术的发展。 2. 模型蒸馏支持:DeepSeek-R1同时发布了多个模型蒸馏。 • 虽然这些蒸馏模型的生产初衷是为了验证蒸馏效果,但客观上帮助用户有机会使用移植了 DeepSeek-R1满血版模型的能力的更小的模型,以满足不同应用场景需求。 • 副作用是:给市场和用户造成了很多困扰。 3. AI产品和技术的普及: 一、人工智能的前世今生 • 对于大模型研发企业,更加重视infra工程的价值了。 • 对于大模型应用企业,有了更多高效低成本解决方案。 • 对于社会大众,认识到AI是一个趋势,不是昙花一现。 • 对于市场,用户开始主动引入AI,不再怀疑了。 • 对于国家,大幅缩小了中美的核心技术差距。 • 对于全人类,技术平权,造福一方。 二、大模型的原理和能力边界 三、大模型的现状和发展:技术应用和人才要求 学习交流可加微信号:zhixingzhaizhuren 第29页
30. DeepSeek R1模型的能力突破 一、人工智能的前世今生 二、大模型的原理和能力边界 三、大模型的现状和发展:技术应用和人才要求 学习交流可加微信号:zhixingzhaizhuren 第30页
31. DeepSeek R1模型的能力突破 一、人工智能的前世今生 二、大模型的原理和能力边界 三、大模型的现状和发展:技术应用和人才要求 学习交流可加微信号:zhixingzhaizhuren 第31页
32. DeepSeek R1模型的能力突破 一、人工智能的前世今生 二、大模型的原理和能力边界 三、大模型的现状和发展:技术应用和人才要求 学习交流可加微信号:zhixingzhaizhuren 第32页
33. DeepSeek R1 对大模型行业的重大影响 01 02 03 打破垄断 价格下调 推动创新 DeepSeek-R1以低成本和开源 DeepSeek-R1的API定价仅为 DeepSeek-R1促使行业开始从 特性打破以往头部企业巨头割 行业均价的1/10,推动了中小型 “唯规模论”转向更加注重 据局面 企业低成本接入AI,对行业产生 “性价比”和“高效能”方向 了积极影响 一、人工智能的前世今生 二、大模型的原理和能力边界 三、大模型的现状和发展:技术应用和人才要求 学习交流可加微信号:zhixingzhaizhuren 第33页
34. 使用DeepSeek的方式 n 直接使用官方服务 Ø 访问官网(ai.com 或 https://chat.deepseek.com/),登录后使用,适合 电脑端快速使用,但存在服务不稳定问题。 Ø 下载APP,适合手机平板等移动设备,但同样存在服务不稳定问题。 n 使用第三方服务与API调用 Ø 第三方服务:秘塔AI、微信搜索、Molly R1、问小白等。 Ø API调用:DeepSeek、硅基流动、火山引擎等。获取API密钥调用, 适合开发者集成,同样存在服务不稳定问题。 n 本地部署 Ø 个人部署:个人在本地设备运行应用,依赖自身计算资源,灵活便捷。 Ø 企业部署:企业内网或云端搭建私有化系统,支持多用户协作,数据可控。 Ø 一体机:直接购买配置了DeepSeek模型的具备一定算力的一体机。 一、人工智能的前世今生 二、大模型的原理和能力边界 三、大模型的现状和发展:技术应用和人才要求 学习交流可加微信号:zhixingzhaizhuren 第34页
35. DeepSeek-R1 应用场景的特点 1. 推理密集型任务 Ø 编程任务中的代码生成、算法设计,媲美Claude 3.5 Sonnet。 Ø 数学问题求解、科学推理和逻辑分析等需要复杂推理的场景 。 2. 强推理任务 Ø 需要基于大量知识,进行长链分析和强推理的复杂任务。 Ø 例如:工作方案、科研实验、病理诊断、命理玄学、市场分析、舆情分析、教育教学等。 3. 中文要求高的任务 Ø 理解和使用中国文化背景、习惯用语、古文诗词(如生成春联)。优于ChatGPT的中文能力。 Ø 这一部分用DeepSeek-V3也可以做到。 Ø DeepSeek的语言风格(对齐策略):不明觉厉。 一、人工智能的前世今生 二、大模型的原理和能力边界 三、大模型的现状和发展:技术应用和人才要求 学习交流可加微信号:zhixingzhaizhuren 第35页
36. 人工智能赋能行业的四层障碍 一、人工智能的前世今生 二、大模型的原理和能力边界 三、大模型的现状和发展:技术应用和人才要求 学习交流可加微信号:zhixingzhaizhuren 第36页
37. 大模型技术的应用阶段 04 01 目 标 是 利 用 行 业 领 先 的 AI 02 能 力, 解 决更 复 杂 、 专 业 的 问题 。 模型微调 提示 词 知识库 目 标 是 快 速 验 证 AI 是 否 能 解决某个特定 的 业 务痛 点 目标是利用企 业 内 部知 识 (例如 , 初 步 的 文 本 分类 、 库 , 提 高 AI 在 特 定 领 域 问 简单的信息提 取 ) 。 答或内容生成 的 准 确性 和 一、人工智能的前世今生 行业模型 03 目标是进一步 优 化 模型 在 特定任务上的 性 能 , 使 其 更符合企业的 具 体 需求 和 数据特点。 相关性 。 二、大模型的原理和能力边界 三、大模型的现状和发展:技术应用和人才要求 学习交流可加微信号:zhixingzhaizhuren 第37页
38. AI与提示词的关系:人类与大模型合作方式 一、人工智能的前世今生 知识渊博的专家 给刚毕业的优秀大学 为你解决具体任务 生安排任务 二、大模型的原理和能力边界 三、大模型的现状和发展:技术应用和人才要求 给外包员工安排任务 学习交流可加微信号:zhixingzhaizhuren 第38页
39. AI与提示词的关系:人类与大模型合作方式 喂模式 AI不知道+我知道 人类知道 AI知道+我知道 简单说 给知识和场景(Prompt+know how)将掌握的信 息传递给AI。使用详细的描述、举例、甚至提供数 简单表达(明确指令: 使用清晰的动词和目标, 据等方式。 等。) 比如你了解某个地方的独特方言,而AI的训练数据 中没有包含,你需要用文字甚至录音等方式向AI描 比如双方都知道“二战” ,你可以直接问“二 战爆发的原因是什么?” ,或者更进一步问“比 述这种方言的特点,例如发音、词汇等。 较一战和二战的异同”。 例如“比较”、“总结”、“分析”、“生成” AI知道 开放聊 AI知道+我不知道 AI不知道+我不知道 提问题 多轮对话同频(使用开放式讨论,例如“什么 共同进行研究和探索,可以利用AI的计算和分析能力, 结合人类的创造力和直觉,共同寻找答案。 是”、“如何”、“有哪些”等。) 比如AI知道很多关于商业模式的知识,而你不太 比如要研究某种尚未被发现的疾病的病因,可以向AI 提供已知的医学数据和研究文献,让AI分析潜在的关 了解,你可以问“我在做美术教育,有哪些好的 联性,并提出新的研究方向。 盈利模式?”。 一、人工智能的前世今生 二、大模型的原理和能力边界 三、大模型的现状和发展:技术应用和人才要求 学习交流可加微信号:zhixingzhaizhuren 第39页
40. AI与提示词的关系:人类与大模型有效沟通 唉。今天天气确实挺不错的,上 了一天班,算了,你猜猜我心情 怎么样 你猜猜我心情怎么样 你这样说我就不困了。你 应该心情不太好,有80% 的概率是不开心的 你给我一个方法 请给我一个python方法,要求可以 计算十进制下的加减法 内心os:家人们,救命啊,有个人让 我猜他心情好不好,还让我给他一个方 法,我这里有几百万种方法,给他哪个 啊?算了,毁灭吧,随便丢一个得了 一、人工智能的前世今生 二、大模型的原理和能力边界 这个就更明确了, 马上给你返回一个 具体的方法 三、大模型的现状和发展:技术应用和人才要求 学习交流可加微信号:zhixingzhaizhuren 第40页
41. 大模型的提示词技巧的总原则 AI 1. 把自己当老板,像对待你的员工一样,对待AI 2. 镜子理论:提示词是人激发和控制AI能力的手段,如同一个骑手的骑术一样 Problem Definition: Delineation of task goals ‘Ok, so the user wants me to...’ Bloom: Reconstruction: Decomposition of problem and initial execution to a potential answer, which may be verified. Reconsideration of initial assumptions, possibly leading to a new answer, and verification of confidence. ‘First, I should...’ ‘Wait, alternatively...’ Final Answer: Qualification of confidence and final answer to return. ‘Ok, I’m sure now...’ 具体内容可以参考AI 肖睿团队的《提示词工程和场景落地》(https://ai.kgc.cn/ai-news/294.html) 一、人工智能的前世今生 二、大模型的原理和能力边界 三、大模型的现状和发展:技术应用和人才要求 学习交流可加微信号:zhixingzhaizhuren 第41页
42. DeepSeek提示词技巧1:通用公式 任务 背景 做什么 给谁用 目标 负面限定 期望效果 担心的问题 “内心戏” 一、人工智能的前世今生 二、大模型的原理和能力边界 三、大模型的现状和发展:技术应用和人才要求 学习交流可加微信号:zhixingzhaizhuren 第42页
43. DeepSeek提示词技巧1:通用公式 我要 (做)** ,要 给**用 ,希望 达到**效果 ,但 担心**问题 例如:我要做一个从北京到日本的旅游攻略,要给爸妈用,希望让他们在日本开心的玩20天,但我担心他们玩 的累,腿和腰不太好 √ 先抓住总原则 正式 回答 √ 全面非常考虑o( ̄▽ ̄)d 一、人工智能的前世今生 二、大模型的原理和能力边界 三、大模型的现状和发展:技术应用和人才要求 学习交流可加微信号:zhixingzhaizhuren 第43页
44. DeepSeek提示词技巧2:真诚+直接 传统 DeepSeek(真诚是必杀技) 你现在是一个新能源汽车的市场研究 帮我把这份报告包装一下,我要写成周报给 分析师,这里有一份调研报告总结需 老板看,老板很看重数据。 要写成周报,请按周报的格式帮我完 成并进行润色,不少于500字。 一、人工智能的前世今生 二、大模型的原理和能力边界 三、大模型的现状和发展:技术应用和人才要求 学习交流可加微信号:zhixingzhaizhuren 第44页
45. DeepSeek提示词技巧3:说人话 为了避免DeepSeek的回答过于官方、专业,可以尝试这三个字“说人话” 你问:什么是“波粒二象性”,DeepSeek大概率会给出专业且看不懂的回答,和百度百科差不多。但如 果给ta一句“说人话”,ta就会生动形象的做一些举例 说人话 一、人工智能的前世今生 二、大模型的原理和能力边界 适合场景:科研,了解新事物 三、大模型的现状和发展:技术应用和人才要求 学习交流可加微信号:zhixingzhaizhuren 第45页
46. DeepSeek提示词技巧4:反向PUA DeepSeek有一套自己的思维链,也就是ta自带的思考逻辑,那么如果你想要DeepSeek更卖力给 你搬砖,就需要你运用“反向PUA ” “请你列出10个 反对理由 再给方案” “如果你是老板,你会怎样 批评这个方案 ?” “这个回答你满意吗?请你把回答 复盘至少10轮 ” “你要确认结果正确,做得好给你1千万人民币奖励,做不好把你 拉出去枪毙 ” 一、人工智能的前世今生 二、大模型的原理和能力边界 三、大模型的现状和发展:技术应用和人才要求 学习交流可加微信号:zhixingzhaizhuren 第46页
47. DeepSeek提示词技巧5:善于模仿 如果你想写一篇文案,用提示词约束,可能效果一般般,但如果你给一篇文章模 仿或者让ta模仿谁的语气,DeepSeek大概率会写到你的心趴上。 一、人工智能的前世今生 二、大模型的原理和能力边界 三、大模型的现状和发展:技术应用和人才要求 学习交流可加微信号:zhixingzhaizhuren 第47页
48. DeepSeek提示词技巧6:擅长锐评 DeepSeek自带情商,各种语气也能完美拿捏! 一、人工智能的前世今生 二、大模型的原理和能力边界 三、大模型的现状和发展:技术应用和人才要求 学习交流可加微信号:zhixingzhaizhuren 第48页
49. DeepSeek提示词技巧6:擅长锐评 ”__________,笑死“句式,触发DeepSeek的毒舌属性 一、人工智能的前世今生 二、大模型的原理和能力边界 三、大模型的现状和发展:技术应用和人才要求 学习交流可加微信号:zhixingzhaizhuren 第49页
50. 大模型的提示词工程和上下文工程 n 提示词的发展:多变、内在规律、分化 Ø 提示词的本质:大模型不够聪明,人机是两个物种 Ø 提示词的目标:人机对齐(信息和意图) Ø 提示词的价值流变:对话场景下,越来越成为人类自身的思维工具 ü 典型场景:Vibe Coding(氛围编程:人人做工具、专业提效率、产品完成创意) n 对人类的要求 Ø 定义AI问题:把现实中的问题转化为可以用AI解决的问题 Ø 布置AI任务:在有限的上下文里,清晰的表达,告诉所需的背景信息 Ø 验收AI工作:对回复有预期,对模型回复的好坏可以辨别 n 从“提示词工程”到“上下文工程” Ø 扩展(系统设定、记忆、系统状态等),动态(每次执行会有变化) Ø 教材 vs 教学场景;用户视角 vs 大模型视角 一、人工智能的前世今生 二、大模型的原理和能力边界 三、大模型的现状和发展:技术应用和人才要求 学习交流可加微信号:zhixingzhaizhuren 第50页
51. AI2.0时代的人才需求 一、应用人才(实际上包括所有人) n 思维要求:用AI技术和工具去解决实际问题,提高工作和生活的效率和质量,赋能行业 n 能力增加:问题定义能力,独立思考能力和判断力,表达和沟通能力 n 能力减少:记忆力和知识储备,计算推理能力,执行力(纪律和毅力), 创造力? n 教育需求:AI通识教育 二、IT专业人才(产品经理、开发岗位) n 思维要求:数据思维,模型思维,以人为本,赋能行业,理解场景 算法工程师 深度学习专家 大模型研究员 ... n 能力增加:机器学习-深度学习-大模型原理,数据工程能力 n 能力减少:代码能力, 逻辑能力? 文档能力,软硬件工程能力(IT项目管理和适配) n 教育需求:新IT教育 三、AI2.0专业人才(数据、算法和模型、算力和工程) n 思维要求:数学思维,好奇心和试错思维,热爱人类 n 能力增加1:数据工程能力,数据合成能力 大模型开发工程师 AI应用开发工程师 Agent开发工程师 AI产品经理 ... 各行业AI赋能人才 日常的AI应用 n 能力增加2:底层软硬件工程能力(芯片、通讯、操作系统) n 能力增加3:大模型范式能力(Transformer、Diffusion、RL等) n 能力减少:数学能力,机器学习传统算法,深度学习传统模型 n 教育需求:AI专业教育 一、人工智能的前世今生 二、大模型的原理和能力边界 三、大模型的现状和发展:技术应用和人才要求 学习交流可加微信号:zhixingzhaizhuren 第51页
52. 如何学习和应用大模型 所有岗位都需要的人工智能素质 ü !"#$%&'()&*+,-./01,2345678 ü 9:;<=#>?,@;ABCD&EFGH&IJKL ü MN,OPQRS,7PQT8,UVWXYZ ü [\,OPQRS,7PQT8,]];97WX^Z_`VRab n 现代学习方法 n 传统学习方法 一、人工智能的前世今生 Ø AI1.0(DOS),甚至AI0.0 Ø AI2.0(Windows) Ø 简本专业课(汽车制造和修理) Ø 懂AI用AI(公交司机、出租司机),拒绝劝退 Ø 缺乏动手场景 Ø 与工作场景和生活场景关联 二、大模型的原理和能力边界 三、大模型的现状和发展:技术应用和人才要求 学习交流可加微信号:zhixingzhaizhuren 第52页
53. 走进人工智能2.0 欢迎交流 人是世界的尺度,活在意义之网中,人工智能让这张网更有价值 人类需要的是判断力和表达力,不再是记忆力和知识储备 人是目的,不是手段,不要去和人工智能比工具性 使用人工智能的人淘汰不使用人工智能的人 使用人工智能的组织淘汰不使用人工智能的组织 一、人工智能的前世今生 人工智能时代的策略:把握原理、躬身入局、随时否定自己 第53页 三、大模型的现状和发展:技术应用和人才要求 学习交流可加微信号:zhixingzhaizhuren 二、大模型的原理和能力边界 第53页

Главная - Вики-сайт
Copyright © 2011-2025 iteam. Current version is 2.145.0. UTC+08:00, 2025-08-24 20:11
浙ICP备14020137号-1 $Гость$