走进人工智能2.0
如果无法正常显示,请先停止浏览器的去广告插件。
1. 走进人工智能2.0
肖睿
2025年8月14日 杭州
• 北大青鸟人工智能研究院
• 北大计算机学院
• 北大教育学院学习科学实验室
一、人工智能的前世今生
二、大模型的原理和能力边界
三、大模型的现状和发展:技术应用和人才要求
学习交流可加微信号:zhixingzhaizhuren
第1页
2. 走进人工智能2.0
一、人工智能的前世今生
二、大模型的原理和能力边界
三、大模型的现状和发展:技术应用和人才要求
一、人工智能的前世今生
二、大模型的原理和能力边界
三、大模型的现状和发展:技术应用和人才要求
学习交流可加微信号:zhixingzhaizhuren
第2页
3. 人工智能的前世今生:1956-2025
n 人工智能:Artifacial Intelligence,AI
Ø 1956年:让机器具备人类智能,AGI,达特茅斯会议
Ø 2022年:让机器具备超人类智能(非人类智能),ASI,chatGPT发布
n 人工智能发展的4个时代
1. 古代(1956-1996):通过规则和知识让机器具备人类智能
2. 近代(1996-2006):通过数据和学习让机器具备人类智能
3. 现代(2006-2020):通过神经网络和深度学习让机器具备人类智能
4. 当代(2020-2025):通过大模型让机器具备人类智能和超人类智能(非人类智能)
一、人工智能的前世今生
二、大模型的原理和能力边界
三、大模型的现状和发展:技术应用和人才要求
学习交流可加微信号:zhixingzhaizhuren
第3页
4. 人工智能0.0:古代(1956-1996),规则和知识时代
Ø 第一次浪潮(1956-1968):规则推理
• 思想准备:冯诺依曼计算机、机器思考、图灵测试
• 哲学基础:唯理论
• 主要原理:制定规则,进行数理推理(确定性,不确定性的概率)
• 主要成就:下棋程序,定理机器证明,MIT的搬箱机器人
Ø 第二次浪潮(1986-1996-?):知识推理
• 哲学基础:唯理论+经验论
• 主要原理:知识工程(知识抽取和知识表达),专家系统(知识库+推理机)
• 主要成就:石油勘探、气象预报、军事决策、经济预测等;包括1996年之后的深蓝国际象棋、Watson
Ø AI=IT:这个时代,人工智能基本等同于软件程序
一、人工智能的前世今生
二、大模型的原理和能力边界
三、大模型的现状和发展:技术应用和人才要求
学习交流可加微信号:zhixingzhaizhuren
第4页
5. 人工智能0.1:近代(1996-2006),机器学习时代
Ø 第三次浪潮(1996-?):机器学习(数据+学习),小数据集,特征工程
•
•
使用统计学习方法建模,三个核心要素:模型、目标、策略
ü 模型是核心:逻辑回归,决策森林,支持向量机,马尔科夫链,人工神经元……
ü 建模方法从规则到学习:从数学模型(分析数学),到数据模型(计算数学)
ü 数据模型的能力边界:可以用数据模型模拟世界(数字化、全景化),以史为鉴(IID)
主要成就:风险识别(金融、工业、经济)、学术研究
Ø 连接主义(1946-2006):神经网络模型(黑盒)
•
属于机器学习的一种方法,模型采用的是人工神经网络
ü 人工神经网络与人脑最大的共同点是名字(原理、机制和架构并不一样),用神经网络表达数学模型
ü 传统神经网络:霍普菲尔德网络,玻尔兹曼机,…..
ü 深度神经网络:深度学习(Hinton,2006)
Ø 软件2.0:人工智能是数学、物理学、计算机科学的混合体
一、人工智能的前世今生
二、大模型的原理和能力边界
三、大模型的现状和发展:技术应用和人才要求
学习交流可加微信号:zhixingzhaizhuren
第5页
6. 人工智能1.0:现代(2006-2020),深度学习时代
Ø 传统深度学习(2006):深度神经网络模型,中数据集,端到端
•
•
多种神经网络模型:DBN,CNN,RNN,ResNet,Inception,RWKV, ……
ü AlphaGO:2016年超过人类棋手
ü ImageNet:2017年超过人眼
ü AlphaFold:2022年超过人类科学家,2024年获得诺贝尔奖
主要成就:人脸识别、图像识别、语言翻译、语音识别、物理建模……
Ø 现代深度学习(2017):Transformer模型,大数据集,注意力机制(大规模并行)
•
三种Transformer模型架构:并行矩阵计算(GPU):堆叠架构,容易扩展
ü 编码器(BERT):embedding,Ernie1.0, ……
ü 混合网络: T5、GLM(早期)
ü 解码器(GPT):生成式人工智能(AIGC),大力出奇迹(大模型,2020)
一、人工智能的前世今生
二、大模型的原理和能力边界
三、大模型的现状和发展:技术应用和人才要求
学习交流可加微信号:zhixingzhaizhuren
第6页
7. 人工智能2.0:当代(2020-2025),大模型时代
Ø 模型服务(2020):MaaS
• 全部是Transformer的GPT架构(解码器):生成式人工智能(AIGC)
• 大模型:预训练,生成-理解-决策(RL)
ü 大(数据多、参数多、算力多):B级(Billion,10亿)
ü 模型:语言、视觉、多模态
p
Transformer:大语言模型(LLM,大模型),多模态模型
ChatGPT(5、4.1、4o、o1、o3、o4)、Claude;Grok、Gemini;Llama、 ……
DeepSeek、Step、Qwen;Kimi、MiniMax;GLM、火山(豆包)、元宝、百度……
p
Transformer+Diffusion:视觉模型
图像: Stable Diffusion、Mid-Journey、DALL.E等
视频: Sora、可灵、即梦、Vidu、海螺、veo等
ü
一、人工智能的前世今生
模型:通用模型 vs 垂直模型(行业模型)
p 接近成熟:传媒、广告、编码、电商等
p 正在发展:教育、医疗、金融、工业、农业等
二、大模型的原理和能力边界
三、大模型的现状和发展:技术应用和人才要求
学习交流可加微信号:zhixingzhaizhuren
第7页
8. 人工智能2.0:当代(2020-2025),大模型时代
Ø Agent(2025):大模型是新手机,Agent就是app
• 大模型的应用已从简单的对话工具(chatGPT、豆包)进化为:任务导向、交付结果的Agent(Manus、Lovart、Lovable等)
• Agent的核心架构是:感知(多模态)、决策(LLM;记忆、检索、上下文)、动作(具身驱动、工具调用)
• Agent的核心特征是自主(请人类走开):从human in loop到human on loop
Copilot:伙伴模式
Embedding:助手模式
人类
AI
人类
AI
人 类 完 成绝 大 部 分 工作 人 类 和 AI协 作 工 作
人 类 设立 任 务 目 标 人类 设立 任务 目标
AI对其中某(几)个任务
提 供 信息 或 建 议
AI完成其中某(几)个流程
的初稿
人类 修改 调整 确认
人 类 自主 结 束 工 作
一、人工智能的前世今生
人类 自主 结束 工作
二、大模型的原理和能力边界
Agent:代理模式
人类
AI
AI完 成 绝 大 部 分 工 作
全权代 理
设立目标 任务拆 分
提供 资源 工具选择
监督结果 进度控 制
自主结束工作
三、大模型的现状和发展:技术应用和人才要求
学习交流可加微信号:zhixingzhaizhuren
第8页
9. 人工智能2.0:当代(2020-2025),大模型时代
Ø 软件2.0时代
• AI0.1(机器学习):小数据,人工特征,部分可解释,不具备通用性和跨模态
• AI1.0(深度学习):大数据,特征表示,基本不可解释,不具备通用性和跨模态
• AI2.0( 大模型 ):海量数据,自监督学习,完全不可解释,具备通用性和跨模态,最有可能通向AGI的路径
通用人工智能
AGI ,Artificial General Intelligence
具备与人类同等智能水平或超越人类智能水平的人工智能系统。
ü OpenAI:在大多数经济价值创造任务中表现优于人类的高度自主系统。
ü AI肖睿团队:90%的智力任务上超过90%的人类,很可能在2030年之前到来。
Level 5.
Level 4 .
Level 3 .
Al通过自我学习, 人类,具备探究
AI学会使用工具, 具备自我批判、自 科学规律、世界
AI学会求解问题,涌 利用工具完成多数 我改进以及自我反 起源等终极问题
现世界知识和类人 的 人类物理世界问题, 思能力 的能力
言,在大多数自然 复杂逻辑推理能 力, 在工具使用方面突 语言任务上突破图 在问题求解方面 突破 破图灵测试 灵测试 图灵测试
Level 2 .
Level 1.
AI学会使用人类语
一、人工智能的前世今生
二、大模型的原理和能力边界
AI能力全面超越
三、大模型的现状和发展:技术应用和人才要求
学习交流可加微信号:zhixingzhaizhuren
第9页
10. 走进人工智能2.0
一、人工智能的前世今生
二、大模型的原理和能力边界
三、大模型的现状和发展:技术应用和人才要求
一、人工智能的前世今生
二、大模型的原理和能力边界
三、大模型的现状和发展:技术应用和人才要求
学习交流可加微信号:zhixingzhaizhuren
第10页
11. 二、大模型的原理和能力边界
n1、大模型的工作原理
n2、大模型的工作过程
n3、大模型的能力边界
n4、大模型的应用场景
一、人工智能的前世今生
二、大模型的原理和能力边界
三、大模型的现状和发展:技术应用和人才要求
学习交流可加微信号:zhixingzhaizhuren
第11页
12. 大模型的工作原理: NTP(Next Token Prediction
)
1. 收到提示词
示例:“今天天气不错,我决定”
Generative
(生成式)
2.将输入拆分为token
[ “今天”, “天”, “气”, “不” , “错”
“,”, “我”, “决定” ]
,
G
P
Pre-trained
•
•
T
Transformer
LLM:Large Language Model
理解token之间的关系
识别提示词的整体含义
4.基于上下文预测下一个token
•
•
为可能的单词分配概率分数
示例:{“去”:0.7. “停":0.2,“站":0.1}
5.根据概率分数选择标记
示例:“去”
一、人工智能的前世今生
二、大模型的原理和能力边界
“token”,可以进行语义计算。
3.采用Transformer架构处理token
(预训练)
(一种深度神经网络架构)
准确地讲,这里不是“字”,是
三、大模型的现状和发展:技术应用和人才要求
概率预测+文字接龙
自回归(AR):重复步
骤4和步骤5直到形成完
整的句子
示例:今天天气不错,我决
定去公园
学习交流可加微信号:zhixingzhaizhuren
第12页
13. 大模型的工作过程:预训练-后训练-推理
大模型工作过程
预训练
(自监督)
监督微调
强化学习
(RLHF等等)
接收输入
(提示词)
阶段1:模型训练(预训练+后训练)
一、人工智能的前世今生
二、大模型的原理和能力边界
处理输入
(上下文)
进行推理
(测试时计算)
生成输出
阶段2:推理
三、大模型的现状和发展:技术应用和人才要求
学习交流可加微信号:zhixingzhaizhuren
第13页
14. 大模型的最新发展(从原子弹到氢弹):推理
深化期
•
OpenAI 推出基于 GPT-4o 模型的图像生
成功能,取代此前的 DALL·E 3成为
ChatGPT 和 Sora 平台的默认图像引擎
•
OpenAI发布o3-mini 、 GPT-4.5,前者推
动成本效益推理,后者展现出较高的情
感智能。
繁荣期
跃进期
•
• Llama2开源,极大助力全球大模型开发者生态。
• GPT-4 Turbo、Gemini等海外大模型发布,继
续提升模型性能。
准备期
•
ChatGPT发布,全球范围内迅速形
成大模型共识。
•
• Midjourney发布5.2
• Stable Diffusion XL发布
•
GPT4发布,进一步掀起大模型研发
•
脑、ChatGLM等首批模型相继发布。
国内闭源大模型快速发展,豆包、混元、商汤3.0、
国内开源生态爆发,Baichuan、Qwen、
InternLM、ChatGLM3、Yi-34B等系列模型引领
2023.06
GPT-40、Claude3.5、Gemini1.5、
•
国内推理模型持续跟进。DeepSeek-R1、
QwQ-32B、Kimi1.5、GLM-Zero、
Skywork o1、讯飞星火X1等推理 模型陆
国内多模态领域进展迅速,在部分领域领先
海外,视频生成模型可灵AI、海螺视频、
•
开源热潮。
2022.12
引发热潮,推理性能大幅度提升。
续发布,继续突破推理能力的上限。
•
国内快速跟进大模型研发,文心一言
•
3.7-Sonnet、Grok3发布,海外推理模型
域的想象力。
争格局。
Chat等陆续发布。
1.0、通义千问、讯飞星火、360智
Gemini 2.0 Flash Thinking、Claude-
OpenAI发布Sora,极大拓展了AI在视频领
Llama3发布,海外进入“一超多强”的竞
盘古3.0、AndesGPT、BlueLM、星火3.0、Kimi
热潮。
•
•
2023.12
•
国内模型性能持续提升。DeepSeek-V3、
Vidu、PixVerse等模型陆续发布,并在海 Qwen2.5、豆包-Pro、混元-Turbo与GLM-
外取得较大应用进展。 4-Plus等系列模型综合能力上持续提升。
国内通用模型持续提升,Qwen2.5、文心
•
DeepSeek-R1通过开源与性价比优势持续
4.0、GLM4、商汤5.5等通用模型陆续更新。
生成模型
国内开源生态持续引领模型普惠化。
推动行业技术普惠化进程。
2024.06
推理模型
2025.03
ref: SuperCLUE团队 中文大模型基准测评2025年3月报告
一、人工智能的前世今生
二、大模型的原理和能力边界
三、大模型的现状和发展:技术应用和人才要求
学习交流可加微信号:zhixingzhaizhuren
第14页
15. 大语言模型的能力边界
1. 语言能力:理解和生成
2. 知识能力
3.
1. 严肃内容+垃圾信息的混合
2. 知识量大,但缺少内在关联能力
• 幻觉(生成不符合事实的内容)
• 知识库限制(公开、私有、即时)
•
n生成
上下文窗口限制(记忆、成本)
n幻觉
1. 来源:有损压缩, NTP的温度
1. 提示词(Prompt)
2. 思维链(CoT)
3. 搜索增强(RAG)
4. 知识图谱(KGE)
5. 模型微调(Fine Tune)
2. 观点:创意和创新
n记忆
推理能力
n 解决方案
1. 多轮对话:产品设计,计算成本
一、人工智能的前世今生
二、大模型的原理和能力边界
三、大模型的现状和发展:技术应用和人才要求
学习交流可加微信号:zhixingzhaizhuren
第15页
16. 生成模型和推理模型适用场景
比较项
生成模型(GPT-4o、 DeepSeek-V3)
推理模型(GPT-o3、 DeepSeek-R1)
模型定位 专注于通用自然语言处理,多模态能力突出,适合日常对话、 内容生 侧重于复杂推理与逻辑能力,擅长数学、编程和自然语言推理任务,适合高 难度问题求
成、翻译以及图文、音频、视频等信息处理。
解和专业领域应用。
推理能力 在日常语言任务中表现均衡,但在复杂逻辑推理(如数学题 求解)上
在复杂推理任务表现卓越,尤其擅长数学、代码推理任务。
准确率较低。
多模态支持
应用场景
支持文本、图像、音频乃至视频输入,可处理多种模态信息。
当前主要支持文本输入,不具备图像处理等多模态能力;未来可能通过社区 贡献扩展相
关功能。
适合广泛通用任务,如对话、内容生成、多模态信息处理以 及跨语言 更适合需要高精度推理和逻辑分析的专业任务,如数学竞赛、编程问题和科 学研究;在
交流;面向大众市场和商业应用。
思路清晰度要求高的场景具有明显优势,比如采访大纲、方案
提供流畅的实时对话体验,支持多种输入模态;用户界面友 好,适合 可展示部分链式思考过程,便于用户理解推理过程;界面和使用体验具有较 高的定制性
,但整体交互节奏较慢。
用户交互体验 大众使用。
n 生成模型是玩知识和文字的,推理大模型是玩逻辑和推理的,至于计算问题, 还是找计算器吧
n 推理模型也不是万能的,其幻觉通常比生成模型大,很多不需要强推理的场合还是传统的生成模型比较适合
一、人工智能的前世今生
二、大模型的原理和能力边界
三、大模型的现状和发展:技术应用和人才要求
学习交流可加微信号:zhixingzhaizhuren
第16页
17. 人工智能:快速冲击智力行业,逐渐侵蚀物理世界
人工智能:让机器具备人类智能,让机器具备非人类智能(超人类智能)
n 机器学习
n 深度学习
n 大模型
n 大语言模型:DeepSeek
n 视觉模型:可灵、 即梦
n 多模态模型:GPT-5
一、人工智能的前世今生
二、大模型的原理和能力边界
三、大模型的现状和发展:技术应用和人才要求
学习交流可加微信号:zhixingzhaizhuren
第17页
18. 对现代人工智能的正确认知
Ø 现代人工智能(大模型)的本质
Ø 大模型技术的关键过程
1. 这一波人工智能本质上是数据智能,只要是有时间
结构和空间结构的数据,都可以识别出数据分布
模式,建立数据模型,从而产生智能。
2. 这一波人工智能的核心是语言智能,通过分析和建
模人类语言,获取人类的知识,并进一步获取人
类的思维模式。
1. 预训练:中小学,打基础
2. 后训练:RL、SFT。大学,有专业
3. 微调、Prompt。入职实习,能干活
Ø 大模型技术的关键要素
1. Token:万物皆token
2. Attention:熵减即智能
3. GPT:大力出奇迹
3. 或许,AI只是一个我们和他人和祖先和整个人类
的意义世界的交互的接口的翻译器。与我们对话
的,不是AI,而是AI背后那个人类构造出的意义
世界。因此, AI可以成为我们的伙伴和 导师,例
如: DeepSeek对贪嗔痴的解释。
4. Data:以古鉴今
5. RL:自学成才(决策,探索未知,生成数据)
6. 优化:卷Infra和算法,实事求是,反抽象
7. FT:后训练的艺术
8. TTC:大力出奇迹 AGAIN
9. Prompt:有话好好说
10. Agent:最后的筐
一、人工智能的前世今生
二、大模型的原理和能力边界
三、大模型的现状和发展:技术应用和人才要求
学习交流可加微信号:zhixingzhaizhuren
第18页
19. 对现代人工智能的正确认知:AI与IT的区别
n IT:确定性的任务(简单和繁杂),以代码逻辑为核心
•1.0:记忆+计算(冯诺依曼;软件时代)
•2.0:记忆+计算+搜索(互联网时代)
n AI:不确定的任务(复杂和混沌),以数据模型为核心
•0.0:专家系统:知识+规则
•0.1:机器学习:数据+学习,白盒
•0.1:传统机器学习:人类定义特征,人类估算模型参数
•0.5:人工神经网络:人类定义特征,模型自己学习模型参数
•1.0:深度学习:数据+学习,灰盒(不可控,有错误概率,可解释)
•1.0:判别模型:人类只提供数据,端到端学习(模型自己抽取特征,自己学习模型参数)
•2.0:大模型:数据+学习,黑盒(不可控,有错误概率,不可解释)
•2.0:生成模型:训练阶段+推理阶段;压缩+生成(幻觉)
•2.1:推理模型:训练阶段强化学习;推理阶段慢思考
•2.2::Agent:任务结果导向(感知+大模型上下文工程+行动)
n IT应用与AI应用的关键差异:
•在互联网时代,用户使用系统的成本很低,边际成本接近于零。
•在AI时代,用户使用系统的成本比较高,有大量的GPU算力需求,边际成本较高。
一、人工智能的前世今生
二、大模型的原理和能力边界
三、大模型的现状和发展:技术应用和人才要求
学习交流可加微信号:zhixingzhaizhuren
第19页
20. 走进人工智能2.0
一、人工智能的前世今生
二、大模型的原理和能力边界
三、大模型的现状和发展:技术应用和人才要求
一、人工智能的前世今生
二、大模型的原理和能力边界
三、大模型的现状和发展:技术应用和人才要求
学习交流可加微信号:zhixingzhaizhuren
第20页
21. 三、大模型的现状和发展:技术应用和人才要求
n1、DeepSeek现象分析
n2、大模型的发展趋势
n3、如何使用大模型
ü 1)提示词工程和对话工具
ü 2)上下文工程和Agent
n4、AI2.0时代的人才要求
一、人工智能的前世今生
二、大模型的原理和能力边界
三、大模型的现状和发展:技术应用和人才要求
学习交流可加微信号:zhixingzhaizhuren
第21页
22. 现象:DeepSeek快速出圈,全民硬控
n 2024年12月26日,DeepSeek推出对标OpenAI
GPT-4o的 语言模型DeepSeek V3,随后在美国AI
行业内部引起轰动。
n 2025年1月20日,DeepSeek发布对标OpenAI o1
的DeepSeek R1大语言模型,并于1月24日引起美
国投资界KOL关注。
n 2025年1月26日,关于DeepSeek颠覆了大模型的商
业模式(堆算力、拼资本),引发英伟达股价大跌
,DeepSeek首先在美国出圈,引发国际社会讨论。
n 2025年1月底(春节前后),DeepSeek在中国出圈
,并上升到中美竞争高度,同时纷纷接入DeepSeek
, DeepSeek成为AI和大模型的代名词。
n DeepSeek让AI跨越了鸿沟。
一、人工智能的前世今生
二、大模型的原理和能力边界
三、大模型的现状和发展:技术应用和人才要求
学习交流可加微信号:zhixingzhaizhuren
第22页
23. 到底谁是DeepSeek?公司、模型、产品
系统组成
部署方案
Ø 生产办公系统:目前多数为定制开发(RAG、Agent等)
SaaS
应用服务(网页、APP、桌面软件、设备软件)
Ø 对话机器人:目前多数为标准产品,使用云服务
• 免费:DeepSeek、豆包、Kimi、元宝、Monica、秘塔搜索、问小白、Molly R1等
• 收费(月费;充值):文小言、通义、可灵、即梦、Vidu、Liblib、ChatGPT等
Ø 开源模型:DeepSeek、Qwen、Llama、SD、微调模型等
MaaS
模型服务(数据工程、推理加速、训练框架、API调用)
•
Ø 闭源模型:OpenAI、Claude、Gemini、Kimi、百度等
•
PaaS
平台服务(存储、计算、数据、安全、中间件)
IaaS
硬件服务(设备/电脑/服务器/GPU、网络、操作系统)
一、人工智能的前世今生
二、大模型的原理和能力边界
向上提供:私有化部署,公有云服务(DeepSeek官网、硅基流动、火山引擎等)
向上提供:公有云服务(OpenAI官网)
Ø 私有化部署
• 本地:个人设备或电脑、企业服务器
• 数据中心(IDC):企业服务器、服务器集群(私有云)
Ø 公有云服务:阿里云、火山云、腾讯云、金山云、华为云等;AWS、Azure等
三、大模型的现状和发展:技术应用和人才要求
学习交流可加微信号:zhixingzhaizhuren
第23页
第23页
24. 到底谁是DeepSeek?公司、模型、产品
n DeepSeek于2023年5月成立北京公司, 2023年7月成立杭州公司,是幻方量化孵化出的一家大模型研
究机构(目标AGI),160人的团队分布在杭州和北京 ,是中国AI2.0(大模型)时代的七小龙之一。
•
注:AI1.0(深度学习)时代的四小龙: 商汤、旷世、云从、依图
n 除了DeepSeek公司之外,其它六家也被投资界称为中国大模型企业六小虎(智谱AI、百川智能、月
之暗面、阶跃星辰、MiniMax、零一万物)。
一、人工智能的前世今生
二、大模型的原理和能力边界
三、大模型的现状和发展:技术应用和人才要求
学习交流可加微信号:zhixingzhaizhuren
第24页
25. 到底谁是DeepSeek?公司、模型、产品
Model Base Model
DeepSeek-R1-Distill-Qwen-1.5B Qwen2.5-Math-1.5B
DeepSeek-R1-Distill-Qwen-7B Qwen2.5-Math-7B
DeepSeek-R1-Distill-Llama-8B Llama-3.1-8B
DeepSeek-R1-Distill-Qwen-14B
Qwen2.5-14B
DeepSeek-R1-Distill-Qwen-32B Qwen2.5-32B
DeepSeek-R1-Distill-Llama-70B Llama-3.3-70B-Instruct
DeepSeek-R1-671B DeepSeek-V3-Base
一、人工智能的前世今生
二、大模型的原理和能力边界
蒸馏模型,能力稍弱
n 实际上是增加了推理能力的Qwen模型和
Llama模 型, 不能称为DeepSeek模型。
n 市场上有误解,厂商有误导,甚至Ollama工
具的模型选项中也有误导。
三、大模型的现状和发展:技术应用和人才要求
满血版,能力最强
学习交流可加微信号:zhixingzhaizhuren
第25页
26. 到底谁是DeepSeek?公司、模型、产品
公司、模型、产品
• 引起中美AI行业内部关注的是:模型
• 引起美国关注的是:模型和公司
• 春节前后在中国出圈的是:产品
产品优势 (用户可感受到)
• 思考过程展示
• 中文好有情商
• 容易获得,使用简单
• 联网和来源引用
• 速度快
• 免费
一、人工智能的前世今生
二、大模型的原理和能力边界
三、大模型的现状和发展:技术应用和人才要求
学习交流可加微信号:zhixingzhaizhuren
第26页
27. DeepSeek模型优势
n 基础能力:进入推理模型阶段,并跻身全球第一梯队
能力突破
开源、低成本、国产自主
DeepSeek以“推理能力+第一梯队性
能”为核心基础,叠加:开源开放、
超低成本、国产自主研发三大优势,
不仅实现技术代际跨越,更推动AI技
术普惠化与国产化生态繁荣,成为全
球大模型赛道的重要领跑者。
混合专家 多头潜注意力 多Token预测
强化学习 测试时计算 混合精度训练
通讯优化 并行训练框架 直接硬件编程
MOE
GRPO
DualPipe
一、人工智能的前世今生
MLA
TTC
HAI
MTP
FP8
PTX
二、大模型的原理和能力边界
1. 推理能力跃升:DeepSeek大模型核心技术突破,实现复杂推理任务的精准处
理与高效执行,覆盖多模态场景应用。
2. 国际竞争力对标:模型综合性能跃居全球第一梯队,技术指标与国际顶尖水平
(如GPT系列、Claude等)直接对标,奠定国产大模型的行业标杆地位。
n 核心加分项:开源、低成本、国产自主
1. 开源:技术共享,生态共建
•
•
全量开源训练代码、数据清洗工具及微调框架
开发者可快速构建教育、金融、医疗等垂直领域应用,推动协同创新。
2. 低成本:普惠企业级AI应用
• 针对H系列芯片做了大量的模型架构优化和系统工程优化。
•
• 最后一次训练成本仅$557w :显著低于行业同类模型,打破高价壁垒。
推理成本降低83%:千亿参数模型适配中小企业需求,加速商业化落地。
3. 国产自主:技术自主,缩短差距
•
•
将国产模型与美国的代际差距从1-2年缩短至3-5个月,突破“卡脖子”
技术瓶颈。
构建多行业专属模型矩阵,全面支持国内产业智能化升级。
三、大模型的现状和发展:技术应用和人才要求
学习交流可加微信号:zhixingzhaizhuren
第27页
28. DeepSeek V3/R1 模型的创新
二、训练及框架:
一、基础架构:
1.
混合专家模型(MoE):DeepSeek采用MoE架构,通过动态选
1.
使用FP8低精度进一步降低训练成本。这一点,是DeepSeek团队非常
择最适合输入数据的专家模块进行处理,提升推理能力和效率。
2.
无辅助损失的专家负载均衡策略(EP):该策略使
DeepSeekMoE在不对优化目标产生干扰的前提下,实现各个专
有价值的创新和突破。
2.
3.
3.
(Data Parallelism, DP),大幅提升模型训练速度。
强化学习(RL):DeepSeek-R1在训练中大规模应用强化学习(
4.
显著提升推理能力。
5.
多Token预测(MTP):通过多Token预测, Deepseek不仅提
高了推理速度,还降低了训练成本。
通讯优化(DualPipe): 高效的跨节点通信内核,充分利用 IB 和
NVLink 带宽特点,减少通信开销,提高模型推理性能。
让模型自我探索和训练),将传统的PPO替换为GRPO训练算法,
5.
并行训练系统(HAI):16 路流水线并行(Pipeline Parallelism, PP)、
跨 8 个节点的 64 路专家并行(Expert Parallelism, EP),以及数据并行
多头潜在注意力机制(MLA):MLA通过低秩压缩减少Key-
Value缓存,显著提升推理效率。
4.
长链推理技术(TTC):模型支持数万字的长链推理,可逐步分解复杂
问题并进行多步骤逻辑推理。
家的负载均衡,避免了某些专家可能会被过度使用,而其他专家则
被闲置的现象。
FP8混合精度训练(FP8):在关键计算步骤使用高精度,其他模型层
混合机器编程(PTX):部分代码直接使用PTX编程提高GPU运行效率
。
6.
算子库优化(GEMM等Op):针对H800计算卡的特点,优化了一部
分CUDA的算子库。
一、人工智能的前世今生
二、大模型的原理和能力边界
三、大模型的现状和发展:技术应用和人才要求
学习交流可加微信号:zhixingzhaizhuren
第28页
29. DeepSeek V3/R1 模型的创新
三、社会价值:
1. 开源生态:使用最为开放的MIT开源协议,吸引了大量研究人员和应用厂商,推动了AI技术的发展。
2. 模型蒸馏支持:DeepSeek-R1同时发布了多个模型蒸馏。
•
虽然这些蒸馏模型的生产初衷是为了验证蒸馏效果,但客观上帮助用户有机会使用移植了
DeepSeek-R1满血版模型的能力的更小的模型,以满足不同应用场景需求。
•
副作用是:给市场和用户造成了很多困扰。
3. AI产品和技术的普及:
一、人工智能的前世今生
• 对于大模型研发企业,更加重视infra工程的价值了。
• 对于大模型应用企业,有了更多高效低成本解决方案。
• 对于社会大众,认识到AI是一个趋势,不是昙花一现。
• 对于市场,用户开始主动引入AI,不再怀疑了。
• 对于国家,大幅缩小了中美的核心技术差距。
• 对于全人类,技术平权,造福一方。
二、大模型的原理和能力边界
三、大模型的现状和发展:技术应用和人才要求
学习交流可加微信号:zhixingzhaizhuren
第29页
30. DeepSeek R1模型的能力突破
一、人工智能的前世今生
二、大模型的原理和能力边界
三、大模型的现状和发展:技术应用和人才要求
学习交流可加微信号:zhixingzhaizhuren
第30页
31. DeepSeek R1模型的能力突破
一、人工智能的前世今生
二、大模型的原理和能力边界
三、大模型的现状和发展:技术应用和人才要求
学习交流可加微信号:zhixingzhaizhuren
第31页
32. DeepSeek R1模型的能力突破
一、人工智能的前世今生
二、大模型的原理和能力边界
三、大模型的现状和发展:技术应用和人才要求
学习交流可加微信号:zhixingzhaizhuren
第32页
33. DeepSeek R1 对大模型行业的重大影响
01 02 03
打破垄断 价格下调 推动创新
DeepSeek-R1以低成本和开源 DeepSeek-R1的API定价仅为 DeepSeek-R1促使行业开始从
特性打破以往头部企业巨头割 行业均价的1/10,推动了中小型 “唯规模论”转向更加注重
据局面 企业低成本接入AI,对行业产生 “性价比”和“高效能”方向
了积极影响
一、人工智能的前世今生
二、大模型的原理和能力边界
三、大模型的现状和发展:技术应用和人才要求
学习交流可加微信号:zhixingzhaizhuren
第33页
34. 使用DeepSeek的方式
n 直接使用官方服务
Ø 访问官网(ai.com 或 https://chat.deepseek.com/),登录后使用,适合
电脑端快速使用,但存在服务不稳定问题。
Ø 下载APP,适合手机平板等移动设备,但同样存在服务不稳定问题。
n 使用第三方服务与API调用
Ø 第三方服务:秘塔AI、微信搜索、Molly R1、问小白等。
Ø API调用:DeepSeek、硅基流动、火山引擎等。获取API密钥调用,
适合开发者集成,同样存在服务不稳定问题。
n 本地部署
Ø 个人部署:个人在本地设备运行应用,依赖自身计算资源,灵活便捷。
Ø 企业部署:企业内网或云端搭建私有化系统,支持多用户协作,数据可控。
Ø 一体机:直接购买配置了DeepSeek模型的具备一定算力的一体机。
一、人工智能的前世今生
二、大模型的原理和能力边界
三、大模型的现状和发展:技术应用和人才要求
学习交流可加微信号:zhixingzhaizhuren
第34页
35. DeepSeek-R1 应用场景的特点
1. 推理密集型任务
Ø 编程任务中的代码生成、算法设计,媲美Claude 3.5 Sonnet。
Ø 数学问题求解、科学推理和逻辑分析等需要复杂推理的场景 。
2. 强推理任务
Ø 需要基于大量知识,进行长链分析和强推理的复杂任务。
Ø 例如:工作方案、科研实验、病理诊断、命理玄学、市场分析、舆情分析、教育教学等。
3. 中文要求高的任务
Ø 理解和使用中国文化背景、习惯用语、古文诗词(如生成春联)。优于ChatGPT的中文能力。
Ø 这一部分用DeepSeek-V3也可以做到。
Ø DeepSeek的语言风格(对齐策略):不明觉厉。
一、人工智能的前世今生
二、大模型的原理和能力边界
三、大模型的现状和发展:技术应用和人才要求
学习交流可加微信号:zhixingzhaizhuren
第35页
36. 人工智能赋能行业的四层障碍
一、人工智能的前世今生
二、大模型的原理和能力边界
三、大模型的现状和发展:技术应用和人才要求
学习交流可加微信号:zhixingzhaizhuren
第36页
37. 大模型技术的应用阶段
04
01
目 标 是 利 用 行 业 领 先 的 AI
02
能 力, 解 决更 复 杂 、 专 业
的 问题 。
模型微调
提示 词
知识库
目 标 是 快 速 验 证 AI 是 否 能
解决某个特定 的 业 务痛 点 目标是利用企 业 内 部知 识
(例如 , 初 步 的 文 本 分类 、 库 , 提 高 AI 在 特 定 领 域 问
简单的信息提 取 ) 。 答或内容生成 的 准 确性 和
一、人工智能的前世今生
行业模型
03
目标是进一步 优 化 模型 在
特定任务上的 性 能 , 使 其
更符合企业的 具 体 需求 和
数据特点。
相关性 。
二、大模型的原理和能力边界
三、大模型的现状和发展:技术应用和人才要求
学习交流可加微信号:zhixingzhaizhuren
第37页
38. AI与提示词的关系:人类与大模型合作方式
一、人工智能的前世今生
知识渊博的专家 给刚毕业的优秀大学
为你解决具体任务 生安排任务
二、大模型的原理和能力边界
三、大模型的现状和发展:技术应用和人才要求
给外包员工安排任务
学习交流可加微信号:zhixingzhaizhuren
第38页
39. AI与提示词的关系:人类与大模型合作方式
喂模式
AI不知道+我知道
人类知道
AI知道+我知道
简单说
给知识和场景(Prompt+know how)将掌握的信
息传递给AI。使用详细的描述、举例、甚至提供数 简单表达(明确指令: 使用清晰的动词和目标,
据等方式。 等。)
比如你了解某个地方的独特方言,而AI的训练数据
中没有包含,你需要用文字甚至录音等方式向AI描 比如双方都知道“二战” ,你可以直接问“二
战爆发的原因是什么?” ,或者更进一步问“比
述这种方言的特点,例如发音、词汇等。 较一战和二战的异同”。
例如“比较”、“总结”、“分析”、“生成”
AI知道
开放聊
AI知道+我不知道
AI不知道+我不知道
提问题
多轮对话同频(使用开放式讨论,例如“什么
共同进行研究和探索,可以利用AI的计算和分析能力,
结合人类的创造力和直觉,共同寻找答案。
是”、“如何”、“有哪些”等。)
比如AI知道很多关于商业模式的知识,而你不太
比如要研究某种尚未被发现的疾病的病因,可以向AI
提供已知的医学数据和研究文献,让AI分析潜在的关 了解,你可以问“我在做美术教育,有哪些好的
联性,并提出新的研究方向。 盈利模式?”。
一、人工智能的前世今生
二、大模型的原理和能力边界
三、大模型的现状和发展:技术应用和人才要求
学习交流可加微信号:zhixingzhaizhuren
第39页
40. AI与提示词的关系:人类与大模型有效沟通
唉。今天天气确实挺不错的,上
了一天班,算了,你猜猜我心情
怎么样
你猜猜我心情怎么样
你这样说我就不困了。你
应该心情不太好,有80%
的概率是不开心的
你给我一个方法
请给我一个python方法,要求可以
计算十进制下的加减法
内心os:家人们,救命啊,有个人让
我猜他心情好不好,还让我给他一个方
法,我这里有几百万种方法,给他哪个
啊?算了,毁灭吧,随便丢一个得了
一、人工智能的前世今生
二、大模型的原理和能力边界
这个就更明确了,
马上给你返回一个
具体的方法
三、大模型的现状和发展:技术应用和人才要求
学习交流可加微信号:zhixingzhaizhuren
第40页
41. 大模型的提示词技巧的总原则
AI
1. 把自己当老板,像对待你的员工一样,对待AI
2. 镜子理论:提示词是人激发和控制AI能力的手段,如同一个骑手的骑术一样
Problem Definition:
Delineation of task
goals
‘Ok, so the user
wants me to...’
Bloom: Reconstruction:
Decomposition of
problem and initial
execution to a
potential answer,
which may be
verified. Reconsideration of
initial assumptions,
possibly leading to a
new answer, and
verification of
confidence.
‘First, I should...’ ‘Wait, alternatively...’
Final Answer:
Qualification of
confidence and final
answer to return.
‘Ok, I’m sure now...’
具体内容可以参考AI 肖睿团队的《提示词工程和场景落地》(https://ai.kgc.cn/ai-news/294.html)
一、人工智能的前世今生
二、大模型的原理和能力边界
三、大模型的现状和发展:技术应用和人才要求
学习交流可加微信号:zhixingzhaizhuren
第41页
42. DeepSeek提示词技巧1:通用公式
任务 背景
做什么 给谁用
目标 负面限定
期望效果 担心的问题
“内心戏”
一、人工智能的前世今生
二、大模型的原理和能力边界
三、大模型的现状和发展:技术应用和人才要求
学习交流可加微信号:zhixingzhaizhuren
第42页
43. DeepSeek提示词技巧1:通用公式
我要 (做)** ,要 给**用 ,希望 达到**效果 ,但 担心**问题
例如:我要做一个从北京到日本的旅游攻略,要给爸妈用,希望让他们在日本开心的玩20天,但我担心他们玩
的累,腿和腰不太好
√ 先抓住总原则
正式
回答
√ 全面非常考虑o( ̄▽ ̄)d
一、人工智能的前世今生
二、大模型的原理和能力边界
三、大模型的现状和发展:技术应用和人才要求
学习交流可加微信号:zhixingzhaizhuren
第43页
44. DeepSeek提示词技巧2:真诚+直接
传统
DeepSeek(真诚是必杀技)
你现在是一个新能源汽车的市场研究 帮我把这份报告包装一下,我要写成周报给
分析师,这里有一份调研报告总结需 老板看,老板很看重数据。
要写成周报,请按周报的格式帮我完
成并进行润色,不少于500字。
一、人工智能的前世今生
二、大模型的原理和能力边界
三、大模型的现状和发展:技术应用和人才要求
学习交流可加微信号:zhixingzhaizhuren
第44页
45. DeepSeek提示词技巧3:说人话
为了避免DeepSeek的回答过于官方、专业,可以尝试这三个字“说人话”
你问:什么是“波粒二象性”,DeepSeek大概率会给出专业且看不懂的回答,和百度百科差不多。但如
果给ta一句“说人话”,ta就会生动形象的做一些举例
说人话
一、人工智能的前世今生
二、大模型的原理和能力边界
适合场景:科研,了解新事物
三、大模型的现状和发展:技术应用和人才要求
学习交流可加微信号:zhixingzhaizhuren
第45页
46. DeepSeek提示词技巧4:反向PUA
DeepSeek有一套自己的思维链,也就是ta自带的思考逻辑,那么如果你想要DeepSeek更卖力给
你搬砖,就需要你运用“反向PUA ”
“请你列出10个 反对理由 再给方案”
“如果你是老板,你会怎样 批评这个方案 ?”
“这个回答你满意吗?请你把回答 复盘至少10轮 ”
“你要确认结果正确,做得好给你1千万人民币奖励,做不好把你 拉出去枪毙 ”
一、人工智能的前世今生
二、大模型的原理和能力边界
三、大模型的现状和发展:技术应用和人才要求
学习交流可加微信号:zhixingzhaizhuren
第46页
47. DeepSeek提示词技巧5:善于模仿
如果你想写一篇文案,用提示词约束,可能效果一般般,但如果你给一篇文章模
仿或者让ta模仿谁的语气,DeepSeek大概率会写到你的心趴上。
一、人工智能的前世今生
二、大模型的原理和能力边界
三、大模型的现状和发展:技术应用和人才要求
学习交流可加微信号:zhixingzhaizhuren
第47页
48. DeepSeek提示词技巧6:擅长锐评
DeepSeek自带情商,各种语气也能完美拿捏!
一、人工智能的前世今生
二、大模型的原理和能力边界
三、大模型的现状和发展:技术应用和人才要求
学习交流可加微信号:zhixingzhaizhuren
第48页
49. DeepSeek提示词技巧6:擅长锐评
”__________,笑死“句式,触发DeepSeek的毒舌属性
一、人工智能的前世今生
二、大模型的原理和能力边界
三、大模型的现状和发展:技术应用和人才要求
学习交流可加微信号:zhixingzhaizhuren
第49页
50. 大模型的提示词工程和上下文工程
n
提示词的发展:多变、内在规律、分化
Ø 提示词的本质:大模型不够聪明,人机是两个物种
Ø 提示词的目标:人机对齐(信息和意图)
Ø 提示词的价值流变:对话场景下,越来越成为人类自身的思维工具
ü 典型场景:Vibe Coding(氛围编程:人人做工具、专业提效率、产品完成创意)
n 对人类的要求
Ø 定义AI问题:把现实中的问题转化为可以用AI解决的问题
Ø 布置AI任务:在有限的上下文里,清晰的表达,告诉所需的背景信息
Ø 验收AI工作:对回复有预期,对模型回复的好坏可以辨别
n 从“提示词工程”到“上下文工程”
Ø 扩展(系统设定、记忆、系统状态等),动态(每次执行会有变化)
Ø 教材 vs 教学场景;用户视角 vs 大模型视角
一、人工智能的前世今生
二、大模型的原理和能力边界
三、大模型的现状和发展:技术应用和人才要求
学习交流可加微信号:zhixingzhaizhuren
第50页
51. AI2.0时代的人才需求
一、应用人才(实际上包括所有人)
n 思维要求:用AI技术和工具去解决实际问题,提高工作和生活的效率和质量,赋能行业
n 能力增加:问题定义能力,独立思考能力和判断力,表达和沟通能力
n 能力减少:记忆力和知识储备,计算推理能力,执行力(纪律和毅力), 创造力?
n 教育需求:AI通识教育
二、IT专业人才(产品经理、开发岗位)
n 思维要求:数据思维,模型思维,以人为本,赋能行业,理解场景
算法工程师
深度学习专家
大模型研究员
...
n 能力增加:机器学习-深度学习-大模型原理,数据工程能力
n 能力减少:代码能力, 逻辑能力? 文档能力,软硬件工程能力(IT项目管理和适配)
n 教育需求:新IT教育
三、AI2.0专业人才(数据、算法和模型、算力和工程)
n 思维要求:数学思维,好奇心和试错思维,热爱人类
n 能力增加1:数据工程能力,数据合成能力
大模型开发工程师
AI应用开发工程师
Agent开发工程师
AI产品经理
...
各行业AI赋能人才
日常的AI应用
n 能力增加2:底层软硬件工程能力(芯片、通讯、操作系统)
n 能力增加3:大模型范式能力(Transformer、Diffusion、RL等)
n 能力减少:数学能力,机器学习传统算法,深度学习传统模型
n 教育需求:AI专业教育
一、人工智能的前世今生
二、大模型的原理和能力边界
三、大模型的现状和发展:技术应用和人才要求
学习交流可加微信号:zhixingzhaizhuren
第51页
52. 如何学习和应用大模型
所有岗位都需要的人工智能素质
ü !"#$%&'()&*+,-./01,2345678
ü 9:;<=#>?,@;ABCD&EFGH&IJKL
ü MN,OPQRS,7PQT8,UVWXYZ
ü [\,OPQRS,7PQT8,]];97WX^Z_`VRab
n 现代学习方法
n 传统学习方法
一、人工智能的前世今生
Ø AI1.0(DOS),甚至AI0.0 Ø AI2.0(Windows)
Ø 简本专业课(汽车制造和修理) Ø 懂AI用AI(公交司机、出租司机),拒绝劝退
Ø 缺乏动手场景 Ø 与工作场景和生活场景关联
二、大模型的原理和能力边界
三、大模型的现状和发展:技术应用和人才要求
学习交流可加微信号:zhixingzhaizhuren
第52页
53. 走进人工智能2.0
欢迎交流
人是世界的尺度,活在意义之网中,人工智能让这张网更有价值
人类需要的是判断力和表达力,不再是记忆力和知识储备
人是目的,不是手段,不要去和人工智能比工具性
使用人工智能的人淘汰不使用人工智能的人
使用人工智能的组织淘汰不使用人工智能的组织
一、人工智能的前世今生
人工智能时代的策略:把握原理、躬身入局、随时否定自己
第53页
三、大模型的现状和发展:技术应用和人才要求
学习交流可加微信号:zhixingzhaizhuren
二、大模型的原理和能力边界
第53页