DeepSeek技术溯源及前沿探索
如果无法正常显示,请先停止浏览器的去广告插件。
1. 浙江大学DS系列专题
DeepSeek技术溯源及前沿探索
主讲人:朱强
浙江大学计算机科学与技术学院
人工智能省部共建协同创新中心(浙江大学)
https://person.zju.edu.cn/zhuq
1
2. Outline
一、语言模型
二、Transformer
三、ChatGPT
四、DeepSeek
五、新一代智能体
2
3. 语言模型:终极目标
Language Modeling
对于任意的词序列,计算出这个序列是一句话的概率
我们每天都和语言模型打交道:
I saw a cat
I saw a cat on the chair
I saw a ca
car
I saw a cat running after a
dog
I saw a cat in my dream
3
4. 语言模型:基本任务
编码:让计算机理解人类语言
She 1 0 0 0
is 0 1 0 0
my 0 0 1 0
mom 0 0 0 1
只有一个1,其余均为0
One-hot Encoding有什么缺点吗?
One-hot Encoding
4
5. 编码:让计算机理解人类语言
Word Embedding
用一个低维的词向量表示一个词
能使距离相近的向量对应的物体有相近的含义
飞翔
游泳
鲸鱼 0.99 0.99 0.05 0.1 …
海豚 0.99 0.05 0.93 0.09 …
鹦鹉 0.02 0.01 0.99 0.98 …
企鹅 0.98 0.02 0.94 0.3 …
20维的向量用one-hot和word embedding的方法分别可以表示多少单词?
5
6. 编码:让计算机理解人类语言
Word Embedding
A bottle of tezgüino is on the table. 结合句子语境我们可以猜测:
Everyone likes tezgüino. tezgüino是一种由玉米制作的酒精类饮料
Tezgüino makes you drunk.
We make tezgüino out of corn.
(1) A bottle of _____ is on the table.
(2) Everyone likes _____.
(3) _____ makes you drunk.
(4) We make _____ out of corn.
(1) (2) (3) (4)
tezgüino 1 1 1 1
motor oil 1 0 0 0
tortillas 0 1 0 1
wine 1 1 1 0
两行内容十分相近
两个单词含义相近
6
7. 语言模型:技术演化
基于统计的N-gram ( 1970 after)
Transformer (2017 after)
Before:P(小) · P (猫|小) · P (抓|小猫) · P (老|小猫抓) · P (鼠|小
猫抓老)
2-gram:P(小) · P (猫|小) · P (抓|猫) · P (老|抓) · P
(鼠|老)
3-gram:P(小) · P (猫|小) · P (抓|小猫) · P (老|猫抓) · P
(鼠|抓老)
基于神经网络的LSTM/GRU (2000 after)
7
8. Encoder-Decoder
常见的深度学习模型框架,可用于解决 Seq2Seq 问题
I am pretty smart!
Encoder
隐
空
间
Decoder
Representation
我很聪明!
可以根据任务选择不同的编码器和解码器(LSTM/GRU/Transformer)
8
9. Outline
一、语言模型
二、Transformer
三、ChatGPT
四、DeepSeek
五、新一代智能体
9
10. 大型语言模型简史
2017
JUN
2018 2018 2019 2019
JUN OCT FEB OCT
2020 2021 2022
MAY SEP MAR
2022
NOV
2023 2023
FEB MAR
2024 2024
MAR APR
2024
DEC
2025
JAN
1958
GPT
T5
FLAN
BERT
GPT-3.5
InstrutGPT
GPT-2
Transformer
LLaMA
GPT-3
GPT-4
ChatGPT
LLaMA-3.1
405B OpenAI-o1
GPT-4o
OpenAI-o3
DeepSeek-V3
DeepSeek-R1
Transformer:理论架构创新
• 自注意力机制:支持并行计算/全局上下文的理解能力
• 多头注意力:从多个角度捕捉复杂的语义关系
• 前馈网络/位置编码/层归一化:解决了传统模型的诸多局限性
https://blog.csdn.net/cf2SudS8x8F0v/article/details/145695146
10
11. Transformer : 大模型的技术基座
Decoder
Attention Is All You Need
Encoder
NIPS 2017,引用量15万+
引入全新注意力机制,改变了深度学习模型的处理方式
11
12. Transformer :( 自)注意力机制
在理解语言任务时,Attention 机制本质上是捕捉单词间的关系
1
2
中国 南北 饮食文化 存在差异 ,豆花有 南甜北咸 之分。南方人 一般 喜欢 吃 甜豆花
She
is
eating
a
green apple.
3 The animal didn't cross the street because
it was too tired/wide
12
13. Transformer :( 自)注意力机制
在理解图像任务时,Attention机制本质上是一种图像特征抽取
Image
Sketch
Gradient
13
14. Transformer : 训练机制
场景:你在图书馆想找一本关于“机器学习基础”的书
Query: 描述要找的
书(精准的需求描述)
Key: 书的索引编号
(高效的书籍定位)
Value: 内容的抽取
( 由目标任务驱动)
https://newsletter.theaiedge.io/p/the-multi-head-attention-mechanism
14
15. 大型语言模型简史
2017
JUN
2018 2018 2019 2019
JUN OCT FEB OCT
2020 2021 2022
MAY SEP MAR
2022
NOV
2023 2023
FEB MAR
2024 2024
MAR APR
2024
DEC
2025
JAN
1958
GPT
T5
FLAN
BERT
GPT-3.5
InstrutGPT
GPT-2
Transformers
LLaMA
GPT-3
LLaMA-3.1
405B OpenAI-o1
GPT-4
GPT-4o
OpenAI-o3
DeepSeek-V3
ChatGPT
DeepSeek-R1
预训练时代:大力出奇迹(“暴力美学”)
• BERT:Bidirectional Encoder Representations Transformers
• GPT: Generative Pertained Transformer
• 自监督算法:MLM/NTP/MAE解决海量数据标注问题
15
16. The LLM Era – Paradigm Shift in Machine
Learning
BERT
Oct
2018
Representatio
n
GPT
Jun
2018
Generation
16
17. The LLM Era – Paradigm Shift in Machine
Learning
BERT – 2018
DistilBERT –
2019
RoBERTa –
2019
ALBERT – 2019
ELECTRA –
2020
Representatio
DeBERTa –
2020
n
…
T5 – 2019
BART – 2019
mT5 – 2021
…
GPT – 2018
GPT-2 – 2019
GPT-3 – 2020
GPT-Neo – 2021
GPT-3.5 (ChatGPT) –
2022
LLaMA – 2023
GPT-4 – 2023
…
Generation
17
18. 自监督学习(语言)
Masked Langauge Modeling(MLM) 模型会不断地在句子中‘挖去’一个单词,根
据剩下单词的上下文来填空,即预测最合适的‘填空词’出现的概率,这一过程为‘自监督学习’
原话: 一辆 列车 缓慢 行驶 在 崎岖 的 山路上
移除单词: 一辆 列车
行驶 在 崎岖 的 山路上
预测填空: 一辆 列车 缓慢 行驶 在 崎岖 的 山路上
18
19. 自监督学习(图像)
Masked AutoEncoders(MAE) 通过随机遮盖部分输入数据(如图像)并重建
缺失内容,让模型从上下文中学到图像的深层特征,常用于计算机视觉任务。
遮盖图像
https://arxiv.org/pdf/2111.06377
重建图像
19
20. 训练 transformer 的通用之力
数据是燃料、模型是引擎、算力是加速器
Word2vec
词向量
MCP神经元
Perceptron
DNN
神经网络早期
前向神经网络
引入
Self-attention
RNN
LSTM
seq2seq序列学习
循环神经网络
Self-supervised
Prompt
Fine-tune
Transformer
语言大模型
LLM
单词之间关联关系
人类反馈
强化学习
(InstructGPT)
ChatGPT
CodeX(CoT,
120亿参数)
数据:训练中使用了45TB数据、近 1 万亿个单词(约1351万本牛津词典所包含单词数量)以及数十亿行源代码。
模型:包含了1750亿参数,将这些参数全部打印在A4纸张上,一张一张叠加后,叠加高度将超过上海中心大厦632米高度。
算力: ChatGPT的训练门槛是1万张英伟达V100芯片、约10亿人民币。
大数据、大模型、大算力下以“共生则关联”原则实现了统计关联关系的挖掘。
20
21. 大模型脉络
大语言模型 (LLM)
Large Language Model
BERT系列 Google Bard 文心一言
GPT系列
3.5/4 GPT-4o
Deepseek-v3 GPT-o1/o3
Deepseek-R1
DALLE·3 in
ChatGPT
DDPM
大模型
Large Model
多模态大模型(LMM)
Large Multimodal Model
Sora
SAM
科学计算模型
Science Model
机理
技术
产品
Midjourney
交互式Demo
Alpha系列 AlphaGo
围棋
PanguLM 气象大模型
AlphaStar
魔兽争霸
AlphaFold
蛋白质预测
药物分子预测
21
22. 群雄(中美)争霸
A Survey on Large Language
Models with some Insights
on their Capabilities and
Limitations
OpenAI最新15页报告: DeepSeek缩小中美AI差距
22
23. 闭源 vs 开源
微软
亚马逊
国际企业
谷歌
META
Mistral AI
阿里
中国企业
华为
腾讯
百度
投资OpenAI的GPT-4.0系列 闭源
自研开源小模型Phi-3 Mini 开源
自研Titan系列 闭源
投资Anthropic的Claude 3.5系列 闭源
Gemini系列 闭源
Gemma系列 开源
Llama3系列 开源
Mistral-Large 闭源
Mistral-Medium 开源
通义千问2.5系列基础模型、行业模型 开源
Qwen 0.5b-110b系列开源模型 开源
盘古系列 闭源
混元基础模型、行业模型 闭源
混元开源模型 开源
文心一言4.0模型 闭源
DeepSeek以一己之力改变了开源和闭源的力量对比:从6~12个月的代差缩短到1~3个月
23
24. 摩尔定律(大模型时代)
12层,每层12个注意头
GPT-2做了以下改进: GPT-3做了以下优化: ChatGPT基于GPT-3.5:
1. 增 加 到 4 8 层 , 使 用
1600维向量进行词嵌入;
2. 将 层 归 一 化 移 动 到 每
个子块的输入,并在最终
的自注意块后增加一层归
一化;
3. 修改初始化的残差 层
权 重 , 缩 放 为 原 来 的 1/
�,其中,�是残差层的
数量;
4. 特征向量维数从768扩
展到1600,词表扩大到
50257。 1. 增加到96层,每层有
96个注意头;
2. 单词嵌入大小从1600
增加到12888;
3. 上 下 文 窗 口 大 小 从
GPT-2 的1024增加到
2048,并采用交替密度
和局部带状稀疏注意模式。 1. ChatGPT使用来自人
类反馈的强化学习进行训
练;
2. 通过近端策略优化算
法进行微调,为信任域策
略优化算法带来成本效益。
模型 发布时间 参数量 预训练数据量
GPT-1 2018年6月 1.17亿 约5GB
GPT-2 2019年2月 15亿 40G
GPT-3 2020年5月 1750亿 45TB
ChatGPT 2022年11月 千亿级? 百T级?
DeepSeek通过大幅提升模型训练、推理效率,缓解(???)了算力需求 ?
24
25. Outline
一、语言模型
二、Transformer
三、ChatGPT
四、DeepSeek
五、新一代智能体
25
26. 大型语言模型简史
2017
JUN
2018 2018 2019 2019
JUN OCT FEB OCT
2020 2021 2022
MAY SEP MAR
2022
NOV
2023 2023
FEB MAR
2024 2024
MAR APR
2024
DEC
2025
JAN
1958
GPT
T5
FLAN
BERT
GPT-3.5
InstrutGPT
GPT-2
Transformers
LLaMA
GPT-3
LLaMA-3.1
405B OpenAI-o1
GPT-4
GPT-4o
ChatGPT
OpenAI-o3
DeepSeek-V3
DeepSeek-R1
GPT-3:语言模型的转折点
• 大语言模型:1750亿参数
• 涌现能力 :随着模型规模增大而出现的新能力
• 生成/创造:Artificial Intelligence (人工 => 艺术)
26
27. 大型语言模型简史
2017
JUN
2018 2018 2019 2019
JUN OCT FEB OCT
2020 2021 2022
MAY SEP MAR
2022
NOV
2023 2023
FEB MAR
2024 2024
MAR APR
2024
DEC
2025
JAN
1958
GPT
T5
FLAN
BERT
GPT-3.5
InstrutGPT
GPT-2
Transformers
LLaMA
GPT-3
GPT-4
LLaMA-3.1
405B OpenAI-o1
GPT-4o
ChatGPT
OpenAI-o3
DeepSeek-V3
DeepSeek-R1
ChatGPT: 人工智能的IPHONE时刻
27
28. OpenAI技术白皮书
Large-scale language model pretraining
Training on code
GPT-3 Series
GPT-3 Initial
Codex Initial
Davinci
Instruction tuning
InstructGPT Initial
Code-davinci-001 Instruct-davinci-beta
Code-cushman-001 Text-davinci-001
LM + code training then instruction tuning
Code-davinci-002
GPT-3.5 Series
RLHF
Text-davinci-002
Text-davinci-003
RLHF
ChatGPT
28
29. GPT3 Initial
Training on code
Large-scale language model pretraining
GPT-3
Initial
GPT-3
Initial
Davinci
Instruction tuning
Codex Initial
InstructGPT Initial
GPT-3
Series
初代
GPT-3
展示了三个重要能力(来自于大规模的预训练)
Code-davinci-001
Instruct-davinci-beta
语言生成:来自语言建模的训练目标(说人话)
Code-cushman-001
Text-davinci-001
世界知识:来自 3000 亿单词的训练语料库(百晓生)
上下文学习:上下文学习可以泛化,仍然难以溯源(触类旁通)
LM + code training then instruction tuning
初代 GPT-3 表面看起来很弱,但有非常强的潜力,展示出极为强大的“涌现”能力
Code-davinci-002
GPT-3.5 Series
RLHF
Text-davinci-002
Text-davinci-003
RLHF
ChatGPT
29
30. Codex + Instruct
Large-scale language model pretraining
Training on code
GPT-3 Series
GPT-3 Initial
Codex Initial
Initial
Codex
Code-davinci-001
Davinci
Instruction tuning
InstructGPT Initial
Initial
InstructGPT
Instruct-davinci-beta
2020 - 2021 Code-cushman-001
年,OpenAI 投入了大量的精力通过代码训练和指令微调来
Text-davinci-001
增强 GPT-3。
LM + code training then instruction tuning
使用思维链进行复杂推理的能力很可能是代码训练的一个神奇副产物
使用指令微调将 GPT-3.5 的分化到不同的技能树(数学家/程序员/…)
Code-davinci-002
GPT-3.5 Series
RLHF
Text-davinci-002
Text-davinci-003
RLHF
ChatGPT
30
31. GPT3.5
Large-scale language model pretraining
Training on code
GPT-3 Series
GPT-3 Initial
Codex Initial
Code-davinci-001
Davinci
Instruction tuning
InstructGPT Initial
Instruct-davinci-beta
Code-cushman-001
Text-davinci-001
1)指令微调不会为模型注入新的能力(解锁能力)
2)指令微调牺牲性能换取与人类对齐(“对齐税”)
LM + code training then instruction tuning
Code-davinci-002
Code-davinci-002
GPT-3.5 Series
RLHF
Text-davinci-002
Text-davinci-003
RLHF
ChatGPT
31
32. ChatGPT (技术到产品)
Large-scale language model pretraining
Training on code
GPT-3 Series
GPT-3 Initial
2022.11
Davinci
Codex Initial
Instruction tuning
InstructGPT Initial
RLHF (基于人类反馈的强化学习的指令微调)触发的能力:
Code-davinci-001
Instruct-davinci-beta
Code-cushman-001
翔实的回应
公正的回应
拒绝不当问题
Text-davinci-001
LM + code training then instruction tuning
Code-davinci-002
拒绝其知识范围之外的问题
GPT-3.5 Series
RLHF
RLHF
Text-davinci-002
Text-davinci-003
RLHF
RLHF
ChatGPT
32
33. 大型语言模型简史
2017
JUN
2018 2018 2019 2019
JUN OCT FEB OCT
2020 2021 2022
MAY SEP MAR
2022
NOV
2023 2023
FEB MAR
2024 2024
MAR APR
2024
DEC
2025
JAN
1958
GPT
T5
FLAN
BERT
GPT-3.5
InstrutGPT
GPT-2
Transformers
LLaMA
GPT-3
LLaMA-3.1
405B OpenAI-o1
GPT-4
GPT-4o
OpenAI-o3
DeepSeek-V3
ChatGPT
DeepSeek-R1
多模态模型:连接文本、图像及其他
• 开源:Meta的LLaMA系列(普惠学术领域)
• GPT-4v: 视觉遇见语言(跨模态)
• GPT-4o: 全模态前沿(交互能力)
33
34. GPT-4v( 听、说
看 )
2023.06
GPT-4可提供多模态能力
zero-shot及few-shot的能力
GPT-4逻辑推理能力的飞跃
GPT-4的安全性已经大幅提升
更强的专属能力(如编程)
处理其它语言的能力
处理更长序列的能力
34
35. GPT-4o (文科博士生)
2024.06
多模态输入输出(交互能力)
响应速度(接近人类响应)
数学推理、编程等能力提升
非英文文本性能大幅提升
视觉和音频理解能力
成本优势
35
36. GPT-o1 (理科博士生)
2024.09
推理能力大幅提升:数学和编程能力爆表
更像人类一样思考:全新安全训练方法 & 更强的“越狱”抵抗力
36
37. Outline
一、语言模型
二、Transformer
三、ChatGPT
四、DeepSeek
五、新一代智能体
37
38. 大型语言模型简史
2017
JUN
2018 2018 2019 2019
JUN OCT FEB OCT
2020 2021 2022
MAY SEP MAR
2022
NOV
2023 2023
FEB MAR
2024 2024
MAR APR
2024
DEC
2025
JAN
1958
GPT
T5
FLAN
BERT
GPT-3.5
InstrutGPT
GPT-2
Transformers
LLaMA
GPT-3
GPT-4
LLaMA-3.1
405B OpenAI-o1
GPT-4o
ChatGPT
OpenAI-o3
DeepSeek-V3
DeepSeek-R1
推理模型:从「生成」到「推理」的重心转变
• OpenAI-o1/o3:推理能力的一大飞跃
• DeepSeek-V3/R1: 专家模型、强化学习,开源,效率
38
39. DeepSeek-V3
Base
(671B/37B激活)
DeepSeek 技术全景图
DeepSeek
阶段1: 有监督微调
SFT
Step 1: DeepSeek-V3
Base 基础生成模型
Step 2: DeepSeek-R1-Zero 推理模型初试
Step 3: DeepSeek-R1 推理横型大成
Step 4: DeepSeek-R1-Distill R1蒸馏小模型
冷启动阶段
(DeepSeek-R1-Zero生
成
少量推理数据)
基于规则奖励的
大规模强化学习
强化学习 GRPO
(规则奖励)
+语言一致性奖励
阶段2:基于规则
奖励的强化学习
阶段2的模型生成
推理SFT数据
DeepSeek-V3
SFT数据
Qwen2.5-14B
Qwen2.5-32B
Llama3.3-70B-
Instruct
……
(Transformer-based),其对算法、模型和系统等进
Llama3.1-
8B
SFT (2
epochs)
行的系统级协同工程创新,打破了大语言模型以大算力
COT
Prompting
非推理数据
(20w样本)
推理数据
(60w样本)
DeepSeek模型并非是颠覆性基础理论创新
DeepSeek-V3
Base
(671B/37B激活)
数据合并
(80w样本)
为核心的预期天花板,为受限资源下探索通用人工智能
阶段3:SFT
(2 epcohs)
阶段4:全场景
强化学习
开辟了新的道路。
DeepSeek-R1-
Zero
DeepSeek-R1-
Distill
模型蒸馏
(Distillation)
DeepSeek-R1
39
40. DeepSeek 技术揭秘
DeepSeek
动态路由机制和专家共享机制
Step 1: DeepSeek-V3 Base 基础生成模型
Step 2: DeepSeek-R1-Zero 推理模型初试
Step 3: DeepSeek-R1 推理横型大成
Step 4: DeepSeek-R1-Distill R1蒸馏小模型
DS-V3对标GPT-4o(文科博士生):
混合专家模型:V3基座模型总共有6710亿参数,但是每次
token仅激活8个专家、370亿参数(~5.5%)。
极致的工程优化:多头潜在注意力机制(MLA),使用FP8混合精
度,DualPipe算法提升训练效率,将训练效率优化到极致,显
存占用为其他模型的5%-13% 。
40
41. DeepSeek 技术揭秘
DeepSeek
Step 1: DeepSeek-V3
Base 基础生成模型
Step 2: DeepSeek-R1-Zero 推理模型初试
Step 3: DeepSeek-R1 推理横型大成
Step 4: DeepSeek-R1-Distill R1蒸馏小模型
SFT
通过标注将知识显示化
人工标注
RLHF
引入人类偏好数据
奖励模型
赋予DeepSeek-V3最基础的推理能力:
R1-Zero使用DeepSeek-V3-Base作为基础模型 , 直接使 用
GRPO 进 行 强 化 学 习 来 提 升 模 型 的 推 理性能:
准确度奖励(Accuracy rewards)
格式奖励( Format rewards )
0 或 1
GRPO
将知识抽象为奖励规则 奖励规则
数据驱动 + 知识引导
41
42. DeepSeek-V3
Base
(671B/37B激活)
DeepSeek 技术揭秘
DeepSeek
Step 1: DeepSeek-V3
Base
Step 2: DeepSeek-R1-
Zero
阶段1: 有监督微调
SFT
基础生成模型
推理模型初试
Step 3: DeepSeek-R1 推理横型大成
Step 4: DeepSeek-R1-Distill R1蒸馏小模型
冷启动阶段
(DeepSeek-R1-Zero生
成
少量推理数据)
基于规则奖励的
大规模强化学习
强化学习 GRPO
(规则奖励)
阶段2:基于规则
奖励的强化学习
+语言一致性奖励
阶段2:模型生成
推理SFT数据
DeepSeek-V3
Base
(671B/37B激活)
DeepSeek-V3
SFT数据
COT
Prompting
非推理数据
(20w样本)
推理数据
(60w样本)
DS-R1对标OpenAI-o1(理科博士生):
Qwen2.5-14B
Qwen2.5-32B
Llama3.3-70B-
Instruct
阶段1:DeepSeek-R1-Zero生成少量推理数据 + SFT => 为
……
V3植入初步推理能力(冷启动)
Llama3.1-
8B
SFT (2
epochs)
数据合并
(80w样本)
阶段2:根据规则奖励直接进行强化学习(GRPO)训练=>
提升推理能力(多轮迭代,获取大量推理数据)
阶段3:SFT
(2 epcohs)
阶段4:全场
景强化学习
阶段3:迭代生成推理/非推理样本微调 => 增强全场景能力
阶段4:全场景强化学习 => 人类偏好对齐 (RLHF)
DeepSeek-R1-
Zero
DeepSeek-R1-
Distill
模型蒸馏
(Distillation)
DeepSeek-R1
42
43. DeepSeek 技术揭秘
DeepSeek
Step 1: DeepSeek-V3
Base
Step 2: DeepSeek-R1-
Zero
基础生成模型
推理模型初试
Step 3: DeepSeek-R1 推理横型大成
Step 4: DeepSeek-R1-Distill R1蒸馏小模型
DeepSeek-R1-Distill模型:
(1)基于各个低参数量通用模型(千问、Llama等)
(2)使用DeepSeek-R1同款数据微调
(3)大幅提升低参数量模型性能
知识蒸馏:
• 老师教学生: “解题思路” ,不仅给答案(硬标签),还教“为什么”(软标签)
• 模型瘦身:大幅压缩参数(如671亿→7亿参数),手机也能跑AI
43
44. DeepSeek 带来的全栈影响
大模型应用层
垂直
应用
通用类
教育
医疗
客服服务
(智能客服)
法律
OA类
(WIKI等)
制造
……
运营工具
(产品、渠道)
数据经营分析
GPT Agent
(基于Prompt的应用,AutoGPT,AgentGPT等)
大模型应用开发框架
(Langchain)
大模型中间层
大模型精调
训练数据
管理与生成
GPT4(公有云)
基础模型层
LLMA(开源)
Stable Diffusion
精调pipeline
基础架构及
模型部署
基础模型应用支持
微调
插件
嵌入
44
45. Outline
一、语言模型
二、Transformer
三、ChatGPT
四、DeepSeek
五、新一代智能体
45
46. 从 LLM 到 Agent
通用LLM 垂类LLM 基于LLM的Agent
ChatGPT (2022) Code Llama (2023) HuggingGPT (2023)
LLaMA (2023) MathGLM (2023) AutoGPT (2023)
Vicuna (2023) LawBench (2023) JARVIS (2024)
01
02
03
04
05
06
07
技术架构 大模型开发工具 垂类应用 Agent开发平台
Transformer (2017)
Bert/GPT (2018) LangChain (2022) LLM VSCode (2023)
DB GPT-Hub (2023) GPTs (2023)
LlamaIndex (2023)
Kore.ai (2023)
Uchat (2024)
Coze (2024)
Agent Builder (2024)
Agent OS (2024)
Deepseek
46
47. 生成大模型「系统1」到推理大模型「系统2」
GPT-4v/4o
DeepSeek-V3
GPT-o1/o3
DeepSeek-R
「系统1」(快速、直觉)和「系统2」(缓慢、分析)
SAVING TAX DOLLARS; SAVING LIVES: USING NUDGE THEORY TO ELIMINATE OUTDATED EMERGENCY LOCATOR
47
48. 新一代智能体 = Agent + LLM
LLM是Agent的大脑,其核心能力是“逻辑推理” 「系统2」
Planning Skills: 对问题进行拆解得到解决路径,既进行任务规划
Tool Use: 评估自己所需的工具,进行工具选择,并生成调用工具请求
Memory: 短期记忆包括工具返回值,已完成推理路径;长期记忆包括可访问的外部长期存储等
Short-term
memory
Calendar()
Memor
y
Calculator()
CodeInterpreter()
Search()
...more
Long-term
memory
Tools
LLMs
Action
Reflection
Plannin
g
Self-critics
Chain of thoughts
Subgoal
decomposition
Lilian Yung, Director of Applied Research at OpenAI
48
49. 时空智能的自主化服务 (国自然基金重大课题)
基础地理信息知识
空间规划
感知
模型
多传感器对地观测
土地利用规划
功能区规划
...
黄河干
流和主
要支流
最大
行洪
范围
算法模型
淹没分析
流域分析
...
记忆
认知
模型
土地利用分类
工具
时空型GPT
规划
执行
表达
模型
耕地保护方案
由“时空型GPT”作为决策大脑驱动,构成一个闭环多智能体协同系统
实现流程自组织、任务自执行、内容自生成,即时空智能的自主化构建
49
50. THANKS
感 谢 观 看
勤 学 / 修 德 / 明 辨 / 笃 实