DeepSeek技术溯源及前沿探索

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
相关话题: #DeepSeek #浙江大学
1. 浙江大学DS系列专题 DeepSeek技术溯源及前沿探索 主讲人:朱强 浙江大学计算机科学与技术学院 人工智能省部共建协同创新中心(浙江大学) https://person.zju.edu.cn/zhuq 1
2. Outline 一、语言模型 二、Transformer 三、ChatGPT 四、DeepSeek 五、新一代智能体 2
3. 语言模型:终极目标 Language Modeling 对于任意的词序列,计算出这个序列是一句话的概率 我们每天都和语言模型打交道: I saw a cat I saw a cat on the chair I saw a ca car I saw a cat running after a dog I saw a cat in my dream 3
4. 语言模型:基本任务 编码:让计算机理解人类语言 She 1 0 0 0 is 0 1 0 0 my 0 0 1 0 mom 0 0 0 1 只有一个1,其余均为0 One-hot Encoding有什么缺点吗? One-hot Encoding 4
5. 编码:让计算机理解人类语言 Word Embedding 用一个低维的词向量表示一个词 能使距离相近的向量对应的物体有相近的含义 飞翔 游泳 鲸鱼 0.99 0.99 0.05 0.1 … 海豚 0.99 0.05 0.93 0.09 … 鹦鹉 0.02 0.01 0.99 0.98 … 企鹅 0.98 0.02 0.94 0.3 … 20维的向量用one-hot和word embedding的方法分别可以表示多少单词? 5
6. 编码:让计算机理解人类语言 Word Embedding A bottle of tezgüino is on the table. 结合句子语境我们可以猜测: Everyone likes tezgüino. tezgüino是一种由玉米制作的酒精类饮料 Tezgüino makes you drunk. We make tezgüino out of corn. (1) A bottle of _____ is on the table. (2) Everyone likes _____. (3) _____ makes you drunk. (4) We make _____ out of corn. (1) (2) (3) (4) tezgüino 1 1 1 1 motor oil 1 0 0 0 tortillas 0 1 0 1 wine 1 1 1 0 两行内容十分相近 两个单词含义相近 6
7. 语言模型:技术演化 基于统计的N-gram ( 1970 after) Transformer (2017 after) Before:P(小) · P (猫|小) · P (抓|小猫) · P (老|小猫抓) · P (鼠|小 猫抓老) 2-gram:P(小) · P (猫|小) · P (抓|猫) · P (老|抓) · P (鼠|老) 3-gram:P(小) · P (猫|小) · P (抓|小猫) · P (老|猫抓) · P (鼠|抓老) 基于神经网络的LSTM/GRU (2000 after) 7
8. Encoder-Decoder 常见的深度学习模型框架,可用于解决 Seq2Seq 问题 I am pretty smart! Encoder 隐 空 间 Decoder Representation 我很聪明! 可以根据任务选择不同的编码器和解码器(LSTM/GRU/Transformer) 8
9. Outline 一、语言模型 二、Transformer 三、ChatGPT 四、DeepSeek 五、新一代智能体 9
10. 大型语言模型简史 2017 JUN 2018 2018 2019 2019 JUN OCT FEB OCT 2020 2021 2022 MAY SEP MAR 2022 NOV 2023 2023 FEB MAR 2024 2024 MAR APR 2024 DEC 2025 JAN 1958 GPT T5 FLAN BERT GPT-3.5 InstrutGPT GPT-2 Transformer LLaMA GPT-3 GPT-4 ChatGPT LLaMA-3.1 405B OpenAI-o1 GPT-4o OpenAI-o3 DeepSeek-V3 DeepSeek-R1 Transformer:理论架构创新 • 自注意力机制:支持并行计算/全局上下文的理解能力 • 多头注意力:从多个角度捕捉复杂的语义关系 • 前馈网络/位置编码/层归一化:解决了传统模型的诸多局限性 https://blog.csdn.net/cf2SudS8x8F0v/article/details/145695146 10
11. Transformer : 大模型的技术基座 Decoder Attention Is All You Need Encoder NIPS 2017,引用量15万+ 引入全新注意力机制,改变了深度学习模型的处理方式 11
12. Transformer :( 自)注意力机制 在理解语言任务时,Attention 机制本质上是捕捉单词间的关系 1 2 中国 南北 饮食文化 存在差异 ,豆花有 南甜北咸 之分。南方人 一般 喜欢 吃 甜豆花 She is eating a green apple. 3 The animal didn't cross the street because it was too tired/wide 12
13. Transformer :( 自)注意力机制 在理解图像任务时,Attention机制本质上是一种图像特征抽取 Image Sketch Gradient 13
14. Transformer : 训练机制 场景:你在图书馆想找一本关于“机器学习基础”的书 Query: 描述要找的 书(精准的需求描述) Key: 书的索引编号 (高效的书籍定位) Value: 内容的抽取 ( 由目标任务驱动) https://newsletter.theaiedge.io/p/the-multi-head-attention-mechanism 14
15. 大型语言模型简史 2017 JUN 2018 2018 2019 2019 JUN OCT FEB OCT 2020 2021 2022 MAY SEP MAR 2022 NOV 2023 2023 FEB MAR 2024 2024 MAR APR 2024 DEC 2025 JAN 1958 GPT T5 FLAN BERT GPT-3.5 InstrutGPT GPT-2 Transformers LLaMA GPT-3 LLaMA-3.1 405B OpenAI-o1 GPT-4 GPT-4o OpenAI-o3 DeepSeek-V3 ChatGPT DeepSeek-R1 预训练时代:大力出奇迹(“暴力美学”) • BERT:Bidirectional Encoder Representations Transformers • GPT: Generative Pertained Transformer • 自监督算法:MLM/NTP/MAE解决海量数据标注问题 15
16. The LLM Era – Paradigm Shift in Machine Learning BERT Oct 2018 Representatio n GPT Jun 2018 Generation 16
17. The LLM Era – Paradigm Shift in Machine Learning BERT – 2018 DistilBERT – 2019 RoBERTa – 2019 ALBERT – 2019 ELECTRA – 2020 Representatio DeBERTa – 2020 n … T5 – 2019 BART – 2019 mT5 – 2021 … GPT – 2018 GPT-2 – 2019 GPT-3 – 2020 GPT-Neo – 2021 GPT-3.5 (ChatGPT) – 2022 LLaMA – 2023 GPT-4 – 2023 … Generation 17
18. 自监督学习(语言) Masked Langauge Modeling(MLM) 模型会不断地在句子中‘挖去’一个单词,根 据剩下单词的上下文来填空,即预测最合适的‘填空词’出现的概率,这一过程为‘自监督学习’ 原话: 一辆 列车 缓慢 行驶 在 崎岖 的 山路上 移除单词: 一辆 列车 行驶 在 崎岖 的 山路上 预测填空: 一辆 列车 缓慢 行驶 在 崎岖 的 山路上 18
19. 自监督学习(图像) Masked AutoEncoders(MAE) 通过随机遮盖部分输入数据(如图像)并重建 缺失内容,让模型从上下文中学到图像的深层特征,常用于计算机视觉任务。 遮盖图像 https://arxiv.org/pdf/2111.06377 重建图像 19
20. 训练 transformer 的通用之力 数据是燃料、模型是引擎、算力是加速器 Word2vec 词向量    MCP神经元 Perceptron DNN 神经网络早期 前向神经网络 引入 Self-attention   RNN LSTM seq2seq序列学习 循环神经网络 Self-supervised Prompt Fine-tune Transformer 语言大模型 LLM 单词之间关联关系 人类反馈 强化学习 (InstructGPT) ChatGPT CodeX(CoT, 120亿参数)  数据:训练中使用了45TB数据、近 1 万亿个单词(约1351万本牛津词典所包含单词数量)以及数十亿行源代码。  模型:包含了1750亿参数,将这些参数全部打印在A4纸张上,一张一张叠加后,叠加高度将超过上海中心大厦632米高度。  算力: ChatGPT的训练门槛是1万张英伟达V100芯片、约10亿人民币。  大数据、大模型、大算力下以“共生则关联”原则实现了统计关联关系的挖掘。 20
21. 大模型脉络 大语言模型 (LLM) Large Language Model BERT系列 Google Bard 文心一言 GPT系列 3.5/4 GPT-4o Deepseek-v3 GPT-o1/o3 Deepseek-R1 DALLE·3 in ChatGPT DDPM 大模型 Large Model 多模态大模型(LMM) Large Multimodal Model Sora SAM 科学计算模型 Science Model 机理 技术 产品 Midjourney 交互式Demo Alpha系列 AlphaGo 围棋 PanguLM 气象大模型 AlphaStar 魔兽争霸 AlphaFold 蛋白质预测 药物分子预测 21
22. 群雄(中美)争霸 A Survey on Large Language Models with some Insights on their Capabilities and Limitations OpenAI最新15页报告: DeepSeek缩小中美AI差距 22
23. 闭源 vs 开源 微软 亚马逊 国际企业 谷歌 META Mistral AI 阿里 中国企业 华为 腾讯 百度 投资OpenAI的GPT-4.0系列 闭源 自研开源小模型Phi-3 Mini 开源 自研Titan系列 闭源 投资Anthropic的Claude 3.5系列 闭源 Gemini系列 闭源 Gemma系列 开源 Llama3系列 开源 Mistral-Large 闭源 Mistral-Medium 开源 通义千问2.5系列基础模型、行业模型 开源 Qwen 0.5b-110b系列开源模型 开源 盘古系列 闭源 混元基础模型、行业模型 闭源 混元开源模型 开源 文心一言4.0模型 闭源 DeepSeek以一己之力改变了开源和闭源的力量对比:从6~12个月的代差缩短到1~3个月 23
24. 摩尔定律(大模型时代) 12层,每层12个注意头 GPT-2做了以下改进: GPT-3做了以下优化: ChatGPT基于GPT-3.5: 1. 增 加 到 4 8 层 , 使 用 1600维向量进行词嵌入; 2. 将 层 归 一 化 移 动 到 每 个子块的输入,并在最终 的自注意块后增加一层归 一化; 3. 修改初始化的残差 层 权 重 , 缩 放 为 原 来 的 1/ �,其中,�是残差层的 数量; 4. 特征向量维数从768扩 展到1600,词表扩大到 50257。 1. 增加到96层,每层有 96个注意头; 2. 单词嵌入大小从1600 增加到12888; 3. 上 下 文 窗 口 大 小 从 GPT-2 的1024增加到 2048,并采用交替密度 和局部带状稀疏注意模式。 1. ChatGPT使用来自人 类反馈的强化学习进行训 练; 2. 通过近端策略优化算 法进行微调,为信任域策 略优化算法带来成本效益。 模型 发布时间 参数量 预训练数据量 GPT-1 2018年6月 1.17亿 约5GB GPT-2 2019年2月 15亿 40G GPT-3 2020年5月 1750亿 45TB ChatGPT 2022年11月 千亿级? 百T级? DeepSeek通过大幅提升模型训练、推理效率,缓解(???)了算力需求 ? 24
25. Outline 一、语言模型 二、Transformer 三、ChatGPT 四、DeepSeek 五、新一代智能体 25
26. 大型语言模型简史 2017 JUN 2018 2018 2019 2019 JUN OCT FEB OCT 2020 2021 2022 MAY SEP MAR 2022 NOV 2023 2023 FEB MAR 2024 2024 MAR APR 2024 DEC 2025 JAN 1958 GPT T5 FLAN BERT GPT-3.5 InstrutGPT GPT-2 Transformers LLaMA GPT-3 LLaMA-3.1 405B OpenAI-o1 GPT-4 GPT-4o ChatGPT OpenAI-o3 DeepSeek-V3 DeepSeek-R1 GPT-3:语言模型的转折点 • 大语言模型:1750亿参数 • 涌现能力 :随着模型规模增大而出现的新能力 • 生成/创造:Artificial Intelligence (人工 => 艺术) 26
27. 大型语言模型简史 2017 JUN 2018 2018 2019 2019 JUN OCT FEB OCT 2020 2021 2022 MAY SEP MAR 2022 NOV 2023 2023 FEB MAR 2024 2024 MAR APR 2024 DEC 2025 JAN 1958 GPT T5 FLAN BERT GPT-3.5 InstrutGPT GPT-2 Transformers LLaMA GPT-3 GPT-4 LLaMA-3.1 405B OpenAI-o1 GPT-4o ChatGPT OpenAI-o3 DeepSeek-V3 DeepSeek-R1 ChatGPT: 人工智能的IPHONE时刻 27
28. OpenAI技术白皮书 Large-scale language model pretraining Training on code GPT-3 Series GPT-3 Initial Codex Initial Davinci Instruction tuning InstructGPT Initial Code-davinci-001 Instruct-davinci-beta Code-cushman-001 Text-davinci-001 LM + code training then instruction tuning Code-davinci-002 GPT-3.5 Series RLHF Text-davinci-002 Text-davinci-003 RLHF ChatGPT 28
29. GPT3 Initial Training on code Large-scale language model pretraining GPT-3 Initial GPT-3 Initial Davinci Instruction tuning Codex Initial InstructGPT Initial GPT-3 Series 初代 GPT-3 展示了三个重要能力(来自于大规模的预训练) Code-davinci-001    Instruct-davinci-beta 语言生成:来自语言建模的训练目标(说人话) Code-cushman-001 Text-davinci-001 世界知识:来自 3000 亿单词的训练语料库(百晓生) 上下文学习:上下文学习可以泛化,仍然难以溯源(触类旁通) LM + code training then instruction tuning 初代 GPT-3 表面看起来很弱,但有非常强的潜力,展示出极为强大的“涌现”能力 Code-davinci-002 GPT-3.5 Series RLHF Text-davinci-002 Text-davinci-003 RLHF ChatGPT 29
30. Codex + Instruct Large-scale language model pretraining Training on code GPT-3 Series GPT-3 Initial Codex Initial Initial Codex Code-davinci-001 Davinci Instruction tuning InstructGPT Initial Initial InstructGPT Instruct-davinci-beta 2020 - 2021 Code-cushman-001 年,OpenAI 投入了大量的精力通过代码训练和指令微调来 Text-davinci-001 增强 GPT-3。 LM + code training then instruction tuning 使用思维链进行复杂推理的能力很可能是代码训练的一个神奇副产物 使用指令微调将 GPT-3.5 的分化到不同的技能树(数学家/程序员/…) Code-davinci-002 GPT-3.5 Series RLHF Text-davinci-002 Text-davinci-003 RLHF ChatGPT 30
31. GPT3.5 Large-scale language model pretraining Training on code GPT-3 Series GPT-3 Initial Codex Initial Code-davinci-001 Davinci Instruction tuning InstructGPT Initial Instruct-davinci-beta Code-cushman-001 Text-davinci-001 1)指令微调不会为模型注入新的能力(解锁能力) 2)指令微调牺牲性能换取与人类对齐(“对齐税”) LM + code training then instruction tuning Code-davinci-002 Code-davinci-002 GPT-3.5 Series RLHF Text-davinci-002 Text-davinci-003 RLHF ChatGPT 31
32. ChatGPT (技术到产品) Large-scale language model pretraining Training on code GPT-3 Series GPT-3 Initial 2022.11 Davinci Codex Initial Instruction tuning InstructGPT Initial RLHF (基于人类反馈的强化学习的指令微调)触发的能力: Code-davinci-001 Instruct-davinci-beta  Code-cushman-001 翔实的回应  公正的回应  拒绝不当问题  Text-davinci-001 LM + code training then instruction tuning Code-davinci-002 拒绝其知识范围之外的问题 GPT-3.5 Series RLHF RLHF Text-davinci-002 Text-davinci-003 RLHF RLHF ChatGPT 32
33. 大型语言模型简史 2017 JUN 2018 2018 2019 2019 JUN OCT FEB OCT 2020 2021 2022 MAY SEP MAR 2022 NOV 2023 2023 FEB MAR 2024 2024 MAR APR 2024 DEC 2025 JAN 1958 GPT T5 FLAN BERT GPT-3.5 InstrutGPT GPT-2 Transformers LLaMA GPT-3 LLaMA-3.1 405B OpenAI-o1 GPT-4 GPT-4o OpenAI-o3 DeepSeek-V3 ChatGPT DeepSeek-R1 多模态模型:连接文本、图像及其他 • 开源:Meta的LLaMA系列(普惠学术领域) • GPT-4v: 视觉遇见语言(跨模态) • GPT-4o: 全模态前沿(交互能力) 33
34. GPT-4v( 听、说 看 ) 2023.06  GPT-4可提供多模态能力  zero-shot及few-shot的能力  GPT-4逻辑推理能力的飞跃  GPT-4的安全性已经大幅提升  更强的专属能力(如编程)  处理其它语言的能力  处理更长序列的能力 34
35. GPT-4o (文科博士生) 2024.06  多模态输入输出(交互能力)  响应速度(接近人类响应)  数学推理、编程等能力提升  非英文文本性能大幅提升  视觉和音频理解能力  成本优势 35
36. GPT-o1 (理科博士生) 2024.09  推理能力大幅提升:数学和编程能力爆表  更像人类一样思考:全新安全训练方法 & 更强的“越狱”抵抗力 36
37. Outline 一、语言模型 二、Transformer 三、ChatGPT 四、DeepSeek 五、新一代智能体 37
38. 大型语言模型简史 2017 JUN 2018 2018 2019 2019 JUN OCT FEB OCT 2020 2021 2022 MAY SEP MAR 2022 NOV 2023 2023 FEB MAR 2024 2024 MAR APR 2024 DEC 2025 JAN 1958 GPT T5 FLAN BERT GPT-3.5 InstrutGPT GPT-2 Transformers LLaMA GPT-3 GPT-4 LLaMA-3.1 405B OpenAI-o1 GPT-4o ChatGPT OpenAI-o3 DeepSeek-V3 DeepSeek-R1 推理模型:从「生成」到「推理」的重心转变 • OpenAI-o1/o3:推理能力的一大飞跃 • DeepSeek-V3/R1: 专家模型、强化学习,开源,效率 38
39. DeepSeek-V3 Base (671B/37B激活) DeepSeek 技术全景图 DeepSeek 阶段1: 有监督微调 SFT Step 1: DeepSeek-V3 Base 基础生成模型 Step 2: DeepSeek-R1-Zero 推理模型初试 Step 3: DeepSeek-R1 推理横型大成 Step 4: DeepSeek-R1-Distill R1蒸馏小模型 冷启动阶段 (DeepSeek-R1-Zero生 成 少量推理数据) 基于规则奖励的 大规模强化学习 强化学习 GRPO (规则奖励) +语言一致性奖励 阶段2:基于规则 奖励的强化学习 阶段2的模型生成 推理SFT数据 DeepSeek-V3 SFT数据 Qwen2.5-14B Qwen2.5-32B Llama3.3-70B- Instruct …… (Transformer-based),其对算法、模型和系统等进 Llama3.1- 8B SFT (2 epochs) 行的系统级协同工程创新,打破了大语言模型以大算力 COT Prompting 非推理数据 (20w样本) 推理数据 (60w样本) DeepSeek模型并非是颠覆性基础理论创新 DeepSeek-V3 Base (671B/37B激活) 数据合并 (80w样本) 为核心的预期天花板,为受限资源下探索通用人工智能 阶段3:SFT (2 epcohs) 阶段4:全场景 强化学习 开辟了新的道路。 DeepSeek-R1- Zero DeepSeek-R1- Distill 模型蒸馏 (Distillation) DeepSeek-R1 39
40. DeepSeek 技术揭秘 DeepSeek 动态路由机制和专家共享机制 Step 1: DeepSeek-V3 Base 基础生成模型 Step 2: DeepSeek-R1-Zero 推理模型初试 Step 3: DeepSeek-R1 推理横型大成 Step 4: DeepSeek-R1-Distill R1蒸馏小模型 DS-V3对标GPT-4o(文科博士生):  混合专家模型:V3基座模型总共有6710亿参数,但是每次 token仅激活8个专家、370亿参数(~5.5%)。  极致的工程优化:多头潜在注意力机制(MLA),使用FP8混合精 度,DualPipe算法提升训练效率,将训练效率优化到极致,显 存占用为其他模型的5%-13% 。 40
41. DeepSeek 技术揭秘 DeepSeek Step 1: DeepSeek-V3 Base 基础生成模型 Step 2: DeepSeek-R1-Zero 推理模型初试 Step 3: DeepSeek-R1 推理横型大成 Step 4: DeepSeek-R1-Distill R1蒸馏小模型 SFT 通过标注将知识显示化 人工标注 RLHF 引入人类偏好数据 奖励模型 赋予DeepSeek-V3最基础的推理能力: R1-Zero使用DeepSeek-V3-Base作为基础模型 , 直接使 用 GRPO 进 行 强 化 学 习 来 提 升 模 型 的 推 理性能:  准确度奖励(Accuracy rewards)  格式奖励( Format rewards ) 0 或 1 GRPO 将知识抽象为奖励规则 奖励规则 数据驱动 + 知识引导 41
42. DeepSeek-V3 Base (671B/37B激活) DeepSeek 技术揭秘 DeepSeek Step 1: DeepSeek-V3 Base Step 2: DeepSeek-R1- Zero 阶段1: 有监督微调 SFT 基础生成模型 推理模型初试 Step 3: DeepSeek-R1 推理横型大成 Step 4: DeepSeek-R1-Distill R1蒸馏小模型 冷启动阶段 (DeepSeek-R1-Zero生 成 少量推理数据) 基于规则奖励的 大规模强化学习 强化学习 GRPO (规则奖励) 阶段2:基于规则 奖励的强化学习 +语言一致性奖励 阶段2:模型生成 推理SFT数据 DeepSeek-V3 Base (671B/37B激活) DeepSeek-V3 SFT数据 COT Prompting 非推理数据 (20w样本) 推理数据 (60w样本) DS-R1对标OpenAI-o1(理科博士生): Qwen2.5-14B Qwen2.5-32B Llama3.3-70B- Instruct  阶段1:DeepSeek-R1-Zero生成少量推理数据 + SFT => 为 …… V3植入初步推理能力(冷启动) Llama3.1- 8B SFT (2 epochs) 数据合并 (80w样本)  阶段2:根据规则奖励直接进行强化学习(GRPO)训练=> 提升推理能力(多轮迭代,获取大量推理数据) 阶段3:SFT (2 epcohs) 阶段4:全场 景强化学习  阶段3:迭代生成推理/非推理样本微调 => 增强全场景能力  阶段4:全场景强化学习 => 人类偏好对齐 (RLHF) DeepSeek-R1- Zero DeepSeek-R1- Distill 模型蒸馏 (Distillation) DeepSeek-R1 42
43. DeepSeek 技术揭秘 DeepSeek Step 1: DeepSeek-V3 Base Step 2: DeepSeek-R1- Zero 基础生成模型 推理模型初试 Step 3: DeepSeek-R1 推理横型大成 Step 4: DeepSeek-R1-Distill R1蒸馏小模型 DeepSeek-R1-Distill模型: (1)基于各个低参数量通用模型(千问、Llama等) (2)使用DeepSeek-R1同款数据微调 (3)大幅提升低参数量模型性能 知识蒸馏: • 老师教学生: “解题思路” ,不仅给答案(硬标签),还教“为什么”(软标签) • 模型瘦身:大幅压缩参数(如671亿→7亿参数),手机也能跑AI 43
44. DeepSeek 带来的全栈影响 大模型应用层 垂直 应用 通用类 教育 医疗 客服服务 (智能客服) 法律 OA类 (WIKI等) 制造 …… 运营工具 (产品、渠道) 数据经营分析 GPT Agent (基于Prompt的应用,AutoGPT,AgentGPT等) 大模型应用开发框架 (Langchain) 大模型中间层 大模型精调 训练数据 管理与生成 GPT4(公有云) 基础模型层 LLMA(开源) Stable Diffusion 精调pipeline 基础架构及 模型部署 基础模型应用支持 微调 插件 嵌入 44
45. Outline 一、语言模型 二、Transformer 三、ChatGPT 四、DeepSeek 五、新一代智能体 45
46. 从 LLM 到 Agent 通用LLM 垂类LLM 基于LLM的Agent ChatGPT (2022) Code Llama (2023) HuggingGPT (2023) LLaMA (2023) MathGLM (2023) AutoGPT (2023) Vicuna (2023) LawBench (2023) JARVIS (2024) 01 02 03 04 05 06 07 技术架构 大模型开发工具 垂类应用 Agent开发平台 Transformer (2017) Bert/GPT (2018) LangChain (2022) LLM VSCode (2023) DB GPT-Hub (2023) GPTs (2023) LlamaIndex (2023) Kore.ai (2023) Uchat (2024) Coze (2024) Agent Builder (2024) Agent OS (2024) Deepseek 46
47. 生成大模型「系统1」到推理大模型「系统2」 GPT-4v/4o DeepSeek-V3 GPT-o1/o3 DeepSeek-R 「系统1」(快速、直觉)和「系统2」(缓慢、分析) SAVING TAX DOLLARS; SAVING LIVES: USING NUDGE THEORY TO ELIMINATE OUTDATED EMERGENCY LOCATOR 47
48. 新一代智能体 = Agent + LLM LLM是Agent的大脑,其核心能力是“逻辑推理” 「系统2」 Planning Skills: 对问题进行拆解得到解决路径,既进行任务规划 Tool Use: 评估自己所需的工具,进行工具选择,并生成调用工具请求 Memory: 短期记忆包括工具返回值,已完成推理路径;长期记忆包括可访问的外部长期存储等 Short-term memory Calendar() Memor y Calculator() CodeInterpreter() Search() ...more Long-term memory Tools LLMs Action Reflection Plannin g Self-critics Chain of thoughts Subgoal decomposition Lilian Yung, Director of Applied Research at OpenAI 48
49. 时空智能的自主化服务 (国自然基金重大课题) 基础地理信息知识 空间规划 感知 模型 多传感器对地观测 土地利用规划 功能区规划 ... 黄河干 流和主 要支流 最大 行洪 范围 算法模型 淹没分析 流域分析 ... 记忆 认知 模型 土地利用分类 工具 时空型GPT 规划 执行 表达 模型 耕地保护方案 由“时空型GPT”作为决策大脑驱动,构成一个闭环多智能体协同系统 实现流程自组织、任务自执行、内容自生成,即时空智能的自主化构建 49
50. THANKS 感 谢 观 看 勤 学 / 修 德 / 明 辨 / 笃 实

首页 - Wiki
Copyright © 2011-2025 iteam. Current version is 2.142.1. UTC+08:00, 2025-04-03 14:58
浙ICP备14020137号-1 $访客地图$