深度解读DeepSeek:原理与效应
如果无法正常显示,请先停止浏览器的去广告插件。
相关话题:
#DeepSeek
1. 天津大学自然语言处理实验室
The Natural Language Processing Laboratory at Tianjin University
深度解读DeepSeek:原理与效应
熊德意 天津大学
dyxiong@tju.edu.cn
https://dyxiong.github.io
https://tjunlp-lab.github.io
伏羲传语
2. 报告目录
01 大语言模型发展路线图
02 DeepSeek V2-V3/R1技术原理
03 DeepSeek效应
04 未来展望
3. 生成式AI:2014 —— 2024
ENIAC 图灵测试 达特茅斯会议
1945
1950
1956
ELIZA
AI寒冬I
专家系统
AI寒冬II
统计方法 NN再兴起
1966 1974-1980 1980-1987 1987-1990s 1990-2000s 2006-
AGI … ASI
2014
2024
生成式AI
Attention
2014
Transformer
2017
Scaling Laws | GPT-3
2020
生成式AI:使用生成式模型生成各类数据(语言、语音、图片、视频等)
o Attention:数据依存关系建模
o Transformer:数据生成的统一架构
o Scaling Laws:数据学习、生成的扩展法则
o RLHF:生成与人类价值对齐的数据
o o1/R1:生成式求解问题——生成问题求解的过程和答案(推理)
RLHF | ChatGPT
2022
o1/R1
2024
4. 生成式AI:2014 —— 2024
ENIAC 图灵测试 达特茅斯会议
1945
1950
1956
ELIZA
AI寒冬I
专家系统
AI寒冬II
统计方法 NN再兴起
1966 1974-1980 1980-1987 1987-1990s 1990-2000s 2006-
AGI … ASI
2014
2024
生成式AI
Attention
2014
Transformer
2017
Scaling Laws | GPT-3
2020
生成式AI:使用生成式模型生成各类数据(语言、语音、图片、视频等)
o Attention:数据依存关系建模
o Transformer:数据生成的统一架构
o Scaling Laws:数据学习、生成的扩展法则
o RLHF:生成与人类价值对齐的数据
o o1/R1:生成式求解问题——生成复杂问题的答案(推理)
RLHF | ChatGPT
2022
o1/R1
2024
5. 生成式AI:2014 —— 2024
ENIAC 图灵测试 达特茅斯会议
1945
1950
1956
ELIZA
AI寒冬I
专家系统
AI寒冬II
统计方法 NN再兴起
1966 1974-1980 1980-1987 1987-1990s 1990-2000s 2006-
AGI … ASI
2014
2024
生成式AI
Attention
2014
Transformer
2017
Scaling Laws | GPT-3
2020
生成式AI:使用生成式模型生成各类数据(语言、语音、图片、视频等)
o Attention:数据依存关系建模
o Transformer:数据生成的统一架构
o Scaling Laws:数据学习、生成的扩展法则
o RLHF:生成与人类价值对齐的数据
o o1/R1:生成式求解问题——生成复杂问题的答案(推理)
RLHF | ChatGPT
2022
o1/R1
2024
6. 生成式AI:2014 —— 2024
ENIAC 图灵测试 达特茅斯会议
1945
1950
1956
ELIZA
AI寒冬I
专家系统
AI寒冬II
统计方法 NN再兴起
1966 1974-1980 1980-1987 1987-1990s 1990-2000s 2006-
AGI … ASI
2014
2024
生成式AI
Attention
2014
Transformer
2017
Scaling Laws | GPT-3
2020
生成式AI:使用生成式模型生成各类数据(语言、语音、图片、视频等)
o Attention:数据依存关系建模
o Transformer:数据生成的统一架构
o Scaling Laws:数据学习、生成的扩展法则
o RLHF:生成与人类价值对齐的数据
o o1/R1:生成式求解问题——生成复杂问题的答案(推理)
RLHF | ChatGPT
2022
o1/R1
2024
7. 生成式AI:2014 —— 2024
ENIAC 图灵测试 达特茅斯会议
1945
1950
1956
ELIZA
AI寒冬I
专家系统
AI寒冬II
统计方法 NN再兴起
1966 1974-1980 1980-1987 1987-1990s 1990-2000s 2006-
AGI … ASI
2014
2024
生成式AI
Attention
2014
Transformer
2017
Scaling Laws | GPT-3
2020
生成式AI:使用生成式模型生成各类数据(语言、语音、图片、视频等)
o Attention:数据依存关系建模
o Transformer:数据生成的统一架构
o Scaling Laws:数据学习、生成的扩展法则
o RLHF:生成与人类价值对齐的数据
o o1/R1:生成式求解问题——生成复杂问题的答案(推理)
RLHF | ChatGPT
2022
o1/R1
2024
8. 自然语言处理与语言模型
自然语言处理:人类语言的智能化
处理与分析,使计算机具备听、说、
读、写、译等人所具备的语言能力
语言模型:自然语言统计建模,简
单说,就是预测句子中的下一个单
词是什么
9. 大语言模型:2018 —— 2024
Zhao et al. A Survey of Large Language Models. arXiv:2303.18223
10. 大语言模型:技术栈
应用层
自主规划
A p p licatio n
工具调用
信息检索
智能客服
通用模型
行业模型
行业模型
行业数据
Sp ecialized M o d el
领域微调训练
行业对齐数据
行业模型部署
领域对齐训练
模型训练
通用模型
G en eral-p u rp o se
M o d el
预训练
对齐训练
D at a Par allel
SFT
模型部署
R LH F
Ten so r Par allel
Pip elin e Par allel
D PO
Best o f N sam p lin g
Seq u en ce Par allel
算子优化
ZeRO 模型量化 模型蒸馏
Flash At t en t io n 模型剪枝 性能监控
预训练数据
数据处理和管理
算力管理
Co m p u tin g
M an ag em en t
代码
对齐训练数据
评测数据
处理流程
D ata Pro cessin g
an d M an ag em en t
书籍
行业模型评测
模型评测
动态批处理
Exp er t Par allel
数据分类
网页
代码生成
图文创作
论文
百科
语言检测 数据去重 质量筛选
内容过滤 领域分类 版本控制
硬件
Pr o m p t
R esp o n ses
A > C > B > D
知识能力 安全可信
价值对齐 专业领域
软件
H 100 M I350 910B 资源分配 负载均衡 弹性扩展
A1 0 0 M I300 910A 任务调度 性能监控 容错机制
本报告来源于三个皮匠报告站(www.sgpjbg.com),由用户Id:107695下载,文档Id:604088,下载日期:2025-02-10
11. 大语言模型:生命周期与范式
数据处理 预训练 后训练
▪ 数据治理
▪ 数据要素
▪ 知识源头 ▪ 基座模型
▪ 自监督学习
▪ 能力涌现 ▪ 对齐模型
▪ 微调&强化
▪ 安全可信
o 训练范式
应用部署
▪ 红队测试
▪ 商业落地
▪ 模型压缩
o 关键
• 预训练 —— 基座模型 • 模型架构
• 后训练 —— 对齐模型 • 训练算法
• 推理训练 —— 推理模型 • 扩展法则
杀手锏:性能/成本 曲线 | 性价比
12. 扩展法则
Sasha Rush and Daniel Ritter. Speculations on Test-Time Scaling. 2024
13. 大语言模型:后训练范式
成本较低
大部分实验室可做
成本高昂(上千万)
少数企业/实验室可做
14. 推理语言模型?
MCTS
过程奖励模型PRM
Sasha Rush and Daniel Ritter. Speculations on Test-Time Scaling. 2024
15. 报告目录
01 大语言模型发展路线图
02 DeepSeek V2-V3/R1技术原理
03 DeepSeek效应
04 未来展望
16. DeepSeek:2023 ——
2023.11
DeepSeek V1
2024.11
DeepSeek R1-Lite
2024.5
DeepSeek V2
2025.01
DeepSeek R1
2024.12
DeepSeek V3
天边的两多云(国内外现状)
o 模型架构:大部分企业采用已验证架构(试错成本高昂)【不敢】
o 推理模型:大部分实验室仍在苦苦猜测摸索Q*/o1(OpenAI保密)【不知】
17. DeepSeek:技术创新——模型架构 | V2
DeepSeek V2主要创新
o DeepSeekMoE
o MLA
DeepSeekMoE
o 稀疏激活:计算不随规模呈线性增长
o 相比传统MoE:细粒度专家(共享+路由)
o 路由&通信改造:
▪ Device-Limited Routing
▪ Auxiliary Loss for Load Balance
▪ Token-Dropping Strategy
MLA:低秩压缩,降低KV cache占用空间
V2规模:236B total parameters, 21B activated parameters, 128K context window
18. DeepSeek:技术创新——模型架构 | V2
训练开销
存储开销
生成速度
杀手锏:性能/成本 曲线 | 性价比
19. DeepSeek:技术创新——模型架构 | V3
DeepSeek V3主要创新
o Infrastructures
o Multi-Token Prediction (MTP)
Infrastructures
o
o
o
o
减少流水线气泡
高效节点间All-to-All通信
FP8训练
低精度存储与通信
MTP:一次预测多个topken
V3规模:671B total parameters, 37B activated parameters, trained on 14.8T tokens
20. DeepSeek:技术创新——模型架构 | V3
杀手锏:性能/成本 曲线 | 性价比
21. DeepSeek:技术创新——模型架构 | V3成本
During the pre-training state, training DeepSeek-V3 on each trillion tokens requires only 180K H800 GPU hours,
i.e., 3.7 days on our own cluster with 2048 H800 GPUs. Consequently, our pre-training stage is completed in less
than two months and costs 2664K GPU hours.
大规模高性能加速器
(折旧)
大模型研发人员成本
大模型研发成本
大模型架构技术探索成本
大模型数据成本
成本
大模型最终训练成本
大模型部署推理成本
杀手锏:性能/成本 曲线 | 性价比
22. DeepSeek:技术创新——创新程度
DeepSeek V2-V3及R1在模型架构上选择稀疏MoE模型而非稠密模型,并进行和积
累了大量技术创新,包括MLA、FP8训练、MoE All-to-All通信瓶颈解决、MTP等,
这些技术并不是所有都是原始创新,但是能够进行如此多大模型架构底层创新的实
验室,在全世界可能也只有少数几个;
DeepSeek所有模型架构上的创新均是围绕“降本增效”:在基本不损害性能前提
下,尽可能通过算法挖掘和提升硬件训练和解码效率
美国采取芯片禁令(全球三级管控)策略维持自己的AI领导地位,DeepSeek算法
绕过了美国的算力护城河
23. DeepSeek:技术创新——推理模型 | R1
DeepSeek R1主要创新
o DeepSeek-R1-Zero:大规模RL训练,发现了RL训练的Scaling Laws,RL训练涌现“aha”时刻
o 推理模型训练技术框架:4步法,有效解决了R1-Zero存在问题,将推理与对齐合为一体
o 强化学习训练框架:GRPO,来自DeepSeekMath,降低了强化学习训练成本
o 推理模型蒸馏:将大模型推理能力蒸馏到小模型,优于小模型直接进行推理训练(规模效应)
为什么MCTS+PRM是“误区”
o The bitter lesson: scalability
o OpenAI竞争策略
24. DeepSeek:技术创新——推理模型 | R1-Zero
1. 强化学习训练规模大
业内通常训练几十RL steps,DeepSeek训练几千RL steps
Tülu 3 最大发布模型只训练了~50 RL steps
2. RL Training Scaling Law:涌现reflection、aha
自动涌现出搜索、反思、顿悟、纠错
与testing-time scaling law一致,可从性能增长曲线和长
度增长曲线推出推理时scaling law
3. 通过prompt策略引导模型思考和给出答案,避免基座
模型不能生成停止符
使用标记<think></think><answer></answer>
R1-Zero存在问题:poor readability, language mixing
https://www.interconnects.ai/p/deepseek-r1-recipe-for-o1
25. DeepSeek:技术创新——推理模型 | R1 Recipe
Step 2. Reasoning-oriented RL Step 3 Reasoning Data
Math, Code, Logic
类似训练R1-Zero
(600K samples)
直至训练收敛
Step 1. Reasoning SFT
Cold Start
DeepSeek-V3-base
SFT Checkpoint
RL-tuned Model
Step 3. Rejection Sampling SFT
¾ reasoning data(600K)
¼ general instruction data (200K)
大规模强
化学习
DeepSeek-R1-Zero
中间推理模型
Step 3 Instruction Data
Writing, QA, trans, etc.
(200K samples)
Reasoning Data
长CoT数据
Step 0. Generating Long CoT data
Few-shot ICL + 人工后期refining
General-Purpose Model
DeepSeek-R1
Step 4. General RL
Reasoning RL with rule-based rewards
RLHF Preference Tuning with safety rewards
o DeepSeek-R1 不是唯一的推理模型框架,2025年将出现更多新的框架
o 要复现上述框架,需要DeepSeek开源相关数据
26. DeepSeek:技术创新——推理模型 | RL
1. 强化学习框架GRPO (DeepSeekMath)
采用蒙特卡洛采用估算以取代Value模型,降低
计算和存储开销
2. 强化学习奖励模型
o 采用easily verifiable rewards
• Accuracy reward
• Format reward
• Language-consistency reward
o 避免过程奖励模型:计算复杂,容易reward hacking
27. DeepSeek:技术创新——推理模型 | 推理能力蒸馏
Qwen2.5-Math-1.5B,
Qwen2.5-Math-7B,
Qwen2.5- 14B, Qwen2.5-
32B, Llama-3.1-8B, and
Llama-3.3-70B-Instruct
SFT
Step 3 Reasoning Data
Math, Code, Logic
(600K samples)
Step 3 Instruction Data
Writing, QA, trans, etc.
(200K samples)
推理模型蒸馏到小模型
o reasoning能力可以蒸馏到小模型
o 大模型蒸馏到小模型优于小模型直接通过大规模RL训练
o 再次验证了模型规模在AGI发展中的重要性
o 推理者同样需要规模支撑
DeepSeek-R1-Distill-Qwen2.5
DeepSeek-R1-Distill-Llama
28. DeepSeek:技术创新——推理模型 | R1
杀手锏:性能/成本 曲线 | 性价比
29. DeepSeek:技术创新——推理模型 | R1
TJUNLP实测DeepSeek-R1逻辑推理性能
30. DeepSeek:技术创新——创新程度
DeepSeek R1是在探明方向(OpenAI o1引领和证实的方向)上进行0-1的创新突
破,独立探索出基于大规模强化学习的大语言模型推理技术路线,避开了过去一年
多(自OpenAI的Q*在社交媒体讨论)业内广泛思索的通过在训练中进行显式搜索、
过程奖励模型(即Search+PRM)实现推理的“误区”;
贡献:
o 独立探索出推理技术路线
o 将技术路线公开发布(解惑了业内的“不知”)
o 模型开源(MIT License)
DeepSeek R1打破了美国第一梯队企业以闭源形成的技术护城河,进一步动摇
了美国的“AI Dominance”
31. 报告目录
01 大语言模型发展路线图
02 DeepSeek V2-V3/R1技术原理
03 DeepSeek效应
04 未来展望
32. DeepSeek:效应
算力价格战 开源 vs 闭源
认知误区 创新&人才&Vision
33. DeepSeek:效应——算力价格战
产品:性价比永远是王道
技术也是如此
数百亿美元构建的前沿技术护城河一夜间被攻破
34. DeepSeek:效应——开源 vs 闭源
GPT-3选择闭源之后,大模型开源 vs 闭源之争、之战一直存在
DeepSeek R1的开源发布,一举赶超闭源大模型,是大模型开源史上的里程碑
美国AI第一梯队企业的前沿技术封闭被打破
开源 vs 闭源不仅涉及技术的公开性,也关乎AI安全治理
35. DeepSeek:效应——认知误区
如果ChatGPT刷新了我们对AI的认知,那么DeepSeek在某种程度上颠覆了:
o 美国人对中国AI水平的认知:长久以来,美国认为中国在AI科技创新上更多是跟随者角色
o 大模型研发成本的认知:大模型研发成本需要数千万乃至上亿美元
36. DeepSeek:效应——创新&人才&Vision
技术型人才:
大
模
型
顶
尖
人
才
锐意进行大模型底层技术创
新和冒险(第一类人才)
战略型人才:
具有AGI技术远见和vision
(第二类人才)
o 第一类人才自我驱动性很强,技术
敏感,不需要设定过多的条条框框,
只需要给定方向,最大限度激发创
新潜能
o 突破:通常要打破学科思维定势,
或者是本学科还没有形成思维定势
的青年人才,或者与其他学科交叉
o 技术型人才可成长为战略型人才,
始终对新事物保持敏锐,能长远思
考,具备远大梦想
《关于Sora、国内大模型及通用人工智能趋势》 《认识大模型》(载于学习时报)
37. DeepSeek:效应——创新&人才&Vision
DeepSeek V3和R1的创新,从技术上看,是在探明方向上的较大创新,相比别人同期做的1-100要
更创新,笔者将其定义为探明技术方向上的0-1创新(独立探索出技术路线),但不是颠覆了原有技
术框架或者开辟了新的方向。探明方向上的0-1创新,如果有足够多的第一类人才,加上足够多的算
力和高超的人才管理,是可以实现的,DeepSeek的成功正是得益于此;
技术方向已经被探明了的“追赶”相对容易,难的是在前面面向未知开路,即在未探明方向、未有概
念上进行0到1创新、或者进行概念形成和验证,这方面的创新是要更多胆量、更多vision、更多不
计成本投入才能做到的,同时需要第二类人才与第一类人才紧密合作,形成双反馈;
来实现AGI可能还需要3-5个在未探明方向上进行0-1的创新突破;我国如果要在2030年实现 “人工
智能理论、技术与应用总体达到世界领先水平”,需要更多企业、高校、研究机构开展探明方向和未
探明方向上的0-1创新;
38. 报告目录
01 大语言模型发展路线图
02 DeepSeek V2-V3/R1技术原理
03 DeepSeek效应
04 未来展望
39. 未来…
未来AGI/ASI可能还需要3-5个重大
breakthroughs
2014-2024重要突破:
1. Attention
2. Transformer
3. Scaling Law
4. RLHF
5. o1/R1
个人预测:技术角度看,
人类所有职业实现AI自
动化需要30年
40. AGI Path
当下 1-5年 5-10年 10-20 年
推理者 智能体 创新者 组织者
现阶段正在突破技 现阶段应用和待突 第二个重大突破技 第三个重大突破技
术,路线图逐渐明 破技术,处于通用 术,处于0-1的概念 术,处于0-1的概念
确,可提出新的技 型0-1前半段,垂类 完善阶段,自动化 形成阶段,AI自组
术路线。 的1-100阶段。 科学研究/技术创新、 织、自管理、自推
科学idea发现、科 进,为人类或团体
学难题求解、AI 安排事项、管理科
Scientist。 学、社会等重要领
域。
可解释性与安全
极具挑战,需要多个重大突破,目前处于0-1阶段。
41. 科学(研究/发现)范式
第2范式:理论科学
第4范式:数据驱动科学
大数据
数据建模、分析、挖掘
2022年
理论 模型
牛顿 定律、 电动力 学方程
等
195 0年
第1范式:经验科学 第3范式:计算科学
观察现象 数值计算
经验 模拟
1600年 2010年
第5范式:智能驱动科学
大模型、智能体
自动化科学研究
2023年
42. DeepSeek R2 → Deep Science
OpenAI RL Finetuning?
o R1训练速度非常快,3min/step
o DeepSeek具有快速迭代推理大模型的优势
o R2可能很快发布
o R1主要聚焦于数学、代码、逻辑推理,要使大
模型真正达到通用Reasoner、问题求解器,需
要进行更多领域RL训练
科研人员机会:AI reasoning + research
Nathan Lambert. How to approach post-training for AI applications. 2024.12
43. AI Safety
Shi et al., 2024. Large Language Model Safety: A Holistic Survey
https://arxiv.org/pdf/2412.17686
TJUNLP实测DeepSeek-R1自主AI安全
现阶段DeepSeek R1注重推理能力的提升,某种程度上,模型安全性有所降低,但模型安全和推
理并不冲突,大模型安全需要推理能力加持,R1推理能力可以应用于大模型安全并加强之
推理+安全:创新解决方案(需要突破)?
44. 感谢
TJUNLP
大模型基准测试