深度解读DeepSeek:原理与效应

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
相关话题: #DeepSeek
1. 天津大学自然语言处理实验室 The Natural Language Processing Laboratory at Tianjin University 深度解读DeepSeek:原理与效应 熊德意 天津大学 dyxiong@tju.edu.cn https://dyxiong.github.io https://tjunlp-lab.github.io 伏羲传语
2. 报告目录 01 大语言模型发展路线图 02 DeepSeek V2-V3/R1技术原理 03 DeepSeek效应 04 未来展望
3. 生成式AI:2014 —— 2024 ENIAC 图灵测试 达特茅斯会议 1945 1950 1956 ELIZA AI寒冬I 专家系统 AI寒冬II 统计方法 NN再兴起 1966 1974-1980 1980-1987 1987-1990s 1990-2000s 2006- AGI … ASI 2014 2024 生成式AI Attention 2014 Transformer 2017 Scaling Laws | GPT-3 2020 生成式AI:使用生成式模型生成各类数据(语言、语音、图片、视频等) o Attention:数据依存关系建模 o Transformer:数据生成的统一架构 o Scaling Laws:数据学习、生成的扩展法则 o RLHF:生成与人类价值对齐的数据 o o1/R1:生成式求解问题——生成问题求解的过程和答案(推理) RLHF | ChatGPT 2022 o1/R1 2024
4. 生成式AI:2014 —— 2024 ENIAC 图灵测试 达特茅斯会议 1945 1950 1956 ELIZA AI寒冬I 专家系统 AI寒冬II 统计方法 NN再兴起 1966 1974-1980 1980-1987 1987-1990s 1990-2000s 2006- AGI … ASI 2014 2024 生成式AI Attention 2014 Transformer 2017 Scaling Laws | GPT-3 2020 生成式AI:使用生成式模型生成各类数据(语言、语音、图片、视频等) o Attention:数据依存关系建模 o Transformer:数据生成的统一架构 o Scaling Laws:数据学习、生成的扩展法则 o RLHF:生成与人类价值对齐的数据 o o1/R1:生成式求解问题——生成复杂问题的答案(推理) RLHF | ChatGPT 2022 o1/R1 2024
5. 生成式AI:2014 —— 2024 ENIAC 图灵测试 达特茅斯会议 1945 1950 1956 ELIZA AI寒冬I 专家系统 AI寒冬II 统计方法 NN再兴起 1966 1974-1980 1980-1987 1987-1990s 1990-2000s 2006- AGI … ASI 2014 2024 生成式AI Attention 2014 Transformer 2017 Scaling Laws | GPT-3 2020 生成式AI:使用生成式模型生成各类数据(语言、语音、图片、视频等) o Attention:数据依存关系建模 o Transformer:数据生成的统一架构 o Scaling Laws:数据学习、生成的扩展法则 o RLHF:生成与人类价值对齐的数据 o o1/R1:生成式求解问题——生成复杂问题的答案(推理) RLHF | ChatGPT 2022 o1/R1 2024
6. 生成式AI:2014 —— 2024 ENIAC 图灵测试 达特茅斯会议 1945 1950 1956 ELIZA AI寒冬I 专家系统 AI寒冬II 统计方法 NN再兴起 1966 1974-1980 1980-1987 1987-1990s 1990-2000s 2006- AGI … ASI 2014 2024 生成式AI Attention 2014 Transformer 2017 Scaling Laws | GPT-3 2020 生成式AI:使用生成式模型生成各类数据(语言、语音、图片、视频等) o Attention:数据依存关系建模 o Transformer:数据生成的统一架构 o Scaling Laws:数据学习、生成的扩展法则 o RLHF:生成与人类价值对齐的数据 o o1/R1:生成式求解问题——生成复杂问题的答案(推理) RLHF | ChatGPT 2022 o1/R1 2024
7. 生成式AI:2014 —— 2024 ENIAC 图灵测试 达特茅斯会议 1945 1950 1956 ELIZA AI寒冬I 专家系统 AI寒冬II 统计方法 NN再兴起 1966 1974-1980 1980-1987 1987-1990s 1990-2000s 2006- AGI … ASI 2014 2024 生成式AI Attention 2014 Transformer 2017 Scaling Laws | GPT-3 2020 生成式AI:使用生成式模型生成各类数据(语言、语音、图片、视频等) o Attention:数据依存关系建模 o Transformer:数据生成的统一架构 o Scaling Laws:数据学习、生成的扩展法则 o RLHF:生成与人类价值对齐的数据 o o1/R1:生成式求解问题——生成复杂问题的答案(推理) RLHF | ChatGPT 2022 o1/R1 2024
8. 自然语言处理与语言模型 自然语言处理:人类语言的智能化 处理与分析,使计算机具备听、说、 读、写、译等人所具备的语言能力 语言模型:自然语言统计建模,简 单说,就是预测句子中的下一个单 词是什么
9. 大语言模型:2018 —— 2024 Zhao et al. A Survey of Large Language Models. arXiv:2303.18223
10. 大语言模型:技术栈 应用层 自主规划 A p p licatio n 工具调用 信息检索 智能客服 通用模型 行业模型 行业模型 行业数据 Sp ecialized M o d el 领域微调训练 行业对齐数据 行业模型部署 领域对齐训练 模型训练 通用模型 G en eral-p u rp o se M o d el 预训练 对齐训练 D at a Par allel SFT 模型部署 R LH F Ten so r Par allel Pip elin e Par allel D PO Best o f N sam p lin g Seq u en ce Par allel 算子优化 ZeRO 模型量化 模型蒸馏 Flash At t en t io n 模型剪枝 性能监控 预训练数据 数据处理和管理 算力管理 Co m p u tin g M an ag em en t 代码 对齐训练数据 评测数据 处理流程 D ata Pro cessin g an d M an ag em en t 书籍 行业模型评测 模型评测 动态批处理 Exp er t Par allel 数据分类 网页 代码生成 图文创作 论文 百科 语言检测 数据去重 质量筛选 内容过滤 领域分类 版本控制 硬件 Pr o m p t R esp o n ses A > C > B > D 知识能力 安全可信 价值对齐 专业领域 软件 H 100 M I350 910B 资源分配 负载均衡 弹性扩展 A1 0 0 M I300 910A 任务调度 性能监控 容错机制 本报告来源于三个皮匠报告站(www.sgpjbg.com),由用户Id:107695下载,文档Id:604088,下载日期:2025-02-10
11. 大语言模型:生命周期与范式 数据处理 预训练 后训练 ▪ 数据治理 ▪ 数据要素 ▪ 知识源头 ▪ 基座模型 ▪ 自监督学习 ▪ 能力涌现 ▪ 对齐模型 ▪ 微调&强化 ▪ 安全可信 o 训练范式 应用部署 ▪ 红队测试 ▪ 商业落地 ▪ 模型压缩 o 关键 • 预训练 —— 基座模型 • 模型架构 • 后训练 —— 对齐模型 • 训练算法 • 推理训练 —— 推理模型 • 扩展法则 杀手锏:性能/成本 曲线 | 性价比
12. 扩展法则 Sasha Rush and Daniel Ritter. Speculations on Test-Time Scaling. 2024
13. 大语言模型:后训练范式 成本较低 大部分实验室可做 成本高昂(上千万) 少数企业/实验室可做
14. 推理语言模型? MCTS 过程奖励模型PRM Sasha Rush and Daniel Ritter. Speculations on Test-Time Scaling. 2024
15. 报告目录 01 大语言模型发展路线图 02 DeepSeek V2-V3/R1技术原理 03 DeepSeek效应 04 未来展望
16. DeepSeek:2023 —— 2023.11 DeepSeek V1 2024.11 DeepSeek R1-Lite 2024.5 DeepSeek V2 2025.01 DeepSeek R1 2024.12 DeepSeek V3 天边的两多云(国内外现状) o 模型架构:大部分企业采用已验证架构(试错成本高昂)【不敢】 o 推理模型:大部分实验室仍在苦苦猜测摸索Q*/o1(OpenAI保密)【不知】
17. DeepSeek:技术创新——模型架构 | V2 DeepSeek V2主要创新 o DeepSeekMoE o MLA DeepSeekMoE o 稀疏激活:计算不随规模呈线性增长 o 相比传统MoE:细粒度专家(共享+路由) o 路由&通信改造: ▪ Device-Limited Routing ▪ Auxiliary Loss for Load Balance ▪ Token-Dropping Strategy MLA:低秩压缩,降低KV cache占用空间 V2规模:236B total parameters, 21B activated parameters, 128K context window
18. DeepSeek:技术创新——模型架构 | V2 训练开销 存储开销 生成速度 杀手锏:性能/成本 曲线 | 性价比
19. DeepSeek:技术创新——模型架构 | V3 DeepSeek V3主要创新 o Infrastructures o Multi-Token Prediction (MTP) Infrastructures o o o o 减少流水线气泡 高效节点间All-to-All通信 FP8训练 低精度存储与通信 MTP:一次预测多个topken V3规模:671B total parameters, 37B activated parameters, trained on 14.8T tokens
20. DeepSeek:技术创新——模型架构 | V3 杀手锏:性能/成本 曲线 | 性价比
21. DeepSeek:技术创新——模型架构 | V3成本 During the pre-training state, training DeepSeek-V3 on each trillion tokens requires only 180K H800 GPU hours, i.e., 3.7 days on our own cluster with 2048 H800 GPUs. Consequently, our pre-training stage is completed in less than two months and costs 2664K GPU hours. 大规模高性能加速器 (折旧) 大模型研发人员成本 大模型研发成本 大模型架构技术探索成本 大模型数据成本 成本 大模型最终训练成本 大模型部署推理成本 杀手锏:性能/成本 曲线 | 性价比
22. DeepSeek:技术创新——创新程度 DeepSeek V2-V3及R1在模型架构上选择稀疏MoE模型而非稠密模型,并进行和积 累了大量技术创新,包括MLA、FP8训练、MoE All-to-All通信瓶颈解决、MTP等, 这些技术并不是所有都是原始创新,但是能够进行如此多大模型架构底层创新的实 验室,在全世界可能也只有少数几个; DeepSeek所有模型架构上的创新均是围绕“降本增效”:在基本不损害性能前提 下,尽可能通过算法挖掘和提升硬件训练和解码效率 美国采取芯片禁令(全球三级管控)策略维持自己的AI领导地位,DeepSeek算法 绕过了美国的算力护城河
23. DeepSeek:技术创新——推理模型 | R1 DeepSeek R1主要创新 o DeepSeek-R1-Zero:大规模RL训练,发现了RL训练的Scaling Laws,RL训练涌现“aha”时刻 o 推理模型训练技术框架:4步法,有效解决了R1-Zero存在问题,将推理与对齐合为一体 o 强化学习训练框架:GRPO,来自DeepSeekMath,降低了强化学习训练成本 o 推理模型蒸馏:将大模型推理能力蒸馏到小模型,优于小模型直接进行推理训练(规模效应) 为什么MCTS+PRM是“误区” o The bitter lesson: scalability o OpenAI竞争策略
24. DeepSeek:技术创新——推理模型 | R1-Zero 1. 强化学习训练规模大 业内通常训练几十RL steps,DeepSeek训练几千RL steps Tülu 3 最大发布模型只训练了~50 RL steps 2. RL Training Scaling Law:涌现reflection、aha 自动涌现出搜索、反思、顿悟、纠错 与testing-time scaling law一致,可从性能增长曲线和长 度增长曲线推出推理时scaling law 3. 通过prompt策略引导模型思考和给出答案,避免基座 模型不能生成停止符 使用标记<think></think><answer></answer> R1-Zero存在问题:poor readability, language mixing https://www.interconnects.ai/p/deepseek-r1-recipe-for-o1
25. DeepSeek:技术创新——推理模型 | R1 Recipe Step 2. Reasoning-oriented RL Step 3 Reasoning Data Math, Code, Logic 类似训练R1-Zero (600K samples) 直至训练收敛 Step 1. Reasoning SFT Cold Start DeepSeek-V3-base SFT Checkpoint RL-tuned Model Step 3. Rejection Sampling SFT ¾ reasoning data(600K) ¼ general instruction data (200K) 大规模强 化学习 DeepSeek-R1-Zero 中间推理模型 Step 3 Instruction Data Writing, QA, trans, etc. (200K samples) Reasoning Data 长CoT数据 Step 0. Generating Long CoT data Few-shot ICL + 人工后期refining General-Purpose Model DeepSeek-R1 Step 4. General RL Reasoning RL with rule-based rewards RLHF Preference Tuning with safety rewards o DeepSeek-R1 不是唯一的推理模型框架,2025年将出现更多新的框架 o 要复现上述框架,需要DeepSeek开源相关数据
26. DeepSeek:技术创新——推理模型 | RL 1. 强化学习框架GRPO (DeepSeekMath) 采用蒙特卡洛采用估算以取代Value模型,降低 计算和存储开销 2. 强化学习奖励模型 o 采用easily verifiable rewards • Accuracy reward • Format reward • Language-consistency reward o 避免过程奖励模型:计算复杂,容易reward hacking
27. DeepSeek:技术创新——推理模型 | 推理能力蒸馏 Qwen2.5-Math-1.5B, Qwen2.5-Math-7B, Qwen2.5- 14B, Qwen2.5- 32B, Llama-3.1-8B, and Llama-3.3-70B-Instruct SFT Step 3 Reasoning Data Math, Code, Logic (600K samples) Step 3 Instruction Data Writing, QA, trans, etc. (200K samples) 推理模型蒸馏到小模型 o reasoning能力可以蒸馏到小模型 o 大模型蒸馏到小模型优于小模型直接通过大规模RL训练 o 再次验证了模型规模在AGI发展中的重要性 o 推理者同样需要规模支撑 DeepSeek-R1-Distill-Qwen2.5 DeepSeek-R1-Distill-Llama
28. DeepSeek:技术创新——推理模型 | R1 杀手锏:性能/成本 曲线 | 性价比
29. DeepSeek:技术创新——推理模型 | R1 TJUNLP实测DeepSeek-R1逻辑推理性能
30. DeepSeek:技术创新——创新程度 DeepSeek R1是在探明方向(OpenAI o1引领和证实的方向)上进行0-1的创新突 破,独立探索出基于大规模强化学习的大语言模型推理技术路线,避开了过去一年 多(自OpenAI的Q*在社交媒体讨论)业内广泛思索的通过在训练中进行显式搜索、 过程奖励模型(即Search+PRM)实现推理的“误区”; 贡献: o 独立探索出推理技术路线 o 将技术路线公开发布(解惑了业内的“不知”) o 模型开源(MIT License) DeepSeek R1打破了美国第一梯队企业以闭源形成的技术护城河,进一步动摇 了美国的“AI Dominance”
31. 报告目录 01 大语言模型发展路线图 02 DeepSeek V2-V3/R1技术原理 03 DeepSeek效应 04 未来展望
32. DeepSeek:效应 算力价格战 开源 vs 闭源 认知误区 创新&人才&Vision
33. DeepSeek:效应——算力价格战 产品:性价比永远是王道 技术也是如此 数百亿美元构建的前沿技术护城河一夜间被攻破
34. DeepSeek:效应——开源 vs 闭源 GPT-3选择闭源之后,大模型开源 vs 闭源之争、之战一直存在 DeepSeek R1的开源发布,一举赶超闭源大模型,是大模型开源史上的里程碑 美国AI第一梯队企业的前沿技术封闭被打破 开源 vs 闭源不仅涉及技术的公开性,也关乎AI安全治理
35. DeepSeek:效应——认知误区 如果ChatGPT刷新了我们对AI的认知,那么DeepSeek在某种程度上颠覆了: o 美国人对中国AI水平的认知:长久以来,美国认为中国在AI科技创新上更多是跟随者角色 o 大模型研发成本的认知:大模型研发成本需要数千万乃至上亿美元
36. DeepSeek:效应——创新&人才&Vision 技术型人才: 大 模 型 顶 尖 人 才 锐意进行大模型底层技术创 新和冒险(第一类人才) 战略型人才: 具有AGI技术远见和vision (第二类人才) o 第一类人才自我驱动性很强,技术 敏感,不需要设定过多的条条框框, 只需要给定方向,最大限度激发创 新潜能 o 突破:通常要打破学科思维定势, 或者是本学科还没有形成思维定势 的青年人才,或者与其他学科交叉 o 技术型人才可成长为战略型人才, 始终对新事物保持敏锐,能长远思 考,具备远大梦想 《关于Sora、国内大模型及通用人工智能趋势》 《认识大模型》(载于学习时报)
37. DeepSeek:效应——创新&人才&Vision DeepSeek V3和R1的创新,从技术上看,是在探明方向上的较大创新,相比别人同期做的1-100要 更创新,笔者将其定义为探明技术方向上的0-1创新(独立探索出技术路线),但不是颠覆了原有技 术框架或者开辟了新的方向。探明方向上的0-1创新,如果有足够多的第一类人才,加上足够多的算 力和高超的人才管理,是可以实现的,DeepSeek的成功正是得益于此; 技术方向已经被探明了的“追赶”相对容易,难的是在前面面向未知开路,即在未探明方向、未有概 念上进行0到1创新、或者进行概念形成和验证,这方面的创新是要更多胆量、更多vision、更多不 计成本投入才能做到的,同时需要第二类人才与第一类人才紧密合作,形成双反馈; 来实现AGI可能还需要3-5个在未探明方向上进行0-1的创新突破;我国如果要在2030年实现 “人工 智能理论、技术与应用总体达到世界领先水平”,需要更多企业、高校、研究机构开展探明方向和未 探明方向上的0-1创新;
38. 报告目录 01 大语言模型发展路线图 02 DeepSeek V2-V3/R1技术原理 03 DeepSeek效应 04 未来展望
39. 未来… 未来AGI/ASI可能还需要3-5个重大 breakthroughs 2014-2024重要突破: 1. Attention 2. Transformer 3. Scaling Law 4. RLHF 5. o1/R1 个人预测:技术角度看, 人类所有职业实现AI自 动化需要30年
40. AGI Path 当下 1-5年 5-10年 10-20 年 推理者 智能体 创新者 组织者 现阶段正在突破技 现阶段应用和待突 第二个重大突破技 第三个重大突破技 术,路线图逐渐明 破技术,处于通用 术,处于0-1的概念 术,处于0-1的概念 确,可提出新的技 型0-1前半段,垂类 完善阶段,自动化 形成阶段,AI自组 术路线。 的1-100阶段。 科学研究/技术创新、 织、自管理、自推 科学idea发现、科 进,为人类或团体 学难题求解、AI 安排事项、管理科 Scientist。 学、社会等重要领 域。 可解释性与安全 极具挑战,需要多个重大突破,目前处于0-1阶段。
41. 科学(研究/发现)范式 第2范式:理论科学 第4范式:数据驱动科学 大数据 数据建模、分析、挖掘 2022年 理论 模型 牛顿 定律、 电动力 学方程 等 195 0年 第1范式:经验科学 第3范式:计算科学 观察现象 数值计算 经验 模拟 1600年 2010年 第5范式:智能驱动科学 大模型、智能体 自动化科学研究 2023年
42. DeepSeek R2 → Deep Science OpenAI RL Finetuning? o R1训练速度非常快,3min/step o DeepSeek具有快速迭代推理大模型的优势 o R2可能很快发布 o R1主要聚焦于数学、代码、逻辑推理,要使大 模型真正达到通用Reasoner、问题求解器,需 要进行更多领域RL训练 科研人员机会:AI reasoning + research Nathan Lambert. How to approach post-training for AI applications. 2024.12
43. AI Safety Shi et al., 2024. Large Language Model Safety: A Holistic Survey https://arxiv.org/pdf/2412.17686 TJUNLP实测DeepSeek-R1自主AI安全 现阶段DeepSeek R1注重推理能力的提升,某种程度上,模型安全性有所降低,但模型安全和推 理并不冲突,大模型安全需要推理能力加持,R1推理能力可以应用于大模型安全并加强之 推理+安全:创新解决方案(需要突破)?
44. 感谢 TJUNLP 大模型基准测试

Home - Wiki
Copyright © 2011-2025 iteam. Current version is 2.142.0. UTC+08:00, 2025-02-19 14:08
浙ICP备14020137号-1 $Map of visitor$