我们该如何看待DeepSeek——what, how, why, and next?

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
相关话题: #DeepSeek
1. 我们该如何看待DeepSeek ——what, how, why, and next? 陈果 湖南大学信息科学与工程学院教授 国家超级计算长沙中心常务副主任 声明:1. 仅代表个人观点,不代表任何机构立场;2. 面向不具备AI专业知识背景的群体,为保持易懂性简化了很多技术细节,且不求涵盖所有方面;3. 主要以R1模型视角讲解,其他模型在第三大块有简要介绍;4. 受个人研究领域及认知水平所限,难免有疏漏或偏颇之处,欢迎批评指正。
2. 提纲 ◼ What is it:DeepSeek是什么  从ChatGPT到DeepSeek-R1,TA到底厉害在哪里?  DeepSeek基本概念(用户角度) ◼ How to use it:我能用DeepSeek干什么  以小见大,掌握思维方法  正确理解,打开广阔天地 ◼ Why it works: DeepSeek背后的原理  Transformer——大模型基础  DeepSeek模型的发展历程 ◼ Next: 下一步要关注什么  生态的爆发就在眼前,整个链条上哪些方面值得关注 2
3. 提纲 ◼ What is it:DeepSeek是什么  从ChatGPT到DeepSeek-R1,TA到底厉害在哪里?  DeepSeek基本概念(用户角度) ◼ How to use it:我能用DeepSeek干什么  以小见大,掌握思维方法  正确理解,打开广阔天地 ◼ Why it works: DeepSeek背后的原理  Transformer——大模型基础  DeepSeek模型的发展历程 ◼ Next: 下一步要关注什么  生态的爆发就在眼前,整个链条上哪些方面值得关注 3
4. 从ChatGPT开始 4
5. 故事从ChatGPT说起 ◼ ChatGPT的诞生在全球范围内引爆人工智能(AI)  相当数量的人(圈内人、技术潮人为主)开始切身感受到AI带来的巨大冲击 2022年11月30日 OpenAI发布对话式AI模型ChatGPT https://www.thepaper.cn/newsDetail_forward_21909720 https://blog.csdn.net/qq_73332379/article/details/129861428 https://medium.com/@lmpo/大型语言模型简史-从transformer-2017到deepseek-r1-2025-cc54d658fb43 两个月 用户破亿 5
6. ChatGPT背后的方法 ◼ 生成式人工智能(AIGC)和大语言模型(LLM,也简称大模型) 生成式人工智能(AIGC) 支撑实现 大语言模型(LLM) 技术原理 Chat GPT Transformer 模型结构 用于聊天、对话 Pre-trained 预训练,模型的制造方法 Generative 生成式,模型的输出方式 6
7. ChatGPT真正做的事:文字接龙 7 https://speech.ee.ntu.edu.tw/~hylee/index.php
8. ChatGPT真正做的事:文字接龙 输出又送回输入, 不断迭代接龙 输出又送回输入, 不断迭代接龙 8 https://speech.ee.ntu.edu.tw/~hylee/index.php
9. ChatGPT真正做的事:文字接龙 9 https://speech.ee.ntu.edu.tw/~hylee/index.php
10. ChatGPT真正做的事:文字接龙 ◼ 这就是为啥LLM经常出现“幻觉” 10 https://speech.ee.ntu.edu.tw/~hylee/index.php
11. LLM怎么学习文字接龙? 11 https://speech.ee.ntu.edu.tw/~hylee/index.php
12. 人们开始相信AI会真正变革我们的生活 ◼ ChatGPT可以自然对话、精准问答,生成代码、邮件、论文、小说。。 。 • 用鲁迅口吻写篇“长沙春天”的散文 • 翻译 • 用C++写一段爬虫代码 • 写一篇信创产业的研究报告 • 心理咨询建议 • 代码阅读理解和DEBUG 12
13. 从ChatGPT到OpenAI O系列 13
14. 推理大模型开始走入视野:OpenAI o1 ◼ 2024年9月12日,OpenAI官方宣布了OpenAI o1推理大模型。 ◼ OpenAI宣称OpenAI o1大模型推理(Reasoning)能力相比较当前 的大语言模型(GPT-4o)有了大幅提升。由于OpenAI o1模型的训 练使用了一种新的AI训练方法,强调了“思维链”过程和强化学习的 重要性,最终导致它在数学逻辑和推理方面有了大幅提升,大家开始 称这里有思考过程的大模型为推理大模型。 14
15. 什么是推理模型 普通模型和推理模型的对比 https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-reasoning-llms 15
16. 什么是推理模型 一个推理案例 16 https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-reasoning-llms
17. 推理模型和非推理模型的区别 非推理模型 直接生成答案 17
18. 推理模型和非推理模型的区别 推理模型 一步一步推导 18
19. 推理模型在一些领域优势明显 ◼ 数学、代码、逻辑等领域优势明显 美国数学邀请赛 编程竞赛平台 生物物理化学难题数据集 ◼ 还有算力scaling方面的独特优势,后面再说 19
20. DeepSeek R1厉害在哪里 此处仅介绍一部分,DeepSeek带来的更多的意义和启示在最后一章 20
21. DeepSeek R1的意义 1. 首个展示思维链 过程的推理模型 21
22. DeepSeek R1的意义 网页聊天免费 2. 价格“屠夫” 曾经:o1模型的API价格为每百万输入tokens 约为15美元(约合人 民币55元),每百万输出tokens 60美元(约合人民币438元) 网页聊天也需要240美金/年的会员才能用 22
23. DeepSeek R1的意义 3.首个开源的推 理模型! 下载模型,可以本 地安装,本地使用! https://deepseek.hnu.edu.cn/ 23
24. DeepSeek R1的意义 4.纯国产!技术创新!训练和推理高效 5.性能领先! 24
25. DeepSeek R1的最大意义 DeepSeek R1让最前沿的大模型技术 走入寻常百姓家,所有人(尤其是所 有中国人)都能直接体验。 量变带来质变! 以前AI是“菁英游戏”,现在AI可以是“人民战争”! 我国是这个量变(和即将到来的质变)的驱动源、主 导者和聚集地! 7天用户破亿! 这还不包括海量本地部署的用户 25
26. DeepSeek基本概念(用户角度) 更详细的原理在第三部分介绍 26
27. 在哪里能用到DeepSeek? 各种网上的服务!官方的、其他企业的 还有很多,不一一列举。。。 本地自己搭一套! https://deepseek.hnu.edu.cn/ 信息传到外面不放心?外面的服务老是资源 不足?有些内容不能生成?用我们自己搭的! 27
28. 调用DeepSeek服务的流程:普通调用 ◼ 模型的回答全部来自训练时的数据 ◼ 数据难以及时更新  以DeepSeek为例,其训练数据为24年7月之前 网页调用 程序API调用 大模型(LLM)
29. 调用DeepSeek服务的流程:文件和联网搜索(RAG) ◼ 模型的回答来自训练时的数据+外部数据 ◼ 外部数据可以及时更新  比如上传的文件(知识库)或网上搜索的资料(联网搜索) 外部数据 本地文件或网上搜索 大模型(LLM)
30. 一些必须要知道的术语概念 Prompt: 用户一次塞给大模型的输入内容 Token: 大模型输入输出的最小单位,约等于单词 上下文长度: 当前prompt加上前后对话记录的长度,会一次塞给大模型作为输入 训练: “制作”大模型的过程,将海量的训练数据知识内嵌到模型中 推理(inference):“运行”大模型产生输出内容的过程 推理(reasoning):一种模型产生输出的方式,将一个大问题拆成多步,好像人类的步步推演 https://medium.com/@lmpo/大型语言模型简史-从transformer-2017到deepseek-r1-2025-cc54d658fb43
31. 提纲 ◼ What is it:DeepSeek是什么  从ChatGPT到DeepSeek-R1,TA到底厉害在哪里?  DeepSeek基本概念(用户角度) ◼ How to use it:我能用DeepSeek干什么  以小见大,掌握思维方法  正确理解,打开广阔天地 ◼ Why it works: DeepSeek背后的原理  Transformer——大模型基础  DeepSeek模型的发展历程 ◼ Next: 下一步要关注什么  生态的爆发就在眼前,整个链条上哪些方面值得关注 31
32. DeepSeek功能领域一览 32 DeepSeek:从入门到精通,清华大学新闻与传播学院新媒体研究中心元宇宙文化实验室
33. 以小见大,掌握思维方法 从一些案例出发,能干的远远比这多。思维方法!思维方法!思维方法! 33
34. 写书 ◼ 案例:给我的编译原理书稿提供一个案例片段 34
35. 信息梳理 ◼ 案例:整理deepseek出来之前gpt o1的收费情况做对比 普通搜索,想半天关键词, 自己整理各种素材 DS-R1+联网搜索,自动梳理信息, 并提供引用可检查考证 35
36. 数据分析 ◼ 案例:分析某地公务员录用人员情况  如,学历情况如何?  多少是计算机相关专业的? 36
37. 咨询分析 ◼ 案例:分析某专家研究特长,给出研究方向建议咨询 37
38. 写程序 ◼ 案例:写一个抽签小程序 38
39. 做教辅 ◼ 案例:设计一个针对幼儿园小朋友的科普讲稿 39
40. 正确理解,打开广阔天地 正确理解DeepSeek的不能 40
41. DeepSeek(R1或V3)的不能 ◼ 还不是AGI,不能“一步到位”!  需要用户自己具备一定的问题拆解能力、信息整合能力、迭代调优能力 41
42. DeepSeek(R1或V3)的不能 ◼ 有很强的能力,但也经常出错;预载很多知识,但不知道所有的知识!  利用其能力,判断其结果,改进其知识! “尽信书不如无书”!要有判断筛 选能力,擅用联网搜索和知识库! 42
43. DeepSeek(R1或V3)的不能 ◼ R1/V3都是语言模型,不能直接处理多模态数据(图片、视频等)!  学会利用其它工具,一起来完成任务(智能体的思想源于此) 43 43
44. DeepSeek(R1或V3)的不能 ◼ 模型都有上下文长度限制,不能塞太多东西给他!  学会拆分任务,总结规律 你一个对话框里的聊天记录都会塞进模型 里去,一次聊天不能聊天多☺ (一般128K tokens是目前通常的最高水平) 44
45. DeepSeek(R1或V3)的不能 ◼ 不是唯一的大模型,效果也难说一骑绝尘,其本身也不是一成不变!  客观辩证地看待,积极开放地拥抱 模型很多,各有所长 (长上下文、多模态、逻辑推理、多语言,不同模型卖点不同) 2024全球AIGC产业全景图谱及报告重磅发布---至顶网 Deepseek发展历程概要 - 知乎 日新月异,进展很快 (重要新技术以周为单位出现) 45
46. 对待DeepSeek等最新大模型的正确态度 普通软件工具 上一代大模型 帮助掌握领域知识和 技能的人,摆脱重复 低级的脑力劳动 帮助掌握领域知识和 技能的人,摆脱一部 分中级脑力劳动 新一代大模型 希望达到的目标:帮助大部 分的普通人,摆脱一部分中 级甚至是高级脑力劳动 46
47. 对待DeepSeek等最新大模型的正确态度 大模型就像一个小朋友,具备了初级“智能”: 懂一点,但不全懂;知识有一点,但也不全有;有时能对,但也经常犯错 发挥你的智慧,利用各种现有工具,引导他、帮助他干活! 用的好,可以帮你减轻很大工作量,小朋友的能力能超乎你想象;用的不好,那就是熊孩子☺ 47
48. 以小见大,掌握思维方法;正确理解,打开广阔天地 ◼ 重点是掌握使用TA的思维方法  案例很多,无法一一列举 ◼ 知道TA有哪些能力  逻辑推理能力、文字生成能力、搜索总结能力、代码生成能力。。。 ◼ 更重要的是知道TA有哪些不能!  不能“一步到位”、可能经常出错、不能直接生成文件、上下文不能无限 长。。。 会不会用,即将成为现代社会生产效率的分水岭! ◼ 充分认识TA的能与不能 会用的人或组织,会远远甩开那些不会用的!  组合多种工具一起使用! 发挥你的创造力和能动性,赶紧用起来吧!  取其所能,博采众长! 48
49. 提纲 ◼ What is it:DeepSeek是什么  从ChatGPT到DeepSeek-R1,TA到底厉害在哪里?  DeepSeek基本概念(用户角度) ◼ How to use it:我能用DeepSeek干什么  以小见大,掌握思维方法  正确理解,打开广阔天地 ◼ Why it works: DeepSeek背后的原理  Transformer——大模型基础  DeepSeek模型的发展历程 ◼ Next: 下一步要关注什么  生态的爆发就在眼前,整个链条上哪些方面值得关注 49
50. Transformer——大模型基础 50
51. 回忆一下我们在第一部分讲的大模型原理 这个框框里是啥?为啥能根据不同的输 入上下文选择对的输出token? 51
52. 几个必须澄清的概念 人工智能 (目标) 机器学习 (手段) 神经网络(更厉害的手段) 深度学习 大模型 (很深的神经网络) (LLM) ChatGPT DeepSeek Transformer 大模型常用的一种神经网络 52
53. Transformer是什么 ◼ Transformer是一种特殊的神经网络,几乎现在所有典型大模型都采 用这种神经网络  有很多类型voice-to-text, text-to-voice, text-to-image。。。 ◼ 我们主要介绍text-to-text transformer,是现在主流大模型的基础  输入:text(可能伴随一些图像或声音等),输出:预测下一个token 53 https://www.3blue1brown.com/lessons/gpt
54. Transformer整体流程速览 通常重复很多次 输入token编码 Behold, a wild pi creature, foraging in its native _______ 计算token之间的关系 理解每个token自己的含义 编码还原成token并输出 land 54 https://www.3blue1brown.com/lessons/gpt
55. Embedding ◼ 把输入的token编码成向量  以特定权重矩阵对各token的原始向量相乘,编码成特定向量 embedding To| date|,| the| cle|ve|rest| thinker| of| all| time| was ... 分词器 To date, the cleverest thinker of all time was ... 55 https://www.3blue1brown.com/lessons/gpt
56. Attention ◼ 注意力机制:计算token之间的关系  每个token的向量之间,以特定权重矩阵交叉相乘,从而计算token之间的互 相影响,把影响后的含义编码到乘完之后的token向量中 56 https://www.3blue1brown.com/lessons/gpt
57. Attention:多说两句 ◼ 三句话都有mole这个词(鼹鼠、摩尔、痣),如何区分? ◼ Attention会通过矩阵运算把周边词的意思嵌入到mole的向量中,反 应其在上下文中的含义 57 https://www.3blue1brown.com/lessons/gpt
58. Attention:多说两句 ◼ 如何嵌入上下文含义?  Q(我查)、K(查谁)、V(结果) 58 https://www.3blue1brown.com/lessons/gpt
59. Attention:多说两句 ◼ 多头注意力(Multi-head Attention, MHA)  多个注意力矩阵,各自侧重不同方面,一起把上下文含义嵌入token向量 59 https://www.3blue1brown.com/lessons/gpt
60. MLP(Multilayer Perceptron) ◼ 多层感知机:理解每个token自己的含义  每个token的向量,独立的乘以自己的特定权重矩阵,好比在进一步理解这个 token自身的含义,理解后的含义反映到乘完之后的token向量中 60 https://www.3blue1brown.com/lessons/gpt
61. 重复很多很多次Attention和MLP ◼ 重复很多很多次Attention和MLP  通常至少得几十次,每次都有不同的权重矩阵  每个token之间和token自己的含义都被充分地加载到乘完的最后一个向量中 61 https://www.3blue1brown.com/lessons/gpt
62. Unembedding ◼ 向量编码还原成token并输出  乘以特定权重矩阵,形成输出词汇概率,通过特定函数采样输出  为何只用最后一层的最后一个token向量做输出?因为计算效率高 62 https://www.3blue1brown.com/lessons/gpt
63. 训练:LLM通过数据学习文字接龙的过程 湖南大→学 上千亿个参数(不断调整) … 用大量的基础数据 预训练(Pre-trained) 3Blue1Brown Transformer各个环节的权重矩 阵里面的值。。。 调好了, 就用它! 湖南大→车 没调好, 再调! 不断生成内容(Generative) 63
64. 数据和参数的规模越大,LLM就越聪明 DeepSeek R1/V3 671B https://speech.ee.ntu.edu.tw/~hylee/index.php https://www.cnblogs.com/oopo/p/17985373 64
65. 大到一定规模,开始“涌现”! 65 https://speech.ee.ntu.edu.tw/~hylee/index.php
66. 训练完发现针对特定领域不得劲怎么办? ◼ 后训练对齐  将预训练后的模型进一步对齐数据,防止“胡说八道”  通常有SFT(监督式微调)和RL(强化学习,约等于给个指导自己学习) 66 https://cameronrwolfe.substack.com/p/understanding-and-using-supervised
67. DeepSeek模型的发展历程 67
68. 幻方公司早期对AI的投入 2019 2021 国内拥有超过1万枚GPU的企业 不超过5家。而除几家头部大厂 外,还包括一家名为幻方的量化 基金公司。通常认为,1万枚英 伟达A100芯片是做自训大模型 的算力门槛。 2019年,幻方量化成立AI公司, 其自研的深度学习训练平台「萤 火一号」总投资近2亿元,搭载 了1100块GPU;两年后,「萤 火二号」的投入增加到10亿元, 搭载了约1万张英伟达A100显卡 68 https://xueqiu.com/4459369374/322665662
69. DeepSeek大模型之路 ◼ 2023年7月:DeepSeek 公司成立  致力于AGI ◼ 2023年11月:开源 DeepSeekLLM 7B 和 67B 的 Base 和 Chat 模型 初期处于跟随LLaMA的状态 (一点微创新) 上来就开源 严谨地研究scaling law, 敢于质疑成名结论 初露峥嵘:开放基因,严谨思维 69
70. DeepSeek大模型之路 ◼ 2024年5月:开源 DeepSeek-V2 系列模型  重要创新,效果明显,吸引圈内注意! 对Transformer结构大胆改造 勇于尝试大规模MoE,首创MLA 效果提升明显 较前面版本训练成本减少42%,推理所需缓存空间减少93% 70
71. DeepSeek大模型之路 ◼ 2024年12月26日:开源 DeepSeek-V3 系列模型  基座模型SOTA! 保持大胆创新 MTP,FP8训练,继续增大MoE专家数量。。。 进入TOP梯队 各项指标达到世界第一 71
72. DeepSeek大模型之路 ◼ 2025年1月20日:开源推理模型 DeepSeek-R1  继续创新,勇于探索OpenAI说不行的路 没有奖 励模型! 72 https://medium.com/@lmpo/大型语言模型简史-从transformer-2017到deepseek-r1-2025-cc54d658fb43
73. DeepSeek R1的模型结构 R1/V3 模型结构 开源了很多蒸馏版本 1个Emedding,3个普通Transformer,59个MoE Transformer 671B(6710亿参数),每次激活37B Qwen2.5-Math-1.5B, Qwen2.5-Math-7B, Qwen2.5- 14B, Qwen2.5-32B, Llama-3.1-8B, and Llama-3.3-70B-Instruct 74
74. 提纲 ◼ What is it:DeepSeek是什么  从ChatGPT到DeepSeek-R1,TA到底厉害在哪里?  DeepSeek基本概念(用户角度) ◼ How to use it:我能用DeepSeek干什么  以小见大,掌握思维方法  正确理解,打开广阔天地 ◼ Why it works: DeepSeek背后的原理  Transformer——大模型基础  DeepSeek模型的发展历程 ◼ Next: 下一步要关注什么  生态的爆发就在眼前,整个链条上哪些方面值得关注 75
75. 为什么我认为生态马上会有真正的爆发? https://deepseek.hnu.edu.cn/ 梅特卡夫定律 系统的价值是系统中节点数量的平方关系 DeepSeek使AI飞入寻 常百姓家 量变引起质变,很可能马上 (甚至已经)出现 76
76. 哪些环节,我们因该关心啥? 行业应用 IT、教育、医疗、交通、城市治理。。。 公共平台 模型云服务、API接口汇聚服务、知识库服务。。。 模型算法 DeepSeek R1/V3、Kimi 1.5、Step-Video。。。 系统软件 推理引擎、训练框架、集群管理。。。 算力底座 算力中心、AI芯片(GPU)、高性能网络。。。 77
77. 个人浅见,仅供参考 ◼ 国产AI芯片(或称为GPU) 行业应用 公共平台   DeepSeek让不少国产AI芯片公司焕发新生 ➢ 开源:我们都能安装;高效:我们能力弱一点也能上 ➢ 市场火爆:甲方嘎嘎需要,我们供不应求 但是不足还很明显,值得重点关注的至少有 ➢ 大规模训练是短板,还是无法撼动NV,非常痛! • 训练是创新算法和模型(至少现在还是)的源头 模型算法 ➢ 推理效率还比较低,比较痛 • FP8、显存等等,现在有一点点杀鸡用牛刀的意思 ◼ 高性能互连 系统软件  多机多卡互连协同 ➢  算力底座 训练必须要;大模型推理也得要(比如R1 671B) 目前NV一家独大,国内不知何时能有挑战者,非常痛! ➢ 主要是机间RDMA网络、机内GPU网络等 ➢ 78 国内技术研究进入前沿(如我组就做这个),产品还任重道远
78. 个人浅见,仅供参考 ◼ 国内状态还比较乐观 行业应用  普遍有开源软件 ➢ 公共平台  PyTorch、vLLM、K8S。。。 国内实力还不错,人才梯队也有 ➢ 很多企业都有参与开源或自己研制训练框架、推理引擎等 ◼ 技术更新非常快! 模型算法 系统软件 算力底座   对中小企业等本地部署的玩家提出高要求 ➢ 目前主流推理引擎的更新发版速度以天记 ➢ 不求研发进去,至少要能看得懂、跟得上、用得会 要大力培养这方面的人才 ➢ DeepSeek的成功很大程度得益于这部分人 ➢ 我省现有这方面的高端人才,想办法聚合 • 如HNU DeepSeek服务技术支撑小组 79
79. 个人浅见,仅供参考 行业应用 ◼ 现状比较乐观  DeepSeek等已经证明,我们已处于第一梯队 ◼ 忧患未曾远离 公共平台  NV的禁令,短期对模型算法的创新还是影响较大  福祸相依:DeepSeek为了规避硬件限制,降本增 效,逼出了各种创新 模型算法 ➢ 系统软件 MLA、NSA、MoE。。。 ◼ 下一步注重啥  开放很重要! ➢ 算力底座  模型开放、算法开放、训练数据开放、推理部署开放 用阳谋对抗阴谋,用全中国全世界的智慧一起创新 80
80. 个人浅见,仅供参考 行业应用 ◼ 目前处于比较混战的阶段  技术含量相对下面三层较底,也没有绝对统一的标 准、规范、形式 公共平台  极大量的需求,都需要通过这一层接入 ◼ 下一步 模型算法 系统软件 算力底座  这里可能成为创业的集中赛道  我看好知识库服务平台 (点到为止,多的不能再说了☺) ➢ 行业需求千变万化,归总形式主要是这个 ➢ 这块有一定的技术门槛和资源门槛 ➢ 对用户体验影响极大 81
81. 个人浅见,仅供参考 行业应用 公共平台 ◼ 目前形势一片大好,但扎实落地是要务  具备专业技能的人,目前已感受到LLM的巨大帮助  如何能让更多普通人也感受到? ➢ 功能边界、用户体验、智能体、具身智能。。。 ◼ 实现我们下面的目标,得靠这一块! 模型算法 系统软件 算力底座 82
82. 欢迎进一步交流! 谢谢! 陈果 湖南大学 邮箱: guochen@hnu.edu.cn 个人主页:https://grzy.hnu.edu.cn/site/index/chenguo

Главная - Вики-сайт
Copyright © 2011-2025 iteam. Current version is 2.142.0. UTC+08:00, 2025-02-28 20:10
浙ICP备14020137号-1 $Гость$