建设人人都能训大模型的技术氛围

1. 吕昕

2. 目录

3.

4. 个人介绍 • 负责讯飞消费者BG大数据和大模型平台 • 做了13年的大数据和搜广推算法 • 被技术趋势裹挟被迫转型做大模型为什么会有这个分享 • 大数据转型大模型的尝试 • chat2data -> RAG -> 搜索大模型算法 • deepseek的冲击 • “猫拉屎”需求

5.

6. C端项目和B端项目的大模型优化需求存在较大差异，但是还是基本上都会遇到大模型落地效果优化的问题 C端业务 B端业务

7. • 看起来，只要学会算法问题选型和模型训练，就可以端到端优化大模型效果 • deepseek带来的“危机”和开源生态的成熟，看起来这两个点好像也不是那么难

8. • 方向相对正确 • 组织充满活力 • 做正确的事 • 正确做事激发组织活力战略灵活调整 • 鼓励业务创新 • 需要更敏捷 • 激情+理性+机制 • 信息拉齐和穿透

9. • • • 底座模型 • 一些场景直接用deepseek V3/R1就可以有不错效果 • qwen7B/32B、spark13B/70B等底座可以低成本微调优秀的数据来源 • 数据蒸馏、思维链数据 • 省掉了大量的人工标注成本更完善的开源生态 • • 训练框架、推理框架、agent框架模型优化范式的变革 • 蒸馏、GRPO

10. • • • 没有基础设施 • 算力、平台、数据 • 训练框架、推理框架没有大模型算法经验 • 技术方案、模型选型 • 怎么评估效果 • 效果不好怎么优化 • • • 没有人 • 需要多少人？到哪里找？ • 需要什么技术栈需要多久 • 1个小时组建、1个星期上手总共分几步 • 第一步：找个师傅，让他帮你把环境搭起来 • 第二步：找几个感兴趣的软开/大数据/测试 • 第三步：找一个业务场景练手需要几个人 • 2个研发+1个测试

11. • 大模型算法工程师 • • 数据工程（怎么搞样本的思路至关重要）、模型微调、强化学习 • 对机器学习/深度学习/NLP的要求比传统算法工程师更低 • 需要更好的跟进能力（github白嫖能力）优秀的行业前沿 • Prompt工程师 • 昙花一现、基本凉透 • 优化方法基本成熟、天花板低、R1对 prompt的要求极低大模型平台架构师、平台开发工程师 • • 和传统的平台开发基本没有区别大模型测试工程师 • 自动化测试 • 构建复杂测试用例的测试开发和数据工程能力 • 需要更好的 • 大模型应用开发 • Agent工程师、RAG工程师

12. 开发和测试团队分工协作开发团队 • • • • 测试团队 • • • • 。

13.

14. 复用公司内已有平台资源、积极拥抱开源生态和公有云数据资源 deepseek、doubao、spark API 公有云应用开发 RAG：ragflow agent：dify 内部：星辰MaaS 开源： llama-factory、vLLM 公有云可以解决90%的训练需求

15. 开源模型的技术选型训练 • • 部署 • • • • • • • • • • • • •

16. • • •

17.

18. 大模型优化能力 = 问题定义能力 + 样本构建能力 + 训练能力 + 评测能力问题定义和选型 Prompt设计样本构建 SFT微调多模型对比模型部署上评估线

19.

20. 性能测试效果测试 1、发现模型缺陷：发现模型在实际 1、检测模型质量和可靠性：可以帮应用中的错误、偏差和不准确性；助发现模型在各种负载条件下可能出 2、理解模型特性：通过线上数据测现的问题；试确保模型组合使用时交互顺畅，输 2、检测机器瓶颈是否达标：可以找出一致，从而提供无缝的用户体验；出资源瓶颈并进行优化，提高系统的效率和资源利用率； • • • •

21. 需求背景 • • 多轮改写之前解决不了几类case：实验过程和结果 R1蒸馏问-CoT-答架构 • 当前轮和之前对话无关 • Qwen1.5B全参微调 - 任务数据1500条(60%)、通用数据1000条(40%) • 多轮之间有隐含的关系 • Qwen7B/spark13B LoRA微调 - 任务数据1500条(100%) 尝试：deepseek能否解决？能否蒸馏deepseek模型？蒸馏qwen1.5B < V3 < 蒸馏qwen7B/spark13B < R1 • Qwen7B/spark13B能有效学习R1思考过程，通过上下文理解用户的需求 • Qwen1.5B效果很差，模型几乎未理解上下文和当轮问题的含义 • 语义消歧能力：可以理解一些生僻的专有名词，如电影名 • 异常场景鲁棒性：在用户胡乱问的情况下，也可以理解上下文，自我cot，解决问题

22. 需求背景实验过程和结果三种文体类型，政府专项工作方案、活动方案、工作计划实验过程 Step1：用户输入写作要素 • 模型：Qwen2.5-14B、Qwen2.5-32B、spark13B Step2：调用大纲生成模型生成写作大纲 • 样本大小：500 * 6 （三种文体，每种文体需要大模型大纲生成、全文生成两 Step3：调用文书写作模型生成公文即：种能力） • 训练方式：Lora SFT （1）大纲提取模型：要素 -> 大纲（2）公文写作模型：要素 + 大纲 -> 公文实验结果 • 模型知识蒸馏，学习R1写作时的格式要求、语言风格、逻辑结构等，提升写作效果非常明显 • 长文本生成类任务，think效果不显著，输出越长、效果越不稳定 • 大纲生成效果14B和32B区别不大，14B可以基本满足需求

23.

24. 不会深度学习基础理论怎么办？大模型优化和写代码差距太大了！ • 工程开发VS大模型优化 • 设计/工程：3/7->8/2 • 底层的活动都是一样的我的效果比研究院差很多怎么办？ • 知识壁垒、技术孤岛遇到问题搞不定怎么办？ • 找人问 • 分享群、研讨会

25. 一些解决遇到的大模型优化问题的经验搜索多轮改写和单轮改写模型训练合并后，从准确率98%下降到86% 增大system差异化 LORA模型动态加载写作模型不出标点和序号研究院算法同学给的解决方案工程院架构同学给的解决方案底座大模型团队同学给的解决方案

26. 技术过硬专业靠谱 ✓ ✓ ✓ ✓ ✓ ✓ ✓ 开放共享 ✓ 大模型的优化和落地，需要更开放共享的文化和心态

27. • 微调大模型，优化大模型效果其实很简单，比CRUD还简单，只要有平台、有业务场景sense • 大模型优化平台可以很低成本的建立起来，很多内部和外部资源可以复用 • 大模型的常见应用场景就那么几个，可以按照每个领域的已有经验来进行优化 • 拥抱开源 • 最好的（大模型）算法优化方法就是找BUG/review数据 • 每个公司都应该有一个自己内部的huggingface

28.

29. 大模型正在重新定义软件 Large Language Model Is Redefining The Software