建设人人都能训大模型的技术氛围

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 吕昕
2. 目录
3.
4. 个人介绍 • 负责讯飞消费者BG大数据和大模型平台 • 做了13年的大数据和搜广推算法 • 被技术趋势裹挟被迫转型做大模型 为什么会有这个分享 • 大数据转型大模型的尝试 • chat2data -> RAG -> 搜索大模型算法 • deepseek的冲击 • “猫拉屎”需求
5.
6. C端项目和B端项目的大模型优化需求存在较大差异,但是还是基本上都会遇到大模型落地效果优化的问题 C端业务 B端业务
7. • 看起来,只要学会算法问题选型和模型训练,就可以端到端优化大模型效果 • deepseek带来的“危机”和开源生态的成熟,看起来这两个点好像也不是那么难
8. • 方向相对正确 • 组织充满活力 • 做正确的事 • 正确做事 激发组织活力 战略灵活调整 • 鼓励业务创新 • 需要更敏捷 • 激情+理性+机制 • 信息拉齐和穿透
9. • • • 底座模型 • 一些场景直接用deepseek V3/R1就可以有不错效果 • qwen7B/32B、spark13B/70B等底座可以低成本微调 优秀的数据来源 • 数据蒸馏、思维链数据 • 省掉了大量的人工标注成本 更完善的开源生态 • • 训练框架、推理框架、agent框架 模型优化范式的变革 • 蒸馏、GRPO
10. • • • 没有基础设施 • 算力、平台、数据 • 训练框架、推理框架 没有大模型算法经验 • 技术方案、模型选型 • 怎么评估效果 • 效果不好怎么优化 • • • 没有人 • 需要多少人?到哪里找? • 需要什么技术栈 需要多久 • 1个小时组建、1个星期上手 总共分几步 • 第一步:找个师傅,让他帮你把环境搭起来 • 第二步:找几个感兴趣的软开/大数据/测试 • 第三步:找一个业务场景练手 需要几个人 • 2个研发+1个测试
11. • 大模型算法工程师 • • 数据工程(怎么搞样本的思路至关重要)、模型微 调、强化学习 • 对机器学习/深度学习/NLP的要求比传统算法工程 师更低 • 需要更好的 跟进能力(github白嫖能力) 优秀的行业前沿 • Prompt工程师 • 昙花一现、基本凉透 • 优化方法基本成熟、天花板低、R1对 prompt的要求极低 大模型平台架构师、平台开发工程师 • • 和传统的平台开发基本没有区别 大模型测试工程师 • 自动化测试 • 构建复杂测试用例的测试开发和数据工程能力 • 需要更好的 • 大模型应用开发 • Agent工程师、RAG工程师
12. 开发和测试团队分工协作 开发团队 • • • • 测试团队 • • • • 。
13.
14. 复用公司内已有平台资源、积极拥抱开源生态和公有云 数据资源 deepseek、doubao、spark API 公有云 应用开发 RAG:ragflow agent:dify 内部: 星辰MaaS 开源: llama-factory、vLLM 公有云 可以解决90%的训练需求
15. 开源模型的技术选型 训练 • • 部署 • • • • • • • • • • • • •
16. • • •
17.
18. 大模型优化能力 = 问题定义能力 + 样本构建能力 + 训练能力 + 评测能力 问题定义和 选型 Prompt设计 样本构建 SFT微调 多模型对比 模型部署上 评估 线
19.
20. 性能测试 效果测试 1、发现模型缺陷:发现模型在实际 1、检测模型质量和可靠性:可以帮 应用中的错误、偏差和不准确性; 助发现模型在各种负载条件下可能出 2、理解模型特性:通过线上数据测 现的问题; 试确保模型组合使用时交互顺畅,输 2、检测机器瓶颈是否达标:可以找 出一致,从而提供无缝的用户体验; 出资源瓶颈并进行优化,提高系统的 效率和资源利用率; • • • •
21. 需求背景 • • 多轮改写之前解决不了几类case: 实验过程和结果 R1蒸馏 问-CoT-答架构 • 当前轮和之前对话无关 • Qwen1.5B全参微调 - 任务数据1500条(60%)、通用数据1000条(40%) • 多轮之间有隐含的关系 • Qwen7B/spark13B LoRA微调 - 任务数据1500条(100%) 尝试:deepseek能否解决?能否蒸馏deepseek模型? 蒸馏qwen1.5B < V3 < 蒸馏qwen7B/spark13B < R1 • Qwen7B/spark13B能有效学习R1思考过程,通过上下文理解用户的需求 • Qwen1.5B效果很差,模型几乎未理解上下文和当轮问题的含义 • 语义消歧能力:可以理解一些生僻的专有名词,如电影名 • 异常场景鲁棒性:在用户胡乱问的情况下,也可以理解上下文,自我cot,解决问题
22. 需求背景 实验过程和结果 三种文体类型,政府专项工作方案、活动方案、工作计划 实验过程 Step1:用户输入 写作要素 • 模型:Qwen2.5-14B、Qwen2.5-32B、spark13B Step2:调用大纲生成模型 生成写作大纲 • 样本大小:500 * 6 (三种文体,每种文体需要大模型大纲生成、全文生成两 Step3:调用文书写作模型 生成公文 即: 种能力) • 训练方式:Lora SFT (1)大纲提取模型:要素 -> 大纲 (2)公文写作模型:要素 + 大纲 -> 公文 实验结果 • 模型知识蒸馏,学习R1写作时的格式要求、语言风格、逻辑结构等,提升写作 效果非常明显 • 长文本生成类任务,think效果不显著,输出越长、效果越不稳定 • 大纲生成效果14B和32B区别不大,14B可以基本满足需求
23.
24. 不会深度学习基础理论怎么办? 大模型优化和写代码差距太大了! • 工程开发VS大模型优化 • 设计/工程:3/7->8/2 • 底层的活动都是一样的 我的效果比研究院差很多怎么办? • 知识壁垒、技术孤岛 遇到问题搞不定怎么办? • 找人问 • 分享群、研讨会
25. 一些解决遇到的大模型优化问题的经验 搜索多轮改写和单轮改写模型训练合并后,从准确率98%下降到86% 增大system差异化 LORA模型动态加载 写作模型不出标点和序号 研究院算法同学给的解决方案 工程院架构同学给的解决方案 底座大模型团队同学给的解决方案
26. 技术过硬 专业靠谱 ✓ ✓ ✓ ✓ ✓ ✓ ✓ 开放共享 ✓ 大模型的优化和落地,需要更开放共享的文化和心态
27. • 微调大模型,优化大模型效果其实很简单,比CRUD还简单,只要有平台、有业务场景sense • 大模型优化平台可以很低成本的建立起来,很多内部和外部资源可以复用 • 大模型的常见应用场景就那么几个,可以按照每个领域的已有经验来进行优化 • 拥抱开源 • 最好的(大模型)算法优化方法就是找BUG/review数据 • 每个公司都应该有一个自己内部的huggingface
28.
29. 大模型正在重新定义软件 Large Language Model Is Redefining The Software

ホーム - Wiki
Copyright © 2011-2025 iteam. Current version is 2.147.0. UTC+08:00, 2025-10-27 12:37
浙ICP备14020137号-1 $お客様$