建设人人都能训大模型的技术氛围
如果无法正常显示,请先停止浏览器的去广告插件。
1. 吕昕
2. 目录
3.
4. 个人介绍
• 负责讯飞消费者BG大数据和大模型平台
• 做了13年的大数据和搜广推算法
• 被技术趋势裹挟被迫转型做大模型
为什么会有这个分享
• 大数据转型大模型的尝试
•
chat2data -> RAG -> 搜索大模型算法
• deepseek的冲击
• “猫拉屎”需求
5.
6. C端项目和B端项目的大模型优化需求存在较大差异,但是还是基本上都会遇到大模型落地效果优化的问题
C端业务
B端业务
7. • 看起来,只要学会算法问题选型和模型训练,就可以端到端优化大模型效果
• deepseek带来的“危机”和开源生态的成熟,看起来这两个点好像也不是那么难
8. • 方向相对正确 • 组织充满活力
• 做正确的事 • 正确做事
激发组织活力
战略灵活调整
• 鼓励业务创新 • 需要更敏捷
• 激情+理性+机制 • 信息拉齐和穿透
9. •
•
•
底座模型
• 一些场景直接用deepseek V3/R1就可以有不错效果
• qwen7B/32B、spark13B/70B等底座可以低成本微调
优秀的数据来源
• 数据蒸馏、思维链数据
• 省掉了大量的人工标注成本
更完善的开源生态
•
•
训练框架、推理框架、agent框架
模型优化范式的变革
•
蒸馏、GRPO
10. •
•
•
没有基础设施
• 算力、平台、数据
• 训练框架、推理框架
没有大模型算法经验
• 技术方案、模型选型
• 怎么评估效果
• 效果不好怎么优化
•
•
•
没有人
• 需要多少人?到哪里找?
• 需要什么技术栈
需要多久
•
1个小时组建、1个星期上手
总共分几步
• 第一步:找个师傅,让他帮你把环境搭起来
• 第二步:找几个感兴趣的软开/大数据/测试
• 第三步:找一个业务场景练手
需要几个人
•
2个研发+1个测试
11. •
大模型算法工程师
•
• 数据工程(怎么搞样本的思路至关重要)、模型微
调、强化学习
• 对机器学习/深度学习/NLP的要求比传统算法工程
师更低
• 需要更好的
跟进能力(github白嫖能力)
优秀的行业前沿
•
Prompt工程师
• 昙花一现、基本凉透
• 优化方法基本成熟、天花板低、R1对
prompt的要求极低
大模型平台架构师、平台开发工程师
•
•
和传统的平台开发基本没有区别
大模型测试工程师
• 自动化测试
• 构建复杂测试用例的测试开发和数据工程能力
• 需要更好的
•
大模型应用开发
•
Agent工程师、RAG工程师
12. 开发和测试团队分工协作
开发团队
•
•
•
•
测试团队
•
•
•
•
。
13.
14. 复用公司内已有平台资源、积极拥抱开源生态和公有云
数据资源
deepseek、doubao、spark API
公有云
应用开发
RAG:ragflow
agent:dify
内部: 星辰MaaS
开源: llama-factory、vLLM
公有云
可以解决90%的训练需求
15. 开源模型的技术选型
训练
•
•
部署
• •
• •
•
•
•
•
• •
• •
•
16. •
•
•
17.
18. 大模型优化能力 = 问题定义能力 + 样本构建能力 + 训练能力 + 评测能力
问题定义和
选型
Prompt设计
样本构建
SFT微调
多模型对比 模型部署上
评估 线
19.
20. 性能测试
效果测试
1、发现模型缺陷:发现模型在实际 1、检测模型质量和可靠性:可以帮
应用中的错误、偏差和不准确性; 助发现模型在各种负载条件下可能出
2、理解模型特性:通过线上数据测 现的问题;
试确保模型组合使用时交互顺畅,输 2、检测机器瓶颈是否达标:可以找
出一致,从而提供无缝的用户体验; 出资源瓶颈并进行优化,提高系统的
效率和资源利用率;
•
•
•
•
21. 需求背景
•
•
多轮改写之前解决不了几类case:
实验过程和结果
R1蒸馏 问-CoT-答架构
• 当前轮和之前对话无关 • Qwen1.5B全参微调 - 任务数据1500条(60%)、通用数据1000条(40%)
• 多轮之间有隐含的关系 • Qwen7B/spark13B LoRA微调 - 任务数据1500条(100%)
尝试:deepseek能否解决?能否蒸馏deepseek模型?
蒸馏qwen1.5B < V3 < 蒸馏qwen7B/spark13B < R1
• Qwen7B/spark13B能有效学习R1思考过程,通过上下文理解用户的需求
• Qwen1.5B效果很差,模型几乎未理解上下文和当轮问题的含义
• 语义消歧能力:可以理解一些生僻的专有名词,如电影名
• 异常场景鲁棒性:在用户胡乱问的情况下,也可以理解上下文,自我cot,解决问题
22. 需求背景 实验过程和结果
三种文体类型,政府专项工作方案、活动方案、工作计划 实验过程
Step1:用户输入 写作要素 • 模型:Qwen2.5-14B、Qwen2.5-32B、spark13B
Step2:调用大纲生成模型 生成写作大纲 • 样本大小:500 * 6 (三种文体,每种文体需要大模型大纲生成、全文生成两
Step3:调用文书写作模型 生成公文
即:
种能力)
• 训练方式:Lora SFT
(1)大纲提取模型:要素 -> 大纲
(2)公文写作模型:要素 + 大纲 -> 公文
实验结果
• 模型知识蒸馏,学习R1写作时的格式要求、语言风格、逻辑结构等,提升写作
效果非常明显
• 长文本生成类任务,think效果不显著,输出越长、效果越不稳定
• 大纲生成效果14B和32B区别不大,14B可以基本满足需求
23.
24. 不会深度学习基础理论怎么办?
大模型优化和写代码差距太大了!
• 工程开发VS大模型优化
• 设计/工程:3/7->8/2
• 底层的活动都是一样的
我的效果比研究院差很多怎么办?
•
知识壁垒、技术孤岛
遇到问题搞不定怎么办?
• 找人问
• 分享群、研讨会
25. 一些解决遇到的大模型优化问题的经验
搜索多轮改写和单轮改写模型训练合并后,从准确率98%下降到86%
增大system差异化
LORA模型动态加载
写作模型不出标点和序号
研究院算法同学给的解决方案
工程院架构同学给的解决方案
底座大模型团队同学给的解决方案
26. 技术过硬 专业靠谱 ✓ ✓ ✓
✓ ✓ ✓
✓
开放共享
✓
大模型的优化和落地,需要更开放共享的文化和心态
27. • 微调大模型,优化大模型效果其实很简单,比CRUD还简单,只要有平台、有业务场景sense
• 大模型优化平台可以很低成本的建立起来,很多内部和外部资源可以复用
• 大模型的常见应用场景就那么几个,可以按照每个领域的已有经验来进行优化
• 拥抱开源
• 最好的(大模型)算法优化方法就是找BUG/review数据
• 每个公司都应该有一个自己内部的huggingface
28.
29. 大模型正在重新定义软件
Large Language Model Is Redefining The Software