持续预训练驱动通用与专业能力的双重提升
如果无法正常显示,请先停止浏览器的去广告插件。
1. WOWService专题直播
持续预训练驱动通用与专业能力的双重提升
Leo
美团研究专家
LongCat Interaction Team
2. 背景
交互场景核心要求
【体验层】情感共鸣
需要一个懂业务、守规则、
有温度的专家
共情话术建立用户信任感
【逻辑层】流程遵循
零偏差执行标准化服务流程
【知识层】业务理解
深度掌握产品信息与业务规则
3. 解法:领域预训练
基于对话串联美团业务交互场景知识、规则、流程,通过继续预训练内化进模型
流程内化业务知识/规则注入,模型懂“怎么做”
情商提升金牌交互话术,模型懂“怎么说”
基础稳固通用数据混合,模型“智商在线”
4. 领域预训练三大挑战
构建领域评测体系
平衡通用与专业能力
治理低质业务数据
评测指标缺乏区分度,难以量注入新知易引发灾难性遗忘,原始语料信噪比低,缺乏有效的数
化指导训练效果难以平衡通专能力据验证闭环
开源资源极度匮乏易发灾难性遗忘语料同质化严重
业务标准难以对齐通用指令能力退化有效知识密度低
指标区分粒度不足OOD泛化性能下降数据贡献难以归因
5. 领域评测体系构建
评测维度
懂业务
领域知识深度:覆盖美团专属黑话、
规则体系,确保模型懂业务。
评测体系
[分钟级] 训练实时监控 (PPL)
训练时的“仪表盘”,实时观测收敛效果。
守规则[小时级] 基座高频评估 (Few-Shot)
流程遵循与安全:聚焦模糊意图的精
准厘清,严控业务承诺边界。训练中的“质检员”,高频观测
能力变化。
有温度[天级] 实战验收 (Zero-Shot)
交互拟真度:聚焦拟人化与高情商回
复,提升用户体验。发版前的“终审官”,基于真
实复杂场景判定可用性。
6. 高质量通用数据合成
拒绝灾难性遗忘,实现通用、领域能力同步提升
多源数据收集
中文来源
百科
字段去重
低质数据过滤
多样化数据改写
正确性检查内容重写
专业性评估QA改写
安全性扫描多角色改写
消除冗余信息
万卷
英文来源
FineWeb
数据去重
Wiki
专业领域
代码 Github
数学 OpenWebMath
类别均衡
确保数据分布合理
7. 业务数据敏捷验证Pipeline
低成本、高效率验证业务数据改写质量
原方案:全量预训练+微调+评测
新方案:小批量退火+验证集PPL观测
维度原方案新方案优化幅度
训练成本20k~30k GPU时1k GPU时↓95%
验证周期4~5天1天↓75%
迭代频率月级周级敏捷度↑400%
8. 数据配比
数据驱动的训练优化:多源领域数据的自适应混合策略
基于代理模型的自动配比
手动配比
基于影响因子的自动配比
9. 交付结果
打破“能力跷跷板”,基于美团自研LongCat模型,在通用能力不降级的前提下,实现
领域专业能力的大幅跃升。
10. Q&A
11. 更多技术干货
欢迎关注“美团技术团队”