持续预训练驱动通用与专业能力的双重提升

如果无法正常显示，请先停止浏览器的去广告插件。

1. WOWService专题直播持续预训练驱动通用与专业能力的双重提升 Leo 美团研究专家 LongCat Interaction Team

2. 背景交互场景核心要求【体验层】情感共鸣需要一个懂业务、守规则、有温度的专家共情话术建立用户信任感【逻辑层】流程遵循零偏差执行标准化服务流程【知识层】业务理解深度掌握产品信息与业务规则

3. 解法：领域预训练基于对话串联美团业务交互场景知识、规则、流程，通过继续预训练内化进模型流程内化业务知识/规则注入，模型懂“怎么做” 情商提升金牌交互话术，模型懂“怎么说” 基础稳固通用数据混合，模型“智商在线”

4. 领域预训练三大挑战构建领域评测体系平衡通用与专业能力治理低质业务数据评测指标缺乏区分度，难以量注入新知易引发灾难性遗忘，原始语料信噪比低，缺乏有效的数化指导训练效果难以平衡通专能力据验证闭环开源资源极度匮乏易发灾难性遗忘语料同质化严重业务标准难以对齐通用指令能力退化有效知识密度低指标区分粒度不足OOD泛化性能下降数据贡献难以归因

5. 领域评测体系构建评测维度懂业务领域知识深度：覆盖美团专属黑话、规则体系，确保模型懂业务。评测体系 [分钟级] 训练实时监控 (PPL) 训练时的“仪表盘”，实时观测收敛效果。守规则[小时级] 基座高频评估 (Few-Shot) 流程遵循与安全：聚焦模糊意图的精准厘清，严控业务承诺边界。训练中的“质检员”，高频观测能力变化。有温度[天级] 实战验收 (Zero-Shot) 交互拟真度：聚焦拟人化与高情商回复，提升用户体验。发版前的“终审官”，基于真实复杂场景判定可用性。

6. 高质量通用数据合成拒绝灾难性遗忘，实现通用、领域能力同步提升多源数据收集中文来源百科字段去重低质数据过滤多样化数据改写正确性检查内容重写专业性评估QA改写安全性扫描多角色改写消除冗余信息万卷英文来源 FineWeb 数据去重 Wiki 专业领域代码 Github 数学 OpenWebMath 类别均衡确保数据分布合理

7. 业务数据敏捷验证Pipeline 低成本、高效率验证业务数据改写质量原方案：全量预训练+微调+评测新方案：小批量退火+验证集PPL观测维度原方案新方案优化幅度训练成本20k~30k GPU时1k GPU时↓95% 验证周期4~5天1天↓75% 迭代频率月级周级敏捷度↑400%

8. 数据配比数据驱动的训练优化：多源领域数据的自适应混合策略基于代理模型的自动配比手动配比基于影响因子的自动配比

9. 交付结果打破“能力跷跷板”，基于美团自研LongCat模型，在通用能力不降级的前提下，实现领域专业能力的大幅跃升。

10. Q&A

11. 更多技术干货欢迎关注“美团技术团队”