融合数据智能与领域知识的双驱动架构促进垂域能力的持续优化

如果无法正常显示，请先停止浏览器的去广告插件。

1. WOWService专题直播融合数据智能与领域知识的双驱动架构促进垂域能力的持续优化 Joey 美团研究专家 LongCat Interaction Team

2. 挑战与要求--模型可控性 & 方案正确性 & 对话拟人性导航有问题，前面问题复杂用户在真实世界中遇到的问题无法通过简单QA来解决高时效性信，室下出地我进等，我刚就了单没，订号就我达是送不？这来点呀，办了么时怎超，啊的错边这心，轨担程用行的您不关您相了传上核实过续通后诉申迹，即可证凭在修路，过不去我给用户您还方便继续配送他订吗，如果可以的话，配送，后续订单完成，会为您补贴配送费的呀？您先后赶单，影响不接单都咋整麻烦您绕路给用户上报紧去别因您本地生活服务领域的问题发生快、时间紧，需要快速解决异常送其为这用户强流程性打电，我要超话，这其时了，解决过程需按照标准流程进行，但流程无法穷举所有长尾情况，然他订一单工具依赖依赖工具来解决用户诉求，如：退赔、外呼、人机协同等拟人话术话术要保证尽可能拟人，从而以高线服务体验解决用户诉求 3

3. 整体框架--主Agent与多个子Agent相结合围绕决策主模型，建设全场景端到端Agent平台，包含：①信号感知与处理；②知识管理与召回；③内存与长短期记忆；④决策与执行；⑤自我反思等核心模块，实现主Agent + 多个子Agent相结合的整体框架 4

4. 三大核心技术方案--双驱动架构 & 自回流系统 & 偏好对齐机制思考过程实时信息用户系统信号 LongCat模型外呼记录信号收集信号召回工具对话历史业务规则数据知识混合训练知识无知识/冗余知识/可用知识的数据配比约束条件有思考过程/无思考过程的数据配比业务规则知识召回 Base模型 SFT模型对话历史 …业务知识隐私号记录记忆获取思考过程决策 LongCat模型文本与控件工具执行历史用户查询与执行策略反馈内容工具问题识别规则总结测试新的Bad Case质检规则Case及规则测试运营人员混合训练 RL模型知识库 SFTDPO推理增强服务流程内化提升指令遵循性长尾场景处理泛化提升对话拟人性提升沟通技巧灵活方案规划 “数据智能与领域知识双驱动架构”下的数据生产领域知识驱动上下文感知记忆自采样数据混合驱动数据图片识别知识业务流程当前对话服务流程反馈内容智能交互系统感知在线数据自动质检模型部署自回流数据过滤候选数据获取数据智能驱动数据获取思考过程生产数据筛选数据获取数据预处理数据筛选原始数据获取模式设定正反校验优质服务流程冗余数据删除高质量话术知识召回异常检测人工复检实时信号状态信号对齐正确服务流程冗余知识检测各类数据构造格式检测隐私号信息人工标注全面覆盖范围 ………外呼记录…多样性采样正向反馈信息用户认可问卷优质评价高满意度服务工单高复杂度服务工单机器筛选人工规则去重采样保障多样性流程合规约束信号组合采样保障复杂度话术质量约束困难场景采样提升针对性风险评估约束业务规则匹配满足业务流程… 服务日志回归测试模型训练数据构造数据标注 DPO训练训练数据由标注师/模型/规则系统共同产生数据智能与领域知识双驱动架构线上自回流训练增强系统可运营化偏好对齐机制模型可控性提升方案正确性提升对话拟人性提升 5

5. 数据智能与领域知识双驱动架构--模型可控性提升双驱动架构 vs. 数据驱动架构的好处：灵活适应动态场景、有效降低边际成本、全面覆盖长尾问题、提升模型可控性 WOWService通过设计“数据智能与领域知识相结合”的双驱动架构将结构化业务知识（如：业务规则、服务流程等）与大规模真实交互数据深度融合，优化知识与数据的比例，从而在模型训练过程中强化对业务规则和服务流程的遵循能力系统在双驱动流程中应用SFT、DPO和RL的混合训练方式，并通过构建结合CoT的知识蒸馏数据，形成“思考-引用-答案”的一体化输出，不仅能够确保在常规场景下的准确响应，还能在复杂、多变的业务环境中实现灵活响应与优质服务体验思考过程实时信息用户系统信号 LongCat模型外呼记录工具对话历史当前对话数据知识混合训练无知识/冗余知识/可用知识的数据配比知识服务流程反馈内容约束条件有思考过程/无思考过程的数据配比业务规则混合驱动数据知识召回 Base模型自采样数据 SFT模型 RL模型知识库 “数据智能与领域知识双驱动架构”下的数据生产领域知识驱动数据智能驱动数据获取思考过程生产数据筛选数据获取数据预处理数据筛选原始数据获取模式设定正反校验优质服务流程冗余数据删除高质量话术知识召回异常检测人工复检实时信号状态信号对齐正确服务流程冗余知识检测各类数据构造格式检测隐私号信息人工标注全面覆盖范围 ………外呼记录…多样性采样双驱动架构进一步提升模型的可控性（新知识遵循性达到 90%+），有效保障对于各类大促活动的及时响应 6

6. 线上自回流训练增强系统--方案正确性提升为什么需要数据回流：高质量数据依赖人工标注（成本高、难扩展）、原则导向->价值导向（以用户满意度为核心优化原则）自回流训练增强系统（SRT）自动化筛选线上服务日志中的高质量案例作为Good Case补充训练集，提升模型在真实业务场景下的服务质量。对于表现不佳的Bad Case，进行归因分析，并改写数据生成偏好对样本，用于训练模型识别并规避低质量输出依托线上服务日志体系，SRT实现Good Case的自动采集（用户满意 + 方案正确 + 话术优质）以及Bad Case的定向修复（方案正确 + 话术不优质、方案正确 + 话术优质 + 用户不满意）构建自我进化的数据闭环，持续提升用户体验智能交互系统感知信号召回信号收集图片识别上下文感知 …业务知识隐私号记录记忆获取知识业务流程业务规则思考过程决策 LongCat模型文本与控件记忆对话历史工具执行历史用户查询与执行策略反馈内容工具混合训练 SFTDPO推理增强服务流程内化提升指令遵循性长尾场景处理泛化提升对话拟人性提升沟通技巧灵活方案规划自回流数据过滤候选数据获取正向反馈信息用户认可问卷优质评价高满意度服务工单高复杂度服务工单机器筛选人工规则去重采样保障多样性流程合规约束信号组合采样保障复杂度话术质量约束困难场景采样提升针对性风险评估约束业务规则匹配满足业务流程… 服务日志用户满意度指标（USM 1、USM 2）以及话术重复率指标（RR）均显著正向，各项指标提升幅度∼50% 7

7. 可运营化偏好对齐机制--对话拟人性提升 DPO与SFT的不同关注点：重点优化用户体验的“临门一脚”，定向修复关键问题，实现从“能用”到“好用”的跨越设计可运营化偏好对齐机制，实现运营、算法和自动化工具的紧密协同，形成可持续迭代的闭环，保证模型贴近真实业务需求 ①针对Bad Case，分析总结质检规则；②进行一系列Case及规则测试，充分验证总结出的规则是否符合预期；③通过在线数据的自动质检，实时挖掘Bad Case；④结合标注师、模型和规则系统进行数据标注，随后启动DPO训练，使模型学习最新规则；⑤进行回归测试，确保更新后的模型在历史数据上表现正常，不会出现“灾难性遗忘”，测试通过后替换线上模型问题识别规则总结测试新的Bad Case质检规则Case及规则测试关键问题修复率对比 150.00% 运营同学 100.00% 在线数据自动质检模型部署 85.0% 97.5% 100.0% 65.5% 100.0% 83.4% 89.5% 98.3% 50.00% 0.00% 模型幻觉解决方案错误 Base模型修复率回归测试模型训练数据构造数据标注 DPO训练训练数据由标注师/模型/规则系统共同产生无法推进流程话术重复 DPO模型修复率各类关键问题的修复率均大幅提升，效果显著。其中“解决方案错误”和“无法推进流程”的修复率达100% 8

8. Q&A

9. 更多技术干货欢迎关注“美团技术团队”