融合数据智能与领域知识的双驱动架构促进垂域能力的持续优化

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. WOWService专题直播 融合数据智能与领域知识的双驱动架构促进垂域能力的持续优化 Joey 美团研究专家 LongCat Interaction Team
2. 挑战与要求--模型可控性 & 方案正确性 & 对话拟人性 导航有问题,前面 问题复杂 用户在真实世界中遇到的问题 无法通过简单QA来解决 高时效性 信 , 室 下 出 地 我 进 等 , 我刚 就 了 单 没 ,订 号就 我 达 是 送 不 ? 这 来点 呀 , 办 了 么 时 怎 超 , 啊 的错 边 这 心, 轨 担 程 用 行 的 您不 关 您 相 了 传 上 核实 过 续 通 后 诉 申 迹, 即可 证 凭 在修路,过不去 我给 用户 您还方便继续配送 他订 吗,如果可以的话, 配送,后续订单完 成,会为您补贴配 送费的 呀? 您先 后赶 单, 影响 不接 单都 咋整 麻烦您绕路给用户 上报 紧去 别因 您 本地生活服务领域的问题发生 快、时间紧,需要快速解决 异常 送其 为这 用户 强流程性 打电 ,我 要超 话, 这其 时了 , 解决过程需按照标准流程进行, 但流程无法穷举所有长尾情况 ,然 他订 一单 工具依赖 依赖工具来解决用户诉求,如: 退赔、外呼、人机协同等 拟人话术 话术要保证尽可能拟人,从而 以高线服务体验解决用户诉求 3
3. 整体框架--主Agent与多个子Agent相结合 围绕决策主模型,建设全场景端到端Agent平台,包含:①信号感知与处理;②知识管理与召回;③内存与长短期记忆;④决 策与执行;⑤自我反思等核心模块,实现主Agent + 多个子Agent相结合的整体框架 4
4. 三大核心技术方案--双驱动架构 & 自回流系统 & 偏好对齐机制 思考过程 实时信息 用户 系统信号 LongCat模型 外呼记录 信号收集 信号召回 工具 对话历史 业务规则 数据知识混合训练 知识无知识/冗余知识/可用知识的数据配比 约束条件有思考过程/无思考过程的数据配比 业务规则 知识召回 Base模型 SFT模型 对话历史 …业务知识 隐私号记录记忆获取 思考过程 决策 LongCat模型 文本与控件 工具执行历史 用户 查询与执行 策略 反馈内容 工具 问题识别规则总结测试 新的Bad Case质检规则Case及规则测试 运营人员 混合训练 RL模型 知识库 SFTDPO推理增强 服务流程内化提升指令遵循性长尾场景处理泛化 提升对话拟人性提升沟通技巧灵活方案规划 “数据智能与领域知识双驱动架构”下的数据生产 领域知识驱动 上下文感知 记忆 自采样数据 混合驱动数据 图片识别 知识 业务流程 当前对话 服务流程 反馈内容 智能交互系统 感知 在线数据自动质检 模型部署 自回流数据过滤 候选数据获取 数据智能驱动 数据获取思考过程生产数据筛选数据获取数据预处理数据筛选 原始数据获取模式设定正反校验优质服务流程冗余数据删除高质量话术 知识召回异常检测人工复检实时信号状态信号对齐正确服务流程 冗余知识检测各类数据构造格式检测隐私号信息人工标注全面覆盖范围 ………外呼记录…多样性采样 正向反馈信息 用户认可 问卷优质评价 高满意度服务工单 高复杂度服务工单 机器筛选 人工规则 去重采样保障多样性流程合规约束 信号组合采样保障复杂度话术质量约束 困难场景采样提升针对性风险评估约束 业务规则匹配满足业务流程… 服务日志 回归测试 模型训练数据构造数据标注 DPO训练训练数据由标注师/模型/规 则系统共同产生 数据智能与领域知识双驱动架构线上自回流训练增强系统可运营化偏好对齐机制 模型可控性提升方案正确性提升对话拟人性提升 5
5. 数据智能与领域知识双驱动架构--模型可控性提升 双驱动架构 vs. 数据驱动架构的好处:灵活适应动态场景、有效降低边际成本、全面覆盖长尾问题、提升模型可控性 WOWService通过设计“数据智能与领域知识相结合”的双驱动架构将结构化业务知识(如:业务规则、服务流程等)与大规 模真实交互数据深度融合,优化知识与数据的比例,从而在模型训练过程中强化对业务规则和服务流程的遵循能力 系统在双驱动流程中应用SFT、DPO和RL的混合训练方式,并通过构建结合CoT的知识蒸馏数据,形成“思考-引用-答案”的 一体化输出,不仅能够确保在常规场景下的准确响应,还能在复杂、多变的业务环境中实现灵活响应与优质服务体验 思考过程 实时信息 用户 系统信号 LongCat模型 外呼记录 工具 对话历史 当前对话 数据知识混合训练 无知识/冗余知识/可用知识的数据配比 知识 服务流程 反馈内容 约束条件 有思考过程/无思考过程的数据配比 业务规则 混合驱动数据 知识召回 Base模型 自采样数据 SFT模型 RL模型 知识库 “数据智能与领域知识双驱动架构”下的数据生产 领域知识驱动 数据智能驱动 数据获取思考过程生产数据筛选数据获取数据预处理数据筛选 原始数据获取模式设定正反校验优质服务流程冗余数据删除高质量话术 知识召回异常检测人工复检实时信号状态信号对齐正确服务流程 冗余知识检测各类数据构造格式检测隐私号信息人工标注全面覆盖范围 ………外呼记录…多样性采样 双驱动架构进一步提升模型的可控性(新知识遵循性达到 90%+),有效保障对于各类大促活动的及时响应 6
6. 线上自回流训练增强系统--方案正确性提升 为什么需要数据回流:高质量数据依赖人工标注(成本高、难扩展)、原则导向->价值导向(以用户满意度为核心优化原则) 自回流训练增强系统(SRT)自动化筛选线上服务日志中的高质量案例作为Good Case补充训练集,提升模型在真实业务场景 下的服务质量。对于表现不佳的Bad Case,进行归因分析,并改写数据生成偏好对样本,用于训练模型识别并规避低质量输出 依托线上服务日志体系,SRT实现Good Case的自动采集(用户满意 + 方案正确 + 话术优质)以及Bad Case的定向修复(方 案正确 + 话术不优质、方案正确 + 话术优质 + 用户不满意)构建自我进化的数据闭环,持续提升用户体验 智能交互系统 感知 信号召回 信号收集 图片识别上下文感知 …业务知识 隐私号记录记忆获取 知识 业务流程 业务规则 思考过程 决策 LongCat模型 文本与控件 记忆 对话历史 工具执行历史 用户 查询与执行 策略 反馈内容 工具 混合训练 SFTDPO推理增强 服务流程内化提升指令遵循性长尾场景处理泛化 提升对话拟人性提升沟通技巧灵活方案规划 自回流数据过滤 候选数据获取 正向反馈信息 用户认可 问卷优质评价 高满意度服务工单 高复杂度服务工单 机器筛选 人工规则 去重采样保障多样性流程合规约束 信号组合采样保障复杂度话术质量约束 困难场景采样提升针对性风险评估约束 业务规则匹配满足业务流程… 服务日志 用户满意度指标(USM 1、USM 2)以及话术重复率指标 (RR)均显著正向,各项指标提升幅度∼50% 7
7. 可运营化偏好对齐机制--对话拟人性提升 DPO与SFT的不同关注点:重点优化用户体验的“临门一脚”,定向修复关键问题,实现从“能用”到“好用”的跨越 设计可运营化偏好对齐机制,实现运营、算法和自动化工具的紧密协同,形成可持续迭代的闭环,保证模型贴近真实业务需求 ①针对Bad Case,分析总结质检规则;②进行一系列Case及规则测试,充分验证总结出的规则是否符合预期;③通过在线数 据的自动质检,实时挖掘Bad Case;④结合标注师、模型和规则系统进行数据标注,随后启动DPO训练,使模型学习最新规 则;⑤进行回归测试,确保更新后的模型在历史数据上表现正常,不会出现“灾难性遗忘”,测试通过后替换线上模型 问题识别规则总结测试 新的Bad Case质检规则Case及规则测试 关键问题修复率对比 150.00% 运营同学 100.00% 在线数据自动质检 模型部署 85.0% 97.5% 100.0% 65.5% 100.0% 83.4% 89.5% 98.3% 50.00% 0.00% 模型幻觉 解决方案错误 Base模型修复率 回归测试 模型训练数据构造数据标注 DPO训练训练数据由标注师/模型/规 则系统共同产生 无法推进流程 话术重复 DPO模型修复率 各类关键问题的修复率均大幅提升,效果显著。其中“解 决方案错误”和“无法推进流程”的修复率达100% 8
8. Q&A
9. 更多技术干货 欢迎关注“美团技术团队”

Главная - Вики-сайт
Copyright © 2011-2026 iteam. Current version is 2.155.1. UTC+08:00, 2026-04-01 18:56
浙ICP备14020137号-1 $Гость$