交互场景下的多智能体实践经验
如果无法正常显示,请先停止浏览器的去广告插件。
1. WOWService专题直播
交互场景下的多智能体实践经验
Kinglong
美团研究专家
LongCat Interaction Team
1
2. 目录
PART1 问题和破局
PART2 探索之路
PART3 挑战与展望
2
3. PART 01
问题和破局
3
4. 我们面临的问题
核心问题:传统智能客服在处理复杂、长尾问题时能力瓶颈明显,导致用户体验不佳和人工成本高企。
意图识别空间有限
头部业务意图已覆盖主要流量,但剩余的少部分长尾问题,仍
消耗了大量人工坐席资源。
多轮对话策略僵硬
依赖刚性决策树,用户一旦偏离预设路径,对话即失效,是推
高转人工率的关键因素
拟人化程度不足
缺乏情感计算与动态协商能力,无法建立用户信任,尤其在复
杂场景中表现不佳
多模态能力落后
多模态识别延迟超标,图像理解准确率低,对餐品撒漏等需要
图片识别的场景无智能解决力
4
5. 我们的解决思路
顺势而为:以大模型为核心,重构客服“大脑”
核心洞察
大模型凭借强大的语义理解与泛化能力,无需复杂的定制开发即可高效解决长尾问题, ROI显著提升。
Gartner 2024 年底预测:到 2025 年,85% 的客服务场景将探索生成式 AI
5
6. PART 02
探索之路
6
7. Agent 演进
从单一“工匠”到“专家团队”
7
8. Agent 演进
第一阶段:SOTA 单智能体,快速验证但上限明确
优势
上线快、成本低 :直接复用通用 SOTA 模型,少量提
示词工程即可启动。
能力全面 :单模型“大包大揽”,处理简单对话与任务。
劣势
黑盒性强 :幻觉与一致性问题突出,决策过程不可控。
鲁棒性差 :对长上下文和多步骤任务支持弱。
拟人化有但不足:拟人化程度有待提升。
结论 :适用于问题简单、链路短、低一致性约束的场景(如:工单摘要)。
8
9. Agent 演进
第二阶段:后训练单智能体,提升专长但“单体”瓶颈仍在
能力提升
体验更拟人 :具备共情能力,对话流畅自然,更拟人。
垂域更精准 :订单/售后等规则明确且边界清晰的场景更稳。
新的挑战
高昂成本 :需要数据与训练管线,版本维护与回归评测
开销显著。
更新滞后 :迭代周期长,存在“训练完即落后”的风险。
核心问题未解 :黑盒性与一致性约束问题依旧存在,无
法处理复杂协作。
结论 :提升了单点能力,但未能突破“单体智能”的架构天花板。
9
10. Agent 演进
第三阶段:当业务复杂度超越单体极限,架构升级势在必行
随着业务向右上角迁移,Multi-Agent 成为一个能同时满足高复杂度与高可控性要求的架构选择。
10
11. 架构设计
用户请求
预处理
用户信息
图片识别
上下文 Context
…
记忆加工&卸载
短期记忆
对话历史
输入检测
长期记忆
主Agent
监控能力
输入/输出合规情绪意图
退赔校验…
核心模块
核心能力
熔断/降级
输出
反思
LLM:Sota、自训练模型Prompt:职责、规划、反思..
Context:Full ContextTools:SubAgent(Agent
as tools)、hand_of_tool
沟通协商
基于服务策略或模型内化产出 action独立模块,单独训练
执行动作思考过程
(CoT)
回复话术
用户画像
服务策略
Reflect(反思)
后处理
动作一致性
资金安全
AI 安全
…
历史进线
知识
推理规划
输出检测
…
服务轨迹
…
…
对话技巧
策略能力中心
(SubAgent/工具)
外呼
SubAgent退赔
SubAgent
判责
SubAgent催单
…
响应给用户
11
12. 实现-风险与自愈
风险与自愈:全链路监控与反思 Agent 的闭环修正
监控能力- 全链路安全保障
机制:采用“输入检测+输出检测”双重机制。输入时识别,输
出时校验合规性与逻辑一致性。
动作:实时熔断风险(如辱骂、隐私泄露)直接转人工或触发
二次生成。
效果:采用“匹配命中+模型校准”策略,模型判定综合准确率
超过九成。
反思Agent - 系统的“纠错机制”
触发:监控层检测到下游节点的“承诺未执行”事件。
动作:基于失败上下文动态重规划,通过替代路径确保原始意
图的最终达成。
12
13. 实现-核心能力
平台化基石:支撑高效迭代与安全运行的核心能力
核心:框架稳定、配置灵活
的分层设计,将底层技术与上层
核心:分级记忆存储和跨 Agent
共享上下文机制。
业务配置解耦。
亮点:运营工作台,支持运营亮点:支持重复进线快速恢复
人员自主按业务场景配置 Agent、意图、未问先答、会话结束后
知识和规则。更新用户画像。
核心:基于真实历史数据构建
“虚拟用户”进行高强度攻击性核心:“从 0 到 1 冷启动”+
测试和回归测试。“从 1 到 N 指标驱动优化”的
亮点:端到端用户模拟器可自定
义用户角色、考察目标,
judge model的评判标准,快速
完成极端场景批量 case验证。
prompt 生产体系。
亮点:将运营经验转化为 prompt
生成工具,自动生成/迭代 prompt,
实现从“人肉编写”到“半自动化编写”。
13
14. 实现-记忆
核心:实现跨会话、跨智能体的上下文共享与继承
有效的记忆管理是多智能体系统从一系列无状态调用,转变为一个连贯、有上下文感知能力的高级智能体的关键
摘
裁
14
15. 实现-性能与成本调优
核心:实现时延、成本与一致性的平衡
流式输出:除对外支持流式输出,上下文压缩:采用滑动窗口与摘规则熔断:风险场景采用定向规则
节点间交互也支持流式输出,进一要机制。。
步降低时延。分层模型:将关键路径用高性能模漏斗拦截:建立正则命中后的模型
并行优化:将任务并行拆解,减少型,辅助路径用轻量模型。校准机制。
串行等待。Prompt 精简:持续优化提示词长信号预加载:预先加载高频知识度。
与信号。
15
16. PART 03
挑战和展望
16
17. 正视挑战:持续优化中的已知问题与对策
系统复杂度增加
调试与归因困难
Token消耗量上升
问题问题问题
多智能体间的通信、状态黑盒归因困境: 任务失败时,Agent 间交互历史、System
同步及编排逻辑,工程实难以定位是哪个 Agent 的决Prompt 和 CoT 消耗大量
现难度更高。策失误,调试排查成本较高。Token,导致成本上升。
对策对策对策
标准化:建设标准化的全链路交互追踪:构建 Agent综合降本:上下文压缩、
Agent编排框架,推动交互的 Trace 视图,记录每一Prompt 精简,简单任务使用
Sub-Agent在不同业务步的 Input/Output 与思考过轻量模型。
线间复用。程(CoT)。
17
18. 未来展望
强化上下文工程
深化 Human-in-the-Loop
更自主的"Agentic AI"
挑战挑战目标
突破单纯持久化存储,解决确保系统可信可控,持续校准推动系统向更自主洞察与执
长周期任务中的“记忆噪声”Agent 行为。行方向演进。
路径路径路径
建设动态注意力管理与语义深化构建“AI 提效、人类把关”依托已探索与沉淀的能力,
压缩体系,赋予Agent 高可协作闭环,利用人工反馈持续实现更为自主的决策与行动。
用长期工作记忆。优化。
与“中间迷失”。
18
19. Q&A
19
20. 更多技术干货
欢迎关注“美团技术团队”
20