交互场景下的多智能体实践经验

如果无法正常显示，请先停止浏览器的去广告插件。

1. WOWService专题直播交互场景下的多智能体实践经验 Kinglong 美团研究专家 LongCat Interaction Team 1

2. 目录 PART1 问题和破局 PART2 探索之路 PART3 挑战与展望 2

3. PART 01 问题和破局 3

4. 我们面临的问题核心问题：传统智能客服在处理复杂、长尾问题时能力瓶颈明显，导致用户体验不佳和人工成本高企。意图识别空间有限头部业务意图已覆盖主要流量，但剩余的少部分长尾问题，仍消耗了大量人工坐席资源。多轮对话策略僵硬依赖刚性决策树，用户一旦偏离预设路径，对话即失效，是推高转人工率的关键因素拟人化程度不足缺乏情感计算与动态协商能力，无法建立用户信任，尤其在复杂场景中表现不佳多模态能力落后多模态识别延迟超标，图像理解准确率低，对餐品撒漏等需要图片识别的场景无智能解决力 4

5. 我们的解决思路顺势而为：以大模型为核心，重构客服“大脑” 核心洞察大模型凭借强大的语义理解与泛化能力，无需复杂的定制开发即可高效解决长尾问题， ROI显著提升。 Gartner 2024 年底预测：到 2025 年，85% 的客服务场景将探索生成式 AI 5

6. PART 02 探索之路 6

7. Agent 演进从单一“工匠”到“专家团队” 7

8. Agent 演进第一阶段：SOTA 单智能体，快速验证但上限明确优势上线快、成本低：直接复用通用 SOTA 模型，少量提示词工程即可启动。能力全面：单模型“大包大揽”，处理简单对话与任务。劣势黑盒性强：幻觉与一致性问题突出，决策过程不可控。鲁棒性差：对长上下文和多步骤任务支持弱。拟人化有但不足：拟人化程度有待提升。结论：适用于问题简单、链路短、低一致性约束的场景（如：工单摘要）。 8

9. Agent 演进第二阶段：后训练单智能体，提升专长但“单体”瓶颈仍在能力提升体验更拟人：具备共情能力，对话流畅自然，更拟人。垂域更精准：订单/售后等规则明确且边界清晰的场景更稳。新的挑战高昂成本：需要数据与训练管线，版本维护与回归评测开销显著。更新滞后：迭代周期长，存在“训练完即落后”的风险。核心问题未解：黑盒性与一致性约束问题依旧存在，无法处理复杂协作。结论：提升了单点能力，但未能突破“单体智能”的架构天花板。 9

10. Agent 演进第三阶段：当业务复杂度超越单体极限，架构升级势在必行随着业务向右上角迁移，Multi-Agent 成为一个能同时满足高复杂度与高可控性要求的架构选择。 10

11. 架构设计用户请求预处理用户信息图片识别上下文 Context … 记忆加工&卸载短期记忆对话历史输入检测长期记忆主Agent 监控能力输入/输出合规情绪意图退赔校验… 核心模块核心能力熔断/降级输出反思 LLM：Sota、自训练模型Prompt：职责、规划、反思.. Context：Full ContextTools：SubAgent（Agent as tools）、hand_of_tool 沟通协商基于服务策略或模型内化产出 action独立模块，单独训练执行动作思考过程（CoT）回复话术用户画像服务策略 Reflect（反思）后处理动作一致性资金安全 AI 安全 … 历史进线知识推理规划输出检测 … 服务轨迹 … … 对话技巧策略能力中心（SubAgent/工具）外呼 SubAgent退赔 SubAgent 判责 SubAgent催单 … 响应给用户 11

12. 实现-风险与自愈风险与自愈：全链路监控与反思 Agent 的闭环修正监控能力- 全链路安全保障机制：采用“输入检测+输出检测”双重机制。输入时识别，输出时校验合规性与逻辑一致性。动作：实时熔断风险（如辱骂、隐私泄露）直接转人工或触发二次生成。效果：采用“匹配命中+模型校准”策略，模型判定综合准确率超过九成。反思Agent - 系统的“纠错机制” 触发：监控层检测到下游节点的“承诺未执行”事件。动作：基于失败上下文动态重规划，通过替代路径确保原始意图的最终达成。 12

13. 实现-核心能力平台化基石：支撑高效迭代与安全运行的核心能力核心：框架稳定、配置灵活的分层设计，将底层技术与上层核心：分级记忆存储和跨 Agent 共享上下文机制。业务配置解耦。亮点：运营工作台，支持运营亮点：支持重复进线快速恢复人员自主按业务场景配置 Agent、意图、未问先答、会话结束后知识和规则。更新用户画像。核心：基于真实历史数据构建 “虚拟用户”进行高强度攻击性核心：“从 0 到 1 冷启动”+ 测试和回归测试。“从 1 到 N 指标驱动优化”的亮点：端到端用户模拟器可自定义用户角色、考察目标， judge model的评判标准，快速完成极端场景批量 case验证。 prompt 生产体系。亮点：将运营经验转化为 prompt 生成工具，自动生成/迭代 prompt，实现从“人肉编写”到“半自动化编写”。 13

14. 实现-记忆核心：实现跨会话、跨智能体的上下文共享与继承有效的记忆管理是多智能体系统从一系列无状态调用，转变为一个连贯、有上下文感知能力的高级智能体的关键摘裁 14

15. 实现-性能与成本调优核心：实现时延、成本与一致性的平衡流式输出：除对外支持流式输出，上下文压缩：采用滑动窗口与摘规则熔断：风险场景采用定向规则节点间交互也支持流式输出，进一要机制。。步降低时延。分层模型：将关键路径用高性能模漏斗拦截：建立正则命中后的模型并行优化：将任务并行拆解，减少型，辅助路径用轻量模型。校准机制。串行等待。Prompt 精简：持续优化提示词长信号预加载：预先加载高频知识度。与信号。 15

16. PART 03 挑战和展望 16

17. 正视挑战：持续优化中的已知问题与对策系统复杂度增加调试与归因困难 Token消耗量上升问题问题问题多智能体间的通信、状态黑盒归因困境：任务失败时，Agent 间交互历史、System 同步及编排逻辑，工程实难以定位是哪个 Agent 的决Prompt 和 CoT 消耗大量现难度更高。策失误，调试排查成本较高。Token，导致成本上升。对策对策对策标准化：建设标准化的全链路交互追踪：构建 Agent综合降本：上下文压缩、 Agent编排框架，推动交互的 Trace 视图，记录每一Prompt 精简，简单任务使用 Sub-Agent在不同业务步的 Input/Output 与思考过轻量模型。线间复用。程（CoT）。 17

18. 未来展望强化上下文工程深化 Human-in-the-Loop 更自主的"Agentic AI" 挑战挑战目标突破单纯持久化存储，解决确保系统可信可控，持续校准推动系统向更自主洞察与执长周期任务中的“记忆噪声”Agent 行为。行方向演进。路径路径路径建设动态注意力管理与语义深化构建“AI 提效、人类把关”依托已探索与沉淀的能力，压缩体系，赋予Agent 高可协作闭环，利用人工反馈持续实现更为自主的决策与行动。用长期工作记忆。优化。与“中间迷失”。 18

19. Q&A 19

20. 更多技术干货欢迎关注“美团技术团队” 20