本文翻译自 Why AI Agents Need Orchestration,该文章来自工作流引擎 Camunda 的官方 Blog,主要通过编排 AI Agents 来解决信任和决策等问题
目前,很多公司都在探索如何有效地整合 AI Agents。本文将介绍如何通过 AI Agents 真正改进端到端的业务流程。首先,这要求我们实现两个前提:信任 AI Agents 能为我们做出重大决策,甚至信任它们能执行这些决策。其次,如何构建一套既能利用 AI Agents 能力、又能合理分配责任的基础设施?更重要的是,终端用户是否终将信任 AI 做出的重大决策?
我认识的大多数人已经以巧妙方式将人工智能融入工作。我经常用 Camunda 做概念验证,用 Gemini 或 ChatGPT 生成测试数据或 JSON 对象。当然也可以升级为 AI Agents:不仅能生成数据,还能用这些数据启动流程实例。
这也正是当前企业使用 AI Agents 的主流模式 —— 输入用户指令的黑匣子,在执行简单操作后返回(希望是)有用的响应。
AI Agents 的响应通常不透明且缺乏逻辑解释。AI 本身不需要做出任何可能产生实际结果的决策或行动。如果人类决定使用 ChatGPT 生成的法律文件...那只是人类的失误。
目前,与重大决策和 AI Agents 不稳定(有时存在缺陷)的输出保持距离是更安全的做法。这基本排除了发挥 AI Agents 全部潜力的可能,毕竟最理想的应用场景是让它们在生产系统中做出原本由人类执行的决策和关键操作。
但认为这种状态会长期持续并不现实。根据现有趋势推断,AI Agents 终将被赋予更多操作权限。阻碍在于:由于无法产生可预测、可复现的结果,没人敢真正信任它们。而要让 AI 做出重大决策,这种可靠性恰恰不可或缺。
要实现突破需要做到三点:去中心化、协同编排、控制机制
正如前文所言,我每天会使用多款 AI 工具——并非出于个人偏好,而是因为没有任何单一 AI 能准确应对我的多样化需求。以构建咖啡订单流程为例,我需要用 Gemini 生成 JSON 对象:
{
"orders" : [{
"order_id": "20240726-001",
"customer_name": "艾丽斯·约翰逊",
"order_date": "2024-07-26",
"items": [
{ "name": "拿铁", "size": "大杯", "quantity": 1, "price": 4.50 },
{ "name": "牛角包", "quantity": 2, "price": 3.00 }
],
"payment_method": "信用卡"
},{
"order_id": "20240726-002",
"customer_name": "鲍勃·威廉姆斯",
"order_date": "2024-07-26",
"items": [
{ "name": "浓缩咖啡", "quantity": 1, "price": 3.00},
{"name": "麦芬蛋糕", "quantity": 1, "price": 2.50},
{"name": "冰茶", "size": "中杯", "quantity": 1, "price": 3.50}
],
"payment_method": "现金"
}]
}
接着需使用友好表达式语言(FEEL)解析该对象获取特定信息。此时我弃用 Gemini,因其在 FEEL 表达式生成上存在系统性缺陷:FEEL 作为新兴小众语言训练数据有限,且 Camunda 的 FEEL 实现包含特有函数与语法细节。若强求 Gemini 同时生成数据并编写 FEEL 表达式获取首条订单,将得到错误结果:
orders[1] // 实际应写作 orders[0]
这种错误具有欺骗性。于是我转而使用经过 Camunda 技术文档专项训练的 AI Agents ,获得正确响应:
orders[0] // 精准匹配数组索引规则
这种场景中,我实质上扮演着 AI Agents 指挥者的角色。决策逻辑基于两个核心维度:
信任度:哪个代理在该领域具备可靠知识储备?
结果权重:决策失误将引发何种程度的影响?
这正是阻碍真正端到端自主流程落地的关键矛盾,我们无法确信某个 AI Agents 能在重大决策链路上同时满足准确性要求与结果承担能力。这也解释了为何人们乐于让 AI 总结文本,却绝不允许它自主订购婚礼鲜花。
理论铺垫已足,让我们聚焦如何通过提升信任度与控制结果来释放 AI Agents 的全部潜力。遵循分步推进原则,逐一拆解关键步骤。
我们都经历过对 AI 输出结果发出"为什么?"的质疑。不信任的核心根源在于:大多数情况下,你永远无法得知 AI 决策背后的逻辑。在需要审计追溯或严格监管的场景中,依赖黑箱化的 AI Agents 无异于空中楼阁。
破局之钥在于思维链(Chain of Thought),要求 AI 清晰展示问题拆解过程与逐步推理路径。但此方案存在明显缺点:需人工审查思维链。此时,协同编排技术的价值开始显现。
通过编排引擎(如 Camunda 的 BPMN 流程引擎),可将查询同时发送至多个 AI Agents 。待其返回答案与思维链后,由第三位"法官代理"评估结果准确性。
假设我想告诉某个通用接口“我正在使用 Camunda 平台,需要用 FEEL 表达式获取数组的首个元素”,此时我希望这个问题能自动路由到最适合回答的代理 —— 比如 Camunda 的 kapa.ai 实例。如果用 Camunda 这类支持 BPMN 的协调工具构建这套系统,实现起来会非常简单。
查询首先进入流程实例,并行触发两个 AI Agents ,询问它们谁更擅长处理此类请求。随后,第三个代理会审查两者的思维链,根据结果做出判断。显然,涉及 FEEL 表达式的问题由 Camunda 的 AI 处理更合适,因此流程会转向该路径。
通过这种方式,我们构建了一个可维护的系统:它不仅向用户返回更可信的响应,还能清晰说明为何选择特定代理以及得出该结论的原因。
建立信任后,自然要考虑后续行动。假设某位 Camunda 客户因无法获取数组首元素而提交了技术支持工单。Camunda 支持人员看到后心想:“这个问题 kapa.ai 肯定能解决——其实完全可以让 AI Agents 直接回复。”
要实现这点,只需对模型稍作调整。
新版模型中新增了访问工单系统、查找相关工单、用可信答案更新工单的操作。得益于精心设计的流程,这些自动化操作仅在信任度极高时触发。若置信度不足,信息会返回给人工支持人员,由其决定后续操作。
通过部署独立的、经过专项训练的 AI Agents ,并围绕其调用逻辑构建强健且可审计的决策协调机制,用户将首先对系统输出的结果与建议建立信任。更进一步,这能让架构师与软件设计者在开发时更有信心——基于这些可信代理,系统甚至能直接触发实际业务动作。
要实现这一跨越,Camunda 这类协调器至关重要。它天生擅长系统集成,允许设计者精准控制各系统的调用方式与触发逻辑。另一个显著优势是可审计性的大幅提升:将流程各路径生成的数据与每个代理的思维链输出相结合,就能完整还原“为何采取某项行动”以及“如何执行”的决策轨迹。
遵循这些原则,我们将更容易说服用户:即便没有人工监督,AI 自主执行的操作依然可靠。更重要的是,这种模式能省去传统流程中反复检查验证的补救性工作,从而节省大量时间与成本。
当然,并非所有场景都适用——比如法院文件递交这类事务,我始终认为应该由人类处理。但长远来看,未来的 AI Agents 不仅能提出建议,还能自主选择具体执行动作。
赋予 AI 有限决策权。BPMN(业务流程模型与标记)中有个名为特别子流程(ad-hoc subprocess)的概念,允许将流程中的局部决策权移交给人或代理。借助这种机制,我们可以赋予 AI 有限的自由裁量权,让其自主判断最优动作。
在上图案例中,我为 AI Agents 增加了信息索取通道:若代理认为需要更多信息才能决策,可主动发起询问(可能多次迭代),待充分准备后再向工单提交最终答复。关键在于,当代理意识到额外信息有助于优化决策时,它能主动触发数据收集动作。
信任源自能力边界认知。未来的方向,是相信 AI Agents 能在其能力范围内可靠运作。如果我们为它们开放有助于优化决策、完成任务的动作权限,这些智能体就能深度融入端到端的业务流程,成为真正的数字生产力伙伴。