SOP-Maze 面向复杂业务流程（SOP）的大模型能力评测基准

如果无法正常显示，请先停止浏览器的去广告插件。

1. SOP-Maze 面向复杂业务流程（SOP）的大模型能力评测基准美团技术团队

2. SOP-Maze

3. SOP-MAZE 考察模型的什么能力

4. 数据是什么样的

5. 两类SOP任务：LRS 与 HRS 命名借自植物根系形态学：侧根系“宽而浅”，直根系“深而窄”，分别对应SOP的广度与深度 LRS 侧根系 Lateral Root System 宽而浅：选项极多、层级很浅 • 13 个场景：核心信息抽取、风险内容检测、客服评分、意图识别、用户情绪分析等 • 分支深度 ≤ 3 层，但单个父节点可有 10+ 个子节点（平均约 5 个父节点、58 个叶节点） • 考察重点：在大量并列选项中精准选择，并严格遵循流程约束 HRS 直根系 Heart Root System 深而窄：逻辑链长、分支复杂嵌套 • 10 个场景：套餐BD、餐厅预订/外卖客服、酒店查房、贷款营销、批量订单澄清等 • 长且复杂的逻辑链，强调跨长程的前置条件满足与状态跟踪 • 考察重点：忠实遍历多步推理路径，保持上下文一致直至最终决策 23 个业务场景（LRS 13 + HRS 10）· 397 个实例 · 3422 个子任务，从广度与深度两个维度考察模型执行复杂SOP的能力

6. SOP-Maze是怎么构建的

7. 模型b端效果不好，体现在哪？

8. LRS vs HRS：模型表现差异 32 LRS 最高总分（满分100） 64 HRS 最高总分（满分100）宽选项任务（LRS）对当前模型明显更难：18 个模型的 LRS 总分集中在 20~32 分区间同样是“路线迷失”（Route Blindness），两类任务中的表现并不相同 LRS：过早锁定错误分支面对大量并列候选时难以并行维护与剪枝，提前选错分支后很难自我恢复 HRS：跳过中间节点误判前置条件“已满足”而直接跳步：对隐式状态跟踪过度自信、缺乏显式校验推理模型显著优于非推理模型，且差距在 LRS 上尤为明显—— 宽分支下保持流程状态一致是非推理模型的短板

9. 为什么模型效果不好？ - 阶段一(全上下文 / 简化提问):SOP 全文照给(含无关干扰),但把问题只保留与该能力相关的那一个核心约束,去掉其它所有约束。 - 阶段二(精简上下文 / 简化提问):再把 SOP 也删到只剩与核心约束相关的部分。 - 阶段三(无上下文 / 直接提问):彻底去掉 SOP 框架,直接问那个核心问题(最简单,几乎是"裸题")。

10. Q&A