SOP-Maze 面向复杂业务流程(SOP)的大模型能力评测基准
如果无法正常显示,请先停止浏览器的去广告插件。
1. SOP-Maze
面向复杂业务流程(SOP)的大模型能力评测基准
美团技术团队
2. SOP-Maze
3. SOP-MAZE
考察模型的什
么能力
4. 数据是什么样的
5. 两类SOP任务:LRS 与 HRS
命名借自植物根系形态学:侧根系“宽而浅”,直根系“深而窄”,分别对应SOP的广度与深度
LRS 侧根系 Lateral Root System
宽而浅:选项极多、层级很浅
• 13 个场景:核心信息抽取、风险内容检测、客服评分、意图识别、用户
情绪分析等
• 分支深度 ≤ 3 层,但单个父节点可有 10+ 个子节点(平均约 5 个父节
点、58 个叶节点)
• 考察重点:在大量并列选项中精准选择,并严格遵循流程约束
HRS 直根系 Heart Root System
深而窄:逻辑链长、分支复杂嵌套
• 10 个场景:套餐BD、餐厅预订/外卖客服、酒店查房、贷款营销、批量
订单澄清等
• 长且复杂的逻辑链,强调跨长程的前置条件满足与状态跟踪
• 考察重点:忠实遍历多步推理路径,保持上下文一致直至最终决策
23 个业务场景(LRS 13 + HRS 10)· 397 个实例 · 3422 个子任务,从广度与深度两个维度考察模型执行复杂SOP的能力
6. SOP-Maze是怎
么构建的
7. 模型b端效果不好,体现在哪?
8. LRS vs HRS:模型表现差异
32
LRS 最高总分(满分100)
64
HRS 最高总分(满分100)
宽选项任务(LRS)对当前模型明显更难:18 个模型的 LRS 总分集中在 20~32 分区间
同样是“路线迷失”(Route Blindness),两类任务中的表现并不相同
LRS:过早锁定错误分支
面对大量并列候选时难以并行维护与剪枝,提前选错分支后很难自我恢复
HRS:跳过中间节点
误判前置条件“已满足”而直接跳步:对隐式状态跟踪过度自信、缺乏显式
校验
推理模型显著优于非推理模型,且差距在 LRS 上尤为明显—— 宽分支下保持流程状态一致是非推理模型的短板
9. 为什么模型效果不好?
- 阶段一(全上下文 / 简化提问):SOP 全文照给(含无关干扰),但把问题只保留与该能力相关的那一个核心约束,去掉
其它所有约束。
- 阶段二(精简上下文 / 简化提问):再把 SOP 也删到只剩与核心约束相关的部分。
- 阶段三(无上下文 / 直接提问):彻底去掉 SOP 框架,直接问那个核心问题(最简单,几乎是"裸题")。
10. Q&A