SOP-Maze 面向复杂业务流程(SOP)的大模型能力评测基准

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. SOP-Maze 面向复杂业务流程(SOP)的大模型能力评测基准 美团技术团队
2. SOP-Maze
3. SOP-MAZE 考察模型的什 么能力
4. 数据是什么样的
5. 两类SOP任务:LRS 与 HRS 命名借自植物根系形态学:侧根系“宽而浅”,直根系“深而窄”,分别对应SOP的广度与深度 LRS 侧根系 Lateral Root System 宽而浅:选项极多、层级很浅 • 13 个场景:核心信息抽取、风险内容检测、客服评分、意图识别、用户 情绪分析等 • 分支深度 ≤ 3 层,但单个父节点可有 10+ 个子节点(平均约 5 个父节 点、58 个叶节点) • 考察重点:在大量并列选项中精准选择,并严格遵循流程约束 HRS 直根系 Heart Root System 深而窄:逻辑链长、分支复杂嵌套 • 10 个场景:套餐BD、餐厅预订/外卖客服、酒店查房、贷款营销、批量 订单澄清等 • 长且复杂的逻辑链,强调跨长程的前置条件满足与状态跟踪 • 考察重点:忠实遍历多步推理路径,保持上下文一致直至最终决策 23 个业务场景(LRS 13 + HRS 10)· 397 个实例 · 3422 个子任务,从广度与深度两个维度考察模型执行复杂SOP的能力
6. SOP-Maze是怎 么构建的
7. 模型b端效果不好,体现在哪?
8. LRS vs HRS:模型表现差异 32 LRS 最高总分(满分100) 64 HRS 最高总分(满分100) 宽选项任务(LRS)对当前模型明显更难:18 个模型的 LRS 总分集中在 20~32 分区间 同样是“路线迷失”(Route Blindness),两类任务中的表现并不相同 LRS:过早锁定错误分支 面对大量并列候选时难以并行维护与剪枝,提前选错分支后很难自我恢复 HRS:跳过中间节点 误判前置条件“已满足”而直接跳步:对隐式状态跟踪过度自信、缺乏显式 校验 推理模型显著优于非推理模型,且差距在 LRS 上尤为明显—— 宽分支下保持流程状态一致是非推理模型的短板
9. 为什么模型效果不好? - 阶段一(全上下文 / 简化提问):SOP 全文照给(含无关干扰),但把问题只保留与该能力相关的那一个核心约束,去掉 其它所有约束。 - 阶段二(精简上下文 / 简化提问):再把 SOP 也删到只剩与核心约束相关的部分。 - 阶段三(无上下文 / 直接提问):彻底去掉 SOP 框架,直接问那个核心问题(最简单,几乎是"裸题")。
10. Q&A

首页 - Wiki
Copyright © 2011-2026 iteam. Current version is 2.155.2. UTC+08:00, 2026-06-19 21:17
浙ICP备14020137号-1 $访客地图$