基于真实生活场景的交互式大模型智能体评测基准

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 🌱VitaBench: Benchmarking LLM Agents with Versatile Interactive Tasks in Real-world Applications 基于真实生活场景的交互式大模型智能体评测基准 报告人: Yueqing Sun 美团计算和智能平台部
2. 文章概括 VitaBench 特点: Ø 真实生活场景(外卖、到店、酒旅) Ø 三维复杂度量化(推理、工具、交互) Ø 基于 rubric checklist 的滑动窗口评估 Ø 高难度 Agent 基准(混合场景最高 30%) Ø 完全开源(数据集、评测框架、榜单)
3. 目录|Content • 研究背景 • 理论基础 • 数据集构建 • 实验结果分析
4. 研究背景 • 为什么需要一个新基准? Ø 现有的智能体评测基准与现实应用需求之间存在显著脱节 • 工具生态简单化 • 信息密度不足 • 模型探索性受限 • 交互动态性缺失
5. 研究背景 • 为什么需要一个新基准? Ø我们从「推理、工具、交互」三个维度重新定义了 real-world agentic task 的复杂度:
6. 理论基础 • POMDP? Ø 我们将 Agent 任务定义为部分可观测的马尔可夫过程(POMDP)
7. 理论基础 • 推理复杂度 Ø 量化智能体需要在部分可观测环境中的整合的信息量,具体通过以下指标衡量: Ø 观测空间大小 Ø 部分可观测度 Ø 推理点数量 Ø VitaBench 构建了大规模真实环境数据库,其中单个任务可涉及 5-20 个服务提供商、最多超过 100 个候选商品 Ø 每个任务聚合多个真实用户需求,形成复杂的搜索与推理空间 💡 例:用户要找"人均 100 以内、有包间、离地铁近、评分 4.5+"的餐厅 → 4 个推理点 × 上百候 选 = 巨大搜索空间
8. 理论基础 • 工具复杂度 Ø 将现实中的工具集建模为图,图中顶点代表工具,边代表工具间的依赖关系: Ø 图大小与密度 Ø 工具调用链路长度与子图覆盖率 Ø VitaBench 从三个场景中提炼出 66 个真实工具并构建有向图,将领域规则编码到图结构中 Ø 其中工具通过 Python 函数实现,确保工具调用结果的稳定性和一致性
9. 理论基础 • 交互复杂度 Ø 智能体在用户的动态多轮对话中的掌控能力 Ø 用户画像系统 Ø 行为属性建模 Ø 动态状态演化 Ø VitaBench 为每个任务都配备了一个独特的用户角色,并通过 User Simulator 扮演,逐步向 Agent 提出需求。
10. 数据集构建
11. 数据集构建 • 可插拔设计 Ø VitaBench 将各领域的规则统一编码到工具图结构 中,避免了冗余的领域策略文档 Ø 支持各种场景与工具集的自由组合 Ø 单场景任务 x300:聚焦于单一领域的复杂需求; Ø 跨场景任务 x100:考察智能体在多领域间的切 换与协同能力。
12. 数据集构建 • 滑动窗口评估器 Ø VitaBench 将任务目标拆解为一组原子化评估准则(Rubric),实现了更全面、细粒度的行为覆盖。 Ø 评估器通过带重叠的滑动窗口扫描完整对话轨迹,在保持上下文连贯性的同时持续跟踪每个 rubric 的 状态,确保跨窗口一致。
13. 实验结果分析 • 主实验结果 Ø 主要结论如下: Ø 跨场景任务带来极大挑战
14. 实验结果分析 • 主实验结果 Ø 主要结论如下: Ø 跨场景任务带来极大挑战 Ø 多次尝试(探索)可以提升性能,但同样稳定性堪忧 Ø “思考型”模型显著优于“非思考型”
15. 实验结果分析 • 复杂度消融实验 Ø 推理复杂性:任务所需推理点数量与成功率呈强负相关。 Ø 工具复杂性:工具图的节点与边数量越多,任务越难。
16. 实验结果分析 • 复杂度消融实验 Ø 推理复杂性:任务所需推理点数量与成功率呈强负相关。 Ø 工具复杂性:工具图的节点与边数量越多,任务越难。 Ø 交互复杂性:
17. 实验结果分析 • 可靠性验证 Ø 用户模拟器 Ø 滑动窗口评估器 Ø 多次测试误差
18. 实验结果分析 • 失败案例分析 Ø 推理相关错误(61.8%) Ø 工具相关错误(21.1%) Ø 交互相关错误(7.9%)
19. 总结与展望 Ø 🌐 项目主页: https://vitabench.github.io Ø 📚 论文链接: https://arxiv.org/abs/2509.26490 Ø 💻 代码仓库: https://github.com/vitbench Ø 🤗 数据集: https://huggingface.co/datasets/meituan/VitaBench Ø 🏆 排行榜: https://vitabench.github.io/#Leaderboard 📣 已被 Qwen3-Max-Thinking、Qwen3.6-Plus 等引用为 Agent 能力评测基准
20. Q&A
21. 更多技术干货 欢迎关注“美团技术团队”

ホーム - Wiki
Copyright © 2011-2026 iteam. Current version is 2.155.2. UTC+08:00, 2026-06-21 01:28
浙ICP备14020137号-1 $お客様$