基于真实生活场景的交互式大模型智能体评测基准

1. 🌱VitaBench: Benchmarking LLM Agents with Versatile Interactive Tasks in Real-world Applications 基于真实生活场景的交互式大模型智能体评测基准报告人: Yueqing Sun 美团计算和智能平台部

2. 文章概括 VitaBench 特点： Ø 真实生活场景（外卖、到店、酒旅） Ø 三维复杂度量化（推理、工具、交互） Ø 基于 rubric checklist 的滑动窗口评估 Ø 高难度 Agent 基准（混合场景最高 30%） Ø 完全开源（数据集、评测框架、榜单）

3. 目录｜Content • 研究背景 • 理论基础 • 数据集构建 • 实验结果分析

4. 研究背景 • 为什么需要一个新基准？ Ø 现有的智能体评测基准与现实应用需求之间存在显著脱节 • 工具生态简单化 • 信息密度不足 • 模型探索性受限 • 交互动态性缺失

5. 研究背景 • 为什么需要一个新基准？ Ø我们从「推理、工具、交互」三个维度重新定义了 real-world agentic task 的复杂度：

6. 理论基础 • POMDP？ Ø 我们将 Agent 任务定义为部分可观测的马尔可夫过程（POMDP）

7. 理论基础 • 推理复杂度 Ø 量化智能体需要在部分可观测环境中的整合的信息量，具体通过以下指标衡量： Ø 观测空间大小 Ø 部分可观测度 Ø 推理点数量 Ø VitaBench 构建了大规模真实环境数据库，其中单个任务可涉及 5-20 个服务提供商、最多超过 100 个候选商品 Ø 每个任务聚合多个真实用户需求，形成复杂的搜索与推理空间 💡 例：用户要找"人均 100 以内、有包间、离地铁近、评分 4.5+"的餐厅 → 4 个推理点 × 上百候选 = 巨大搜索空间

8. 理论基础 • 工具复杂度 Ø 将现实中的工具集建模为图，图中顶点代表工具，边代表工具间的依赖关系： Ø 图大小与密度 Ø 工具调用链路长度与子图覆盖率 Ø VitaBench 从三个场景中提炼出 66 个真实工具并构建有向图，将领域规则编码到图结构中 Ø 其中工具通过 Python 函数实现，确保工具调用结果的稳定性和一致性

9. 理论基础 • 交互复杂度 Ø 智能体在用户的动态多轮对话中的掌控能力 Ø 用户画像系统 Ø 行为属性建模 Ø 动态状态演化 Ø VitaBench 为每个任务都配备了一个独特的用户角色，并通过 User Simulator 扮演，逐步向 Agent 提出需求。

10. 数据集构建

11. 数据集构建 • 可插拔设计 Ø VitaBench 将各领域的规则统一编码到工具图结构中，避免了冗余的领域策略文档 Ø 支持各种场景与工具集的自由组合 Ø 单场景任务 x300：聚焦于单一领域的复杂需求； Ø 跨场景任务 x100：考察智能体在多领域间的切换与协同能力。

12. 数据集构建 • 滑动窗口评估器 Ø VitaBench 将任务目标拆解为一组原子化评估准则（Rubric），实现了更全面、细粒度的行为覆盖。 Ø 评估器通过带重叠的滑动窗口扫描完整对话轨迹，在保持上下文连贯性的同时持续跟踪每个 rubric 的状态，确保跨窗口一致。

13. 实验结果分析 • 主实验结果 Ø 主要结论如下： Ø 跨场景任务带来极大挑战

14. 实验结果分析 • 主实验结果 Ø 主要结论如下： Ø 跨场景任务带来极大挑战 Ø 多次尝试（探索）可以提升性能，但同样稳定性堪忧 Ø “思考型”模型显著优于“非思考型”

15. 实验结果分析 • 复杂度消融实验 Ø 推理复杂性：任务所需推理点数量与成功率呈强负相关。 Ø 工具复杂性：工具图的节点与边数量越多，任务越难。

16. 实验结果分析 • 复杂度消融实验 Ø 推理复杂性：任务所需推理点数量与成功率呈强负相关。 Ø 工具复杂性：工具图的节点与边数量越多，任务越难。 Ø 交互复杂性：

17. 实验结果分析 • 可靠性验证 Ø 用户模拟器 Ø 滑动窗口评估器 Ø 多次测试误差

18. 实验结果分析 • 失败案例分析 Ø 推理相关错误（61.8%） Ø 工具相关错误（21.1%） Ø 交互相关错误（7.9%）

19. 总结与展望 Ø 🌐 项目主页： https://vitabench.github.io Ø 📚 论文链接： https://arxiv.org/abs/2509.26490 Ø 💻 代码仓库： https://github.com/vitbench Ø 🤗 数据集： https://huggingface.co/datasets/meituan/VitaBench Ø 🏆 排行榜： https://vitabench.github.io/#Leaderboard 📣 已被 Qwen3-Max-Thinking、Qwen3.6-Plus 等引用为 Agent 能力评测基准

20. Q&A

21. 更多技术干货欢迎关注“美团技术团队”