基于真实生活场景的交互式大模型智能体评测基准
如果无法正常显示,请先停止浏览器的去广告插件。
1. 🌱VitaBench: Benchmarking LLM Agents with Versatile
Interactive Tasks in Real-world Applications
基于真实生活场景的交互式大模型智能体评测基准
报告人: Yueqing Sun
美团计算和智能平台部
2. 文章概括
VitaBench 特点:
Ø 真实生活场景(外卖、到店、酒旅)
Ø 三维复杂度量化(推理、工具、交互)
Ø 基于 rubric checklist 的滑动窗口评估
Ø 高难度 Agent 基准(混合场景最高 30%)
Ø 完全开源(数据集、评测框架、榜单)
3. 目录|Content
• 研究背景
• 理论基础
• 数据集构建
• 实验结果分析
4. 研究背景
• 为什么需要一个新基准?
Ø 现有的智能体评测基准与现实应用需求之间存在显著脱节
• 工具生态简单化
• 信息密度不足
• 模型探索性受限
• 交互动态性缺失
5. 研究背景
• 为什么需要一个新基准?
Ø我们从「推理、工具、交互」三个维度重新定义了 real-world agentic task 的复杂度:
6. 理论基础
• POMDP?
Ø 我们将 Agent 任务定义为部分可观测的马尔可夫过程(POMDP)
7. 理论基础
• 推理复杂度
Ø 量化智能体需要在部分可观测环境中的整合的信息量,具体通过以下指标衡量:
Ø 观测空间大小
Ø 部分可观测度
Ø 推理点数量
Ø VitaBench 构建了大规模真实环境数据库,其中单个任务可涉及 5-20 个服务提供商、最多超过
100 个候选商品
Ø 每个任务聚合多个真实用户需求,形成复杂的搜索与推理空间
💡 例:用户要找"人均 100 以内、有包间、离地铁近、评分 4.5+"的餐厅 → 4 个推理点 × 上百候
选 = 巨大搜索空间
8. 理论基础
• 工具复杂度
Ø 将现实中的工具集建模为图,图中顶点代表工具,边代表工具间的依赖关系:
Ø 图大小与密度
Ø 工具调用链路长度与子图覆盖率
Ø VitaBench 从三个场景中提炼出 66 个真实工具并构建有向图,将领域规则编码到图结构中
Ø 其中工具通过 Python 函数实现,确保工具调用结果的稳定性和一致性
9. 理论基础
• 交互复杂度
Ø 智能体在用户的动态多轮对话中的掌控能力
Ø 用户画像系统
Ø 行为属性建模
Ø 动态状态演化
Ø VitaBench 为每个任务都配备了一个独特的用户角色,并通过 User Simulator 扮演,逐步向
Agent 提出需求。
10. 数据集构建
11. 数据集构建
• 可插拔设计
Ø VitaBench 将各领域的规则统一编码到工具图结构
中,避免了冗余的领域策略文档
Ø 支持各种场景与工具集的自由组合
Ø 单场景任务 x300:聚焦于单一领域的复杂需求;
Ø 跨场景任务 x100:考察智能体在多领域间的切
换与协同能力。
12. 数据集构建
• 滑动窗口评估器
Ø VitaBench 将任务目标拆解为一组原子化评估准则(Rubric),实现了更全面、细粒度的行为覆盖。
Ø 评估器通过带重叠的滑动窗口扫描完整对话轨迹,在保持上下文连贯性的同时持续跟踪每个 rubric 的
状态,确保跨窗口一致。
13. 实验结果分析
• 主实验结果
Ø 主要结论如下:
Ø 跨场景任务带来极大挑战
14. 实验结果分析
• 主实验结果
Ø 主要结论如下:
Ø 跨场景任务带来极大挑战
Ø 多次尝试(探索)可以提升性能,但同样稳定性堪忧
Ø “思考型”模型显著优于“非思考型”
15. 实验结果分析
• 复杂度消融实验
Ø 推理复杂性:任务所需推理点数量与成功率呈强负相关。
Ø 工具复杂性:工具图的节点与边数量越多,任务越难。
16. 实验结果分析
• 复杂度消融实验
Ø 推理复杂性:任务所需推理点数量与成功率呈强负相关。
Ø 工具复杂性:工具图的节点与边数量越多,任务越难。
Ø 交互复杂性:
17. 实验结果分析
• 可靠性验证
Ø 用户模拟器
Ø 滑动窗口评估器
Ø 多次测试误差
18. 实验结果分析
• 失败案例分析
Ø 推理相关错误(61.8%)
Ø 工具相关错误(21.1%)
Ø 交互相关错误(7.9%)
19. 总结与展望
Ø 🌐 项目主页:
https://vitabench.github.io
Ø 📚 论文链接:
https://arxiv.org/abs/2509.26490
Ø 💻 代码仓库:
https://github.com/vitbench
Ø 🤗 数据集:
https://huggingface.co/datasets/meituan/VitaBench
Ø 🏆 排行榜:
https://vitabench.github.io/#Leaderboard
📣 已被 Qwen3-Max-Thinking、Qwen3.6-Plus 等引用为 Agent 能力评测基准
20. Q&A
21. 更多技术干货
欢迎关注“美团技术团队”