SkillsBench是首个专门评估AI智能体使用技能能力的基准测试平台,通过模块化技能文件夹(包含指令、脚本等)测试智能体执行复杂工作流的有效性。提供Gym风格的基准测试框架,支持多技能组合任务,旨在构建高质量、覆盖广泛的技能评估标准。
PDDL
1,139
289
Apache License 2.0
2天前
  • «
  • 1
  • »

Главная - Вики-сайт
Copyright © 2011-2026 iteam. Current version is 2.155.2. UTC+08:00, 2026-05-10 23:47
浙ICP备14020137号-1 $Гость$