SkillsBench是首个专门评估AI智能体使用技能能力的基准测试平台,通过模块化技能文件夹(包含指令、脚本等)测试智能体执行复杂工作流的有效性。提供Gym风格的基准测试框架,支持多技能组合任务,旨在构建高质量、覆盖广泛的技能评估标准。
PDDL
1,139
289
Apache License 2.0
1天前
  • «
  • 1
  • »

Accueil - Wiki
Copyright © 2011-2026 iteam. Current version is 2.155.2. UTC+08:00, 2026-05-10 17:56
浙ICP备14020137号-1 $Carte des visiteurs$