SkillsBench是首个专门评估AI智能体使用技能能力的基准测试平台,通过模块化技能文件夹(包含指令、脚本等)测试智能体执行复杂工作流的有效性。提供Gym风格的基准测试框架,支持多技能组合任务,旨在构建高质量、覆盖广泛的技能评估标准。
- «
- 1
- »


