类库 › SWE-bench-Live
microsoft

microsoft/SWE-bench-Live

SWE-bench-Live是一个实时更新的软件工程问题解决基准数据集,用于评估AI系统处理真实世界编程任务的能力。它通过自动化流程每月更新,提供最新的任务实例,支持严谨且无污染的模型评测。目前已扩展支持多语言和Windows平台。

microsoft/SWE-bench-Live

标签

截图

assets/banner.png
assets/overview.png

评论

Home - Wiki
Copyright © 2011-2026 iteam. Current version is 2.155.1. UTC+08:00, 2026-04-25 09:45
浙ICP备14020137号-1 $Map of visitor$