类库 › SanityHarness
lemon07r

lemon07r/SanityHarness

SanityHarness是一个轻量级代码代理评估工具,通过在隔离的Docker容器中运行6种编程语言、26个挑战性任务来测试不同AI编程代理的性能。它提供加权评分、完整性验证和详细报告,支持15种内置代理并行评估。

技术栈

查看全部依赖 (7)

依赖

github.com/BurntSushi/toml v1.6.0 github.com/docker/docker v28.5.2+incompatible github.com/fsnotify/fsnotify v1.9.0 github.com/opencontainers/image-spec v1.1.1 github.com/spf13/cobra v1.10.2 github.com/zeebo/blake3 v0.2.4 rayon 1.8

评论

- 위키
Copyright © 2011-2026 iteam. Current version is 2.155.1. UTC+08:00, 2026-04-02 12:52
浙ICP备14020137号-1 $방문자$