类库
› SanityHarness
lemon07r/SanityHarness
SanityHarness是一个轻量级代码代理评估工具,通过在隔离的Docker容器中运行6种编程语言、26个挑战性任务来测试不同AI编程代理的性能。它提供加权评分、完整性验证和详细报告,支持15种内置代理并行评估。
技术栈
查看全部依赖 (7)
依赖
github.com/BurntSushi/toml
v1.6.0
github.com/docker/docker
v28.5.2+incompatible
github.com/fsnotify/fsnotify
v1.9.0
github.com/opencontainers/image-spec
v1.1.1
github.com/spf13/cobra
v1.10.2
github.com/zeebo/blake3
v0.2.4
rayon
1.8