正则二维码反混淆
这篇文提出用Claude Code搭建评测“Harness”,把评测逻辑从代码变成Prompt,系统性评测业务Agent。传统评测需要一周,这套方案只需一到两天,而且更快、更灵活、结果可复现。核心是统一指标框架和可复用的模板,让一个人就能高效完成全流程。
欢迎在评论区写下你对这篇文章的看法。
首页 - Wiki Copyright © 2011-2026 iteam. Current version is 2.155.2. UTC+08:00, 2026-06-05 10:40 浙ICP备14020137号-1 $访客地图$