Better Harness: A Recipe for Harness Hill-Climbing with Evals
摘要
构建智能体的关键在于优化控制框架(harness),而评估数据(evals)是核心驱动力。通过人工标注、生产日志挖掘和外部数据集构建高质量评估集,并分类标记以针对性优化。系统采用"优化集+保留集"双轨验证,结合自动化调整与人工审核,避免过拟合。实验显示,该方法能显著提升智能体工具调用和多步推理能力,同时通过版本追踪防止性能回退。未来将探索自动化错误检测与修复,形成"使用-反馈-优化"的增强闭环。