AI工程：Harness Engineering的相关资料

Harness Engineering 来了，SDD 还有意义吗？

Harness Engineering与SDD本质互补：前者构建AI工作环境，后者提供结构化规范。规范是AI推理的地图、约束的语义基础及验证依据，其质量直接影响Agent输出。随着Harness工具增强，规范的重要性不降反升——它决定了AI执行的上限。OpenAI实践表明，将意图转化为可执行的精确定义，比直接审查代码更高效。核心在于用规范前置成本换取后期返工收益。

Harness Engineering: Why the Best AI Engineers in 2026 Stopped Writing Code

AI模型的表现不仅取决于模型本身，更依赖于围绕它的“工具链”（harness）。同一模型在不同工具链下，性能差异可达两倍。工具链工程通过设计规则、工具、记忆和反馈循环，确保AI编码代理不再犯相同错误。开发者应转变思维，将每次失败视为改进工具链的机会，逐步积累优化，而非依赖模型升级。掌握工具链工程将使开发者在AI时代具备不可替代的职业优势。

Difference Between Agent Harnesses & Agent Frameworks

Agent框架和Harness本质不同：框架提供模块化组件，需自行组装，适合定制开发；Harness开箱即用但不可改内部逻辑。框架居中平衡灵活与结构，如LangChain；Harness极致封装如OpenClaw。两者无优劣，按需选择——要控制权选框架，求效率用Harness。部分工具已融合两者特性，边界渐模糊。

The importance of Agent Harness in 2026

AI发展进入转折点，传统模型评估聚焦静态指标，但复杂任务中的持久性和可靠性更为关键。Agent Harness作为管理长期任务的基础设施，提供高效、可控的运行环境，类似操作系统。未来，训练与推理环境将融合，Harness将成为解决“模型漂移”的主要工具，捕捉失败轨迹以优化模型。开发者应构建轻量、模块化的架构，适应快速变化的AI技术。

How we build evals for Deep Agents

构建智能体时，评估直接影响其行为。目标明确的高质量评估比数量更重要，应聚焦生产中的关键行为。通过狗粮测试、外部基准和手工编写评估，确保评估覆盖重要场景。评估分类有助于理解智能体表现，正确性和效率是核心指标。利用理想轨迹对比不同模型的表现，优化智能体行为。评估架构开源，支持灵活运行和成本控制。

Harness design for long-running application development

探索AI在多领域应用的潜力，通过设计生成器与评估器的多代理架构，提升Claude在前端设计和全栈开发中的表现。评估器基于具体标准反馈，生成器迭代优化，实现高质量输出。模型自主编码时，采用任务分解和上下文重置策略，确保连贯性。实验证明，分离生成与评估流程能显著提升应用质量和创意表达。

Agent 系列（三）：Harness Engineering

AI工程重心正从模型调优转向系统设计。"Harness Engineering"成为新趋势，像缰绳般为AI构建执行轨道——通过环境接口、知识结构和反馈机制，将模型爆发力转化为稳定生产力。其核心是搭建可验证、可约束的运行体系，让AI能可靠完成长链路任务。当模型能力趋同，系统设计将成为决胜关键，决定AI能否从"会说"进阶到"会做"。

从上下文工程到 Harness Engineering

AI Coding虽提升代码生成速度，但未解决测试、验证等非编码工作，导致研发更累。Harness Engineering通过构建Agent专属工具链，让AI接管全生命周期任务，打破70%非编码流程枷锁。工程师角色从编码者转向设计环境，提升Agent可读性，实现受控执行，释放人类创造力。

用代码"驯服" LLM：AutoHarness 如何让小模型打败大模型

Google DeepMind推出AutoHarness，让LLM自动生成Python代码约束自身输出，在145个文字游戏中实现100%合法动作率。通过固定函数签名和树搜索策略，AutoHarness显著提升LLM在任务中的表现，尤其在单人游戏中，纯代码策略以零推理成本超越GPT-5.2-High。这一创新为解决LLM输出合法性提供了高效自动化方案。

网易技术

The Anatomy of an Agent Harness

模型是大脑，而“缰绳”（Harness）则是让AI真正干活的系统框架。它通过文件存储、代码执行、沙箱环境等组件，帮模型突破原生限制——比如持久化记忆、实时获取知识、自主解决问题。随着模型进化，部分功能可能内化，但系统级设计仍关键。当前研究正探索多代理协作、自修复机制等前沿方向，让AI更高效可靠。

Harness Engineering Is Cybernetics

AI时代工程模式的进化：从手动操作到"驾驭工程"。就像瓦特蒸汽机的离心调速器取代人工调节，Kubernetes通过声明式配置管理集群，如今工程师不再手写代码，而是设计环境、构建反馈循环，让AI代理完成编码。关键在于将人类判断转化为机器可读的规范——架构文档、定制检查器、黄金原则。传统工程实践的价值被重新放大，忽视文档和测试的代价从缓慢累积变成即时爆发。未来工程师的核心能力不是编写代码，而是定义"正确"的标准并校准系统。

Improving Deep Agents with harness engineering

通过优化编码代理的“套件”，我们将其在Terminal Bench 2.0的表现从Top 30提升至Top 5。核心在于自我验证与追踪技术，帮助代理更好地完成任务。我们调整了系统提示、工具和中间件，增强了代理的自我验证能力，使其在构建、验证和修复过程中更加高效。此外，我们还为代理提供了环境上下文，帮助其更好地理解任务要求，避免陷入无效循环。这些改进显著提升了代理的性能，展示了套件工程在优化模型任务表现中的重要作用。

Harness engineering: leveraging Codex in an agent-first world

OpenAI团队用Codex打造百万行代码产品，全程零人工手写！工程师仅需设计框架、明确需求，AI自主完成开发、测试、部署全流程，效率提升10倍。核心发现：人类角色转向"环境架构师"，通过精准提示和反馈循环引导AI高效工作。代码库完全由AI生成，强调结构化文档和机械约束，而非代码风格。虽面临上下文管理、架构漂移等挑战，但证明AI协作可大幅释放人力，聚焦高价值设计。未来关键在于构建更智能的AI开发环境与控制体系。

Effective harnesses for long-running agents

AI代理处理长时任务时面临跨会话记忆缺失的挑战。通过初始化代理搭建基础环境并创建功能清单，编码代理随后以增量方式逐个实现功能，每轮会话后提交清晰的Git记录和进度文件。这种方法解决了代理一次性处理过多任务或过早宣布完成的问题，同时确保代码始终处于可维护状态。结合自动化测试工具，显著提升了复杂项目（如网页应用开发）的完成质量。