话题AI工程 › Harness Engineering

AI工程:Harness Engineering

关联话题: 驾驭工程

Difference Between Agent Harnesses & Agent Frameworks

Agent框架和Harness本质不同:框架提供模块化组件,需自行组装,适合定制开发;Harness开箱即用但不可改内部逻辑。框架居中平衡灵活与结构,如LangChain;Harness极致封装如OpenClaw。两者无优劣,按需选择——要控制权选框架,求效率用Harness。部分工具已融合两者特性,边界渐模糊。

The importance of Agent Harness in 2026

AI发展进入转折点,传统模型评估聚焦静态指标,但复杂任务中的持久性和可靠性更为关键。Agent Harness作为管理长期任务的基础设施,提供高效、可控的运行环境,类似操作系统。未来,训练与推理环境将融合,Harness将成为解决“模型漂移”的主要工具,捕捉失败轨迹以优化模型。开发者应构建轻量、模块化的架构,适应快速变化的AI技术。

How we build evals for Deep Agents

构建智能体时,评估直接影响其行为。目标明确的高质量评估比数量更重要,应聚焦生产中的关键行为。通过狗粮测试、外部基准和手工编写评估,确保评估覆盖重要场景。评估分类有助于理解智能体表现,正确性和效率是核心指标。利用理想轨迹对比不同模型的表现,优化智能体行为。评估架构开源,支持灵活运行和成本控制。

Harness design for long-running application development

探索AI在多领域应用的潜力,通过设计生成器与评估器的多代理架构,提升Claude在前端设计和全栈开发中的表现。评估器基于具体标准反馈,生成器迭代优化,实现高质量输出。模型自主编码时,采用任务分解和上下文重置策略,确保连贯性。实验证明,分离生成与评估流程能显著提升应用质量和创意表达。

Agent 系列(三):Harness Engineering

AI工程重心正从模型调优转向系统设计。"Harness Engineering"成为新趋势,像缰绳般为AI构建执行轨道——通过环境接口、知识结构和反馈机制,将模型爆发力转化为稳定生产力。其核心是搭建可验证、可约束的运行体系,让AI能可靠完成长链路任务。当模型能力趋同,系统设计将成为决胜关键,决定AI能否从"会说"进阶到"会做"。

从上下文工程到 Harness Engineering

AI Coding虽提升代码生成速度,但未解决测试、验证等非编码工作,导致研发更累。Harness Engineering通过构建Agent专属工具链,让AI接管全生命周期任务,打破70%非编码流程枷锁。工程师角色从编码者转向设计环境,提升Agent可读性,实现受控执行,释放人类创造力。

用代码"驯服" LLM:AutoHarness 如何让小模型打败大模型

Google DeepMind推出AutoHarness,让LLM自动生成Python代码约束自身输出,在145个文字游戏中实现100%合法动作率。通过固定函数签名和树搜索策略,AutoHarness显著提升LLM在任务中的表现,尤其在单人游戏中,纯代码策略以零推理成本超越GPT-5.2-High。这一创新为解决LLM输出合法性提供了高效自动化方案。

The Anatomy of an Agent Harness

模型是大脑,而“缰绳”(Harness)则是让AI真正干活的系统框架。它通过文件存储、代码执行、沙箱环境等组件,帮模型突破原生限制——比如持久化记忆、实时获取知识、自主解决问题。随着模型进化,部分功能可能内化,但系统级设计仍关键。当前研究正探索多代理协作、自修复机制等前沿方向,让AI更高效可靠。

Harness Engineering Is Cybernetics

AI时代工程模式的进化:从手动操作到"驾驭工程"。就像瓦特蒸汽机的离心调速器取代人工调节,Kubernetes通过声明式配置管理集群,如今工程师不再手写代码,而是设计环境、构建反馈循环,让AI代理完成编码。关键在于将人类判断转化为机器可读的规范——架构文档、定制检查器、黄金原则。传统工程实践的价值被重新放大,忽视文档和测试的代价从缓慢累积变成即时爆发。未来工程师的核心能力不是编写代码,而是定义"正确"的标准并校准系统。

Improving Deep Agents with harness engineering

通过优化编码代理的“套件”,我们将其在Terminal Bench 2.0的表现从Top 30提升至Top 5。核心在于自我验证与追踪技术,帮助代理更好地完成任务。我们调整了系统提示、工具和中间件,增强了代理的自我验证能力,使其在构建、验证和修复过程中更加高效。此外,我们还为代理提供了环境上下文,帮助其更好地理解任务要求,避免陷入无效循环。这些改进显著提升了代理的性能,展示了套件工程在优化模型任务表现中的重要作用。

Harness engineering: leveraging Codex in an agent-first world

OpenAI团队用Codex打造百万行代码产品,全程零人工手写!工程师仅需设计框架、明确需求,AI自主完成开发、测试、部署全流程,效率提升10倍。核心发现:人类角色转向"环境架构师",通过精准提示和反馈循环引导AI高效工作。代码库完全由AI生成,强调结构化文档和机械约束,而非代码风格。虽面临上下文管理、架构漂移等挑战,但证明AI协作可大幅释放人力,聚焦高价值设计。未来关键在于构建更智能的AI开发环境与控制体系。

Effective harnesses for long-running agents

AI代理处理长时任务时面临跨会话记忆缺失的挑战。通过初始化代理搭建基础环境并创建功能清单,编码代理随后以增量方式逐个实现功能,每轮会话后提交清晰的Git记录和进度文件。这种方法解决了代理一次性处理过多任务或过早宣布完成的问题,同时确保代码始终处于可维护状态。结合自动化测试工具,显著提升了复杂项目(如网页应用开发)的完成质量。

  • «
  • 1
  • »

首页 - Wiki
Copyright © 2011-2026 iteam. Current version is 2.155.0. UTC+08:00, 2026-03-28 22:14
浙ICP备14020137号-1 $访客地图$