话题AI工程 › Harness Engineering

AI工程:Harness Engineering

关联话题: 驾驭工程

从上下文工程到 Harness Engineering

AI Coding虽提升代码生成速度,但未解决测试、验证等非编码工作,导致研发更累。Harness Engineering通过构建Agent专属工具链,让AI接管全生命周期任务,打破70%非编码流程枷锁。工程师角色从编码者转向设计环境,提升Agent可读性,实现受控执行,释放人类创造力。

用代码"驯服" LLM:AutoHarness 如何让小模型打败大模型

Google DeepMind推出AutoHarness,让LLM自动生成Python代码约束自身输出,在145个文字游戏中实现100%合法动作率。通过固定函数签名和树搜索策略,AutoHarness显著提升LLM在任务中的表现,尤其在单人游戏中,纯代码策略以零推理成本超越GPT-5.2-High。这一创新为解决LLM输出合法性提供了高效自动化方案。

The Anatomy of an Agent Harness

模型是大脑,而“缰绳”(Harness)则是让AI真正干活的系统框架。它通过文件存储、代码执行、沙箱环境等组件,帮模型突破原生限制——比如持久化记忆、实时获取知识、自主解决问题。随着模型进化,部分功能可能内化,但系统级设计仍关键。当前研究正探索多代理协作、自修复机制等前沿方向,让AI更高效可靠。

Harness Engineering Is Cybernetics

AI时代工程模式的进化:从手动操作到"驾驭工程"。就像瓦特蒸汽机的离心调速器取代人工调节,Kubernetes通过声明式配置管理集群,如今工程师不再手写代码,而是设计环境、构建反馈循环,让AI代理完成编码。关键在于将人类判断转化为机器可读的规范——架构文档、定制检查器、黄金原则。传统工程实践的价值被重新放大,忽视文档和测试的代价从缓慢累积变成即时爆发。未来工程师的核心能力不是编写代码,而是定义"正确"的标准并校准系统。

Improving Deep Agents with harness engineering

通过优化编码代理的“套件”,我们将其在Terminal Bench 2.0的表现从Top 30提升至Top 5。核心在于自我验证与追踪技术,帮助代理更好地完成任务。我们调整了系统提示、工具和中间件,增强了代理的自我验证能力,使其在构建、验证和修复过程中更加高效。此外,我们还为代理提供了环境上下文,帮助其更好地理解任务要求,避免陷入无效循环。这些改进显著提升了代理的性能,展示了套件工程在优化模型任务表现中的重要作用。

Harness engineering: leveraging Codex in an agent-first world

OpenAI团队用Codex打造百万行代码产品,全程零人工手写!工程师仅需设计框架、明确需求,AI自主完成开发、测试、部署全流程,效率提升10倍。核心发现:人类角色转向"环境架构师",通过精准提示和反馈循环引导AI高效工作。代码库完全由AI生成,强调结构化文档和机械约束,而非代码风格。虽面临上下文管理、架构漂移等挑战,但证明AI协作可大幅释放人力,聚焦高价值设计。未来关键在于构建更智能的AI开发环境与控制体系。

  • «
  • 1
  • »

首页 - Wiki
Copyright © 2011-2026 iteam. Current version is 2.155.0. UTC+08:00, 2026-03-24 20:55
浙ICP备14020137号-1 $访客地图$