话题 › AI工程 › AI Agent

AI工程：AI Agent

关联话题: 智能体、Multi-Agent、Agent、多Agent、多智能体、ai agents

AI Agent 是通过工程化的手段，为大语言模型提供了获取外部工具、知识的能力。他是介于人类、大语言模型之间的代理。当用户向 AI Agent 输入问题时，AI Agent 可以使用大语言模型作为推理引擎，将一个复杂的任务进行分解、给出任务执行规划。之后 Agent 会调用外部工具获取结果，并将大语言的上次推理和工具调用结果返回给大语言模型，让大语言模型继续思考、规划。如此循环，直到将一个复杂的任务完成。

用Agent评测思路管理AI Coding —— 31万行代码AI重构的实践

当AI生成90%代码时，系统走向取决于约束而非编码速度。我们通过Agent评测思路管理AI Coding：先团队共识再固化AI规则，让重构融入日常迭代。AI让"看全代码"不再稀缺，经验价值转向"判断优先级"。技术债被拆解为需求顺带动作，31万行代码在业务中悄然焕新。工程师角色从写代码转向设计AI工程环境，规范与协作成关键。

十年老技术开发的 AI Agent 探索之路

AI工具虽多，但手动管理AI终端效率低，上限仅4-6个并发。通过Bash脚本自动化80%的AI需求，避免过度依赖AI。构建24h无人值守的Agent系统，核心是文件轮询调度和SDD流程，确保任务可执行、可复盘。AI自修bug的前提是清晰的设计文档和架构约束。Agent开发正从框架之争转向协议和runtime之争，未来更像搭操作系统。Goal-Driven让系统自主推进，增强而非取代人力。

告别“氛围编程”：基于 Harness 治理和 SDD 的团队级 AI 研发范式演进与实践

AI编程出码率高达90%却提效不明显？揭秘"氛围编程"三大坑：自由发挥、效率陷阱和记忆丢失。高德团队提出SDD规范驱动和Harness驾驭工程双解法，将AI从黑盒变成可控工具。通过结构化知识库、精准需求拆解和专家团协作，实现从PRD到部署的全链路自动化。开发者角色升级为规范审核者，让AI在明确轨道上狂奔。未来瞄准智能Spec生成和强化Agent协作，开启研发新范式。

Harness Engineering：耗时一周，我是如何将应用的AI Coding率提升至90%的

AI编码正经历第三次范式跃迁，从Prompt Engineering到Context Engineering，再到Harness Engineering。Harness Engineering通过设计约束机制、反馈回路和工作流控制，解决了AI代码在企业级项目中的认知负担和质量控制问题。通过构建Harness体系，AI代码率从25%提升至90%，实现了高质量的可控输出。Harness的本质是外部化的质量保障体系，确保AI错误可控、可发现、可修复。未来，Harness将朝着自我进化、跨项目模板化和更精细的Agent角色矩阵方向发展。

基于 Harness + SDD + 多仓管理模式的 AI 全栈开发实践

AI全栈开发核心在于"Harness思维"：让AI模仿现有代码实现而非从零创造，确保风格统一与高复用率。搭建多仓工作区结合Codebase Indexing，实现前后端代码的语义关联与接口对齐。通过SDD文档驱动开发流程，明确技术方案与任务拆分，借助多Agent并行生成前后端代码。采用三阶段验证策略（Mock测试、后端构建、联调）提升效率，同时警惕SDD未明示的隐性功能。该方法可显著提升代码采纳率，降低50%+开发耗时。

Flow generation through natural language: An agentic modeling approach

Shopify通过专有数据和快速迭代，优化AI助手Sidekick的工具调用能力。他们将Shopify Flow的JSON DSL转换为Python，提升了模型生成工作流的准确性。通过模拟生产环境和优化工具调用栈，降低了成本并提高了性能。利用生产反馈构建持续改进的飞轮机制，确保模型在真实场景中表现优异。最终，Sidekick在成本降低68%的同时，性能优于封闭模型。

shopify技术

跟Claude官方技能学Harness

Harness 是一套让 AI 标准化工作的作业规范，核心是拆解任务、最小化上下文、一步一验、持续复盘。Claude 官方的 Skill Creator 2.0 将创建 Skill 的过程封装成一个完整 Harness，强调测试、对照组和人类反馈。通过原子化步骤、自包含工作空间和渐进式披露，Harness 确保 AI 在复杂任务中产出稳定、可检查的结果，而非依赖运气。

深度解析：Codex Pet Skill

Skill概念火爆，但许多所谓的酷炫功能实则浅薄，仅停留在提示词玩具层面。真正的Skill应整合隐性经验、工具链等，形成Agent可调用的可执行协议。Codex的hatch-pet技能展示了高级Skill范式，通过模块化设计，让Agent动态决策、修复任务，而非依赖固定流程图。Skill的本质是将模型能力约束在工程边界内，确保稳定执行与验收。

使用 WebSocket 加速 Responses API 的智能体工作流

Codex通过优化API请求流程，显著提升了处理速度。采用WebSocket持久连接和缓存技术，减少了重复处理和历史数据加载的开销，使GPT-5.3-Codex-Spark的推理速度达到每秒1000个令牌，峰值可达4000。开发者无需调整现有API集成，即可享受更快的响应体验。

RAG已死？不，是Grep回归了！

RAG在代码搜索领域正被LLM驱动的Grep方案颠覆！Claude Code放弃向量索引，用多轮ripgrep暴力扫描实现零延迟检索，实测4,500文件仅需0.1秒。核心在于代码标识符天然适合精确匹配，且本地项目规模撑得住暴力搜索。虽然token消耗较高，但通过子Agent隔离、历史压缩等优化仍具实用性。这波技术迭代证明：特定场景下，简单直接的方案可能比复杂架构更高效。

通用 AI Agent 驱动网关路由安全审计实践

得物技术团队创新采用"通用Agent+业务Skill"架构，实现网关路由全量自动化漏洞检测。通过精细化越权分类、三维代码审计及危害评估机制，显著提升检测精度。独创MCP→CLI转换等优化策略，Token成本直降95%+，单次扫描成本仅0.23元。这套人机协同方案已成功捕获多个高危漏洞，为大规模API安全治理提供高效范式。

AI手工测试用例的实践进阶之路

传统手工测试用例面临信息碎片化、时间窗口压缩、个人经验依赖等问题。AI用例生成项目通过MVP验证方向，1.0阶段补齐输入解析、Prompt工程化等关键能力，最终沉淀为测试智能体平台。核心在于升级测试设计链路，实现多源输入协同、过程治理和资产闭环，提升覆盖质量与生成效率，推动测试工程体系智能化演进。

深入浅出Harness Engineerring之核心模式与理念

"Claude智能体架构深度解析：通过持久化指令、分层记忆和沙箱隔离实现高效任务处理。核心采用三件套解耦设计（Claude大脑+Harness控制器+Sandbox沙箱），支持多智能体协作模式。独创五层记忆体系从临时对话到长期知识库逐级沉淀，配合风险分级工具管理，在保证安全性的同时提升60-90%响应速度。智能体具备持续进化能力，通过辩证式用户建模实现越用越懂你的个性化服务。"

Harness Engineering实践，做了一个平台让AI一晚上自动评测和优化你的系统

AI评测平台实现全自动化测试与优化，支持无UI、带UI及系统级评测。AI自主生成评测集、执行测试并提交报告，还能基于结果自动优化系统。案例显示，钉钉文档MCP功能评测得分95分，绘报UI内容质量评测获85分，业务系统经三轮优化后评分从90.7提升至99.1。关键在于系统规范性和AI Coding含量，老系统断头路多则难以实现自动化。

用AI一个月做Unreal游戏能做到什么程度？

【AI+UE开发实战】新手仅用1个月，借助自研Loop-code工具将单机Demo改造成联机游戏！通过封装MCP插件实现IDE智能操控UE蓝图，解决状态同步、物理交互等核心难题。关键点：①工具支持一键部署+便携更新；②AI辅助完成90%代码/蓝图修改；③联机方案采用"后台服务+帧同步"架构。实践证明：AI擅长局部优化，全局设计仍需开发者把控。

AI 时代的 Git 版本管理，你用对了吗？

Agentic coding时代，Git工作流面临新挑战：Agent自主执行、并发协作导致意图模糊、提交混乱。推荐三大核心实践：隔离（分支保护+worktree）、透明（原子提交+结构化信息）、自动化（CI防护）。工具上可尝试Jujutsu的变更中心模型或GitButler虚拟分支，让版本历史成为可靠知识库。关键在于将规范显式化、工具化，适应AI协同开发新范式。

AI工程：AI Agent的相关资料

AI工程：AI Agent