话题AI工程 › AI Agent

AI工程:AI Agent

关联话题: 智能体、Multi-Agent、Agent、多Agent、多智能体、ai agents

AI Agent 是通过工程化的手段,为大语言模型提供了获取外部工具、知识的能力。他是介于人类、大语言模型之间的代理。当用户向 AI Agent 输入问题时,AI Agent 可以使用大语言模型作为推理引擎,将一个复杂的任务进行分解、给出任务执行规划。之后 Agent 会调用外部工具获取结果,并将大语言的上次推理和工具调用结果返回给大语言模型,让大语言模型继续思考、规划。如此循环,直到将一个复杂的任务完成。

Improving Deep Agents with harness engineering

通过优化编码代理的“套件”,我们将其在Terminal Bench 2.0的表现从Top 30提升至Top 5。核心在于自我验证与追踪技术,帮助代理更好地完成任务。我们调整了系统提示、工具和中间件,增强了代理的自我验证能力,使其在构建、验证和修复过程中更加高效。此外,我们还为代理提供了环境上下文,帮助其更好地理解任务要求,避免陷入无效循环。这些改进显著提升了代理的性能,展示了套件工程在优化模型任务表现中的重要作用。

Harness engineering: leveraging Codex in an agent-first world

OpenAI团队用Codex打造百万行代码产品,全程零人工手写!工程师仅需设计框架、明确需求,AI自主完成开发、测试、部署全流程,效率提升10倍。核心发现:人类角色转向"环境架构师",通过精准提示和反馈循环引导AI高效工作。代码库完全由AI生成,强调结构化文档和机械约束,而非代码风格。虽面临上下文管理、架构漂移等挑战,但证明AI协作可大幅释放人力,聚焦高价值设计。未来关键在于构建更智能的AI开发环境与控制体系。

用自然语言替代复杂代码

AI平台通过自然语言描述业务规则和预置AI Agent,简化了电商促销中的复杂数据分析。传统代码需150行以上,AI方案仅需30行调用代码,显著提升开发效率和维护便捷性。AI平台将高理解成本的硬编码转化为可读性强的AI驱动流程,实现分钟级风险检测,提前预警资损风险,降低人力成本。

OpenClaw会话管理深度解析

OpenClaw的会话管理机制详解:采用分层树状结构隔离多用户多渠道对话,通过JSONL格式高效存储会话历史。核心功能包括智能重置策略(每日/空闲/手动触发)、上下文修剪(软/硬修剪保护关键信息)和压缩机制(持久化摘要优化token使用)。系统设计兼顾性能与一致性,支持分布式部署和高并发访问,通过灵活配置实现最佳上下文窗口利用率。

从IDE到Terminal:适合后端宝宝体质的Claude Code工作流

AI辅助编程工具Claude Code CLI(CC)通过便捷的模型插拔和多Agent协作,提升开发效率。开发者可自定义Shell函数快速切换模型,优化IDE与TUI工具的衔接,实现多屏协作。CC支持命令、技能、子代理等拓展,满足个性化需求。通过规范驱动开发(SDD)流程,架构师与开发者协同工作,确保代码质量和效率。CC技巧包括飞书MCP、WebFetch等,助力开发者更高效地完成任务。

你的 AI Agent 真的在受控运行吗?

AI Agent的安全运行需回答谁在调用、花费多少、操作内容及行为可追溯性。通过Session审计日志、应用日志与OpenTelemetry遥测,构建行为审计、威胁检测、成本管控与运维观测的闭环。运行时防护虽重要,但需与可观测体系互补,确保Agent在策略失效或遭遇新型攻击时能及早发现并响应。

What I learned building an opinionated and minimal coding agent

作者分享了三年来使用LLM辅助编程的经历,最终开发了一款名为pi的简约编码助手。pi采用最小系统提示和工具集,强调上下文控制和用户观察性,避免复杂功能。通过终端UI和自建工具,pi实现了高效代码编辑和会话管理,适合日常开发需求。

How Uber Built an Agentic System to Automate Design Specs in Minutes

Uber设计系统团队利用AI代理和Figma Console MCP,自动生成组件规格文档,大幅提升效率。传统手动编写文档耗时且易出错,而uSpec系统通过本地运行,确保数据安全,快速生成准确、一致的规格。该系统支持多平台,涵盖组件结构、API、颜色标注等多方面,显著减少了文档维护的工作量,为设计师和工程师提供了高效的工具。

OpenClaw 源码架构深度解析

OpenClaw作为全球领先的开源AI Agent框架,凭借四层解耦架构、插件化重构、三级记忆系统和Gateway-Pi执行链路,解决了AI Agent落地的“最后一公里”问题。其设计哲学强调透明可控,通过SQLite存储、BM25+向量检索和沙箱机制,实现高效、安全的本地执行。OpenClaw的架构既功能强大,又易于扩展和维护,成为AI领域的标杆之作。

How we built a high-quality AI code review agent

AI代码审查的质量是关键,开发者需信任其反馈。未来,人类将负责规范与架构,AI则专注于实现细节审查。AI审查必须超越普通开发者,确保捕捉真实问题且无噪音反馈。高质量AI审查需依赖PR之外的上下文、精心设计的代理系统和严格的评估循环。通过语义代码搜索和工具集成,AI能更精准地分析代码变更,最终实现在代码审查中超越人类的表现。

群核科技打造统一AI知识底座的硬核实践

大模型虽强,但业务落地不易。群核科技通过自研统一语料库平台,解决了客服成本高、机器人回复生硬、知识维护混乱等问题。采用AI+人工清洗数据,重构知识底座,提升客服与销售效率,并探索技术支持与研发的场景化应用。最终,通过向量检索和多路召回等技术,实现了知识资产的统一管理与持续更新,显著提升了业务效率。

Lessons from Building Claude Code: Seeing like an Agent

构建AI代理工具的核心在于根据模型能力定制动作空间,就像解数学题需要匹配计算工具一样。团队通过Claude Code开发发现:工具设计需不断迭代,例如从Todo清单升级为支持多代理协作的Task工具;搜索功能从被动RAG转为主动Grep查询;采用渐进式披露让模型自主构建上下文。关键洞察是——优秀工具要适配模型当前认知水平,且需持续观察模型行为来优化,没有放之四海皆准的模板。

警惕!“养龙虾”风险,一键给你的Openclaw做安全体检

OpenClaw爆火背后暗藏三大风险:公网暴露易遭攻击、恶意Skill夹带后门、版本漏洞频发。腾讯朱雀实验室推出「一键安全体检」,一句话自动扫描配置/Skill/漏洞/权限,生成易懂报告。还能设为常驻管家,前置拦截高风险操作。AI时代的安全就该这么简单——放心探索,安全护航。

构建会思考的测试Agent:从自动化到自主智能的演进

本文介绍了一种面向企业级软件测试的质量数字人系统,结合大语言模型、多Agent架构与Skill Engine技能框架,实现了从传统自动化测试向自主智能测试的跨越。系统具备自主意识、多渠道交互、智能推荐等功能,显著提升了测试效率,减少了人工成本,并在30个专有云PAAS产品中成功应用,助力企业数字化转型。

AI + 游戏 + 社交的新演绎

张阳创立的Wanaka项目,融合AI、游戏与社交,致力于通过AI驱动的游戏引擎,让普通人也能创作个性化游戏。项目探索了3D内容生成与社交分发的新模式,强调内容与社交关系的紧密结合。区别于传统游戏开发,Wanaka注重用户参与与个性化体验,旨在打造一个全新的游戏社交平台。

腾讯“一虾多吃”,全面拥抱OpenClaw

OpenClaw掀起人机交互革命,腾讯迅速布局,推出多款Claw相关产品,覆盖社交、办公等场景。阿里、字节跳动等巨头也纷纷加入,推动Agent技术发展。然而,安全风险不容忽视,提示词注入等问题需警惕。OpenClaw的崛起标志AI从“聪明”到“能干”的转变,腾讯的快速反应展现了其对技术浪潮的敏锐嗅觉。AI Agent商业化大戏正拉开帷幕。

inicio - Wiki
Copyright © 2011-2026 iteam. Current version is 2.155.0. UTC+08:00, 2026-03-16 06:09
浙ICP备14020137号-1 $mapa de visitantes$