AI工程:AI Agent
AI Agent 是通过工程化的手段,为大语言模型提供了获取外部工具、知识的能力。他是介于人类、大语言模型之间的代理。当用户向 AI Agent 输入问题时,AI Agent 可以使用大语言模型作为推理引擎,将一个复杂的任务进行分解、给出任务执行规划。之后 Agent 会调用外部工具获取结果,并将大语言的上次推理和工具调用结果返回给大语言模型,让大语言模型继续思考、规划。如此循环,直到将一个复杂的任务完成。
Building for trillions of agents
近年来,智能代理技术突飞猛进,已从简单的聊天机器人发展为具备独立计算环境、代码编写与执行能力的智能体。未来,代理将渗透至各行各业,从合同审核到药物研发,几乎所有经济价值任务都将依赖它们。软件设计需转向“让代理想要”,API优先成为关键。代理还将催生全新基础设施与工具,推动商业模式革新,最终重塑我们的工作方式与软件生态。
Difference Between Agent Harnesses & Agent Frameworks
Agent框架和Harness本质不同:框架提供模块化组件,需自行组装,适合定制开发;Harness开箱即用但不可改内部逻辑。框架居中平衡灵活与结构,如LangChain;Harness极致封装如OpenClaw。两者无优劣,按需选择——要控制权选框架,求效率用Harness。部分工具已融合两者特性,边界渐模糊。
5 Agent Skill design patterns every ADK developer should know
开发者常纠结于SKILL.md的格式规范,但真正挑战在于内容设计。通过分析主流技术生态,提炼出五大高效设计模式:工具封装让AI秒变专家库,生成器确保文档一致性,审查员实现模块化代码检查,反转模式让AI先提问再行动,管道模式强制分步验收。这些模式可自由组合,告别冗长提示词,用结构化思维打造可靠智能体。
The importance of Agent Harness in 2026
AI发展进入转折点,传统模型评估聚焦静态指标,但复杂任务中的持久性和可靠性更为关键。Agent Harness作为管理长期任务的基础设施,提供高效、可控的运行环境,类似操作系统。未来,训练与推理环境将融合,Harness将成为解决“模型漂移”的主要工具,捕捉失败轨迹以优化模型。开发者应构建轻量、模块化的架构,适应快速变化的AI技术。
Agent 记忆系统设计:四种类型、三大策略、完整代码实现
Agent记忆系统由四层架构组成:上下文记忆、外部记忆、情景记忆和语义/参数记忆。上下文记忆处理当前任务,外部记忆持久化重要信息,情景记忆记录历史行为,语义记忆则内置模型知识。记忆系统通过向量检索和管理策略(如时间衰减、重要性打分、定期整合)实现智能记忆操作,赋予Agent跨时间携带上下文的能力,使其从无状态系统进化为持续学习的智能体。
Tair 短期记忆架构实践:淘宝闪购 AI Agent 的秒级响应记忆系统
淘宝闪购AI Agent通过Tair实现秒级响应记忆系统,支持自然语言点单流程。Tair提供低延迟、丰富数据结构和弹性扩展能力,确保Agent在多轮对话中准确记忆上下文。利用List和Hash结构分别存储对话历史和业务上下文,通过分布式锁保障并发安全,弹性扩缩容应对流量高峰,TTL自动清理过期数据,确保系统稳定高效。
97.9%采纳率,胶水编程:业务需求出码最佳实践【天猫AI Coding实践系列】
天猫团队通过“胶水编程”实践,利用AI高效连接业务模块,显著提升代码采纳率至97.9%。核心策略是让AI“抄”而非“写”代码,结合开发规范、代码模式和领域知识,AI仅在差异点编写少量胶水代码。该方法在特定场景下大幅减少人工编码,确保代码可用性与一致性,实现业务需求快速交付。
How I Built Vue Lynx with AI in Two Weeks
Vue Lynx横空出世!开发者仅用37小时周末hackathon打通Vue与Lynx双线程架构,让Vue代码在后台线程运行,UI操作主线程零延迟交互。现已支持Composition API、Vue Router等核心生态,提供20+跨平台示例。通过AI自动化测试验证852项上游测试,采用差异对比法确保HackerNews等复杂应用完美移植。只需npm create vue-lynx@latest即可体验这份让Vue轻松跑在原生端的黑科技~
OpenClaw构建自我迭代AI助手笔记
OpenClaw验证了银行客户经理助手的自我迭代能力,通过钉钉交流完善人设和职责边界,建立反馈处理机制支持持续进化。重点在于Agent自主交流与评估能力构建,解决跨Agent通信问题,模拟真实客户场景测试,并构建agent-eval skill。OpenClaw的记忆架构支持二级存储与检索分离,通过Cron+HeartBeat+Memory实现反思迭代,提升个人生产力。
How we build evals for Deep Agents
构建智能体时,评估直接影响其行为。目标明确的高质量评估比数量更重要,应聚焦生产中的关键行为。通过狗粮测试、外部基准和手工编写评估,确保评估覆盖重要场景。评估分类有助于理解智能体表现,正确性和效率是核心指标。利用理想轨迹对比不同模型的表现,优化智能体行为。评估架构开源,支持灵活运行和成本控制。
治愈 Cursor AI 编程的 “幻觉”?用它就够了!
AI编码工具正从"对话式"向"契约式"演进。天玑团队打造的Specflow方案,通过Specify-Plan-Implement-Archive四阶段流程,将模糊需求转化为机器可执行的精准指令。这套系统强制需求对齐、技术建模和原子化开发,用物理门控杜绝"带病编码",实现全链路质量管控。未来将向自治架构进化,让AI真正成为懂业务的编码伙伴。研发范式正从"写代码"转向"定义问题"。
Claude Code auto mode: a safer way to skip permissions
Claude Code的自动模式通过双层防御机制提升安全性:输入层使用提示注入探测,输出层采用转录分类器。分类器分两阶段工作,快速过滤后再进行链式思考,降低误报率。该模式旨在减少手动批准疲劳,同时防止过度活跃行为和提示注入等威胁。尽管存在17%的误放率,但相较无权限检查的模式,安全性显著提升。自动模式适用于低风险任务,但不替代高安全性场景下的手动审查。
零废话!一文讲透从0构建AI Agent
AI Agent开发的核心在于LLM、工具调用与循环协作。大语言模型(LLM)通过API提供智能基础,上下文管理维持对话记忆,工具调用赋予执行能力。构建分四阶段递进:单次对话→多轮交互→工具调用→自主循环(ReAct)。进阶架构通过MCP协议标准化工具对接,Sub-Agent分工处理复杂任务,Skill封装固定流程。关键在于平衡上下文限制与任务需求,用结构化工具提升可靠性。
深入理解OpenClaw技术架构与实现原理(下)
OpenClaw技术架构从沙箱隔离到企业智能体演进,展现了分布式、安全可控的发展方向。沙箱系统提供多层次隔离,记忆管理采用Markdown文件与SQLite索引相结合,确保数据私有与高效检索。多代理路由策略实现灵活的任务分配,Nodes架构支持远程设备管理。未来企业智能体将深度融合业务流程,构建多智能体协作网络,推动数字化转型。
讲透Claude Code架构一篇就够:上下文、治理与工程实践
Claude Code的六层模型揭示其运转机制,上下文管理是关键。CLAUDE.md需简洁,避免污染上下文。工具设计应优化正确选择和使用,Skills提供按需加载的工作流。Subagent用于隔离执行,Hooks确保确定性流程。验证层级确保任务正确完成。Prompt Caching降低成本,提升延迟。工程实践中,收敛状态再暴露编辑入口,避免不必要的混乱。
Agentic Search for Context Engineering
上下文工程的核心在于代理搜索,占比高达80%。现代代理不再被动接收上下文,而是主动构建。搜索工具是其关键手段,包括文件系统、数据库和命令行工具等。了解不同搜索工具的工作原理及其优劣,有助于为代理选择最合适的搜索接口。通过学习,掌握如何为代理定制搜索工具,提升实际应用效果。