AI工程:AI Agent
AI Agent 是通过工程化的手段,为大语言模型提供了获取外部工具、知识的能力。他是介于人类、大语言模型之间的代理。当用户向 AI Agent 输入问题时,AI Agent 可以使用大语言模型作为推理引擎,将一个复杂的任务进行分解、给出任务执行规划。之后 Agent 会调用外部工具获取结果,并将大语言的上次推理和工具调用结果返回给大语言模型,让大语言模型继续思考、规划。如此循环,直到将一个复杂的任务完成。
从 OpenClaw 看 Agent 架构设计
Agent架构设计的四大核心:上下文管理推荐任务隔离避免混杂,工具加载需平衡动态性与缓存效率,工具查找通过Skill聚合提升复用性,主循环设计可从对话驱动转向任务驱动增强可观测性。关键在于理解各方案的关联与取舍,没有标准答案,只有场景适配。
技术揭秘| 大模型如何重塑电商选品?
淘宝AI选品系统通过大模型技术,优化了传统低效的选品流程。系统能解析自然语言需求,结合行业趋势,生成高相关性选品集。采用DeepSearch和WideSearch算法提升信息检索广度,通过强化学习优化搜索词生成,确保选品质量。系统支持多轮对话调整,大幅缩短选品周期,提升品效。未来将探索直接优化选品集的Agentic RL方法。
Harness Engineering: 让 Coding Agent 可靠完成长程任务
长程任务在AI Coding中面临上下文耗尽、中断无法恢复和规模放大后行为不可控等挑战。通过任务拆解、并行执行、状态持久化和多层重试等设计,可以有效提升任务的效果、速度和成本控制。核心原则包括任务边界清晰、错误最小化解决、步骤间校验和允许局部失败,最终将这些经验沉淀为meta-skill,帮助Agent自主生成执行框架。
4亿token买来5个教训:让6个AI Agent连写4天代码发生了什么?
AI Agent团队开发踩坑实录:四天烧了4亿token换来的5条血泪教训。监控失效比没监控更危险,系统是"长"出来的而非设计出来的,问题总藏在最不怀疑的地方,工具数据需交叉验证,胶水代码比核心功能更重要。真正的稳定来自一次次故障后的修复,而非完美设计。
AI数据工程师在应用中如何"返璞归真"
AI Agent构建需超越轻量级模式,面对知识质量、语义理解与规模化维护挑战。应从Prompt-Centric转向Context-Aware,构建结构化、可推理的上下文语料体系,提升语义对齐与工具集成标准化。通过本体建设与RAG升级,实现精准理解、可靠推理与高效执行,降低系统性幻觉,提升AI决策的可解释性与业务价值。
Knowledge Wiki:面向 AI 的项目知识层建设实践
知识库通过结构化沉淀专家知识,降低人机协作的信息传递成本。采用渐进式披露,AI按层级获取精准信息,提升上下文利用效率。知识库与代码同步更新,确保知识新鲜度。实践表明,知识沉淀带来复利效应,AI建立业务认知更快,跨应用协作更高效。知识库从工具演变为研发基础设施,推动AI Coding效率持续提升。
「纯干货」几万字都讲不明白的Memory架构与思考
Memory是Agent长期交互中积累的知识库,核心在于将历史转化为决策依据。其本质包括Raw Ledger、Views和Policy三部分,形成一个闭环系统。非参数化Memory更易落地,但需逼近参数化方案的效果上限。时序记忆、技能固化与潜层融合是关键,确保记忆的可执行性、可治理性与可观测性,提升Agent的个性化与长程任务表现。
How Meta Used AI to Map Tribal Knowledge in Large-Scale Data Pipelines
AI编码助手在处理大规模代码库时,常因缺乏对代码上下文的理解而效率低下。通过构建预计算引擎,50多个AI代理系统性读取代码文件,生成59个简明上下文文件,涵盖4100多个文件和50多个非显而易见模式,显著提升AI代理的导航能力。该系统自动维护,定期验证文件路径并修复过时引用,减少40%的工具调用次数,将复杂工作流的研究时间从两天缩短至30分钟。
The Anatomy of an Agent Harness
大模型的能力不仅取决于模型本身,更依赖于其基础设施——"代理套件"。它包括工具、内存、上下文管理、状态持久化等12个核心组件,共同将无状态的LLM转化为具备自主行为的智能体。随着模型能力的提升,套件设计趋向简化,但其作为管理和验证的核心作用不可或缺。
Building ADK Agents with Skills
Agent Development Kit (ADK) 的 SkillToolset 通过渐进式披露架构,让 AI 代理动态加载领域知识,而非一次性加载庞大指令。介绍了四种技能模式:内联清单、文件技能、外部导入和技能工厂,最终实现代理自我扩展能力。技能工厂允许代理根据需求生成新技能,遵循 agentskills.io 规范,确保兼容性。建议从内联技能起步,逐步过渡到文件技能,并审阅生成的技能以确保质量。
MiniMax Office Skills:开源一套生产级办公文档引擎
M2.7模型在办公场景中展现了强大的自我进化能力,尤其在Excel、PPT、Word等文档的复杂编辑上取得了显著提升。为解决文档生成后的可用性问题,团队构建了一套Office Skills,确保生成的文档可直接交付。这套能力已完整开源,包括代码、设计思路及自进化机制,采用MIT协议,助力AI文档生成场景的开发者减少重复投入,提升文档交付质量。
Components of A Coding Agent
编码代理通过工具使用、记忆管理和代码库上下文提升LLM在实际应用中的表现。核心在于代理循环、提示缓存、工具访问和上下文压缩等六大组件,使模型在编程任务中更高效。编码代理的设计优化了模型与环境互动,提升用户体验和任务连续性,使其比简单聊天界面更强大。
FUSE is All You Need - Giving agents access to anything via filesystems
最近,AI代理结合沙盒环境成为热门趋势,通过FUSE技术将任意数据映射为文件系统,简化代理工具设计。例如,邮件代理将邮件数据库映射为文件系统,代理通过命令行操作邮件,提升效率。FUSE允许在用户空间实现文件系统,无需深入内核,适配多种编程语言。虚拟文件系统不仅优化代理操作,还为长上下文处理提供了新思路。未来,沙盒提供商或将推出简化API,进一步降低使用门槛。
Building a Virtual Filesystem for Mintlify's AI Assistant
虚拟文件系统ChromaFs的妙用:
将文档库伪装成Linux文件系统,AI助手通过grep/cat等命令直接查询数据库,无需沙箱环境。46秒的克隆等待降至100毫秒,年省7万美元成本。核心原理是用内存树结构模拟目录,按权限过滤内容,将文件操作转为Chroma向量查询,碎片自动重组为完整文档。递归搜索时先用数据库粗筛,再本地精准匹配,兼顾速度与准确性。现已支持每日30万次对话,零边际成本。
Demystifying evals for AI agents
AI智能体的评估至关重要,帮助团队在产品上线前发现问题。评估分为单轮和多轮测试,涵盖代码、对话和研究等多种智能体类型。有效评估需结合代码、模型和人工评分,确保准确性。早期构建评估体系能加速开发,避免后期盲测。评估设计应明确任务和评分标准,定期检查测试结果,确保评估的公正性和有效性。
KernelEvolve: How Meta’s Ranking Engineer Agent Optimizes AI Infrastructure
Meta推出KernelEvolve,用于自动生成并优化AI模型的低层硬件内核,显著提升性能。该系统通过搜索算法探索数百种内核实现,适用于NVIDIA、AMD GPU及Meta自研MTIA芯片等多平台,大幅缩短开发时间。相比人工调优,KernelEvolve在广告模型推理上实现了60%的吞吐量提升,训练效率提高25%。该系统还能动态适应新硬件和模型架构,加速AI技术的迭代与应用。