AI工程:AI Agent
AI Agent 是通过工程化的手段,为大语言模型提供了获取外部工具、知识的能力。他是介于人类、大语言模型之间的代理。当用户向 AI Agent 输入问题时,AI Agent 可以使用大语言模型作为推理引擎,将一个复杂的任务进行分解、给出任务执行规划。之后 Agent 会调用外部工具获取结果,并将大语言的上次推理和工具调用结果返回给大语言模型,让大语言模型继续思考、规划。如此循环,直到将一个复杂的任务完成。
How Meta Used AI to Map Tribal Knowledge in Large-Scale Data Pipelines
AI编码助手在处理大规模代码库时,常因缺乏对代码上下文的理解而效率低下。通过构建预计算引擎,50多个AI代理系统性读取代码文件,生成59个简明上下文文件,涵盖4100多个文件和50多个非显而易见模式,显著提升AI代理的导航能力。该系统自动维护,定期验证文件路径并修复过时引用,减少40%的工具调用次数,将复杂工作流的研究时间从两天缩短至30分钟。
The Anatomy of an Agent Harness
大模型的能力不仅取决于模型本身,更依赖于其基础设施——"代理套件"。它包括工具、内存、上下文管理、状态持久化等12个核心组件,共同将无状态的LLM转化为具备自主行为的智能体。随着模型能力的提升,套件设计趋向简化,但其作为管理和验证的核心作用不可或缺。
Building ADK Agents with Skills
Agent Development Kit (ADK) 的 SkillToolset 通过渐进式披露架构,让 AI 代理动态加载领域知识,而非一次性加载庞大指令。介绍了四种技能模式:内联清单、文件技能、外部导入和技能工厂,最终实现代理自我扩展能力。技能工厂允许代理根据需求生成新技能,遵循 agentskills.io 规范,确保兼容性。建议从内联技能起步,逐步过渡到文件技能,并审阅生成的技能以确保质量。
MiniMax Office Skills:开源一套生产级办公文档引擎
M2.7模型在办公场景中展现了强大的自我进化能力,尤其在Excel、PPT、Word等文档的复杂编辑上取得了显著提升。为解决文档生成后的可用性问题,团队构建了一套Office Skills,确保生成的文档可直接交付。这套能力已完整开源,包括代码、设计思路及自进化机制,采用MIT协议,助力AI文档生成场景的开发者减少重复投入,提升文档交付质量。
Components of A Coding Agent
编码代理通过工具使用、记忆管理和代码库上下文提升LLM在实际应用中的表现。核心在于代理循环、提示缓存、工具访问和上下文压缩等六大组件,使模型在编程任务中更高效。编码代理的设计优化了模型与环境互动,提升用户体验和任务连续性,使其比简单聊天界面更强大。
FUSE is All You Need - Giving agents access to anything via filesystems
最近,AI代理结合沙盒环境成为热门趋势,通过FUSE技术将任意数据映射为文件系统,简化代理工具设计。例如,邮件代理将邮件数据库映射为文件系统,代理通过命令行操作邮件,提升效率。FUSE允许在用户空间实现文件系统,无需深入内核,适配多种编程语言。虚拟文件系统不仅优化代理操作,还为长上下文处理提供了新思路。未来,沙盒提供商或将推出简化API,进一步降低使用门槛。
Building a Virtual Filesystem for Mintlify's AI Assistant
虚拟文件系统ChromaFs的妙用:
将文档库伪装成Linux文件系统,AI助手通过grep/cat等命令直接查询数据库,无需沙箱环境。46秒的克隆等待降至100毫秒,年省7万美元成本。核心原理是用内存树结构模拟目录,按权限过滤内容,将文件操作转为Chroma向量查询,碎片自动重组为完整文档。递归搜索时先用数据库粗筛,再本地精准匹配,兼顾速度与准确性。现已支持每日30万次对话,零边际成本。
Demystifying evals for AI agents
AI智能体的评估至关重要,帮助团队在产品上线前发现问题。评估分为单轮和多轮测试,涵盖代码、对话和研究等多种智能体类型。有效评估需结合代码、模型和人工评分,确保准确性。早期构建评估体系能加速开发,避免后期盲测。评估设计应明确任务和评分标准,定期检查测试结果,确保评估的公正性和有效性。
KernelEvolve: How Meta’s Ranking Engineer Agent Optimizes AI Infrastructure
Meta推出KernelEvolve,用于自动生成并优化AI模型的低层硬件内核,显著提升性能。该系统通过搜索算法探索数百种内核实现,适用于NVIDIA、AMD GPU及Meta自研MTIA芯片等多平台,大幅缩短开发时间。相比人工调优,KernelEvolve在广告模型推理上实现了60%的吞吐量提升,训练效率提高25%。该系统还能动态适应新硬件和模型架构,加速AI技术的迭代与应用。
你不知道的大模型训练:原理、路径与新实践
大模型训练远不止预训练,后训练、评测、奖励等环节才是拉开差距的关键。从数据配方到系统架构,再到指令微调和强化学习,每一步都在塑造模型的实际表现。Agent训练更将优化目标扩展到工具使用和任务连贯性。最终上线版本是整条训练链路的快照,而持续迭代的反馈回路才是产品核心。
AutoAgent: first open source library for self-optimizing agents
AutoAgent开源库发布,实现代理自主优化。通过元代理与任务代理分离,AutoAgent在SpreadsheetBench和TerminalBench上取得领先成绩。系统自动调整提示、工具和协调逻辑,无需人工干预。元代理凭借模型同理心,深入理解任务代理的推理轨迹,针对性优化。该系统为领域专家简化了代理构建流程,推动智能代理跨组织广泛应用。下一步将探索动态组装工具和上下文的即时任务处理。
淘宝跨端体验优化 AI 演进之路
手淘跨端团队通过AI技术重构性能优化流程,推出"体验优化Agent"等5款产品,覆盖研发全链路。该方案整合端边云基建、RAG知识库及云真机调试等技能,突破传统AI无法理解复杂业务语义的瓶颈,实现从人工诊断到AI自驱的进化。系统能自动完成问题分析、代码修复和配置变更,显著提升应用性能与稳定性,形成"数据-分析-修复"的完整闭环。
Qoder 工程实践:Harness Engineering 指南
AI Agent在编程时常因看不见代码库的隐式规则而出错。Harness工程通过将架构决策、层级约束等编码到仓库中,让Agent能自我验证。它提供lint、测试、verify等机械检查,确保代码合规。Harness还支持任务拆解、模型调度和交叉review,提升复杂任务的质量。通过记忆和轨迹编译,Harness不断进化,让Agent协作更高效。
Harnessing Claude’s intelligence
Claude作为生成式AI系统,其能力不断进化,应用开发需跟上节奏。建议利用Claude熟悉的工具构建应用,如bash和文本编辑器;定期评估Claude的新能力,减少不必要的操作;谨慎设置代理框架的边界,优化上下文管理和工具设计。随着Claude智能的提升,开发假设需持续验证,及时移除冗余结构,确保应用高效运行。
Dark Code
系统行为越来越难被完整解释,运行时组件交互产生的"暗黑代码"成为常态。AI代理动态调用工具、自然语言作为控制层,导致执行路径无法预判,数据泄露和权限混乱频发。开发速度远超理解能力,安全审计形同虚设。非技术人员也能通过简单描述生成生产环境行为,但追责机制仍集中在少数人手中。传统SOC2认证已失效,企业亟需构建能实时回答"3月某周二系统对数据做了什么"的基础设施。
面向Skills编程:用领域知识工程驱动 Code Agent
阿里妈妈团队通过构建领域知识工程体系,解决Code Agent在复杂业务中的瓶颈问题。采用Skill三级架构渐进式加载知识,结合四层防腐机制确保知识不腐化。实践表明,显式映射领域知识与代码流程可提升准确率至90%以上。相比SDD,持续维护核心领域知识体系更高效。未来将聚焦知识深度,为Code Agent提供精准支持。