话题AI工程 › AI Agent

AI工程:AI Agent

关联话题: 智能体、Multi-Agent、Agent、多Agent、多智能体、ai agents

AI Agent 是通过工程化的手段,为大语言模型提供了获取外部工具、知识的能力。他是介于人类、大语言模型之间的代理。当用户向 AI Agent 输入问题时,AI Agent 可以使用大语言模型作为推理引擎,将一个复杂的任务进行分解、给出任务执行规划。之后 Agent 会调用外部工具获取结果,并将大语言的上次推理和工具调用结果返回给大语言模型,让大语言模型继续思考、规划。如此循环,直到将一个复杂的任务完成。

Components of A Coding Agent

编码代理通过工具使用、记忆管理和代码库上下文提升LLM在实际应用中的表现。核心在于代理循环、提示缓存、工具访问和上下文压缩等六大组件,使模型在编程任务中更高效。编码代理的设计优化了模型与环境互动,提升用户体验和任务连续性,使其比简单聊天界面更强大。

FUSE is All You Need - Giving agents access to anything via filesystems

最近,AI代理结合沙盒环境成为热门趋势,通过FUSE技术将任意数据映射为文件系统,简化代理工具设计。例如,邮件代理将邮件数据库映射为文件系统,代理通过命令行操作邮件,提升效率。FUSE允许在用户空间实现文件系统,无需深入内核,适配多种编程语言。虚拟文件系统不仅优化代理操作,还为长上下文处理提供了新思路。未来,沙盒提供商或将推出简化API,进一步降低使用门槛。

Building a Virtual Filesystem for Mintlify's AI Assistant

虚拟文件系统ChromaFs的妙用:
将文档库伪装成Linux文件系统,AI助手通过grep/cat等命令直接查询数据库,无需沙箱环境。46秒的克隆等待降至100毫秒,年省7万美元成本。核心原理是用内存树结构模拟目录,按权限过滤内容,将文件操作转为Chroma向量查询,碎片自动重组为完整文档。递归搜索时先用数据库粗筛,再本地精准匹配,兼顾速度与准确性。现已支持每日30万次对话,零边际成本。

Demystifying evals for AI agents

AI智能体的评估至关重要,帮助团队在产品上线前发现问题。评估分为单轮和多轮测试,涵盖代码、对话和研究等多种智能体类型。有效评估需结合代码、模型和人工评分,确保准确性。早期构建评估体系能加速开发,避免后期盲测。评估设计应明确任务和评分标准,定期检查测试结果,确保评估的公正性和有效性。

KernelEvolve: How Meta’s Ranking Engineer Agent Optimizes AI Infrastructure

Meta推出KernelEvolve,用于自动生成并优化AI模型的低层硬件内核,显著提升性能。该系统通过搜索算法探索数百种内核实现,适用于NVIDIA、AMD GPU及Meta自研MTIA芯片等多平台,大幅缩短开发时间。相比人工调优,KernelEvolve在广告模型推理上实现了60%的吞吐量提升,训练效率提高25%。该系统还能动态适应新硬件和模型架构,加速AI技术的迭代与应用。

你不知道的大模型训练:原理、路径与新实践

大模型训练远不止预训练,后训练、评测、奖励等环节才是拉开差距的关键。从数据配方到系统架构,再到指令微调和强化学习,每一步都在塑造模型的实际表现。Agent训练更将优化目标扩展到工具使用和任务连贯性。最终上线版本是整条训练链路的快照,而持续迭代的反馈回路才是产品核心。

AutoAgent: first open source library for self-optimizing agents

AutoAgent开源库发布,实现代理自主优化。通过元代理与任务代理分离,AutoAgent在SpreadsheetBench和TerminalBench上取得领先成绩。系统自动调整提示、工具和协调逻辑,无需人工干预。元代理凭借模型同理心,深入理解任务代理的推理轨迹,针对性优化。该系统为领域专家简化了代理构建流程,推动智能代理跨组织广泛应用。下一步将探索动态组装工具和上下文的即时任务处理。

淘宝跨端体验优化 AI 演进之路

手淘跨端团队通过AI技术重构性能优化流程,推出"体验优化Agent"等5款产品,覆盖研发全链路。该方案整合端边云基建、RAG知识库及云真机调试等技能,突破传统AI无法理解复杂业务语义的瓶颈,实现从人工诊断到AI自驱的进化。系统能自动完成问题分析、代码修复和配置变更,显著提升应用性能与稳定性,形成"数据-分析-修复"的完整闭环。

Qoder 工程实践:Harness Engineering 指南

AI Agent在编程时常因看不见代码库的隐式规则而出错。Harness工程通过将架构决策、层级约束等编码到仓库中,让Agent能自我验证。它提供lint、测试、verify等机械检查,确保代码合规。Harness还支持任务拆解、模型调度和交叉review,提升复杂任务的质量。通过记忆和轨迹编译,Harness不断进化,让Agent协作更高效。

Harnessing Claude’s intelligence

Claude作为生成式AI系统,其能力不断进化,应用开发需跟上节奏。建议利用Claude熟悉的工具构建应用,如bash和文本编辑器;定期评估Claude的新能力,减少不必要的操作;谨慎设置代理框架的边界,优化上下文管理和工具设计。随着Claude智能的提升,开发假设需持续验证,及时移除冗余结构,确保应用高效运行。

Dark Code

系统行为越来越难被完整解释,运行时组件交互产生的"暗黑代码"成为常态。AI代理动态调用工具、自然语言作为控制层,导致执行路径无法预判,数据泄露和权限混乱频发。开发速度远超理解能力,安全审计形同虚设。非技术人员也能通过简单描述生成生产环境行为,但追责机制仍集中在少数人手中。传统SOC2认证已失效,企业亟需构建能实时回答"3月某周二系统对数据做了什么"的基础设施。

面向Skills编程:用领域知识工程驱动 Code Agent

阿里妈妈团队通过构建领域知识工程体系,解决Code Agent在复杂业务中的瓶颈问题。采用Skill三级架构渐进式加载知识,结合四层防腐机制确保知识不腐化。实践表明,显式映射领域知识与代码流程可提升准确率至90%以上。相比SDD,持续维护核心领域知识体系更高效。未来将聚焦知识深度,为Code Agent提供精准支持。

Building a Multi-agent Book Writer Using Qwen 3

AI写书神器上线!用3-5个词就能生成2万字电子书,技术栈包括Firecrawl爬虫、CrewAI编排和本地部署的Qwen 3大模型。工作流分三步:先通过关键词搜索自动生成目录大纲,再让多AI并行撰写各章节,最后整合成书。实测"Astronomy in 2025"主题仅需2分钟完稿,完整代码已在LightningAI平台开源。

2026 年 AI 编码的“渐进式 Spec”实战指南

AI编码实践聚焦大模型能力与Agent自主行动,强调Spec Coding规范与渐进式流程设计。通过分层架构与工具编排,优化编码效率与质量。核心在于知识积累与流程迭代,确保AI辅助编码的高效与安全。

OpenClaw: The complete guide to building, training, and living with your personal AI agent

OpenClaw是一款开源的个人AI助手,能够通过消息平台(如Telegram、WhatsApp等)接收指令,自主完成任务。它运行在本地或云端,支持多种技能和API,具备高度自主性。用户可通过终端安装OpenClaw,设置不同功能的AI代理,如个人助理、销售支持、社交媒体管理等,极大提升工作效率和生活便利性。尽管设置过程复杂,但其灵活性和强大的自动化能力使其成为个人AI工具的佼佼者。

OpenClaw-Observability:基于 DuckDB 构建 OpenClaw 的全链路可观测体系

OpenClaw的可观测插件通过DuckDB将AI Agent的执行过程结构化,解决了黑盒问题。插件在关键节点采集数据,建模并存储,最终展示为清晰的执行链路。这不仅让开发者能快速定位问题,还为系统优化提供了数据支持。插件的设计降低了接入门槛,支持本地和云上部署,确保AI系统的可靠性和可维护性。

ホーム - Wiki
Copyright © 2011-2026 iteam. Current version is 2.155.1. UTC+08:00, 2026-04-05 23:58
浙ICP备14020137号-1 $お客様$