企业AI应用构建指南

1. 企业AI 构建指南

2. 随着LLM在近些年的发展，芯片公司、数据标注、微调研发的应用程序也变得越来索召回能力的RAG模式，慢动，以及到当前最复杂的用发不再是一次性的模型调用，营的综合范式。

3. 一、A 二、A 目录 1·AI应 2·模型 3·AI应三、A

4.

5. 1.对话模式 $ Chat 3.AI工作流模式鼎目任务1

6. 验证测试结果等步骤。 3.环境模块。这个模块顾名思义是 sandbox环境。“生成单元测试要通过感知模块收集环境信息，等。在环境模块中，任务执行往行文档信息等等。 4.规划、任务执行、感知和反思需要根据错误日志调整自己的规划 5.在任务过于复杂，上下文爆炸块就需要被引入。Agent系统需

7. 02 AI应用交付 AI应用交付的特点传统应用CI/CD主要围绕代码版部署流程，监控重点在基础设施利链管理（代码、数据、模型），置包含数据验证、模型训练、持续致等AI特有问题进行多层次监控为处理不确定性和动态变化的智能

8. 模型和框架选择由于训练基础模型需要大量资源，的如GPT、Claude、Qwen、De 量、上手成本、费用、合规等进行景可以选择GPT-4，代码生成可 Qwen系列等开源模型进行私有迭代过程中，开发者也需要跟随行新旧版本的评测、稳定性验证、模型调用分为私有化部署和调用公行深度的定制警如模型参数的调整 TAM

9. 具有不同的权限控制和稳定性要求制较低。集成环境以完成集测为主限要求最严格、服务稳定性要求最 Feature Develop sheetond tutare tak commit co Coding CODE €include ) Prompt Debug Unit Tests

10. 集成阶段 Feature分支进行集成阶段后需单分支的质量和安全。单个或多个分支。构建系统将release分支至集群进行部署，提供服务。集成作，评测部分可详见"Agent评测在阿里内部我们一般以日常/预发代码合并、构建，部署、集测。代码合共只如律

11. AI应用交付案例下文以一个内部"研发助手Agen Agent用于辅助阿里内部研发同建环境进行部署验证、扩容、重启 ReActAgent；考虑到安全和成本 Seek系列为主。下面介绍研发助 Step1：接手新需求之后，研发同：分支：变更内容

12. 质量检测测试通过冲突检测无主干冲突 -0-29|8 集成检测未集成跳过检测预编译预编译成功各类预检测通过之后，变更进入集需完成评测。下方展示的是一个运行可详细查看后续"Agent评测评测工作项是否成功

13. Step3：完成集测环境的各项验证代码合井构建&准入 D 1秒 2分钟查看更多查看更多生产发布前风险监测这里着重提一下正式写基线这个入仓库主干分支，并在正式环境特性、构建产生的制品，我们称之

14.

15. 核心价值降低AI应用门槛：用户无就能将模型能力集成到自己的AI 强劲的算力支持：MaaS服资源，通过全局合理的资源配置 ·更好的推理性能：平台持内的推理加速方案优化推理性能，好的体验。 ·普惠的推理成本：用户无需 SLA需求选择保障/共享型付费模丰富的模型选择：平台持续户提供不同任各下能力更强的模

16. 使用MaaS的过程主要有两步： 1.根据产品控制台的界面提示保障型服务。 2.通过SDK调用订阅或创建代码示例 1 import json 2 3 from whale import TextGeneratio 4 from whale.util import Timeout 5 6 设置apikey 7 TextGeneration.set_api_key(yo 8 #输入prompt msgs ={

17. 记忆（Memory）根据现代汉语词典的定义，记忆是去发生过的事情的描述。作为动的两个过程。在AI应用的整体架力，在多轮对话等应用中无法记住长期交互的能力。而应用了mem 在长期交互的过程中保持更好的从不同的维度做区分，记忆可以根据时效性分类：短期知识：跟当前时间点

18. 核心场景作为AI应用的有效增强，memo ·Chatbot：在多轮问答场景的问答效果。而LLM本体不具备 memory模块来协助组织上下文窗口的限制，需要对记忆进行压 chatbot场景中取得更好的效果 ·AICoding：该场景在多轮与之不同的是Agent模式下，复这同样可以由memory模块来实场景具有较为明显的差异性，m

19. 的完整性和可解释性，又通过向具有强鲁棒性的记忆管理基础。 SDK 记忆存储 Management 记忆总结 Storage 元数据 Role

20. 基于langmem的memory组件创建 from langgraph.prebuilt import c 2 from langgraph.store.memory im 3 from langmem import create_ma 4 5 # Set up storage 6 store = InMemoryStore( 7 index={ "dims*: 1536. 8 "embed": "openai:text-embec } 9 ) 10 11 # Create an agent with memory c 12 agent= create_react_agent( 13 "anthropic:claude-3-5-sonnet-l. 14 tools=[ 15 # Memory tools use LangGra; 16 create_manage_memory_tool 17 create_search_memory_tool(r

21. 的实际应用，验证了记忆模块在采用了创新的递归总结机制，能够召回流程。ZEP则基于自主研发的优化整体记忆效果。A-MEM借鉴关系来完善上下文信息。MEMO 效果进行优化。这些工具各有侧重 MCP MCP是模型上下文协议（Model Anthropic开发，旨在让大型语言工具：AL应用从简单的Prompt

22. MCP Host MCP Client MCP Client MCP Client User Prongt MCP Client 国 LLM MCP最佳实践

23. 现幻觉，选对MCPTool的概率数量都有明确的推荐或者限制（（受20MCP Tools；OpenAI建议目前可行的方案主要是以下几类： MCP协议支持：MCP官目前正在起草MCP协议支使用的能力，后者则通过做 MCP智能推荐：通过一量较少的关联度高的MCP 范围的MCP Server/Tool MCP编排：在我们的实

24. 面临如下挑战：协议碎片化：OpenAI、A 并存，SDK适配、接入和学习成 ·成本不可控：自有模型GF ·安全合规：涉及国家安全、身份授权基础设施难以直接对接存量API和AI生态融合：已有的通，适配需要大量时间人力。 ·观测能力不足：Token花拼接，业务自测。核心场景

25. 架构如下图所示，AI网关在两个场景统一模型访问入口，为企业内用户能力；其二是API供应场景，无 MCP，都需要提供独立的MCPS€ 作为关键的中间层解决负载均衡， Agcern 品 Applications

26. ·CodingAgent：可以将c 件操作、网络访问、命令执行等模型训练与评估：在强化认系统指令对照，确保评测数据与 ·ComputerUse：可以提供同时具备暂存和快速恢复主机环核心能力容器隔离：当agent被控，模型可能会“放飞自我” 宿主机内核，无法有效保护宿

27. LLM 推理品Manus中心服务代码示例：代码示例 1 from code_interpreter import Sar 2

28. AI可观测 AI应用，尤其是基于大型语言模过程的复杂性与不透明性，使得推理波动、性能不可控及数据分布黑盒问题的基石。它通过获取用入、中间步骤（如RAG检索、工最终输出的全过程。所有关键节点精确记录并可视化。这不仅为开发析和优化的数据基础，让问题定核心场景 ● ●●

29. ing实时监控和管理调用模型消来统的可持续运营能力。 Tracing：Agent决策过程的每一步执行流程，能帮助开发 Agent的输入、决策、调用及输查与优化效率，是保障高质量A 文、且执行过程中可能存在敏感业务数据有安全隔离方案。自动埋点：通过跟重点Ag 点，支持业务开箱即用。Agent ·监控报警：对于重点业务，稳定性。

30. RAG Tools

31. AI评测在传统软件研发领域，软件测单元测试、集成测试、UI测试时代，尤其是大模型（LLM）驱 AI应用不再是简单的逻辑堆砌输出不确定性：问同工具，结果可能因为外部环境变决策链路复杂：Agnt API集成）、RAG（检索增强生的“代码分支”，而是动态变

32. 生产环境持续优化阶段：A 本消耗等核心指标，及时发现性回流，形成数据飞轮，驱动应用核心能力 ·系统化实验框架：为了确保整的实验框架（多语言SDK+数性引入AI开发。开发者可以结构 sets），并以此为基准，并行测 GPT-4vsClaude3）、不同版本测试用例，并将各项评测指标进据做出明智决策，有效衡量每次

33. 架构 RAG Tools

34. ·Agent犯错：Agent在任致误操作、数据丢失或业务中断，或资金转账，或因模型幻觉调用包括上下游系统设计缺陷和异常 ·用户要求执行有害任务：月险的操作，如绕过合规限制、获全对齐能力，部分场景下仍可能解决方案针对上述的风险，目前常见的安全提示词过滤及检测：目前业

35. Attacker 直接注间接注入愿意内容 tools调用结果 RAG知识库 Tools使用安全

36. 解决方案针对上述的风险，目前常见的安全安全隔离沙箱：参考Agn sandbox，做到会话粒度隔离或高危操作人工确认：在部分涉及下单支付、预订机票、数据能造成资金损失、业务中断甚至数 ChatGPTAgent均已引入高危操操作（如转账、删除文件、批量写确知情并授权。通过分级确认和操风险。强烈建议对功能较为敏感的

37. 身份与授权由于AI场景的VUCA特征（易变 AI应用场景下的安全协议，具备防止出现权限泄露、访问越权、娄和授权、鉴权（AuthZ），根据交实体、授权主体以及被授权对象差异，这些差异主要体现在交互管理和令牌维护等方面。具体从身份认证、访问鉴权和令牌安全相关特性自身的延后性特征

38. 的服务和资源发起访问和操作。核心能力作为关键的AI应用安全基础设施复杂环境根身份认证（Tru 信，基础Auth服务同时支持多种 ContextProvider）的身份认证 Trust和流量拦截打标等技术手段信身份认证与可信环境验证，实 ·多身份授信模拟（UserIm sonation）技术，结合传统的0

39. 用 MCP Host MCP Client (Custom Trusted Context Auth Hoaders Ourese Set Auth Provider to MOP Auth SDK MCP RA2A Client Agent (Server & Custo Trusted Context A h YIV Provider

40. 大模型供应链安全防护随着大模型在企业核心业务中的风险。其本质是：在训练数据集或植入“后门”，导致模型携带潜毒，模型权重或逻辑被恶意篡改恶意构造的数据。无论以何种形稳定性与安全性构成威胁。潜在风险在模型训练、微调或部署过程中全风险： ● ●●

41. 阿里巴巴在历史上一直是以要是围绕Java技术栈构建。在这家公司的各个业务部门 Java活跃开发者数量的略有这部分增长包含了AI研发生等相关的工作。在互联网爆发的时代，应用架级的用户量以及成千上万的小防之演进程润快速后馈白

42. GUIDE 20 BOOK 人人都能成为A