企业AI应用构建指南
如果无法正常显示,请先停止浏览器的去广告插件。
1. 企业AI
构建指南
2. 随着LLM在近些年的发展,
芯片公司、数据标注、微调
研发的应用程序也变得越来
索召回能力的RAG模式,慢
动,以及到当前最复杂的用
发不再是一次性的模型调用,
营的综合范式。
3. 一、A
二、A
目录
1·AI应
2·模型
3·AI应
三、A
4.
5. 1.对话模式
$
Chat
3.AI工作流模式
鼎
目
任务1
6. 验证测试结果等步骤。
3.环境模块。这个模块顾名思义是
sandbox环境。“生成单元测试
要通过感知模块收集环境信息,
等。在环境模块中,任务执行往行
文档信息等等。
4.规划、任务执行、感知和反思
需要根据错误日志调整自己的规划
5.在任务过于复杂,上下文爆炸
块就需要被引入。Agent系统需
7. 02
AI应用交付
AI应用交付的特点
传统应用CI/CD主要围绕代码版
部署流程,监控重点在基础设施利
链管理(代码、数据、模型),置
包含数据验证、模型训练、持续
致等AI特有问题进行多层次监控
为处理不确定性和动态变化的智能
8. 模型和框架选择
由于训练基础模型需要大量资源,
的如GPT、Claude、Qwen、De
量、上手成本、费用、合规等进行
景可以选择GPT-4,代码生成可
Qwen系列等开源模型进行私有
迭代过程中,开发者也需要跟随
行新旧版本的评测、稳定性验证、
模型调用分为私有化部署和调用公
行深度的定制警如模型参数的调整
TAM
9. 具有不同的权限控制和稳定性要求
制较低。集成环境以完成集测为主
限要求最严格、服务稳定性要求最
Feature
Develop
sheetond tutare tak
commit co
Coding
CODE
€include )
Prompt Debug
Unit Tests
10. 集成阶段
Feature分支进行集成阶段后需
单分支的质量和安全。单个或多个
分支。构建系统将release分支
至集群进行部署,提供服务。集成
作,评测部分可详见"Agent评测
在阿里内部我们一般以日常/预发
代码合并、构建,部署、集测。
代码合共
只如律
11. AI应用交付案例
下文以一个内部"研发助手Agen
Agent用于辅助阿里内部研发同
建环境进行部署验证、扩容、重启
ReActAgent;考虑到安全和成本
Seek系列为主。下面介绍研发助
Step1:接手新需求之后,研发同:
分支:
变更内容
12. 质量检测
测试通过
冲突检测
无主干冲突
-0-29|8
集成检测
未集成
跳过检测
预编译
预编译成功
各类预检测通过之后,变更进入集
需完成评测。下方展示的是一个
运行可详细查看后续"Agent评测
评测工作项是否成功
13. Step3:完成集测环境的各项验证
代码合井
构建&准入
D
1秒
2分钟
查看更多
查看更多
生产发布前风险监测
这里着重提一下正式写基线这个
入仓库主干分支,并在正式环境
特性、构建产生的制品,我们称之
14.
15. 核心价值
降低AI应用门槛:用户无
就能将模型能力集成到自己的AI
强劲的算力支持:MaaS服
资源,通过全局合理的资源配置
·更好的推理性能:平台持
内的推理加速方案优化推理性能,
好的体验。
·普惠的推理成本:用户无需
SLA需求选择保障/共享型付费模
丰富的模型选择:平台持续
户提供不同任各下能力更强的模
16. 使用MaaS的过程主要有两步:
1.根据产品控制台的界面提示
保障型服务。
2.通过SDK调用订阅或创建
代码示例
1
import json
2
3
from whale import TextGeneratio
4
from whale.util import Timeout
5
6
设置apikey
7
TextGeneration.set_api_key(yo
8
#输入prompt
msgs ={
17. 记忆(Memory)
根据现代汉语词典的定义,记忆是
去发生过的事情的描述。作为动
的两个过程。在AI应用的整体架
力,在多轮对话等应用中无法记住
长期交互的能力。而应用了mem
在长期交互的过程中保持更好的
从不同的维度做区分,记忆可以
根据时效性分类:
短期知识:跟当前时间点
18. 核心场景
作为AI应用的有效增强,memo
·Chatbot:在多轮问答场景
的问答效果。而LLM本体不具备
memory模块来协助组织上下文
窗口的限制,需要对记忆进行压
chatbot场景中取得更好的效果
·AICoding:该场景在多轮
与之不同的是Agent模式下,复
这同样可以由memory模块来实
场景具有较为明显的差异性,m
19. 的完整性和可解释性,又通过向
具有强鲁棒性的记忆管理基础。
SDK
记忆存储
Management
记忆总结
Storage
元数据
Role
20. 基于langmem的memory组件创建
from langgraph.prebuilt import c
2
from langgraph.store.memory im
3
from langmem import create_ma
4
5
# Set up storage
6
store = InMemoryStore(
7
index={
"dims*: 1536.
8
"embed": "openai:text-embec
}
9
)
10
11
# Create an agent with memory c
12
agent= create_react_agent(
13
"anthropic:claude-3-5-sonnet-l.
14
tools=[
15
# Memory tools use LangGra;
16
create_manage_memory_tool
17
create_search_memory_tool(r
21. 的实际应用,验证了记忆模块在
采用了创新的递归总结机制,能够
召回流程。ZEP则基于自主研发的
优化整体记忆效果。A-MEM借鉴
关系来完善上下文信息。MEMO
效果进行优化。这些工具各有侧重
MCP
MCP是模型上下文协议(Model
Anthropic开发,旨在让大型语言
工具:AL应用从简单的Prompt
22. MCP Host
MCP Client
MCP Client
MCP Client
User
Prongt
MCP Client
国
LLM
MCP最佳实践
23. 现幻觉,选对MCPTool的概率
数量都有明确的推荐或者限制((
受20MCP Tools;OpenAI建议
目前可行的方案主要是以下几类:
MCP协议支持:MCP官
目前正在起草MCP协议支
使用的能力,后者则通过做
MCP智能推荐:通过一
量较少的关联度高的MCP
范围的MCP Server/Tool
MCP编排:在我们的实
24. 面临如下挑战:
协议碎片化:OpenAI、A
并存,SDK适配、接入和学习成
·成本不可控:自有模型GF
·安全合规:涉及国家安全、
身份授权基础设施难以直接对接
存量API和AI生态融合:已有的
通,适配需要大量时间人力。
·观测能力不足:Token花
拼接,业务自测。
核心场景
25. 架构
如下图所示,AI网关在两个场景
统一模型访问入口,为企业内用户
能力;其二是API供应场景,无
MCP,都需要提供独立的MCPS€
作为关键的中间层解决负载均衡,
Agcern
品
Applications
26. ·CodingAgent:可以将c
件操作、网络访问、命令执行等
模型训练与评估:在强化认
系统指令对照,确保评测数据与
·ComputerUse:可以提供
同时具备暂存和快速恢复主机环
核心能力
容器隔离:当agent被
控,模型可能会“放飞自我”
宿主机内核,无法有效保护宿
27. LLM
推理
品Manus中心服务
代码示例:
代码示例
1
from code_interpreter import Sar
2
28. AI可观测
AI应用,尤其是基于大型语言模
过程的复杂性与不透明性,使得
推理波动、性能不可控及数据分布
黑盒问题的基石。它通过获取用
入、中间步骤(如RAG检索、工
最终输出的全过程。所有关键节点
精确记录并可视化。这不仅为开发
析和优化的数据基础,让问题定
核心场景
● ●●
29. ing实时监控和管理调用模型消来
统的可持续运营能力。
Tracing:Agent决策过程
的每一步执行流程,能帮助开发
Agent的输入、决策、调用及输
查与优化效率,是保障高质量A
文、且执行过程中可能存在敏感
业务数据有安全隔离方案。
自动埋点:通过跟重点Ag
点,支持业务开箱即用。Agent
·监控报警:对于重点业务,
稳定性。
30. RAG
Tools
31. AI评测
在传统软件研发领域,软件测
单元测试、集成测试、UI测试
时代,尤其是大模型(LLM)驱
AI应用不再是简单的逻辑堆砌
输出不确定性:问同
工具,结果可能因为外部环境变
决策链路复杂:Agnt
API集成)、RAG(检索增强生
的“代码分支”,而是动态变
32. 生产环境持续优化阶段:A
本消耗等核心指标,及时发现性
回流,形成数据飞轮,驱动应用
核心能力
·系统化实验框架:为了确保
整的实验框架(多语言SDK+数
性引入AI开发。开发者可以结构
sets),并以此为基准,并行测
GPT-4vsClaude3)、不同版本
测试用例,并将各项评测指标进
据做出明智决策,有效衡量每次
33. 架构
RAG
Tools
34. ·Agent犯错:Agent在任
致误操作、数据丢失或业务中断,
或资金转账,或因模型幻觉调用
包括上下游系统设计缺陷和异常
·用户要求执行有害任务:月
险的操作,如绕过合规限制、获
全对齐能力,部分场景下仍可能
解决方案
针对上述的风险,目前常见的安全
提示词过滤及检测:目前业
35. Attacker
直接注
间接注入愿意内容
tools调用结果
RAG知识库
Tools使用安全
36. 解决方案
针对上述的风险,目前常见的安全
安全隔离沙箱:参考Agn
sandbox,做到会话粒度隔离或
高危操作人工确认:在部分
涉及下单支付、预订机票、数据
能造成资金损失、业务中断甚至数
ChatGPTAgent均已引入高危操
操作(如转账、删除文件、批量写
确知情并授权。通过分级确认和操
风险。强烈建议对功能较为敏感的
37. 身份与授权
由于AI场景的VUCA特征(易变
AI应用场景下的安全协议,具备
防止出现权限泄露、访问越权、娄
和授权、鉴权(AuthZ),根据交
实体、授权主体以及被授权对象
差异,这些差异主要体现在交互
管理和令牌维护等方面。
具体从身份认证、访问鉴权和令牌
安全相关特性自身的延后性特征
38. 的服务和资源发起访问和操作。
核心能力
作为关键的AI应用安全基础设施
复杂环境根身份认证(Tru
信,基础Auth服务同时支持多种
ContextProvider)的身份认证
Trust和流量拦截打标等技术手段
信身份认证与可信环境验证,实
·多身份授信模拟(UserIm
sonation)技术,结合传统的0
39. 用
MCP Host
MCP Client (Custom
Trusted
Context
Auth Hoaders
Ourese
Set Auth
Provider
to MOP
Auth SDK
MCP
RA2A Client
Agent (Server & Custo
Trusted
Context
A h
YIV
Provider
40. 大模型供应链安全防护
随着大模型在企业核心业务中的
风险。其本质是:在训练数据集
或植入“后门”,导致模型携带潜
毒,模型权重或逻辑被恶意篡改
恶意构造的数据。无论以何种形
稳定性与安全性构成威胁。
潜在风险
在模型训练、微调或部署过程中
全风险:
● ●●
41. 阿里巴巴在历史上一直是以
要是围绕Java技术栈构建。
在这家公司的各个业务部门
Java活跃开发者数量的略有
这部分增长包含了AI研发生
等相关的工作。
在互联网爆发的时代,应用架
级的用户量以及成千上万的
小防之演进程润快速后馈白
42. GUIDE
20
BOOK
人人都能成为A