从云原生到 AI 原生:模型引发的新一代基础设施构建
如果无法正常显示,请先停止浏览器的去广告插件。
1. 从云原生到 AI 原生:
模型引发的新一代基础设施构建
余锋(褚霸)
2. 目录
01 背景:基础设施技术的演进
02 新时代的应用:模型成为新的数据库
03 模型为中心的基础设施
04 AI 中间件:Agent 基础设施
05 展望:从“通算 + 智算”向通智一体的演进
3.
4. 01
基础设施技术的演进
5. 软件定义基础设施之始:虚拟化与云计算
软件
集群
虚拟化
配置管理:Puppet, Chef, Salt,
Ansible…
云基础设施:OpenStack,
CloudStack, Eucalyptus…
管理全局的软件部署
API化管理硬件资源,特别是借助
Terraform 类的工具,可以软件管
理云上资源
Xen, KVM
基础系统运行、隔离性、软硬件解
耦……
OS
Linux
6. 过渡:前容器时代的云原生
各种软件包
存储
应用代码( CI/打包)
其他软件包
Puppet/Chef/…
Terraform
基础镜像
定制镜像
7. 容器与云原生:应用为中心
R
对代码运行(OS ) 对开发与构建、测试
容器是标准运行时环境 容器是统一、标准、一致的环
境
S
容器
一个理想的
解耦点
对于分发
B
对于编排和调度
容器是标准化分发载体,类似
于软件包
容器是基本的应用编排单元和
资源调度单位
O
8. 云原生:良好架构带来的生态繁荣
https://l.cncf.io
9. 小结:基础设施的演化方向
性能与效率
适应负载变化
应对环境的不稳定性和风险
降低运维复杂度 → 直至免运维
10. 02
GenAI 时代的应用
模型成为新的数据库
11. GenAI 之前的(互联网)应用 Pattern
LAMP 的演进之路
数据库是应用系统的核心
大规模分布式数据库、数据中间件等,帮助构建高性能大规模应用。数据库
是核心的应用基础设施。
面向互联网规模的复杂应用
消息队列、服务发现、RPC 、应用框架等(Spring),用于构建大规模并行
应用;云原生时代,引入了 ServiceMesh (istio
)、AppRuntime
(dapr ),将应用和应用基础设施解耦。
数据计算链路
在线服务之外,服务过程产生的数据,会进入数据计算链路,进行离线或实
时计算,构成数据驱动的应用。
12. 大模型引领的大爆发(模型)
https://github.com/antgroup/llm-oss-landscape
13. 大模型引领的大爆发(开发生态)
https://github.com/antgroup/llm-oss-landscape
14. 生态位的变化:模型在成为新的数据库
一个基于多 Agent 的财报解
财报信息提取
读应用(例中应用基于
AgentUniverse 框架构建)
分析师角色指令
越来越多的应用,使用模型生成
报表信息校验
的内容来服务用户,而不是基于
数据库来生成内容。GenAI 时代
金融逻辑校验
金融数值计算
的大模型正在充当 Web 2.0时
代的数据库的生态位,这会对基
础设施需要满足的需求,和它的
架构带来很多变化。
15. 03
模型为中心的基础设施
16. 模型带来的架构演进:
后云原生时代的超级计算
并行计算再次伟大 大模型的训练和推理都高计算量都超越了节点边界,不论是训练,
还是大参数量模型的推理,都需要跨越传统节点的边界
不再以CPU 为唯一中心 GPU 的算力密度更高,访问显存速度更快,更大量的计算和计算成
本都在 GPU 上,GPU 的效率成为设计的核心考量
新的参数面网络 在计算、存储、管理网之外,引入了新的高速参数面网络,相应地,
围绕参数面网络和 GPU 的优化成为了调度的重要约束
重新定义节点边界 通过参数面网络访问其他卡上的显存的时延,已经低于通过 PCIE 访问
主存,什么才是本地,以及节点的边界,这个架构概念已经发生了动摇
17. 开源模型推理引擎 vLLM 和 SGLang
快速崛起
两个项目成长迅速,不仅性能竞赛一直在持续,而且
都有上千开发者,开发速度都很快,大量的 Issue 会
在几个小时内就得到响应。任何单一一家公司都很难
跟上社区的脚步。
18. 模型的优化部署与服务
大模型应用的请求与
数据库应用的模式不
同,每个请求的计算
消耗量大,且请求之
间差异很大,需要整
个基础设施的系统化
适应和改进,而不仅
是推理引擎本身的优
化。
LLM-d 等项目同样是
在处理这个系统问
题。
模型的规模化服务,以开源的蚂蚁 AIGW + Mooncake 为例
19. 更进一步,从云原生到 AI 原生,从应用为中心到模型为中心
From CNCF Sandbox Project ModelPack(https://github.com/modelpack/model-
spec)
借助已有的云原生生态,将开放接口、开放标准、不可变基础设施的理念,与大模型的生命
周期管理与优化部署结合,帮助构建更高效的模型开发与服务生态
20. 04
AI 应用的基础设施
或者说,Agent 基础设施
21. Agent 领域开源项目的活跃度趋势
22. 同样,模型训练也在引入 Agentic RL
以 inclusionAI/AReaL 项目为
例,作为一个强化学习框架,在
AReaLite 版本中增强了
Agentic RL,通过 Agent,来提
升模型的泛化能力。
这样任意定义/引入的 Agent 代
码,在训练过程中被执行,给基
础设施也提出了更多需求
23. Agent Sandbox
与 Agent Tools
一切都是Agent ,未来可能需要有海量的 Agent 和运行它们的 Sandbox ,给已有的 Sandbox 技术和平台
带来了新的挑战和机会
功能性 从简单的计算器,到搜索,再到浏览器、Computer Use ,乃至于执行任意代
码,都可能是 Agent 或 Agent Tools 需要完成的功能
性能与并发量 对于 Agentic RL ,可能需要同时并发执行大量的 Agent ,并要求响应速度很
快,镜像和容器加速项目都可能会被用到
Sandbox 的隔离性 因为 Agent 有可能执行任意获取的代码,或者是模型生成的代码,因此需要
使用安全容器或其他安全的配置,来保护基础设施,免受意外或恶意的攻击,
Kata Containers, Firecracker,
gVisor, 都是被大量提到的沙箱技术。
24. 05
展望
从“通算+智算”向通智一体的演进
25. 从“通算 + 智算”向通智一体的演进
很多前 AI 时代的应用也将向 Agent 演进,Agent 也会做一些“普通”的工作
挑战:
•
•
「基础设施的稳定性」与「模型技
应对或机遇:
• 我们有机会在这样的变革来临时,和应用一起进
术的快速变化」的矛盾,工程质量 步,构建更好的 CloudNative AI,或者是 AI-Native
的保障需要被更有效地关注; 架构;
如上提到的 Agent 的任意执行可
能,会引发更多的安全和滥用风
险,需要谨慎地解决或防御这些问
题
• 我们已经有的沙箱技术可以帮我们应对安全威胁;
• 利用 AI 本身的发展,也可以帮助我们更好地、智能
地应对这些风险和挑战。
26.
27. THANKS
大模型正在重新定义软件(以及硬件)
Large Language Model Is Redefining The Software and More
28. Backup 一张 ModelPack