从孤岛到流动:蚂蚁平台工程的架构演进与实践
如果无法正常显示,请先停止浏览器的去广告插件。
1. 姓名
2. 目录
3.
4. 流动不足,工具孤岛与业务协同困难
5. 蚂蚁技术平台支撑业务的主要问题 – 开发者认知负荷的爆炸
2000 年前 – 传统研发 2000 年代 – 敏捷开发 2010 年代 – DevOps 运
动
DEV、QA、OPS 不同团队
瀑布式研发 DEV 与 QA 混合,但 OPS 依
然分离,迭代式研发 OPS 加入,持续集成与发布
You build it, You run it
开发者认知负荷:低
开发周期:数月或数年 开发者认知负荷:中
开发周期:几周或几个月 开发者认知负荷:高
开发周期:小时或天
2020 年代 – 云原生
产品团队:工程、产品、设计
、数据、算法混合在一起,
云原生的复杂性被低估
开发者认知负荷:疯狂
蚂蚁技术平台与开发者面临的问题: 复杂性在扼杀开发者的生产力,并进一步阻碍企业的创新!
开发者责任与认知负荷的
爆炸!
1.
2.
3.
4.
5.
软件全生命周期开发
云原生复杂性的暴露
微服务与高可用的复杂性
变更的风险与效率平衡
安全与质量保障的左移
6. 开发者抛过墙的方法,单人通关游戏
7. 抛过墙方法是开发者和运维平台各自为战
8. 云(原生)破了墙,组了队,开发者却感觉复杂
9. 平台技术需要一次全面演进
10. 系统化地拉通对齐到业务
11. 业界方法论>趋势>指导>商业产品
《团队拓扑》
领域迷你平台即服务
SRE:可靠性赋能
PE:自服务赋能
业务/服务流
开发者驾驶舱
平台编排
2019
集中化平台即服务
2022
CNCF平台白皮书
开发者界面
基础设施即服务
2023十大战略技术趋势
2023
赋能企业
积累认知负载消除组件
平台
能力
提升效果(相对直接用云)
基础服务供给方
12. 核心挑战1:降低开发者认知负荷,对齐业务心智
• 关注点分离:不关心底层的How,平台来操心
• 业务领域对齐:对齐到业务认知的可操作对象
不好的抽象-细节泄露,程序员给汽车取名
好的抽象-文件系统
13. 核心挑战2:平台提供什么服务,怎样提供
What
平台团队是批发商,将基础资源,
加工为内部开发者零售商品:
• 连接
• 组织
• 加工
How
API-First,X as a Service 服务提供方式,使能:
• 自动化
• 标准化
• 共享化
14. 解法:平台作为开放式业务对齐层,标准化DEV,OPS结构
15. 团队能力资源流动,在业务流团队拉通对齐
16. 关键技术与业界参考实现
17. 3-IDP + 4-编排器/ 5-反馈路径
开发者自服务 =
价值
流对齐 团队
平台即 产品
Time To Market
1-组织拓扑 + 2-标准化API
3- 开发者平台 Internal Developer Platform
1-自服务
IDP Portal Web/API/CLI
Role
Members
授权
Organization 组织层面协作
IDP Entity@PE
Admin@PO
Task Issue
Ship&Run 协作
@DEV/SRE
Teams
黄金
路径
Day1
Day2
Run
Result
Supply
Chain
O11y
AI
Agents
Cloud Platforms
平台(资源层)编排
Project
Project
Project 项目协作 @DEV/PM/QA
Users
2-资源层
4-编排器
Entity
Blueprint Quota&
Bill
Entity
Action PO
Mgmt
面向开发者API@PE
API
Call
Match/Inject/Operate
Project 结构
Map
Ownership 转移
Ownership明确的API
API
Sync
Integration/Mapping
Client Project
X as a Service API 设计@Dev
资源层回流
映射方法 @PE
1-组织拓扑
Project结构:
共同所有权, 组织层次结构, 同为生产/消费方
关联身份与授权
渐
进
式
升
级
Domain Resource 定义
5-反馈路径
Org 结构
IDP实体构成的自服务操作视图
Traditional Platforms
Sync
Constraint
IDP 实体目录API
Kubernetes Cluster
ROA Style@Dev/PE
合规@Security
Org Policy
API
Call
Service Provider API
2-标准化API
Resource Definition
Platform
Platform
Project
Project
Platform
Project
OpenAPI Spec
18. 蚂蚁IAM
自服务基础:
明确的Ownership
业界:
• K8s API
• Cloud IAM/RAM
1. Create
3. Access
2. Own
0. Own
19. 蚂蚁IAM
统一访问控制:
细粒度层次化授权
业界:
• K8s API
• Cloud IAM/RAM
20. 蚂蚁平台API
设计中心
技术资产“化债”:
非标接口->ROA API
业界:
Kubernetes API
Google Cloud API
CNCF kcp
21. Day2操作
蚂蚁Kusion
8
Day1点菜
4
认知减负编排层:
抽象、编排实现、复用
开发者团队
报菜名和口味坐等上菜-表达交付意图
开发者团队
实现意图
IDP实体
5 接收意图
7 反馈路径
平台编排器
K8s
意图+上下文
2 配好菜单
业界:
• Humanitec
• CrossPlane
• Kratix
• Radius
定可选菜单和灶台-描述环境运行依赖
编排引擎
1 1 备菜
环境配置
DB & 存储
菜谱 6 驱动
网络
平台工程师
3 收录到编排器
研制菜谱,菜系,配料表,规格-制作基础服务的驱动
监控
扩散到全SDLC
资源层Service Provider API
22. 蚂蚁IDP解决方案
开发者自服务实体目录:
连接、组合、反馈
业界:
• Port
• BackStage
23. 我们还在路上
24.
25. IDP
内部开发者
平台
可视化插件
Code
IDPMet
a
脚手架生成
Kusion意图描述
可观测
API 目录
实体属性定义
实体定义
身份权限
开发者自服务
平台编排器
查询
映射回实体
自服务模版
API设计
中心
Read Match
Bind
Module
Spec
KPO
Operate
Kusion
Provider
平台基础服务
容量管控平面
可观测平面
安全平面
API
管理
4A
Resource
Account
HPA
OTel
Identity
Role &
Permission
标记
存储
多来源数据处理插件
Kusion 控制平面
KC
M
CICD
业务领域建模方案
KCP API
平台工程师交付
编排资源
元数据
元数据层
自服务操作定义
Day1
管控策略
实体目录
Day2
Day0
容量成本
Quota
Cost & Saving
API
网关
Wide
Events
Org
Hierarchy
Resource
Group
ARN
Tagging
Org
Policy
服务供给资源层
平台工程师交付
标准化API
CafeD
26. • DORA指标细化
• 自服务水平指标
• API资源量指标
27. 场景 平台客户的价值 平台技术的要求
关键系统的变更收口 自服务
安全护栏
自动符合组织规定
分批验证 访问控制
组织Policy
滚动更新能力
基础系统广泛适用
可观测
内部AI开发者平台 GPU算力充足&性价比
自服务
推理API稳定性
安全调用内部数据供应方 平台级容量计划
HA Inference API
访问控制
API管理,转化MCP,LLM易消费
28. • 问题:传统平台技术主导的孤岛开放不足,业务与技术难以对齐
• 本质:业务开发运维拉通对齐的系统化方案,为中大型企业所需要
• 架构:建开放协同基座,视中心化平台为大产品统一DX、连接、组织、安全...
• 规模化:组织支持,文化,技术,场景,量化
29.
30. 大模型正在重新定义软件
Large Language Model Is Redefining The Software