蚂蚁混合云架构及技术风险防控实践
如果无法正常显示,请先停止浏览器的去广告插件。
1. 蚂蚁混合云架构及
技术风险防控实践
肖鹏(乙未)
蚂蚁集团 资深技术专家
2.
3. 个人介绍
互联网技术风险领域 10 年从业经验
2011 年加入百度运维部
2014 年加入阿里巴巴高德,作为运维团队负责人全面建设技
术风险保障体系,支撑高德业务逐步发展为日活过亿的App
2019 年加入蚂蚁集团技术风险部,负责智能容量技术团队和
支付宝小程序云北区解决方案团队,为小程序客户提供云托
管技术和营销解决方案
4. 目录
蚂蚁混合云架构实践
蚂蚁混合云技术风险能力建设
蚂蚁混合云应用案例
5. 蚂蚁混合云架构实践
6. 蚂蚁混合云架构实践-背景
网关层
网关
uid50-99
uid00-49
应用层
ServiceA
ServiceB
ServiceA
ServiceB
应用层
单元1
LDC架构
单元2
存储层
m
s
uid00-49
m
s
uid00-49
m
s
uid50-99
m
s
uid50-99
存储层
(Logical Data Center)
7. 蚂蚁混合云架构实践-背景
proxy
蚂蚁主站
业务主体A
业务主体B
proxy
网商银行
...
业务主体N
阿里云底座
从一朵云演变为多朵云
8. 蚂蚁混合云架构实践-问题
业务主体无隔离
风险能力强依赖主站
相同环境
变更布防
核对预警
经验规则沉淀
应急组织/定位处置管控
应用1
数据模型
变更动作
预案A
防御规则
核对规则
处理能力
应急域
执行记录
风险事件
变更域
数据源/指标/告警
数据源/指标/告警
资金域
缓存
应用
元数据
运维管控
单笔数据
业务定位
决策树 自愈预案
核对规则1 核对规则2
混合云架构
下存在跨云
监控、应急
等新问题
各项
能力
应用3
……
监控域
主站基础设施
DB
防御规则
处理能力
应用2
预案B
变更服务
链路数据 风险数据
基础平台依赖
技术风险能力沉淀
变更分批
监控
业务影响
分析
…
平台对外部
依赖重,无
法独立输出
共用
风险防控平台
业务主体A
业务主体B
……
业务主体N
中间件等
变更核心
应急平台
…
基础依赖域
内域外异构
9. 蚂蚁混合云架构实践-TLDC架构
业务租户A
业务Saas区
RZ
RZ
RZ
业务租户B
SOFAGW
GZ
RZ
CZ
RZ
RZ
业务租户C
SOFAGW
GZ
CZ
隔离与互通技
术能力,满足
独立性要求
RZ
RZ
GZ
CZ
TLDC架构
( Trusted-native Logic Data
Center )
独立与互通技术能力
可信原生全局管控区
构建混合云
管控平台,
提供标准云
产品和交付
能力
RZ
云管理
平台
云产品服务
资源运营管理
可信原生管控区
运维管控
云管理
平台
TCMDB元数据
计算资源共享、数据独立存储
独立机房,专有云交付
依据业务主体数据独立性等级要求做部署架构选型
10. 蚂蚁混合云架构实践-TLDC架构
• 数据、权限隔离 • 核心代码多云部署 • 数据/服务的有限互通
• 卫星组件拆分 • 异构云底座 • 协同防御
技术风险
技术风险
技术风险
技术风险
技术风险
11. 蚂蚁混合云架构实践-租户隔离
纯独立部署 纯全局 卫星
每个租户一套部署 所有租户共享一套管控/数据全局部署 所有租户共享一套管理侧的全局部署
不同租户内卫星部署执行引擎类模块
业务租户
技术风险系统
租户内APP
区域中间件
租户内APP
区域中间件
业务租户
业务租户
业务租户
通用代
理组件
通用代
理组件
租户内APP
区域中间件
技术风险
功能组件
业务租户
租户内APP
区域中间件
技术风险
功能组件
业务租户
技术风险系统
租户内APP
区域中间件
全局管控
租户
技术风险系统(多租户化)
目标:建设单云多租户管理能力
全局管控
租户
技术风险系统(多租户化)
租户内APP
区域中间件
12. 蚂蚁混合云架构实践-多云输出
方式1:产品+依赖底座整体输出
IAM
CMDB
技术风险
产品系统
Cache
Paas
…
技术风险
产品系统
IAM
产品
最小集
方式2:产品去底座依赖
CMDB
Cache
Paas
…
IAM
CMDB
技术风险
产品系统
Cache
轻量化
Paas
…
技术风险
产品系统
IAM’
CMDB’
Cache’
Paas’
…
客户自有产品集
主站
客户站点(专有云)
主站
目标:一套产品系统代码,多异构站点输出部署
客户站点(专有云)
13. 蚂蚁混合云架构实践-多云协同
应急域
变更域
跨云数据通路
数据出口管控
管控接入
(审批提单/结果回调/…)
跨云数据通道
管控能力
(审批/熔断/审计/…)
接入层
(发送/订阅/…)
出口元数据管理
(数据类型定义/脱敏规则/…)
通信信道
(https/ftps/…)
结构化
(类型/结构/脱敏/…)
目标:多云独立部署,单元防控体验
14. 蚂蚁混合云技术风险能力建设
15. 蚂蚁混合云技术风险防控-背景
业务运维防控
业务风险防控
质量保证
数据库运维管控
资金安全
变更管控
基础设施运维管控
基础架构运行管控
性能容量
定位应急
领域服务
红蓝攻防
根基守护
基础技术服务
风险智能
监控
风险模型数据
仿真灰度环境
技术风险架构域
16. 蚂蚁混合云技术风险防控-背景
监控
云A
应急
云B监控
云A告警 监控大盘
跨云查询 风险事件
跨云传递
指标数据
监控/落地 指标查询 投递
链路定位
根因分析
变更 压测
跨云变更
时间查询 跨云压测
熔断
……
检测
结果
通过跨云数据通路
跨云传输通道
接口
同步查询
管控
异步投递
关联
监控
云B
云A监控
云B告警
字段级权限控制
根因投递
应急
监控大盘
跨云查询
云A事件
云B拉起
应急
根因跨云
分析
事件投递
信道
专线
公网
压测风险事件
变更 压测
云A风险
阻断云B 容量风险
识别
……
解决跨云防控问题
17. 蚂蚁混合云技术风险防控-跨云监控
跨云业务
核心业务保障
跨云应急
跨云监控 跨云发现
技术栈覆盖 跨云告警
跨云变更
网络监控
容量
跨云防控
跨云网络
Maas防控
骨干网专线
跨云应急
SLO覆盖
跨云监控
应用场景
跨云定位
智能化基座
跨云防控
明细数据监控
智能告警
智能托管
智能异常检测
DNS网络
智能布控
……
Maas插件
多段渐进检测
特征&样本中心
统一数据服务
跨云数据
平台
多云
时序
服务
采集注册
统一模型服务
多云权限管控
监控元信息
计算服务对接
监控数据平台 多云数据模块 跨云链路
调度中心 跨云数据服务 跨云数据链路(通讯、脱敏、管控)
采集清洗 执行引擎
agent agent
时序
存储
ceresDB
SQL引擎 跨云数据融合
多云时序管理 维表
云站点监控
云站点监控
云站点监控
云站点监控RawData
多云数据引擎
解决数据异构
18. 蚂蚁混合云技术风险防控-跨云应急
节点
典型场景
云A 云B
节点
节点
节点
节点
风险预警
(风险事件)
节点
应急处理
(预案/自愈)
节点
云B叶子节点出现问题,传导到云A入口应用,
云A监控发现
节点
故障根因
(定位)
云A 云B
节点
节点
节点
节点
风险预警
(风险事件)
节点
节点
应急处理
(预案/自愈)
节点
故障根因
(定位)
云A 云B
节点
节点
节点
节点
应急处理
(预案/自愈)
云B应用变更,传导到云A业务大盘下跌,
云B阻断变更
节点
风险预警
(风险事件)
节点
故障根因
(定位)
云B容量不足,云B应用线程积压,云A降
级恢复
19. 蚂蚁混合云技术风险防控-跨云应急
跨云调用的主站指标
业务指标
金
融
交
换
云A业务链路
云B业务链路
0.监控触发告警并提供业务失败traceid列表
0’. 系统指标、业务rpc发生异常
0’. 云上监控触发云上告警的通路
监控平台
应急平台
应急平台
1. 自愈会基于事前在监控的
规则产生异常事件
3.自愈通知
1.云A告警拉起应急并根据业务租户
发起跨云应急
可
信
数
据
通
道
2.云A定位中台将失败的traceid传
给云B定位中台
异常trace
业务日志清洗
2.云B应急根据业务租户和监控,匹
配云应急和启动跨云的新应急
定位中台
自愈中台
2.自愈引擎会基于场景和动作指标
决策出用于止血的恢复手段
3.云B定位中台对失败的traceid串
联trace,做异常特征挖掘
定位中台
5.云A根据传回来的定位根因结论,
将云A事件和云B回传的根因串联在
一起,帮助恢复预案决策
4.云B定位中台回传定位结论,包含
站点,租户信息
异常trace
日志分析
• 应急拉起
• 应急定位
• 应急自愈
云A
云B
20. 蚂蚁混合云技术风险防控-跨云变更
应用
应用
1.触发变更
应用
变更搜索可以查询
应用
应用
应用
产品发布
应用发布
配置发布
应用
变更工单a
…
…
可
信
数
据
通
道
变更防御能力
变更窗口 监控告警 分批监控
参数校验 <自定义> 跨云风险
可
信
数
据
通
道
4.匹配防御
变更搜索
变更事件输出
变更工单b
变更管理
变更管理
变更场景元数据
2.变更事件同步
跨云
变更事件
云内
变更事件
3.匹配规则
跨云防御规则
变更防御能力
变更窗口
6.查询变更执行结果
智能分批监控
新增突增异常
…
云A
监控告警
变更窗口
变更参数
……
6.聚合所有
规则结果
云B
• 变更记录跨云搜索
• 变更跨云防御
云A
云B
• 跨云的数据访问权限控制
21. 蚂蚁混合云技术风险防控-跨云活动保障
压力防御链路图
应用
应用
应用
应用
应用
应用
应用
压力机
金
融
交
换
云A业务系统
云B业务系统
0.云B系统发生异常
大促活动平台
限流平台
预案平台
…
3.执行压测熔断
大促活动平台
可
信
数
据
通
道
限流平台
预案平台
监控平台
可
信
数
据
通
道
…
压测平台
云A
云B
作战手册
预案梳理
执行前后置依赖
压测平台
2.监控事件溯源
双11大促预案保障场景为例
链路梳理
1.监控系统触发熔断
云A
云B
定时执行
……
• 大促多云联动
• 跨云压测熔断
22. 蚂蚁混合云应用案例
23. 蚂蚁混合云应用案例-蚂蚁大促场景
源机房
网关系统
异步
任务
源机房
弹性机房
网关系统
应用A 应用A
应用B 应用B
应用C
Zone层面承载用户
减少一倍
流水型主库
00.01.02.03
异步
任务
状态型
主库
00
状态型
主库
01
状态型
主库
02
状态型
主库
03
弹性机房
源zone流水型DB
承载用户减少一倍
流水型弹性库
01.03
应用D
应用D
应用侧弹出
状态型
主库
01
APP层面可扩容机器
增加一倍
状态型
主库
03
存储侧弹出
状态型DB拆百后
主备切换
24. 蚂蚁混合云应用案例-蚂蚁多主体交互
蚂蚁主站
租户隔离部署
租户隔离部署
租户隔离部署
TLDC技术体系/三地五中心
同城云通基座
同城云通基座
异地云通基座
从中心化转为去中心化
异构到多云底座
专线
独立持牌公司
租户隔离部署
租户隔离部署
TLDC技术体系/两地三中心
同城专有云基座
异地专有云基座
实现跨云风险免疫
专线
独立持牌公司
单租户部署
TLDC技术体系/两地三中心
同城公有云基座
异地公有云基座
25. 蚂蚁混合云应用案例-支付宝小程序云
软件代码风险 服务部署风险 系统运行风险 业务运营风险
代码和配置中的静态风险 系统部署流程和代码变动风险 系统运行中的风险发现与自动处置 业务运营防薅羊毛等场景识别
安全漏洞 软件合规 故障扩大化 指标与端侧防御 智能监控告警 容量弹性伸缩 业务“黄牛”
容量保障
软件缺陷 配置风险 止血不及时 变更影响分析 应用多活容灾 单机异常自愈 活动性能压测
隐私合规
服务部署风险识
别 运行时风险识别与处置 业务运营时风险识别
自动识别变更风险,智能决策回滚 自动配置监控,容量弹性伸缩,异常自
愈 自动压测,容量保障;自动识别业务风
险
软件风险识别与修复
自动建模->自动识别->自动修复
风险巡检 变更风险防御 变更异常检测 容量弹性伸缩 智能监控告警 恶意用户识别
安全漏洞 代码SCA扫描 变更影响面分析 单机异常自愈 DB SQL异常自愈 隐私合规政策
漏洞一键修复 软件依赖合规 DDOS流量防护 机房容灾多活 黄牛刷单防护 性能压测与分析
解决独立输出
场景架构问题
26. 蚂蚁混合云应用案例-支付宝小程序云
支付宝小程序
cloudrun.alipay.com
ISV客户端 PC web / APP…
公网访问
公网访问
公网/callcontainer
小程序云管控区
小程序云服务区
统一接入 安全防护
统一接入
ISV2 小程序后端 VPC2
ISV1 小程序后端 VPC1
测试环
境
极简灰
度
生产流
量
ISVn 小程序后端 VPCn
生产环境
生产环境
测试环
境
极简灰
度
统一接入 安全防护
前端网关
生产环境
生产流
量
测试环
境
极简灰
度
生产流
量
多语言支持 Java/JS/PHP… 多语言支持 Java/JS/PHP… 多语言支持 Java/JS/PHP…
蚂蚁安全容器 蚂蚁安全容器 蚂蚁安全容器
对客产品管控集
支撑专有云输出
小程序云技术支撑
高效研发
服务托管
服务弹性伸缩
DB弹性伸缩
极速部署
风险智能托管
云函数
运维稳定性
Cloud IDE
链路追踪
安全
分布式缓存
安全防护
KV数据库
环境隔离
秒级监控
云执行环境
存储
数据库
分布式数据库
数据库管理
性能工具(TopSQL/慢SQL)
安全容器
隐私计算
技术沉淀
对象存储 日志服务
操作审计 智能告警
27. Q&A
微信联系方式
钉钉联系方式
28.
29.