蚂蚁混合云架构及技术风险防控实践

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 蚂蚁混合云架构及 技术风险防控实践 肖鹏(乙未) 蚂蚁集团 资深技术专家
2.
3. 个人介绍 互联网技术风险领域 10 年从业经验  2011 年加入百度运维部  2014 年加入阿里巴巴高德,作为运维团队负责人全面建设技 术风险保障体系,支撑高德业务逐步发展为日活过亿的App  2019 年加入蚂蚁集团技术风险部,负责智能容量技术团队和 支付宝小程序云北区解决方案团队,为小程序客户提供云托 管技术和营销解决方案
4. 目录  蚂蚁混合云架构实践  蚂蚁混合云技术风险能力建设  蚂蚁混合云应用案例
5. 蚂蚁混合云架构实践
6. 蚂蚁混合云架构实践-背景 网关层 网关 uid50-99 uid00-49 应用层 ServiceA ServiceB ServiceA ServiceB 应用层 单元1 LDC架构 单元2 存储层 m s uid00-49 m s uid00-49 m s uid50-99 m s uid50-99 存储层 (Logical Data Center)
7. 蚂蚁混合云架构实践-背景 proxy 蚂蚁主站 业务主体A 业务主体B proxy 网商银行 ... 业务主体N 阿里云底座 从一朵云演变为多朵云
8. 蚂蚁混合云架构实践-问题 业务主体无隔离 风险能力强依赖主站 相同环境 变更布防 核对预警 经验规则沉淀 应急组织/定位处置管控 应用1 数据模型 变更动作 预案A 防御规则 核对规则 处理能力 应急域 执行记录 风险事件 变更域 数据源/指标/告警 数据源/指标/告警 资金域 缓存 应用 元数据 运维管控 单笔数据 业务定位 决策树 自愈预案 核对规则1 核对规则2 混合云架构 下存在跨云 监控、应急 等新问题 各项 能力 应用3 …… 监控域 主站基础设施 DB 防御规则 处理能力 应用2 预案B 变更服务 链路数据 风险数据 基础平台依赖 技术风险能力沉淀 变更分批 监控 业务影响 分析 … 平台对外部 依赖重,无 法独立输出 共用 风险防控平台 业务主体A 业务主体B …… 业务主体N 中间件等 变更核心 应急平台 … 基础依赖域 内域外异构
9. 蚂蚁混合云架构实践-TLDC架构 业务租户A 业务Saas区 RZ RZ RZ 业务租户B SOFAGW GZ RZ CZ RZ RZ 业务租户C SOFAGW GZ CZ 隔离与互通技 术能力,满足 独立性要求 RZ RZ GZ CZ TLDC架构 ( Trusted-native Logic Data Center ) 独立与互通技术能力 可信原生全局管控区 构建混合云 管控平台, 提供标准云 产品和交付 能力 RZ 云管理 平台 云产品服务 资源运营管理 可信原生管控区 运维管控 云管理 平台 TCMDB元数据 计算资源共享、数据独立存储 独立机房,专有云交付 依据业务主体数据独立性等级要求做部署架构选型
10. 蚂蚁混合云架构实践-TLDC架构 • 数据、权限隔离 • 核心代码多云部署 • 数据/服务的有限互通 • 卫星组件拆分 • 异构云底座 • 协同防御 技术风险 技术风险 技术风险 技术风险 技术风险
11. 蚂蚁混合云架构实践-租户隔离 纯独立部署 纯全局 卫星 每个租户一套部署 所有租户共享一套管控/数据全局部署 所有租户共享一套管理侧的全局部署 不同租户内卫星部署执行引擎类模块 业务租户 技术风险系统 租户内APP 区域中间件 租户内APP 区域中间件 业务租户 业务租户 业务租户 通用代 理组件 通用代 理组件 租户内APP 区域中间件 技术风险 功能组件 业务租户 租户内APP 区域中间件 技术风险 功能组件 业务租户 技术风险系统 租户内APP 区域中间件 全局管控 租户 技术风险系统(多租户化) 目标:建设单云多租户管理能力 全局管控 租户 技术风险系统(多租户化) 租户内APP 区域中间件
12. 蚂蚁混合云架构实践-多云输出 方式1:产品+依赖底座整体输出 IAM CMDB 技术风险 产品系统 Cache Paas … 技术风险 产品系统 IAM 产品 最小集 方式2:产品去底座依赖 CMDB Cache Paas … IAM CMDB 技术风险 产品系统 Cache 轻量化 Paas … 技术风险 产品系统 IAM’ CMDB’ Cache’ Paas’ … 客户自有产品集 主站 客户站点(专有云) 主站 目标:一套产品系统代码,多异构站点输出部署 客户站点(专有云)
13. 蚂蚁混合云架构实践-多云协同 应急域 变更域 跨云数据通路 数据出口管控 管控接入 (审批提单/结果回调/…) 跨云数据通道 管控能力 (审批/熔断/审计/…) 接入层 (发送/订阅/…) 出口元数据管理 (数据类型定义/脱敏规则/…) 通信信道 (https/ftps/…) 结构化 (类型/结构/脱敏/…) 目标:多云独立部署,单元防控体验
14. 蚂蚁混合云技术风险能力建设
15. 蚂蚁混合云技术风险防控-背景 业务运维防控 业务风险防控 质量保证 数据库运维管控 资金安全 变更管控 基础设施运维管控 基础架构运行管控 性能容量 定位应急 领域服务 红蓝攻防 根基守护 基础技术服务 风险智能 监控 风险模型数据 仿真灰度环境 技术风险架构域
16. 蚂蚁混合云技术风险防控-背景 监控 云A 应急 云B监控 云A告警 监控大盘 跨云查询 风险事件 跨云传递 指标数据 监控/落地 指标查询 投递 链路定位 根因分析 变更 压测 跨云变更 时间查询 跨云压测 熔断 …… 检测 结果 通过跨云数据通路 跨云传输通道 接口 同步查询 管控 异步投递 关联 监控 云B 云A监控 云B告警 字段级权限控制 根因投递 应急 监控大盘 跨云查询 云A事件 云B拉起 应急 根因跨云 分析 事件投递 信道 专线 公网 压测风险事件 变更 压测 云A风险 阻断云B 容量风险 识别 …… 解决跨云防控问题
17. 蚂蚁混合云技术风险防控-跨云监控 跨云业务 核心业务保障 跨云应急 跨云监控 跨云发现 技术栈覆盖 跨云告警 跨云变更 网络监控 容量 跨云防控 跨云网络 Maas防控 骨干网专线 跨云应急 SLO覆盖 跨云监控 应用场景 跨云定位 智能化基座 跨云防控 明细数据监控 智能告警 智能托管 智能异常检测 DNS网络 智能布控 …… Maas插件 多段渐进检测 特征&样本中心 统一数据服务 跨云数据 平台 多云 时序 服务 采集注册 统一模型服务 多云权限管控 监控元信息 计算服务对接 监控数据平台 多云数据模块 跨云链路 调度中心 跨云数据服务 跨云数据链路(通讯、脱敏、管控) 采集清洗 执行引擎 agent agent 时序 存储 ceresDB SQL引擎 跨云数据融合 多云时序管理 维表 云站点监控 云站点监控 云站点监控 云站点监控RawData 多云数据引擎 解决数据异构
18. 蚂蚁混合云技术风险防控-跨云应急 节点 典型场景 云A 云B 节点 节点 节点 节点 风险预警 (风险事件) 节点 应急处理 (预案/自愈) 节点 云B叶子节点出现问题,传导到云A入口应用, 云A监控发现 节点 故障根因 (定位) 云A 云B 节点 节点 节点 节点 风险预警 (风险事件) 节点 节点 应急处理 (预案/自愈) 节点 故障根因 (定位) 云A 云B 节点 节点 节点 节点 应急处理 (预案/自愈) 云B应用变更,传导到云A业务大盘下跌, 云B阻断变更 节点 风险预警 (风险事件) 节点 故障根因 (定位) 云B容量不足,云B应用线程积压,云A降 级恢复
19. 蚂蚁混合云技术风险防控-跨云应急 跨云调用的主站指标 业务指标 金 融 交 换 云A业务链路 云B业务链路 0.监控触发告警并提供业务失败traceid列表 0’. 系统指标、业务rpc发生异常 0’. 云上监控触发云上告警的通路 监控平台 应急平台 应急平台 1. 自愈会基于事前在监控的 规则产生异常事件 3.自愈通知 1.云A告警拉起应急并根据业务租户 发起跨云应急 可 信 数 据 通 道 2.云A定位中台将失败的traceid传 给云B定位中台 异常trace 业务日志清洗 2.云B应急根据业务租户和监控,匹 配云应急和启动跨云的新应急 定位中台 自愈中台 2.自愈引擎会基于场景和动作指标 决策出用于止血的恢复手段 3.云B定位中台对失败的traceid串 联trace,做异常特征挖掘 定位中台 5.云A根据传回来的定位根因结论, 将云A事件和云B回传的根因串联在 一起,帮助恢复预案决策 4.云B定位中台回传定位结论,包含 站点,租户信息 异常trace 日志分析 • 应急拉起 • 应急定位 • 应急自愈 云A 云B
20. 蚂蚁混合云技术风险防控-跨云变更 应用 应用 1.触发变更 应用 变更搜索可以查询 应用 应用 应用 产品发布 应用发布 配置发布 应用 变更工单a … … 可 信 数 据 通 道 变更防御能力 变更窗口 监控告警 分批监控 参数校验 <自定义> 跨云风险 可 信 数 据 通 道 4.匹配防御 变更搜索 变更事件输出 变更工单b 变更管理 变更管理 变更场景元数据 2.变更事件同步 跨云 变更事件 云内 变更事件 3.匹配规则 跨云防御规则 变更防御能力 变更窗口 6.查询变更执行结果 智能分批监控 新增突增异常 … 云A 监控告警 变更窗口 变更参数 …… 6.聚合所有 规则结果 云B • 变更记录跨云搜索 • 变更跨云防御 云A 云B • 跨云的数据访问权限控制
21. 蚂蚁混合云技术风险防控-跨云活动保障 压力防御链路图 应用 应用 应用 应用 应用 应用 应用 压力机 金 融 交 换 云A业务系统 云B业务系统 0.云B系统发生异常 大促活动平台 限流平台 预案平台 … 3.执行压测熔断 大促活动平台 可 信 数 据 通 道 限流平台 预案平台 监控平台 可 信 数 据 通 道 … 压测平台 云A 云B 作战手册 预案梳理 执行前后置依赖 压测平台 2.监控事件溯源 双11大促预案保障场景为例 链路梳理 1.监控系统触发熔断 云A 云B 定时执行 …… • 大促多云联动 • 跨云压测熔断
22. 蚂蚁混合云应用案例
23. 蚂蚁混合云应用案例-蚂蚁大促场景 源机房 网关系统 异步 任务 源机房 弹性机房 网关系统 应用A 应用A 应用B 应用B 应用C Zone层面承载用户 减少一倍 流水型主库 00.01.02.03 异步 任务 状态型 主库 00 状态型 主库 01 状态型 主库 02 状态型 主库 03 弹性机房 源zone流水型DB 承载用户减少一倍 流水型弹性库 01.03 应用D 应用D 应用侧弹出 状态型 主库 01 APP层面可扩容机器 增加一倍 状态型 主库 03 存储侧弹出 状态型DB拆百后 主备切换
24. 蚂蚁混合云应用案例-蚂蚁多主体交互 蚂蚁主站 租户隔离部署 租户隔离部署 租户隔离部署 TLDC技术体系/三地五中心 同城云通基座 同城云通基座 异地云通基座 从中心化转为去中心化 异构到多云底座 专线 独立持牌公司 租户隔离部署 租户隔离部署 TLDC技术体系/两地三中心 同城专有云基座 异地专有云基座 实现跨云风险免疫 专线 独立持牌公司 单租户部署 TLDC技术体系/两地三中心 同城公有云基座 异地公有云基座
25. 蚂蚁混合云应用案例-支付宝小程序云 软件代码风险 服务部署风险 系统运行风险 业务运营风险 代码和配置中的静态风险 系统部署流程和代码变动风险 系统运行中的风险发现与自动处置 业务运营防薅羊毛等场景识别 安全漏洞 软件合规 故障扩大化 指标与端侧防御 智能监控告警 容量弹性伸缩 业务“黄牛” 容量保障 软件缺陷 配置风险 止血不及时 变更影响分析 应用多活容灾 单机异常自愈 活动性能压测 隐私合规 服务部署风险识 别 运行时风险识别与处置 业务运营时风险识别 自动识别变更风险,智能决策回滚 自动配置监控,容量弹性伸缩,异常自 愈 自动压测,容量保障;自动识别业务风 险 软件风险识别与修复 自动建模->自动识别->自动修复 风险巡检 变更风险防御 变更异常检测 容量弹性伸缩 智能监控告警 恶意用户识别 安全漏洞 代码SCA扫描 变更影响面分析 单机异常自愈 DB SQL异常自愈 隐私合规政策 漏洞一键修复 软件依赖合规 DDOS流量防护 机房容灾多活 黄牛刷单防护 性能压测与分析 解决独立输出 场景架构问题
26. 蚂蚁混合云应用案例-支付宝小程序云 支付宝小程序 cloudrun.alipay.com ISV客户端 PC web / APP… 公网访问 公网访问 公网/callcontainer 小程序云管控区 小程序云服务区 统一接入 安全防护 统一接入 ISV2 小程序后端 VPC2 ISV1 小程序后端 VPC1 测试环 境 极简灰 度 生产流 量 ISVn 小程序后端 VPCn 生产环境 生产环境 测试环 境 极简灰 度 统一接入 安全防护 前端网关 生产环境 生产流 量 测试环 境 极简灰 度 生产流 量 多语言支持 Java/JS/PHP… 多语言支持 Java/JS/PHP… 多语言支持 Java/JS/PHP… 蚂蚁安全容器 蚂蚁安全容器 蚂蚁安全容器 对客产品管控集 支撑专有云输出 小程序云技术支撑 高效研发 服务托管 服务弹性伸缩 DB弹性伸缩 极速部署 风险智能托管 云函数 运维稳定性 Cloud IDE 链路追踪 安全 分布式缓存 安全防护 KV数据库 环境隔离 秒级监控 云执行环境 存储 数据库 分布式数据库 数据库管理 性能工具(TopSQL/慢SQL) 安全容器 隐私计算 技术沉淀 对象存储 日志服务 操作审计 智能告警
27. Q&A 微信联系方式 钉钉联系方式
28.
29.

Accueil - Wiki
Copyright © 2011-2024 iteam. Current version is 2.137.1. UTC+08:00, 2024-11-14 11:30
浙ICP备14020137号-1 $Carte des visiteurs$