支撑万亿交易量的苏宁金融紫金大盘

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 支撑万亿交易量的苏宁金融紫金大盘 AIOps 平台架构设计及实践 2019 中国 DevOps 社区年会 孙捷 @ 苏宁金服集团 2019 年 10 月 26 日
2. 自我介绍 • 现担任苏宁易购集团金融研发中心 技术总监 • 曾先后任职于IBM和苏宁金服,对 DevOps和AIOps技术平台有深入 的了解,擅长相关领域的产品设计 和架构设计。 • 设计过多款行业领先的DevOps和 AIOps产品,并荣获数项相关专 利;此外在开发管理、人才培养、 团队建设等方面也颇有研究。
3. 大纲 CONTENTS 01 02 03 04 发展历程 架构设计 落地案例 心得分享
4. 大纲 CONTENTS 01 02 03 04 发展历程 架构设计 落地案例 心得分享
5. 01 、发展历程 苏宁金融的业务快速增长 2011年 2013年 2015年 2016年 开办第三方支付业务 易付宝APP上线 开办消费金融业务 苏宁金融服务(上海)有限公司成立 开办商业保理业务 开办企业征信业务 开办基金销售业务 开办基金销售支付结算业务 成立苏宁金融研究院 开办融资租赁业务 发 展 历 程 2019年 2018年 2017年 苏宁融资担保(天津)有限公司成立 苏宁金融科技(南京)有限公司成立 苏宁银行开业 C轮融资,投后估值达到560亿元 江苏苏宁商业保理有限公司成立 任性贷上线 获批设立以金融科技为特色的”江苏省博士后 B轮融资,估值323亿元 创新实践基地“ 苏宁支付公司获颁“国家高新技术企业”认证
6. 01 、发展历程 对IT的技术运营能力不断提出新的挑战 庞大复杂的系统 高昂的运维成本 低效的运维能力 ※ 1000+系统 ※ OPEX = (3~4) * CAPEX ※ 70%的严重问题都是人因 ※ 5W+服务器 ※ 30%研发人力投入运维 ※ 问题感知和定位1~2小时
7. 01 、发展历程 技术运营能力演进路线 2017 第二代紫金大盘 1TB/秒 多活架构 一键定位 2015 第一代紫金大盘 100GB/秒 统一日志+采集 实时计算+告警 2011 苏宁金融起步 1GB/秒 SNMON 堡垒机+Zabbix 2019 第三代紫金大盘 10TB/秒 AIOps平台化 业务保障平台 成本管控平台 人效提升平台
8. 大纲 CONTENTS 01 02 03 04 发展历程 架构设计 落地案例 心得体会
9. 02 、架构设计 -AIOps 体系框架 •硬件利用率优化 容量管理 知识管理 •容量管控 •知识库 •容量预测 •弹性扩缩容 •性能优化建议 变更管理 •硬件成本管理 成本管理 成本管理域 人效提升域 •并行研发 •智能决策 •人力成本管理 •采购建议 •ROI优化建议 业务保障域 监控能力 故障检测 故障诊断 故障恢复 应急事件 应急响应 根源分析 总结改进 故障预测
10. 02 、架构设计 - 整体架构 服 务 工 作 台 人 效 提 升 域 并行研发 知识库 智能决策 容量预测 业 务 保 障 域 问题检测 问题诊断 问题恢复 问题预测 成 本 管 理 域 图例 ROI优化 资源优化 容量管控 性能优化 心 眼 脑 自动化运维平台 “银河”算法平台 “幻识”知识图谱 持续交付 流水线 异常区间 比对 故障传播 关系挖掘 弹性扩缩 容决策 交易链路 异常诊断 交易链路 画像 应用健康 画像 监控工具 相似曲线 识别 事件与事 件挖掘 资源利用 率模型 单KPI异 常检测 故障先兆 画像 应急预案 KPI趋势 预测 KPI与事 件挖掘 性能瓶颈 分析 多KPI异 常检测 实体画像 拓扑结构 KPI聚类 多KPI联 动挖掘 容量预测 模型 单KPI异 常诊断 运维实体 实体关系 运维工具 …… 服务管理 配置管理 …… 数 据 云 平 台 物理资源 虚拟资源 …… 业务 应用 …… 存储 中间件 手
11. 02 、架构设计 - 技术架构 服 务 工 作 台 自动化运维平台 持续交付 银 河 算 法 平 台 CMDB 运维工单 ...... 配置部署 数 据 云 平 台 指标服务 度量评估 模型计算服务 模型计算服务集群 瓶 颈 分 析 数据集成 集 成 任 务 WindQ 运维工具 … 异 常 检 测 容 量 预 测 异 常 诊 断 幻 识 知 识 图 谱 API网关 故 障 预 测 数据开发IDE 图谱管理服务 图库管理 图谱开发 JanusGraph 监控告警 配置管理 …… Flume Zabbix Prometheus JVM Agent 调用链 模型管理服务 算法路由 聚 类 监控工具 成本管理域 业务保障域 KPI Jekins Git SonarQube 魔客平台 建站平台 蛙测平台 金丝雀发布 人效提升域 …… 数据存储
12. 0 2 、 架 构 设 计 - 实时计算的高可用设计
13. 大纲 CONTENTS 01 02 03 04 发展历程 架构设计 落地案例 心得体会
14. 目录 CONTENTS 1) 业务保障域 - 智能问题诊断案例 2) 成本管控域 - 硬件成本管控案例 3) 人效提升域 - “悟空”一键建站案例
15. 03 、落地案例 - 智能问题诊断案例 场景介绍 互联网业务的KPI( PV、UV、交易量、成功率、耗时等)的波动跟公司的收入、利润、股价息息相关,当KPI发生异常 波动时,如果能够快速判断出导致问题发生的根因,运维人员就可以迅速采取行动止损甚至解决,从而为用户、公司和 股东挽回巨大的损失。
16. 03 、落地案例 - 智能问题诊断案例 场景举例 当某个总指标(如总流量)发生异常时,通过智能问题诊断可以快速准确地定位到是哪个(交叉)维度的原因导致的 (“机房=机房A & 类型=转账交易”的流量),以便尽快做进一步的修复止损操作。
17. 03 、落地案例 - 智能问题诊断案例 三大挑战 根因组合太多 分析过程复杂 实时性要求高
18. 03 、落地案例 - 智能问题诊断案例 基本原理 Ripple Effect (涟漪效应): ? ? ′ ? ′ ? ? ? = ? ? ′ ? − ? ? × , ? ? ≠? ? ? REF:Yongqian Sun, Youjian Zhao, Ya su, et al., “HotSpot:Anomaly Localization for Additive KPIs withMulti-Dimensional Attributes”, IEEE Access, 2018.
19. 03 、落地案例 - 智能问题诊断案例 智能问题诊断流程 数据云平台 “银河” 算法平台 ES 数据存储 日志 DB Spark 数据聚合 Hive 数据集市 SFRD-FRCA 算法模型 β地动仪 可视化展示
20. 03 、落地案例 - 智能问题诊断案例 SFRD-FRCA算法模型
21. 03 、落地案例 - 智能问题诊断案例 预测值计算
22. 03 、落地案例 - 智能问题诊断案例 可能性评估
23. 03 、落地案例 - 智能问题诊断案例 搜索算法
24. 03 、落地案例 - 智能问题诊断案例 偏移修正 基于奥卡姆剃刀原则的根因选优: compare_ score = score*(len(root_cause)*rc_factor)*(layer*layer_factor) 1.依据奥卡姆剃刀(Occam’s razor)原则:多个根因都符合规则时,选择更简约的根 因。 2.增加针对搜索层数的惩罚机制, 层数越深惩罚越重。 3.增加针对根因元素数的惩罚机制,元素越多惩罚越重。
25. 03 、落地案例 - 智能问题诊断案例 产品效果 准确率90%以上,平均响应时间30秒以内
26. 目录 CONTENTS 1) 业务保障域 - 智能问题诊断案例 2) 成本管控域 - 硬件成本管控案例 3) 人效提升域 - “悟空”一键建站案例
27. 03 、落地案例 - 硬件成本管控案例 场景介绍 硬件成本和利用率 300000 20.00% 18.00% 250000 16.00% 14.00% 200000 12.00% 150000 10.00% 8.00% 100000 6.00% 4.00% 50000 2.00% 0 0.00% 2011 2012 2013 2014 2015 成本 2016 利用率 2017 2018 2019
28. 03 、落地案例 - 硬件成本管控案例 应用架构 管 硬 控 件 平 成 台 本 实时成本 大盘 成本明细 资源使用 率大盘 资源使用 率明细 单机缩容 建议 容量预测 容量规划 成本优化 效果分析 成本预测 单机性能 优化建议 链路缩容 建议 一键 扩缩容 资源变更 管理 硬件采购 建议 自动化运维平台 “银河”算法平台 “幻识”知识图谱 持续交付 流水线 计费模型 成本模型 成本预测 模型 单机性能 分析模型 交易链路 画像 集群画像 监控工具 链路瓶颈 分析模型 缩容过程 模型 单机容量 模型 集群容量 模型 实体画像 拓扑结构 容量预测 模型 容量规划 模型 硬件采购 模型 运维实体 实体关系 建站平台 链路容量 模型 …… …… 配置管理 …… 数 据 云 平 台 调用链数 据 物理机数 据 虚拟机/ 容器数据 …… 霄练压测 中间件数 据 监控指标
29. 03 、落地案例 - 硬件成本管控案例 产品效果展示
30. 03 、落地案例 - 硬件成本管控案例 成本管控效果 2021年 2020年 2019年 为金服集团服务 节约硬件成本15% 为全集团服务 节约硬件成本亿级 结合人力资源成本数据 和业务KPI数据提供ROI 决策分析能力辅助集团 战略决策
31. 目录 CONTENTS 1) 业务保障域 - 智能问题诊断案例 2) 成本管控域 - 硬件成本管控案例 3) 人效提升域 - “悟空”一键建站案例
32. 03 、落地案例 - 一键建站案例 痛点问题 同一测试环境 搭建测试环境 并行版本干扰 耗时长成本高 不同版本需求 固定多套测试 争抢测试环境 环境浪费资源 测试环 境冲突
33. 03 、落地案例 - 一键建站案例 SIT环境 特性环境 Group1-版本a A 基准环境 Group0 A B B 特性环境 Group2-版本b C D 建 站 平 台 E E E F DNS DNS SCM DNS 灰狐路由网关 RSF Kakfa WindQ SCM UTS 调用链监控 平台 ITSM DB- A DB- A SCM 蛙测平台 服务治理平 台 DB- A ……
34. 03 、落地案例 - 一键建站案例 产品价值 并行研发能力 提升业务竞争力 节约人力成本 千万级 节约硬件资源 亿级 提升测试效率 提升交付速度 创造更多价值 快速交付环境 节约研发资源 按需搭建 资源复用 多种测试工具 提升测试人效
35. 大纲 CONTENTS 01 02 03 04 发展历程 架构设计 落地案例 心得体会
36. 04 、心得体会 如何从0~1打造一只AIOps团队? 主动规 划和寻 找资源 公司战略 团队能 胜利才 力可复 是最好 制 的团建
37. 04 、心得体会 未来愿景
38. 谢谢观看 THANK YOU

Home - Wiki
Copyright © 2011-2024 iteam. Current version is 2.139.0. UTC+08:00, 2024-12-22 16:28
浙ICP备14020137号-1 $Map of visitor$