AIOpsDev新基建,智领价值运维转型

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1.
2. AIOpsDev新基建, 智领价值运维转型 浙江移动 陈青青
3. 运维转型顶层设计 AIOps技术驱动运维 OpsDev价值拉动运维 组织敏捷化
4. 运维转型顶层设计
5. 浙江移动IT架构演进 开始研究云计 算技术 2009 研究并推广数 据库一体机 研究并推广 DCOS技术 2013 研究并推广微 服务架构 研究并试点AI 2014 1 st 电信行业最早 250+ 套应用系统 30000+ 4.5亿+ 50000+ 容器 次/日调用量 日均任务调度 2016 完成核心系统全面容 器化 完成核心数据库去IE 完成核心系统全面微 服务化 2017 完成DCOS平台 双平面建设 首批通过 DevOps标准评 估 2018 完成100%去I 完成去O初探 ARM规模化商用 2019 完成核心交易库 去O 完成运维大中台 建设 2020
6. 运维困局的本质 运维挑战 1、维护边界快速增长 2、开发迭代更加频繁 2011 云原生1.0 单体式架构 负载均衡服务、 模块化、 虚拟化隔离 3、数据规模体量暴增 2016 持续熵增,不确定性持续增加 2019 云原生2.0 微服务架构 微服务框架、 持续交付流水线、 调用链分析、 分布式配置、 自动化测试、 监控系统 云原生3.0 云原生4.0 分布式数据库、 分布式存储、 分布式缓存、 分布式消息队列、 灰度发布平台、 全局容错方案、 全局一致性方案、 混沌测试、 容器、资源调度平台 人工智能服务进行决策; 强大的公共基础服务; 智能化运维; 高度自动化能力; 可实现Serverless架构 可编程基础设施 全智能架构 应对不确定性,是人类永恒的挑战 4、故障定界更加复杂 5、传统手段不再适配 6、组织架构难以适应 大侠- 专业化 方阵- 标准化 火枪手 脚本化、工具化、平台化 集团军 中台化、生态化 部分智能化 无人作战方队 数字化、全智能化 运维的困局本质上是云原生架构与运维代际的适配矛盾,运维要借助新技术(AIOps)和新理念(SRE)实现演进
7. AIOpsDev运维转型战略 AIOps OpsDev 基于全面运营数字化,不断拓展复杂 场景的智能化运维能力,通过AI注智, AI Ops Dev 加速运维数字化转型。 沉淀运维中台能力,打造运维开发平台, 人研发工具,工具代替人运维系统,持 续推进运维新基建。 运营数字化  运营数字化:运营运维全生命周期的感知泛在化、认知智能化、操作无人化 四化转型  能力中台化:沉淀运维能力、产品融合、数据融通、学件融智,构建运维生态  运维研发化:自主建设工具平台,技术创新持续落地,让程序代替人维护  组织敏捷化:适配运维演进(GOC、SRE、BOE、OPE) AIOps技术驱动 OpsDev价值拉动 组织转型是破局点 打破范式依赖,AIOps和OpsDev需两翼齐飞,心智模式转变重中之重,决定数字化转型成败,组织转型需要适配
8. 数字化转型需要持续迭代 业务 成熟度/ 价值 技术 能力下沉 平台1.0 平台能力增强 平台2.0 业务和技术双向驱动下,实现价值的迭代升级,平台能力持续做厚 时间
9. AIOps技术驱动运维
10. 运营数字化全局治理体系 技 术 手 段 架构设计 控 制 点 入网控制 …… …… 敏捷验收平台、线上压测平台 智维运维平台 持续发布、灰度发布 神舟运维平台 发布上线 新技术预研规范 应用非功能验收标准 高可用体系标准 应用上云标准 …… 资源分配管理原则 生产环境测试: 功能回归、全链路压测 …… 运行治理(故障抵御体系) 架构治理体系:宠物肉牛化…… 高可用演练规范 云原生1.0时代流程规范 …… SRE控制 点 …… 故障抵御 MTBF MTTI MTTK MTTF M T TR 故障预防 故障发现 感知泛在化 态势通告 MTT V 故障分析 故障处理 认知智能化 操作无人化 MTBF 故障复盘 故障改进 AIOPS需 要 循 序 渐近,重点突 破, 尤 其 是 全 局 数 字 化故障治理体 系,具有较高性价比
11. 感知-认知-处置 闭环流程 数据处理 性能指标、系统日志、调用链 数据平滑 数据插值 数据去重 故障发现-无监督混合模型 模型1 可观测数据 数据特征 工程 算法分 拣器 异常检测结果 故障自愈-四级自愈模型 业务级 业务流量切换 服务级 数据库容灾切换 网元级 主机隔离 进程级 SQL查杀 模型2 模型3 设备健康度 故障发现-晴雨表 故障根因 打分模型 健康度 KPI性能指标 故障定界-多模态融合定界模型 决策引擎 • • • • 灾备情况 风险等级 历史自愈情况 黑名单限制 时间模态分析 推荐的应急预案 异常检 测结果 空间模态分析 经验模态分析 模态融 合
12. 感知泛在化:设备晴雨表 异常检测(自上而下) 从黄金指标体察用户感知 数据汇集 带外、带内监控,采集业务指标、平 台指标、告警、日志等海量数据,统 一规划,集中处理。 白银指标 IO wait cpu使用率 网络延迟 主机hang DB可用性 容器状态 表空间 ping指标 黄金指标 负载转发时延 消息队列速率 告警 日志 晴 雨 表 LSTM ARIMA EWMA 异常聚合 上下合拢 专家经验 线性回归 拨测时延 逻辑回归 数据平滑 知识图谱 资源名称 当前健康 状态分 扣分项 资源信息 多指标健康度模型(自下而上) 从平台组件指标抽象实体健康度 关联关系 健康打分模型
13. 感知泛在化:业务感知体系  技术原理  基于Web流量中HTTP数据的实时解析、聚合,建模,分析、实现页面卡 顿的宏观感知能力,能够及时发现后台系统故障的实时感知。 10086实时咨询热点分布监控 全渠道服务总线质量统一监控  技术原理 基于核心业务黄金指标的异常检测,实现业务前端接入段故障点的感知 (如地市接入网络故障),弥补了卡顿监测的盲区。 后端核心业务积压的统一监控 端到端的微服务调用链追踪 需建立全渠道、全触点、全用户的实时、精准的感知能力,一线不但要跑赢内外部客户故障感知,而且要跑的更快
14. 感知泛在化:数字员工态势通告 故障通报 自愈消息通知 变更单录入 日报发布 租户自助查询
15. 认知智能化: 智能决策 1 时间上谁有可疑 发现一堆异常 KP I1 KP I2 KP I3 KP I4 KP I5 KP I6 KP I7 KP I8 停复 机 开户 充值 订购 K PI 2 INT1 K PI 3 INT2 K PI 4 INT3 INT4 APPI 1 应用平面 K PI 1 K PI 5 K PI 3 K PI 4 Dock er1 云平台平面 Kafka Dock er2 K PI 6 PM2 K PI 9 INT7 K PI 7 业务异常检测 MQ K PI 9 Apac he Dock er5 推导谁最可疑 故障时间线 09:35 是否真的可疑 大云图-辅助定位 根因智荐-自动定位 (赋能二线) (赋能一线) 5 异常核查 根因 K PI 1 0 黄金指标检测 3 • • 物理部署关系 调用连接关系 专家经验 • • 09:23 检测模型 根因推导 空间关联模型 健康度评分 告警检测 4 空间切割 Dock er6 PM6 5 异常核查模型 根因推导模型 调用链检测 SDS3 PM5 2 4 INT8 K PI 8 SDS2 PM4 空间上谁更可疑 APPI 4 Dock er4 SDS1 PM3 K PI 1 0 Hapr oxy Hado op Dock er3 VM3 VM2 PM1 INT6 LB Redis VM1 K PI 8 APPI 3 K PI 5 FW K PI 7 INT5 APPI 2 K PI 2 DB K PI 6 1 空间关联模型 服务状态检测 业务平面 K PI 1 3 2 时间关联模型 检测模型 时间关联模型 异常影响关系 异常作用边界 历史影响关系 • • 历史相似异常 相似异常关系 根因推导模型 知 识 图 谱
16. 认知智能化-可视分析 接口指标视图 应用/业务视图 根因智荐 日志大盘 调用链分析
17. 操作无人化:数字打杂 基于白屏操作平台以及应急预案实 现对告警处理和作业执行的白屏化 能力提升,无需二线运维人员介入
18. 操作无人化:自愈 01.业务级(半自动、辅助决策) 操作无人化构建 架构设计 • • • 预案设计 手段:业务级切换 场景:遇到数据中心级故障,原生产已无法恢复,故切换到备份系统,实现核心业务连续性 原理:基于业务双平面实现 操作无人化 感知泛在化 认知智能化 02.服务级(应急、半自动、辅助决策) • • • 手段:容灾切换 场景:服务级故障切换 原理:基于服务级灾备体系实现 03.网元级(常规、自动决策) • • • 手段:重启 场景:实例级故障隔离 原理:基于实例所属服务自身或应用多写等高可用能力实现 04.进程级(常规、自动决策) • • • 手段:查杀 场景:OS级别异常进程查杀,快速消灭异常 原理:基于应用进程自动重连、自动启动手段实现
19. OpsDev价值拉动运维
20. 运维研发化
21. AIOPS三驾马车
22. 运维支撑体系全景图
23. 场景融合,运维开发敏捷化 23
24. 敏捷开发能力图谱  纯代码  低代码   零代码 零代码 流程加速 组件拖拽式编程 资源申请 代码部署 构建发布 代码托管 应用运维 运营报表 前端可视化布局 后端业务编排 场景化的通用SAAS 大屏设计器 报表设计器 组件自定义 开发模板 纯代码融合 URL嵌入 API服务网关 代码工程整合 流程设计器 打分设计器 …..
25. 数据融通,运维世界数字化 一个平台 一个团队 一套规范 LOG METRIC METRIC TRACE TRACE EVENT
26. 全流程的数据资产管理能力
27. 学件融智,人工智能平民化 27
28. 组织敏捷化
29. 组织转型是重中之重
30. 数字保障团队-GOC
31. 数字保障团队-SRE
32.

Home - Wiki
Copyright © 2011-2024 iteam. Current version is 2.137.1. UTC+08:00, 2024-11-15 14:52
浙ICP备14020137号-1 $Map of visitor$