金融企业数字化转型下的运维体系建设
如果无法正常显示,请先停止浏览器的去广告插件。
1.
2. 目
录
1 一张图解释“四位一体”的数字化运维体系
2 组织、流程、平台、场景
3 场景驱动的数字化运维模式
4 后续展望
目
录
3. 数字化运维体系
为应对基础设施云化、应用架构微服务化、服务中台化、业务数智化、技术信创化等复杂性挑战,以价值驱动,围绕“1234”思想,
打造“组织、流程、平台、场景”四位一体的运维数字化体系,建立平台化管理模式,实现“安全、稳定、引领”的战略目标,有效支
撑公司数字化转型。
公司数字化转型
基础设施云化
应用架构微服务化
服务中台化
业务数智化
技术信创化
安全、稳定、引领
场景
应急指挥 应急恢复 风险识别 容量评估 on call
组织
应急演练 混沌工程 盘前巡检 深度评估 应用发布 变更评审 重点保障 周末测试 试运行
稳定性保障
软件交付
效能评估 FinOps ……
4个价值创造: 成熟度评测维度:
提高稳定性保障水平 线上化
提升业务交付速度 自动化
辅助提升客户体验 数字化
提升IT服务质量 智能化
IT服务交付
AI赋能流程
虚拟服务助理
知识图谱
自动化服务处理
1 张数字化运维场景地图
2 个“人机协同”的组织能力
3 条全在线的核心价值链流程
4 个“监管控析”技术平台
智能工单
最佳实践流程
“监、管、控”
机器人
智能故障
智能决策大脑
中台服务
技术专家
智能发布
工具平台
赋能&重塑
智(数据、算法、场景)
AIOps平台
4. 目
目
录
录
1 一张图解释“四位一体”的数字化运维体系
2 组织、流程、平台、场景
3 场景驱动的数字化运维模式
4 后续展望
5. 从“外卖平台”到运维“平台化管理”模式
借鉴真实的、成功的、熟悉的数字化消费或管理领域场景的思维,去重塑运维管理模式,将有助于运维数字化的成功
外卖平台管理了几百万的骑手,高效的完成外卖工 数字化运维平台管理了众多团队角色与海量的IT资产对象对
作 象,高效的完成稳定性保障工作
场景:客户下单->店家接单->骑手接单->平台运
营(计时、激励、管理->客户反馈
客户端
APP
骑手端
APP
店家端
APP
外卖平台管理信息系统
数据
机制规则
场景:用“流程+工具+数据+ChatOps”的数字化技术重塑运维
工作场景
机制:多方协同机制保障外卖场景更加顺畅的执行 机制:建立规范流程保障场景更加顺畅的执行
数据化:将机制规则数字化,各角色状态实时可观 数据化:将机制规则数字化,实时分析在线化工作执行是否到
测,平台分析工作执行是否到位
分析:对运行数据进行分析,“感知”风险,在线触 分析:对运行数据进行分析,“感知”风险,在线触达到到人
达到不同角色 反馈:吸收一线专家与管理层反馈,优化平台管理的机制规则
反馈:不断的吸收用户反馈,优化平台管理的机制 连接:场景消费多个平台的能力,场景与场景之间实现互联,
规则
位
连接:多端APP,手机GIS定位,连接对象
ChatOps将人、事、场景串在一起,辅助场景落地
6. 组织:建立持续进化型的“人机协同”组织
“职能型 + 横向优化型”的组织架构,“操作运维 向 SRE”的岗位能力,“专家经验 向 人机协同”的协同文化,建立具备持续进化的新型
由专家经验向人机协同转型,推动机器做
运维组织
运维前移
3
2
由操作运维能力向SRE转型
架构管理
变更管理
监控管理
运行分析能力
• 性能分析
• 容量分析
• 可靠性及可用性分析
• 运维流程分析
• 信息安全分析
故障应急
onCall值
守
应急演练
运维服务能力
技术运营
一二三线值班
• 值班经理
• IMB事件经理
• 应急预案及演练管理
• BCM业务连续性
• 应急集结管理
常规基本
运维保障
变更管控能力
决策、执行能力的提升
• 架构分析与优化
• 重大项目组织实施
• 生产变更技术评审
• 上线试运行
• 终端及下线管理
• devops持续交付
• 服务目录管理 • 场景产品经理
• 服务台 • 自动化脚本小组
• 定期业务沟通 • 配置经理
• 改善客户体验 • 条线运维研发岗
• 服务总结报告
容量评估
IT服务
应急管控能力
•
“高效率”的事,不断提升机器在感知、
运维开发能力
• 服务咨询
• 数据维护
• 数据查询
重复性、操作性工作分离
1
在常规被动基本运维保障岗位基础上,聚焦业务价值,增加主动优化型岗位
ChatOp
s机器人
操作机
器人
流程管
理机器
人
团队机
器人
系统机
器人
场景机
器人
专家助
手机器
人
决策机
器人
平台化
大脑
7. 流程:数字化思维重塑流程
借鉴ITIL、ISO20000、devOps、AIOps、SRE、ITOA等方法论,聚焦“稳定性保障、软件交付、IT服务交付”3条关键价值链路,利
用数字化思维重塑流程
企业价值
运维价值
IT价值
提升客户体验,创造客户价值
业务安全稳定
价值流传递
加快速业务创新,重塑商业模式
价值流传递
需求快速交付
提升运营效能,提能增效
稳定性保障价值流
提高业务连续性保障水平
技术创新引领 辅助提升客户体验
赋能高效协同 提升业务交付效率
IT服务交付价值流
制度
服务请求管
理
服务台管理
知识管理
时
序
环境管理
容量管理
性能管理
运行安全管
理
软件交付价值流
可用性管
理
连续性管理
数字化重塑流程
架构管理
IT风险管理
核心流程
文档管理
故障管理 变更管理 特别保障管
理
应急管理 发布管理 运维外包管
理
问题管理
监控管理
配置管理
值班管理
终端版本管
理
规程
资源管理
标
准
场
景
重
塑
工
程
价
值
流
监控
变更日历:变更过程数字化
ChatOps(连接、触达、规范)
规范前移
可运维性验证
CMDB配置
更新 容量管理及压
力测试工具 关键业务感
知 运行状态
天网感知
CD发布 最小功能回归
工具 健康巡检 值班管理
通关结果全量数
字化质检工具
效能管理
回切工具 风险揭示
IMB应急 问题管理
试运行保
障
全天业务数字化
录制回放工具
周末测试管
理
度量和报告
灰度管理
软件交付价值流
3条关键价值流
提升IT运营服务质量
集结保障
周末测试管理
场景
管
理
价
值
流
1.项目评
审
2.研发设
计评审
3.上线审
批
4.CAB评
审
5.变更审
批
6.数据维
护审批
7.非常规
操作审批
8.操作
及留痕
9.变重后
即
时验证
14. 周未
测试
管理
10.变更
后到开市
感知
11.变更
后真实业
务验证
12.变更
后保障及
应急
13.变更
实施
复盘
8. 平台:建立“监管控智”赋能平台
积极调研行业成熟的、商业或开源的运维工具平台,选择能够激发专家经验沉淀与数字化创新的、开放性的“监管控智”工具平
台,赋能上层运维场景的建设
场景平台
IT运营指挥中心
监控应急保障场景
应急集结场景
IMS应急管理场景
应急切换场景
……
激发运维专家经验沉淀与数字化创新,赋能场景建设
运维数据平台
智
业务可用性感知
监控指标数据
运维统一服务API
运行状态感知
性能数据
安全态势感知
统一报警数据
统一日志
应用性能感知
配置数据 系统运营数据
客户体验拨测
云管理管理 服务管理 应用监控 性能监控
资源池管理 数据运营管理 可用性监控 平台监控
平台自动化操作 ……
网络监控
数据维护
参数处理
用户维护等
云资源发现
流程平台
管
监
云服务目录
基础设施监控
应急协同感知
流程数据
监控平台
云资源管理平台
客户体验感知
服务管理
低代码开发系统
机器人中心
场景应用中心
操作平台
控
容量管理 自动化开关机
可用性管理 持续交付
服务台 事件管理
变更管理 问题管理
变更管理 其他流程
脚本模块
编排模块
CMDB
管理对象
基础设施
网络
服务器
存储
操作系统
中间件
数据库
大数据
应用
9. 场景:数字化运维场景全景地图
场景源于实际的工作,是公司最宝贵的专家经验的抽象建模,形成一张数字化的运维场景全景地图。自研模式能够满足场景随着各种
事件驱动,保持高频的迭代,形成场景与场景、场景与平台、场景与人/机器人的连接,连接越多使用起来更加“如丝顺滑”
故障管理
应急指挥
变更管理
常规运维
数字化运营
周末测试管理 系统容量评估 值班管理
定期风险评估 值班经理工作台
应急预案 CAB管理 应急集结 变更日历 数据库优化评估 盘后分析
统一告警管理 终端灰度管理 FinOps效能管理 常规巡检
风险揭示 变更发布 业务运营最佳实践管理 文档管理
应急演练 变更链路管理 大屏可视化 工时填报
系统可观测 生产环境管理 架构可视化 清算感知管理
生产压力测试 生产操作管控 互联网接入全景 重要系统深度巡检
客户体验感知管理 配置变更感知 CMDB数据治理 IT服务目录
服务集中应急调度 参数变更感知 流程管理运营 IT服务台管理
服务故障自愈管理 上下游链路关系变化感知 技术治理分析场景 分支机构问题管理
故障复盘 自动化操作场景工具箱 潜在风险识别 TC架构管理
问题管理 BCM业务连续管理 柜台功能号异常感知 ChatOps机器人中心 自助数据采控服务 时序服务 自动化操作中心
互联网接入站点感知 消息推送服务 指标中心 数据维护表服务 任务调度中心
BPM业务性能管理 运行公告服务 主题中心 信息确认表服务 流程引擎中心
…… 异常检测中心 报表中心
通用服务
10. 目
目
录
录
1 一张图解释“四位一体”的数字化运维体系
2 组织、流程、平台、场景
3 场景驱动的数字化运维模式
4 后续展望
11. 场景设计方法论-1
数字化思维重塑运维工作场景
场景是最真实的以人为中心的体验细节。
场景是一种连接方式。
协同网络
场景是价值交换方式和新生活方式的表现形式。
场景构成的五要素:地间、地点、人、事件、连接方式。
--《场景革命》
时间
数据智能
常规、例
行、事件
事件
强调 数据 。基于运行数据的“洞察、决策、执行”闭环,围绕场景线上
化,线上数据场景化,场景智能化,不断提升人机协同模式的智能化水
平,让机器做更多“高效”的事,让专家沉下心做更多“创造”的事。
协同
闭环所有
工作
强调 连接 。构建的是一个“点线面体”运维数字化工作空间。点是运
维组织内人、机器、软件;点与点根据运维价值链连成线;线与线形成
运维全景场景的面;价值驱动,积极将运维场景面融入公司及行业生态
协同中形成体。
在线连接
所有要素
员工赋能
人
环境
跨团队、多岗位的
专家,以及机器人
场景要素
规范、在
线、物理
场所
强调 赋能 。运维组织是知识性、创造性、学习型团队,人是协同网络的
核心,建立平台化组织,装备全在线的工作装备,构建全数字化的工作
空间。
一切皆服务
强调 服务 。云的自助式,所见即所得,按需获取,量化服务成本等特点,
己在IAAS、PAAS、DAAS上得到验证。XAAS要求交付软件化、工具化,
构建供需双方在线的协同。
12. 场景设计方法论-2
场景评
估示例1
场景评
估示例2
13. 落地数字化场景的技术运营
“数字化场景上线只是里程碑之一,只有用户使用起来才是场景产生绩效的开始,场景需要专岗技术运营,推动场景真正的解决运
维过程中的痛点或工作期望”
场景的落地需
要配套的规范、
规程的支撑,
以及数据洞察
的支持
每一个场景来源于运维实际的工作,
沉淀运维专家与管理经验,利用数
字化重塑现实的工作
场景保持敏捷的迭代,场景与场景
之间形成互联
场景分
类
应急管
理
场景名
称
子类
应用范围
标签
场景简述
平台形式
每个场景要有
需求方、产品
经理、研发岗、
机器人。其中
产品经理尽量
来自SRE专家
配套流程 配套技术 涉及机器 需求
与规范 运营看板
人
方
产品
owner
研发
owner
每个场景
的推广有
其重要阶
段
“四化水
平”评估
场景数字
化程度,
驱动场景
研发迭代
方向
用户团队使用情况查看各团队
的“平台化管理”能力水平,
在同一平面上驱动各团队管理
岗位加强数字化管理
四化水平
上线状态 推广优化级
各组使用情况
服务
线上化 数字化 自动化
化 A组 B组 C组
D组
E组 F组
应急演 发现
练
风险 全局 常态化的生产系统应急演练
计划、任务、流程、运营等 场景
工作 043号规
14
程 演练管理
机器人、
张三
时序机器
人 李四 王五 已发布(迭
代少) 中 基本完 部分完 部分完
成
成
成 不涉
及 已使用 已使用 已使用 未使用 已使用 已使用
容量评 风险
估
管理 全局 建立围绕指标、策略、报告、
风险评估的主动运行评估的 场景
运行评估场景工具 055号规
36
程 容量管理
机器人、
张三
自定义机
器人 李四 王五 试运行&需
高
推广 基本完 基本完 部分完
成
成
成 不涉
及 已使用 已使用 已使用 未使用 未使用 未使用
应急预 应急
案
处置 全局 应急预案线上化、最小计算
单元应急策略、预案场景编
场景
排、自动化操作、预案消费
等 应急管理
4
规范 应急预案
机器人,
事件机器 张三
人、自定
义机器人 李四 王五 持续迭代 基本完
部分完
未实现
成
成 基本
实现 已使用 已使用 已使用 已使用 已使用 已使用
中
注:《数字化场景建设表》
14. 连接:跨团队、跨地域、高响应要求(举例:应急指挥场景)
用户能够在秒级时间内建立应急连接,达到数据汇总、信息融合、运行感知、人机协同、工具互联的一站式协同“总线”作用,实
现全面感知、精准决策、协同高效、指挥有效
ITSM事件管理
ITSM问题管理
值班管理
线上流程
服务台
每日盘后复盘
应急指挥场景
统一告警
场景工具
巡检
事件
复盘
应急预案
应急集结
应急集中操作工具
风险揭示
信息公告
版本、参数、配置
变化感知
超时告警BOT
多终端:PC、移动、IM、大屏多端的在线协同
多渠道:支持自动与人工秒级启动,包括集结、建群、机器人、电话、
OA待办等10+种丰富的资源调度手段
辅助分析BOT
复盘分析BOT
ChatOps
IMS应急指挥BOT
识别与申报
辅助定界
人机协同:多种类型的专业性机器人辅助应急指挥,连接可观测数据辅
助应急
值班经理辅助机器人
监控发现
多角色:公司领导、技术部门领导、运维值班经理、运维岗、研发岗、测
试岗、产品需求岗、外联岗等,且支持扩展到上下游相关岗位
IMS分析看板
系统可观测
数据赋能
工具、数据、流程的指挥系统
版本回切
拨测
建立一站式的应急总线系统,可以实时洞察应急过程,连接与应急相关的
故障恢复
•
事件复盘
问题跟踪
持续提升:以各种“小事件”实战提升团队面对复杂故障的应急能力,
在线数据赋能问题的发现,提升应急管理水平
15. 连接:跨团队、跨地域、高响应要求(举例:应急指挥场景)
触达
层
PC端
移动端
ChatOps端
事中
事前
应急
场景
层
平台
支撑
层
事后
应急预案 应急演练 系统可观测 事件复盘
容量及性能评估 风险识别 集中服务管控调度 风险揭示
变化感知 数字化健康巡检 事件自愈 问题管理
指挥
调度
层
中台
服务
层
大屏端
应急指挥场景
统一告警
指标中心
监控平台
智能化异常检测
中心
ITSM平台
自动化操作中心
自动化操作平台
机器人中心
流程中心
运维数据平台
其他服务中心
CMDB
16. 赋能:大规模、长时间、复杂的协同(举例:周末测试场景)
在同一个在线的周末测试协同场景中,创新性的利用“时序任务、ChatOps机器人、运行数据、流程引擎”工具,连接跨地域、
跨团队、上百人、几百项测试任务
17. 数据:数据赋能技术治理(举例:CMDB数据治理场景)
CMDB数据治理是一项琐碎、复杂的工作,为解决配置问题发现与闭环改进的难题,通过数字化场景基于数据消费的价值,让各方
看到效益,提升重视程度,再配合任务管理,提升了数据治理的效率。
稳定性保障场景
成本优化 DevOps 交付 合规管理
系统性能
容量评估 主机复位
状况及可
靠性 主机时钟
源偏差 系统效能
管理 应用程序
CD持续交
付
证书有效
性 主机过保
管理 系统部署
架构数字
化 主机疑似
低效评估 配置及参
数变更感
知
主机单电
源及单网
卡 IDC风险评
估 …… ……
……
促进协同 打破孤岛 系统重要
性级别管
理 系统上游
负责机制 “监管控
析”平台
互联 •
各类IT资
产统计分
析 ChatOps
技术运营
群 运维外平
台关联 •
…… ……
……
配置治理与效能管理场景示例设计
横向的CMDB专项治理与IT资产效能
管理治理团队
配套的CMDB、效能管理规范,以
及技术治理规程
•
采控CMDB、运维数据平台、运维
业务中台等平台能力
•
以数字化IT资产管理的技术治理
技术治理场景为切入点,消费
CMDB数据,推动配置数据保鲜
•
系统效能管理场景
配置数据治理场景
ChatOps机器人辅助配置质量问题
改正的闭环
•
CMDB
配套数字化看板及专项报告,从收
益、投入、问题分析团队、系统、个
人的配置治理状况,推动低效资产的
自动化操作中心
ChatOps机器人中心
指标中心
流程中心
其他服务中心
下线
18. 服务:中台赋能敏捷场景(举例:运维中台)
场景在实际使用中保持敏捷的迭代,将服务、组件、工具以中台的”可复用、可共享”思想 + 数字化场景”可连接”思路进行持续
构建,助力场景落地越来越敏捷
第一个迭代版本研发工期(月)
3
运维人员
非运维人员
系统
2.5
2
运维工作平台 IT服务门户
上
架 上
架
场景2
……
1.5
1
开
放
场景N
0.5
0
场景1
开放接口
API总线
运维业务中台
运维数据中台
其他“监管控”平台通用服务
19. 服务:中台赋能敏捷场景(举例:ChatOps中心)
ChatOps是场景连接利器。截止10月,共有 40+ 的团队, 500+ 个ChatOps机器人, 3000+ 个机器协同群在工作中应用,机器人
发挥着越来越重要的作用
个人监控机器人 平台系统监控机器人
客户体验问题监控机器人 中后台运营问题监控机器人
团队监控分析机器人
监控处理时效性机器人
前台业务运营监控机器人
20. 目
目
录
录
1 一张图解释“四位一体”的数字化运维体系
2 组织、流程、平台、场景
3 场景驱动的数字化运维模式
4 后续展望
21. 展望
公司数字化转型
基础设施云化
应用架构微服务化
服务中台化
业务数智化
技术信创化
安全、稳定、引领
场景
应急指挥 应急恢复 风险识别 容量评估 on call
组织
应急演练 混沌工程 盘前巡检 深度评估 应用发布 变更评审
稳定性保障
重点保障 周末测试 试运行
软件交付
效能评估 FinOps ……
AI赋能流程
知识图谱
智能工单
最佳实践流程
智能发布
智能故障
智能决策大脑
中台服务
“监、管、控”
机器人
积极适应复杂技术架构的变化
• 持续提升场景四化成熟度水平
• 推动运维SRE的能力转型
• 重点提升运行可观测、数据可决策、
虚拟服务助理
自动化服务处理
技术专家
•
IT服务交付
工具平台
赋能&重塑
故障可恢复、性能可扩展的能力
智(数据、算法、场景)
AIOps平台
22.