工商银行开放平台自动化运维的演进之路
如果无法正常显示,请先停止浏览器的去广告插件。
1. Fintech技术沙龙
金融级数据库与运维实践-上海站
工商银行开放平台
自动化运维演进之路
洪伟
1
2. 1.工行自动化运维发展历程
目录
CONTENTS
2.自动化运维流程建设
3.智能运维场景挖掘
2019-9-24
3. 1
工行自动化运维发展历程
2019-9-24
4. 工行自动化运维发展历程
Ø银行业态转型
BANK
BANK
BANK
1.0时代
传统网点服务客户
历史的、传统的银行模式,
以银行物理网点为基础的
银行业务形态。
2019-9-24
ATM
ATM
$
BANK
2.0时代 3.0时代 4.0时代
自助化服务客户 移动化服务客户 无所不在智能服务新生态
借助电子技术延伸了物理网点的 随着智能手机等移动技术的出现 随着人工智能、5G、物联网等新技
触点,用户通过ATM、网上银行 而飞速发展,被重新界定为随时 术的发展,已经开始构建全新的开
等进行自助服务。 随地满足需要的银行。 放合作的渠道服务新生态。
5. 工行自动化运维发展历程
1.1 建设背景
Ø金融科技赋能全行转型发展
智慧银行
信息化
银行
电子化
银行
信息化
ECOS
客户服务“智慧”普惠
基础设施
持续提升
金融生态“开放”互联
大机延伸
数据集中
数据中心整合
两地三中心
业务运营“共享”联动
客户视图统一 核算相对独立 产品灵活配置
境外应用一体 管理信息集中 全面风险管理
2019-9-24
创新研发“高效”灵活
业务科技“融合”共建
5
6. 工行自动化运维发展历程
Ø银行业务多元化
传统银行业务
互联网时代的银行业务
ATM
POS
ETC
电子银行
聚合支付
网银
快捷支付
电话银行
2019-9-24
生态云
7. 工行自动化运维发展历程
Ø数据库转型
业务支撑 运维能力
单库已无法支撑业务规模 传统的基础环境供应以
的增长 及运维模式无法应对开
发的敏捷迭代
控制成本
通过下移主机业务至平台,
使用更廉价的硬件基础设
施;自主可控,解决对商业
产品的过度依赖
2019-9-24
数据库
转型
降低风险
打散数据、解耦各应用
业务层依赖、降低整体
集中式风险
8. 工行自动化运维发展历程
Ø数据库转型
2019-9-24
9. 工行自动化运维发展历程
Ø互联网时代的高并发挑战
2019-9-24
10. 工行自动化运维发展历程
Ø运维方式升级
运维场景从简单到复杂
运维手段从落后到先进
运维数量从成百上千到数以万计
人肉运维 脚本运维
1.0时代
手工运维
靠运气维持,对
运维人员的专业
度依赖大 2.0时代
脚本运维
依托于一套成熟、
复杂的生产运维
脚本,基于hpsa
等产品管控
2019-9-24
服务化
3.0时代
微服务
自主研发智能运
维平台,运维场
景被抽象成为一
系列原子服务
智能运维
4.0时代
智能运维
AIOPS、机器学
习、动态规划......
11. 2
自动化运维流程建设
2019-9-24
12. 自动化运维流程建设
Ø目的:运维流程闭环
报警
应急
处置
答复
申请
巡检
环境搭建
退库
搭建
反馈
变更
变更
复核
2019-9-24
巡检
智能运维平台
实施
整改
13. 自动化运维流程建设
Ø平台选型的难点
1.操作系统种类繁多
2.服务器数量巨大
3.自主可控
4.行内系统兼容
2019-9-24
14. 自动化运维流程建设
Ø自研智能运维平台架构
2019-9-24
15. 自动化运维流程建设
Ø平台成效
• 上万台服务器操作,10分钟
• 全行数万台服务器监控指标采集
• 多操作系统支持
2019-9-24
16. 自动化运维流程建设
Ø平台风险及防范措施
风险
全局性误操作
脚本健壮度
运维技能退化
防范措施
人员权限控制
对象访问控制
高危命令拦截
强制分批执行
脚本自动化测试
操作服务化
2019-9-24
17. 3
智能运维场景挖掘
2019-9-24
18. 智能运维场景挖掘
Ø围绕智能运维平台的自动化开发
•
•
•
•
•
•
•
•
同城切换
环境搭建
集中监控
标准变更
业务级故障自愈
动态阈值
服务健康度评估
变更风险智能识别
2019-9-24
同城切换
集中监控
标准变更
故障自愈
智能运维
环境搭建
19. 自动化运维流程建设
Ø运维操作服务化-日常操作
2019-9-24
20. 自动化运维流程建设
Ø运维操作服务化-变更
2019-9-24
21. 自动化运维流程建设
Ø运维操作服务化-应急
2019-9-24
22. 智能运维场景挖掘
Ø故障自愈
2019-9-24
23. 智能运维场景挖掘
Ø巡检平台建设
巡检任务模型
巡检平台
录入任
务
F-DCAP
制定巡检指
标 开发巡检脚本
创建巡检任
务表 脚本下发部署
设定巡检时
间表
定制巡检报
表
巡检任务启
动
巡检任务引
擎
发送邮件通
知
2019-9-24
Ø抽象制定了标准的巡检任务模型,其他各项巡检任务均基
WOP接口
于巡检任务模型进行详细定制
Ø实现了与SD、CMDB、DCAP等应用的交互
Ø实现了以应用、服务器、系统对象等维度的巡检
24. 智能运维场景挖掘
Ø巡检平台建设
2019-9-24
25. 智能运维场景挖掘
Ø巡检平台建设-变更巡检
2019-9-24
26. 智能运维场景挖掘
Ø性能指标的动态阈值评估
Ø
Ø
区别于静态阈值的一刀切监控方案,动态阈值评估系统,能够更灵敏的捕捉系统性能的波动
以t日为例,t-7 表示7日前同一时刻 以此类推 X(t)标示t时刻实际值 Y(t)表示预测值 delta()
表示求数据的 标准差 预测值
Y(t)上限 = X(t-7)+3 delta((X(t-7)+X(t-14)+X(t-21)+X(t-28)+X(t-35)))
2019-9-24
27. Ø应用维度系统健康度评价
综合考虑CPU、内存、巡检结果、事件告警等因素,应用健康度评价模型,计算得分
性能容量管理小帮手
2019-9-24
28. THANK YOU!
28