保险公司主动运维与智能运维实践

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1.
2. 海保人寿保险股份有限公司 应用运维部经理 康守兵
3. 目录 | contents 01 背景介绍 02 运维实践 03 未来规划
4. 01 | 背景介绍
5. 1.1 传统运维的困境 IT运维之痛 u工作繁琐 u鸭梨山大 u值班加班 u设备系统故障 u到处救火 u背黑锅 u7*24*365 痛痛痛
6. 1.2 传统运维的困境 传统运维定义 为被动运维,由问题驱动,被动的维持系统稳定运行。 解决思路 由问题驱动、被动处理转变为主动运维防控,降低生产问题, 提高生产稳定运行 传统运维特点 1、运维在重复处理简单的问题; 2、预警机制不完善,运维人员无法提前发现故障; 3、上线前,系统质量不高,导致生产问题较多; 4、运维介入滞后,在系统功能将上线时,才着手学习相关运维功能; 5、缺乏关联分析能力,交易往往跨多个系统,分析问题耗时长且困难。 传统运维困境,是由传统运维特点导致的。
7. 1.3 运维发展的历程 05 智能运维 04 主动运维 03 流程系统 02 脚本工具 01 人工作坊 小规模 分工模糊 大数据分析 架构清晰 运维体系化 平台一体化 简单自动化规范 效率工具 配置管理 单体监控 人工运维 智能告警 由运维发展历程来看,传统运维处于第三阶段。
8. 1.4 引入主动运维和智能运维 1 主动运维 2 智能运维 主动 运维 主动防控风险,使运维过程高效、可控。 通过机器学习算法自动的从海量运维数据中不断的学习,不 断训练模型,最终通过模型来综合分析,形成决策。 智能 运维 可很好的规避传统运维的 问题驱动、被动处理的的 局面。 可对复杂的场景进行综合 分析
9. 02 | 运维实践
10. 2.1 主动运维模式 开发 需求响应平台对接 技术支持应急协同 问题响应系统优化 运维 运 维 经 理 提出需求测试支持 变更评审组织应 急 问题跟踪总结归纳 技术平台 基础类平台 项目研发 工具类平台 运行维护 运维规范 管理类规范 优化改进 技术类规范 基于DevOps的主动运维模式,很好的解决了运维团队与开发团队关系,将运维前移到开发阶段。
11. 2.2 技术类规范 完备的规范是主动运维与智能运维工作顺利进行的前提 需求类规范 开发类规范 1、核心系统需求分析指导规范 1、信息系统集成规范 2、互联网应用安全开发规范 3、信息系统设计开发规范 4、应用接口日志输出规范 5、核心系统功能矩阵说明 应用运维需求 6、核心系统开发编码规范 7、核心系统开发设计规范 测试类规范 1、核心系统功能矩阵说明及测试 策略 2、SIT核心项目测试指导 3、核心项目系统功能矩阵说明及 预生产验证点。 运维类规范 1、运维手册规范 2、应急预案规范 3、系统巡检规范 4、应用监控规范
12. 2.3 技术平台 灾备恢复 平台 数据核对 平台 运维技术平台在主动运维活 动中发挥着重要的支撑作用 SQL 执行 风控 平台 批处理 平台 堡垒机 监控平台 技术平台 运维 平台 自动化测试 日志 分析 自动发布 平台 系统集成 管理
13. 2.4 需求分析矩阵 需求分析矩阵指导需求分析、测试等环节工作 调用端 服务端 功能模块 官微官网 服务功能矩阵 电话中心服务 功能矩阵 核心团险 功能矩阵 子功 能点 功能点 渠道接口服务 功能矩阵 关联系统 特殊场景 说明 关联模块 需求分析 矩阵内容 详细 说明 服务接 口范围 预生产 验证点 核心个险 功能矩阵 需求分 析矩阵 销管系统 功能矩阵 出口结果 入口条件 需求分析 重点 幂等性 校验 涉及金额 交互逻辑
14. 2.5 生产稳定运行控制措施 上线前 需求 设计 开发 SIT 测试 UAT 测试 自 动 化 测 试 安 全 扫 描 预生产 测试 生产 发布 自 监 监 生 控 动 控 产 化 验 脚 测 证 本 试 检 核 上图为系统生命周期,运维工作前移,主动预防风险 自 动 化 测 试 上线后(运维阶段) 业务发生前 (事前) 业务发生中 业务发生后 (事中) (事后) 风 控 生 产 监 控 日 志 采 集 数 据 核 对
15. 2.6.1 监控平台实践 建设目标 集中 监控 缺点 1 救火队员 2 解决时效慢 70% 的故障是业务的使用者首先发现的;存在监测盲点,缺 少主动预警 完善 监控指标 适应IT 多样性统一管理 重要应用系统及其所使用的网 络、中间件、服务器等资源, 都纳入监控范围 监控系统不统一,不能快速定位出问题的系统; 监控 前移 将预生产环境纳入监控范围
16. 2.6.2 监控平台实践 统一监控平台 实现集中监控 自动化脚步监控 完善指标,全面监控 建立覆盖全面统一监控平台,减少监测盲点性能监控 Prometheus监控 新增监控 统一监控平台 异常监控: 全部业务应用系统,纳入监控 全部服务器等硬件网络设备,纳入监控 可用性监控:全部业务应用系统,已纳入监控 全部服务器等硬件设备,已纳入监控 性能监控: 重要应用系统的交易,纳入监控 全部主机、数据库、存储等,已纳入监控 业务监控:重要业务系统,已纳入监控 监控前移至预生产环境 监控前移至预生产环境、生产发布过程,及时发现问题,确保代 码质量,降低生产环境问题。
17. 2.6.3 监控平台实施后效果 01 2020年,某云网络问题,2次导致我司生产环境不可用,监控 平台及时报警,避免了生产事故的发生 04 2020年,主动发现两次预生产性能问题,避免了生产事故发 生 02 处理时效大幅度提高, 报警信息包含地址及IP地址,实时获知出问题的系统和设备; 实现通过日志查看交易链路,快速定位出问题的具体地方 05 出单交易时间,平均近2秒降为0.9秒左右 03 避免了中间件,硬件等设备资源满,导致的问题
18. 2.7.1 自动化测试平台实践 建设目标 实现自动 化测试 问题 1 测试任务重、时间紧 2 案例覆盖度不高 渠道多,产品多,在短的时间内,很难完成 代替人工,自动化执行测试案 例 提高 测试覆盖 率 在合作渠道,在售的产品,重 要接口涉及功能点,都要覆盖 到 提高测 试效率 提高测试效率,将预生产环境 纳入监控范围 不能快速定位出问题的系统
19. 2.7.2 自动化测试平台实践 制定核心系统功能矩阵 运维团队与开发团队,整理完成核心项目系统功能矩阵; 测试团队依据核心项目功能矩阵,编写自动化测试案例; 测试案例的覆盖率大幅度提高。 自动化测试 平台方案 自研自动化测试系统 基于postmain自研自动化测试系统 多个阶段实施自动化测试 SIT、UAT、预生产环境等阶段,实施渠道、产品以及接口自 动测试,提高了测试效率与覆盖率
20. 2.7.3 自动化测试平台实践 上传自动化测试案例,点击“测试”按钮进行测试。 实施后效果 01 02 03 渠道、产品功能点,回归覆盖度达到80%以上 测试效率提升85%以上 生产系统BUG由每个月平均20个,降至7个,已经持续 10个月。
21. 2.8.1 自动化发布平台实践 建设目标 前端用户 无感知 问题 1 升级发布完成后,不可用风险 2 发布过程中,系统可用性降低 系统节点多,功能多且复杂,人工验证覆盖率小 统发布过程中,保持高可用性, 保障前端客户使用正常 提高 测试覆盖 率 通过自动化验证,在发布窗口 内,将所有合作渠道,都测试 一次出单流程 缩短发 布时间 预生产验证时间,需控制在 20分钟以内,保障整个发布 时间 逐个节点发布,节点需要先停止应用,再发布,发布过程中 应用系统不可用,导致系统可用性降低
22. 2.8.2 自动化发布平台实践 自动化发布平台方案 1 实现自动化蓝绿发布 2 自研基于selenium+python自动验证系统 事故 2020年下半年至今,60余 次发布未出现一次事故 用户 感知 2020年下半年至今,90% 以上的发布,客户无感知 自动化发布系统,升级一个节点前,向负载均衡发起摘除节点请求, 过20秒向负载均衡查询节点摘除情况,然后再进行发布,发布完成 后,通知负载均衡挂起该节点。依次发布其他节点 每次发布完成,可在短时间内,对正在合作伙伴渠道,都要进行一 次投保出单验证测试
23. 2.9.1 日志分析平台实践 建设目标 问题 1 日志规 范化 日志分散在各个业务系统 2 日志缺少关联分析的基础 3 多线程日志输出混乱 日志统 一存储 快速定 位问题 各业务系统根据日志规范,改 造日志输入格式 日志统一收集到ELK平台 根据业务流水号,串联起交易 日志,便于快速定位问题
24. 2.9.2 日志分析平台实践 日志分析平台方案 1 应用系统改造 u 支持发起请求时,添加交易串联标TraceID、SpanID u 根据日志规范,改造输出日志格式 TraceID、SpanID、渠道编码、交易编码、交易流水号、系统编码+ 原系统日志 2 基于ELK搭建日志分析平台 u 日志信息,都归集到ElasticSearch库; u 通过业务ID,在Kiabana页面查看交易日志信息。 2020年下半年至今,90% 以上的发布,客户无感知
25. 2.9.3 日志分析平台实践 根据业务流水号,串联起交易日志,便于快速定位问题 实施后效果 01 1分钟内获取到日志信息 02 问题定位耗时,由原来平均20分钟,提高到5分钟
26. 2.10.1 智能化运维实践 已将应用、中间件等日志收集到ELK平台,借助平台中Machine Learning的组件进行智能运维分析 探 用户行为的异常检测 索 u 建立不同业务流程的操作模型 u 根据每笔业务链路日志获取真实用 户的操作流程 u 基于邻近算法分析筛查出异常操作 用户信息 u 人工识别用户操作是否存在恶意 指标数据的趋势分析 u 重点关注接口调用耗时、SQL执行 耗时等性能指标趋势是否上升 u 其次关注健康检查中,节点或业务 宕机次数是否趋势上升
27. 2.10.2 智能化运维实践 决策分析 异常交易的根因分析 应用系统 核心交易系统 1 2 跟踪业务链,根据指标分析精确查找影响交易的调用 支付平台 微信商城 高 中 根据服务依赖模型,从高到低查找业务链对应的异常 日志信息或告警事件 软件服务 数据库 负载均衡 jsp容器 基础架构 服务器 网络 存储 低
28. 2.11.1 事中风控实践 建设目标 问题 1 收、付费错误风险 2 对外发送信息错误风险 实时发 现问题 在业务发生过程中 ,实时发 现问题,规避风险。 系统功能,持续升级更新,时间长了,会产生问题; 运维日常会修改生产数据,给系统带来一些问题。 系统功能,持续升级更新,时间长了,会产生问题; 运维日常会修改生产数据,给系统带来一些问题。 控制业 务流转 风控发现问题后,业务进入复 合流程,由人工进行后续处理
29. 2.11.2 事中风控实践 事中风控方案 1 2 事中风控的作业环节 承保、保全、理赔、收付费 2020年下半年至今,60余 次发布未出现一次重大事 故。 事中风控实现的处理模式 u 设置阈值:建立标准的预警机制,设置风险预警策略及时预警,防止风险向后流转。 2020年下半年至今,90% 以上的发布,客户无感知 u 数据核对:优化风控规则模型,提高甄别准确度,提高最终数据质量。 u 条件判断:判断条件时直接使 u 随机抽检机制:根据每个相关操作的频率进行相应的抽检规则设置,比如操作50件,随机抽取一件进入复核等。
30. 2.12.1 事后数据核对实践 建设目标 问题 1 数据准确性、完整性、一致性风险 2 对外发送信息错误风险 及时发 现问题 系统功能,持续升级更新,时间长了,会产生问题; 运维日常会修改生产数据,给系统带来一些问题; 事中风控,漏掉的问题。 系统功能,持续升级更新,时间长了,会产生问题; 运维日常会修改生产数据,给系统带来一些问题; 事中风控,漏掉的问题。 保证数 据准确 在业务发生后,及时发现问题 并进行处理,降低影响范围 保证数据的准确性、完整性、 一致性,避免因数据问题,造 成的业务问题。
31. 2.12.2 事后数据核对实践 事后数据核对作业环节 事后数据核对 方案 承保、保全、理赔、收付费 实施效果 事后数据核对处理模式 2021年2月份上线至今, 数据问题,由每天10条, 降至为一周1条左右 u 以前端系统数据为准,核心业务系统库数据与前端数据核 对。 u 核心系统库不同表的数据核对; u 以核心业务库中数据为准,对外发送信息系统数据与核心 系统库数据核对。 核对时间与范围 每天早上5点核对前一天的业务数据
32. 2.13 运维实践效果 实践平台 实践效果 2020年,某云网络问题,2次导致我司生产环境不可用,监控平台及时报警,避免了生产事故的发生 2020年,主动发现两次预生产性能问题,避免了生产事故发生 监控平台实践 处理时效大幅度提高, 报警信息包含地址及IP地址,实时获知出问题的系统和设备; 避免了中间件,硬件等设备资源情况,导致的问题 出单交易时间,平均近2秒降为0.9秒左右 自动化测试平台 实践 渠道、产品功能点,回归覆盖度达到80%以上 测试效率提升85%以上 生产系统BUG由每个月平均20个,降至7个,已经持续10个月 自动化发布平台 实践 2020年下半年至今,60余次发布未出现一次事故 日志分析平台实 践 1分钟内获取到日志信息 事中风控实践 事后数据核对实 践 2020年下半年至今,90%以上的发布,客户无感知 问题定位耗时,由原来平均20分钟,提高到5分钟 2021年1月份上线至今,0 发生收、付费错误 2021年2月份上线至今,数据问题,由每天10条,降至为一周1条左右 实施效果
33. 03 | 未来规划
34. 未来规划 原始告警 alert 告警智能收敛 (去燥和降纬) 聚合后告警 告警通知 智能运维 CMDB 告警关联 分析 预警 根因分析 告警自愈 设置 告警自愈 自动化系统
35.

首页 - Wiki
Copyright © 2011-2024 iteam. Current version is 2.137.1. UTC+08:00, 2024-11-24 12:05
浙ICP备14020137号-1 $访客地图$