日志集中分析管理应用
如果无法正常显示,请先停止浏览器的去广告插件。
1.
2. 海保人寿保险股份有限公司
运维开发架构师 张伟
3. 目录
CONTENTS
01 背景介绍
02 日志探索
03 应用成果
04 未来展望
4. Part 01
背景介绍
运维工作情况汇报
5. 1.1 日志对运维的重要性
记录系统运行状态
通过日志,运维工程师
可以了解到系统的运行
状况,或快速定位系统
异常原因。
记录用户操作行为
01
02
✔实现基于日志内容的简单告警通知
通过日志,运维工程师
可以回溯用户操作记录,
审计用户操作合法性,
或为故障排查提供数据
参考。
6. 1.2 历史遗留的日志问题
日志分散在各个业务系统
日志缺少关联分析的基础
多线程日志输出混乱
BUG或交易异常
定位解决时间长
MTTR居高不下
7. 1.3 日志优化的外部方案
应用日志改造
01
u 参与团队多
放弃
u 涉及系统广
u 排期实施晚
依赖厂商支持
u 交付流程长
u 可控力低
02
商用日志分析系统采购 u 成本昂贵
u 成本高 u 耗时长
u 不可控
8. 1.4 日志优化的内部方案
运维
自动化
采纳
应用中心
CMDB
接口
管理平台
监控系统
✔自建日志分析和管理平台
9. 1.5 运维工具平台发展
u 开业起步阶段
u 自动化发布平台
u 监控平台
2018
2019
u 日志分析管理平台
u 应用中心
u 自动化测试平台
u 接口管理系统
2020
2021
u 监控平台V2 u 运维自动化系统 u 智能运维
u 运维CMDB u 大数据分析
u 软件仓库
10. Part 02
日志探索
自力更生
11. 2.1 应用日志调整之MDC
Mapped Diagnostic Context
1. 使用MDC存储交易ID信息
2. 子线程沿用父线程的交易ID
3. 所有交易日志内容都包含父线程的交易ID
4. 通过交易ID查出单笔交易的所有日志信息
• 映射调试上下文
• 是 log4j 和 logback 提供的一种方便在多线
程条件下记录日志的功能
• 可以往其中添加键值对
• 与当前线程绑定
• 子线程会继承父线程中的MDC的内容
12. 2.2 应用日志调整之JavaAgent
JavaAgent
1. 使用premain获取交易信息、生成交易ID
2. 使用agentmain采集执行完成时间,生成交易
耗时
3. 跨JVM调用,例如http通过重写http类在请求头
部加入交易ID
• 字节码插桩
• 提供permain方法,可以在用户类加载完毕
之后、main函数执行之前运行
•
提供agentmain方法,可以在main函数执行
完毕后、线程结束之前运行
•
重写类
13. 2.3 实现单笔交易日志串联
串联日志的关键信息
• TraceID、SpanID
• 请求头
• 业务ID
14. 2.4 日志采集和存储选型
Elasticsearch
u 结构化存储
u 近期、中期数据
u 在线实时分析
NFS
u 原始文本归档
u 数据永久保存
u 满足监管需求
15. 2.5 日志平台逻辑功能
通过建设日志分析管理平台
实现对日志数据的产品级应用
16. 2.6 优化交易数据查询
定期分析日志
提取业务信息
日志平台储存
关联业务信息
后台查看每笔
业务链路日志
17. 2.7 智能运维探索
用户行为的异常检测
指标数据的趋势分析
1. 建立不同业务流程的操作模型
2. 根据每笔业务链路日志获取真实用户
的操作流程
3. 基于邻近算法分析筛查出异常操作用
户信息
4. 人工识别用户操作是否存在恶意
u 重点关注接口调用耗时、SQL执行耗
时等性能指标趋势是否上升
u 其次关注健康检查中,节点或业务宕
机次数是否趋势上升
18. 2.8 智能决策分析
异常交易的根因分析
应用系统
核心交易系统
高
支付平台
微信商城
1. 跟踪业务链,根据指标分析精确查找
中
基础架构
服务器
务链对应的异常日志信息或告警事件
数据库
负载均衡
jsp容器
影响交易的调用
2. 根据服务依赖模型,从高到低查找业
软件服务
网络
存储
低
19. 2.9 用户行为数据分析
页面点击分析 漏洞模型分析 行为路径分析
统计页面PV、UV、页面内点击次数、 可视化展示用户在交易过程中各步骤 统计展示用户在系统使用过程中的访
页面内点击人数指标。 的转化和流失情况 问路径信息
20. Part 03
应用成果
发展成就
21. 3.1 运维价值
应用日志优化
1
链路追踪
根因定位
MTTR
大幅降低
日志管理能力提升
2
秒级查询
安全存储
智能运维落地应用
3
运维异常定位
安全事件审计
22. 3.2 业务价值
01
业务可用性提升
02
运营数据支撑
23. Part 04
未来展望
更进一步
24. 4.1 未来展望
优化功能架构
01
OpenResty
Kafka
深入和推广
02
加深智能运维应用
推广到保险各业务领域
25.