华为云海量规模下故障定界实践

如果无法正常显示，请先停止浏览器的去广告插件。

相关话题： #华为

1. 华为云海量规模下故障快速定界实践华为云 / 吴振华

3. 目录 • • • • 可观测性的定义与挑战华为云可观测性平台设计华为云故障快速定界实践可观测性未来与展望

4. 00 好书推荐 Working on legacy 对于一个软件工程师来讲，写代码最痛苦的事情莫过于coding on legacy，但同时又给了工程师们各种说辞： * 这些代码太烂了，改起来太费劲【需要更多人】 * 这事做不到，因为以前系统架构问题导致的【责任不在我】 * 经过我的修改，现在已经好很多了，工单数量大批下降【我功劳显著】 * 问题在于：下一个接手这些“你”改过的代码的人其实也在重复说上述3件事情重构的价值那么什么时候我们开始讨论需要把现有系统重构： * 代码确实腐化到无法正常维护，或者新加一个需求代价很大 * 目前代码的技术架构满足不了下一步业务的发展 * 很多特性已经下线作废，却跟有用的代码藕断丝连 * 业务逻辑随着发展分散到不同的应用里，界限不清 * 专家级的未雨绸缪，着眼未来的规划和新技术的应用 * 换老大了，需要立新的flag

5. 可观测性的定义与挑战

6. 01 从监控到可观测性开发模式系统架构部署模式基础设施效率要求更高系统更加复杂环境动态性更强上下游依赖更多可观测性为应对复杂的云上环境及分布式系统的复杂性和动态性监控： • 指标和日志来了解系统的状态 • 检测已知的故障模式（故障现象）可观测性： • 理解和衡量系统的内部，在由微服务构成复杂的云体系中，轻松快速从故障定位到原因仪表盘（监控）设备运行监测（可观测性）可观测性平台能力层次模型数据展示层：按照不同层次模型自定义视图展示能力和监控数据探索能力主动发现 排错（Degugging），即运用数据和信息去诊断故障出现的原因； 剖析（Profiling），即运用数据和信息进行性能分析； 依赖分析（Dependency Analysis），即运用数据信息厘清系统之前的模块，并进行关联分析。业界主流玩家均积极跟进，已支持或即将支持该开源标准智能分析层：实时异常检测和智能故障根因分析（AI+规则）数据关联分析层：构筑模型化数据关联查询和统计分析能力高维度时序数据实时计算&存储层：高维度时序数据计算、存储、查询的性能和成本数据采集&接入层：关注多源数据接入便利性、采集数据全面性和标准化，聚焦构筑无侵入式数据采集、开放式数据接入、标准化数据模型和统一监控元数据能力

7. 02 疫情防控回顾策略：一、保证核酸检测的完整性和关联性；二、优化密接准确性和可操作性；三、降低新冠病毒的重症率和爆炸面；四、管控兼顾成本、民生。检测频率：1天、3天；主动检测：流动性人口卡点；异常症状定义：咳嗽、发烧、呼吸困难发烧定义：37度；隔离措施：个人隔离、小区隔离、封城；风险等级：低风险、中风险、高风险检测机构核酸检测点疫情防控中心体温检测卡数据场所卡点：体温检测密接风险预警餐饮/酒店传染范围分析场所所码扫描：确定停滞地点支付宝/微信公共场合准入规则：体温、X天绿码、行程码移动设备影响面分析机场基于定位的行程轨迹火车站华为云故障处理流程故障发现故障定级 WarRoom 故障定界初步领域切割对比故障恢复故障回溯故障改进

8. 03 三个问题个体、简单三个问题三个挑战如何准确定义个体异常个体异常的快速发现如何准确定义集体异常向后扩散向前溯源如何快速的发现异常并恢复异常个体与集体的关联关系系统全面可观测性的应用集体、复杂

9. 华为云可观测性平台设计

10. 10 华为云监控定义通过监测软件/硬件运行状态，达到指导技术运维和商业运营的目的，即监控=监测+控制监测（可观测性）以运维为目的的监控业界趋于成熟，资源层、应用层、依赖关系等各项场景化能力建设逐渐完善，并结合 AI在探索性进展；运营数据运维数据 Logging Metric Tracing 以运营为目的的监控业务占比不足5%，结合云成为基础设施的大背景，中小企业上云，有巨大潜在商业价值！控制（价值目的）监测软件运行数据（可观测性）采集计算控制存储分析消费配置扩维计算聚合计算数据存储根因分析自定义视图版本一致性配置即代码实时扩维标签管理实时性能多维聚合存储成本多级存储依赖链路爆炸半径健康度大屏服务视角拓扑数据采集日志转指标告警计算数据查询亚健康诊断定制化消费采集标准采集方法实时性能转义解析极致性能多维聚合告警分析算子后置聚合故障预测异常检测定制Action 场景化预置监控即发现监控即定界监控即定级监控即恢复以运维为目的的控制重在保证可靠性可用性，自动化运维，降低资源成本和人力看护成本，提升对于异常情况响应速度；运营控制运维控制购物车放弃率自动扩容审计预警容器漂移精准营销流量调度以运营为目的的控制本身在创造利润，基于计算规则产生操作，结合数字化平台DP能力建设实时商业自动运营能力。

11. 11 华为云可观测性平台场景化的监控平台能力灵活编排 CloudScope全景监控可观测性场景化 CloudScope租户监控 CloudScope网络监控主机监控容器监控站点监控全局预警租户实例监控站点监控指标告警服务监控黑盒拨测监控网络硬件监控路由监控 Internet质量监控链路监控 SLO 告警汇聚监控告警自定义看板监控定制大屏多生态接入数据报表流监控网络诊断监控告警网络拓扑全景监控业务底座租户资源监控业务底座网络监控业务底座面向业务本质建立稳定的模型标准，兼容opentelemetry开源生态可观测性四大领域模型模型指标领域模型日志领域模型稳定开放 Metrics Domain 调用链领域模型 Logs Domain 告警领域模型 Traces Domain Alarm Domain 统一的可观测性底座配置采集监控告警配置即代码 Monitor Alarm As Code 可观测性底座指标代码化告警代码化视图代码化标准模型&协议 Standard Model&Protocol 指标 metric Infrastructure As Code 指标配置 SPI 告警配置 SPI 视图配置 SPI 通用采集管道 Universal collection pipeline 指标计算 Metrics Calculation 调用链 trace 事件 events 指标流式扩维 SDK Opentelemetry AGENT 分析指标日志查询分析告警计算 Metrics Storage Alarm Calculation 后置聚合查询分析 API 指标存储时间维度空间维度开放式SPI 事件/指标/日志/链路时序数据 Metrics Storage 资源拓扑网络拓扑日志存储 Log Storage 行为分析高阶算子日志流式转指标根因分析 Root Cause Analysis 服务拓扑 5m/1h/1d 标签 Scripts 存储指标流式聚合三方接入 Open Access 聚焦根技术告警汇聚/告警抑制端侧预聚合日志 log 基础设施即代码计算 GeminiD B 分布式自研引擎 CSS Behaviaor Analysis 指标探索 Service On Service 基于弹性伸缩、故障隔离的云服务构建云服务 Resource Formation GeminiDB DII Maas CSS 服务化 MRS DWS 异常分析

12. 华为云快速定界实践

13. 21 问题定义：指标、症状、生病/故障体温<37℃ 指标 CPU<90% 血压<120/80mmHg MEM<70% 血压<120/80mmHg 症状生病系统指标症状对外可见故障对客户可见 80DISK<80 是否咳嗽接口响应时长是否流鼻涕确诊新冠指标接口吞吐量个体、简单确定服务不可用对象的定义是面向场景的相对关系集群是个体对象的聚合新对象集体、复杂

14. 22 如何准确有效的发现症状降噪方法：多个数据异常定义为异常时间窗和连续点关于3个异常点检测对比单次阈值冲高通常采取降噪不做告警 CPU90%阈值水位 CPU90%阈值水位节点A 节点A 0 1 2 3 4 5 6 7 8 0 9 1 2 3 4 5 6 5分钟时间窗首次告警命中绿色三个点 7 8 9 连续3次首次告警命中红色三个点时间窗比连续次数统计在抖动阶段即可发现问题快整个抖动时间基于单节点异常后聚合的集群异常多节点实时聚合的集群异常 CPU90%阈值水位节点A CPU90%阈值水位节点A 节点A异常节点A异常 CPU90%阈值水位节点B 节点B 节点B异常 CPU90%阈值水位节点C 节点C异常 0 1 2 CPU90%阈值水位北京四Region 三个节点异常聚合定义集群异常 3 4 节点B异常 CPU90%阈值水位节点C 节点C异常 0 1 2 北京四Region 同一窗口三个节点指标异常定义集群异常 3 相同采集周期下（采集频率即成本）实时空间聚合在集群异常问题发现比基于异常节点异常数据后再聚合快2分钟 4

15. 23 如何基于症状快速定位根因云服务订阅统一数据源指标链路日志统一事件中心租户/服务/硬件/网络异常、变更等事件告警数据关联模型 SLI/SLO告警或事件 1 4 因果要素图谱生成器迭代识别数据收集对象链构建 2 影响分析根因分析引擎 3 新增指标及因果知识场景化决策模型告警指标探索图谱式探索通用因果知识软件故障图谱生成 CloudMap 服务依赖、资源依赖、网络依赖环境故障硬件故障网络故障专有因果知识智能分析模型 HWQL探索逐步生长的时空多维因果要素图谱服务依赖+服务Trace指标+租户标签过滤时间维度生长资源依赖 +时间窗事件 Service A VM1 事件日志 VM2 告警指标事件 Service B VM3 VM4 日志指标事件 Service C VM5 告警网络1 物理机2 网络2 VM6 指标告警告警重启物理机1 日志物理机3 网络3 变更告警网络拓扑 +跟踪

16. 24 如何基于病况预防关系方的影响属性（指标）对象隐患对象故障对象 1分钟发现提前告警 5分钟定界 10分钟自愈告警即定界提前告警时间流故障影响关系 C应用 B应用 A应用告警1分钟发现边-关系 5分钟恢复容灾预案免受影响基于依赖快速定界基于依赖预警基于多维指标快速定界容灾预案启动自愈/手动恢复

17. 25 华为云海量实例下立体依赖网中快速定界实践案例变更事件客户端读写异常 redis.clients.jedis.exceptions. JedisConnectionException: **************************** CES Agent App 租户ECS 流量下跌 Redis 主 AOM Agent 硬件监控 Redis节点硬件告警物理机 Redis 备 AOM Agent 硬件监控 Redis节点物理机主备切换 C A R Redis 主节点 HA ECS HA AOM Agent 硬件监控 Redis节点物理机硬盘损坏 C E S A O M C M C C M S C L S M N E t S M A R T IT EventDB redis.clients.jedis.exceptions. JedisConnectionException: **************************** 客户端读 CES Agent App 写异常客户侧租户ECS 流量下跌华为侧 DCN1 Redis 实例1 AOM Agent Redis 实例2 AOM Agent Redis节点 Redis节点机房间网络异常 DCN2 Redis 实例3 AOM Agent Redis节点 Redis 实例4 AOM Agent Redis节点

18. 可观测性未来与展望

19. 30 监控发展历程 DEV 性能优化监控设计问题定位容量规划架构依赖角色角色场景监控场景 BOSS/CXO 运维业务方向决策，绩效评估等大屏，报表，决策，报警值班，日常变更，问题解决，风险评估，例行演练大屏，值班，变更性能数据对比，安全风控，故障定位与解决，故障演练，报表，报警产品/工具的交付上线和运营产品体验，活动效果对比，报表产品交付上线，软件生命周期端到端，功能性能持续优化大屏，值班，性能调优，故障定位与解决，产品体验，报警开发&测试环境发布软件生命周期灰度&现网环境变更风险故障定位故障恢复前提产品经理/运营研发测试安全故障发现故障定界 SRE 增强测试全流程活动，故障模拟演练性能调优，故障复盘，产品体验安全全流程活动，安全攻防演练安全风控，安全变更对比，攻防演练，报警软件行业的发展监控对象单体系统集群单机服务集群服务云原生云计算1.0 微服务微服务 ServiceMesh 微服务不确定 ServerLess ？监控理论的演进理论监控方法单点监控单指标告警资源监控个人感冒：单一故障感知应用监控一体化监控多端采集聚合分析多指标告警日志分析可观测性调用链流行性感冒：集体故障感知全局视图标准化采集链路分析根因定界根因定位行为分析智能化自我保护故障预判新冠疫情防控：集群细粒度溯源&影响异常检测采集智能化智能阈值流量预测？亚健康诊断

20. 31 面向目的可观测性能力探索通过监测软件/硬件运行状态，达到指导技术运维和商业运营的目的，即监控=监测+控制监测（可观测性）以运维为目的的监控业界趋于成熟，资源层、应用层、依赖关系等各项场景化能力建设逐渐完善，并结合 AI在探索性进展；运营数据运维数据 Logging Metric Tracing 以运营为目的的监控业务占比不足5%，结合云成为基础设施的大背景，中小企业上云，有巨大潜在商业价值！监测软件运行数据（可观测性）采集计算控制（价值目的）控制存储分析消费配置扩维计算聚合计算数据存储根因分析自定义视图版本一致性配置即代码实时扩维标签管理实时性能多维聚合存储成本多级存储依赖链路爆炸半径健康度大屏服务视角拓扑数据采集日志转指标告警计算数据查询亚健康诊断定制化消费采集标准采集方法实时性能转义解析极致性能多维聚合告警分析算子后置聚合故障预测异常检测定制Action 场景化预置以运维为目的的控制重在保证可靠性可用性，自动化运维，降低资源成本和人力看护成本，提升对于异常情况响应速度；运营控制运维控制购物车放弃率自动扩容审计预警容器漂移精准营销流量调度以运营为目的的控制本身在创造利润，基于计算规则产生操作，结合数字化平台DP能力建设实时商业自动运营能力。

21.