混合云全景可观测技术架构探索和实践

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 混合云全景可观测技术 架构探索与实践 王肇刚(梓弋) 阿里云-基础产品事业部-混合云平台
2. 个人介绍 王肇刚(花名:梓弋),阿里云基础产品事件部混合 云全景监控平台团队(前阿里集团监控平台Sunfire团 队)及混合云云+应用一体化运维项目负责人。在智能 监控、运维领域工作多年,一直在努力通过产品化、 智能化的方式提升监控、运维的效率和能力。 阿里云高级技术专家 王肇刚(花名:梓弋)
3. 内容提要 • 混合云场景下落地可观测能力的技术挑战 • 面向混合云客户的企业级监控平台技术架构探索 • 混合云可观测实战案例
4. 从监控到可观测 .vs. 监控 可观测 通过采集、分析和使用特定 信息来观察判断系统状态。 通过分析系统主动暴露或生成的数据 理解和推演出系统的状态。 被动施加 关注具体指标和现象 关注报警和概况 从外挂式监控到内置式监控 从孤立、割裂的指标、事件到全景、全栈化的 态势感知和关联分析 分析 从报警响应到故障全声明周期的 问题排查、处置和长期优化 主动透出 关注上下文和背后原因 关注根因和处置方案
5. 混合云客户运维可观测需求概览 混合云行业增长趋势明显,目前处于攻坚期 受监控(可观测)产品自身技术演进趋势影响 全栈监控 众多的NPM和APM厂商进入ITIM(IT基础设施监 控)领域,监控产品供应商之间的界限越发模糊 注重分析 监控工具更多地关注数据采集(收集)和展示, 并提供数据分析功能来突出产品的差异化能力。 受客户IT技术形态演进趋势影响 混合架构 监控领域的客户更多关注在混合基础架构(多云、 异构网络、物联网)等领域的监控能力 成本运营 运维人员希望通过一起使用ITIM工具和云原生监 控能力,来达成(成本)优化的目标。 混合云客户对可观测能力的三大需求 全栈可观测 • 指标、链路、日志三位一体 全景可观测 • 业务、应用、云实例、云平台、基础 设施五位一体 服务于故障处理全声明周期的可观测能力 • 故障发现、定级、定界、处置一体化 联动
6. 如何在复杂技术栈下落地全栈可观测 应用架构差异 传统应用架构 技术栈差异 微服务架构 开发语言差异 研发模式差异 技术框架差异 自研应用 ISV研发应用 运维模式差异 基于物理机/ 基于容器/K8S 虚拟机运维 运维 技术环境差异导致全栈监控落地困难 如何进行监控元数据 获取或同步? 如何兼容监控视角和 数据采集、聚合维度 的差异? 如何满足应用性能监 如何观测应用自身的 如何基于应用暴露业 如何让监控、运维同 如何在混合架构下度 控的多语言支持? 资源和状态? 务指标? 步联动能力? 量和管控资源?
7. 如何在割裂的运维体系下落地全景可观测 成功率 迟延 成功量 支付网关 政务业务 政务中台 门户网站 政企业务2 政企业务2 应用运维/监控 租户侧 contract business) confirm 政企应用1 Container/ECS …… CPU 云服务实例 平台侧 获取拓扑困难 • 业务和业务之间的横向拓扑 • 业务和应用之间的纵向拓扑 • 应用与应用之间的横向拓扑 • 应用与云产品实例(中间件、 DB)之间的纵向拓扑 • 云产品实例和云平台组件之间的 纵向拓扑 pay 政企应用2 DISK 云平台层 business) RDS K8S NET 管控 存储 安全 调度 OSS 容灾 … … 割裂层之一:应用运维和平台运维之间的割裂 ? 平台(资源) 运营 割裂层之二:平台运营和平台运维之间的割裂 平台运维 应用运维 应用/业务监控 云资源运营 云资源监控 云平台运维 云平台监控 割裂层之三:监控报警和应急处置之间的割裂 割裂层之四:不同的垂直应用系统之间的割裂
8. 如何让监控报警更好地服务于故障定界和处置 故障发现 故障定级 故障快恢 故障定界 执行快恢预案 告警服务于故障发现 告警服务于故障快恢 告警服务于故障定级 报警风暴掩盖 关键业务告警 故障定界 故障定级难以综 合技术容灾能力 和业务影响 告警服务于故障定界 告警和快恢入口 割裂,快恢决策 依赖人工判断 针对不同监控对象的告 警杂乱发送,无法结构 化地服务于故障定界
9. 内容提要 • 混合云场景下落地可观测能力的技术挑战 • 面向混合云客户的企业级监控平台技术架构探索 • 混合云可观测实战案例
10. 阿里云混合云可观测产品功能架构 场景化监控能力 一体化定级 故障自愈 应急指挥 异常检测 告警根因分析 容量预测 日志故障排查 运营KPI看板 用户体验分析 事件中心 事件集成 事件检索 事件通知 事件处理 策略管理 事件定级 智能诊断场景 诊断编排 诊断报告 应急盯屏 应急预案 应急快恢 应急业务视图 应急应用视图 应急协同 运维能力集成 IM通知集成 故障演练集成 云实例监控 (应用视角) 应用监控 业务监控 监控全景视图 秒级监控 SLS集成 应用全局拓扑 API监控 线程池监控 应用视角云资源 计算类云实例 阿里公有云集成 业务大盘 日志监控 Kafka集成 应用健康画像 远程调用监控 容器&经典应用 云实例健康画像 网络类云实例 阿里专有云集成 业务链路 黄金指标监控 SQL集成 应用Trace分析 NoSQL调用监控 代码级诊断 应用云实例拓扑 存储类云实例 异构云集成 Dashboard 智能基线检测 Trace集成 应用核心链路 数据库调用监控 Prometheus 集成 云实例关系挖掘 数据库类云实例 RPC框架集成 多维下钻 异常场景检测 生态集成 异常场景检测 JAVA异常监控 OTEL生态集成 报警模板注入 中间件类云实例 生态集成 统一存储管控 代理管理 统一采控平台 统一采控框架 国产化 K8S集成 小型化 调度计算引擎 自动化部署 元数据管理 监控对象 业务系统 应用系统 数据库 中间件 虚拟机&容器 物理服务器 网络设备
11. 混合云可观测能力布局 业 务 应 用 云 + 应 用 一 体 化 运 维 对 象 云 平 台 安全生产业务场景 故障发现 故障定界 故障处理 事件定级
12. 混合云可观测架构实现路径 起点:阿里集团监控平台(Sunfire)技术架构 Sunfire meta Sunfire compute Sunfire brain Trigger Http Server Trigger Supervisor Output Manager 高效 基于消息的异步调度 Sunfire map Sunfire reduce Alibaba CMDB 设计思考: 1. 集中式调度 2. 消息驱动 3. 守护&监护 Reduce Actor Share input Manager Map Actor 稳定 Sunfire WEB UI & API Sunfire MQL Sunfire Alarm Alibaba Alarm Center Sunfire storage Http Server Hbase/Lindorm 双十一期间百万级别容器日志采集规模、复杂汇聚规则、 计算核心业务指标,不超过4.7秒的数据迟延 TSDB adaptor MongoDB 租户隔离的分布式部署 Pull Local Log Sunfire Agent SLS Ali-metric exporter 监控集群自身规模(节点数量)过万~ 分布在阿里集团多个数据中心,生产突袭验证 下的全局高可用 准确 拉模式下的 数据齐全度保障
13. 混合云可观测架构实现路径 起源:阿里集团全局故障应急背景下的监控方案 监控层次 淘宝交易创建量 阿里云ECS宕机数 • 优酷视频全国播放量 应急由业 务监控而 非系统/应 用监控触 发 用户反馈监控 • 监控解决方案 舆情监控方案 • 在线客诉监控方案 • 热线客诉监控方案 • 用户投诉、 • 内部反馈、 • 舆情反馈 • 客诉量 • 舆情 客户端业务监控 钉钉文本消息量 集团故障 监控重点 直接根据业务影响面和影响程度进 行实时故障级别判定和指挥调度 不影响业务的系统/应用报警不触发 端监控指标 业务指标 服务端 业务监控 进程 容量 性能 系统应用监控 基础设施监控 • 基础服务 • 网络 • 机房 • 客户端监控 • APP监控方案 • 前端监控方案 Crash率、Crash数(各维 度)… 服务端监控 • 日志监控解决方案 • 智能监控报警策略方案 业务总量、成功率、耗 时、错误量… API… • CPU、Load、MEM、 Disk、IO、TCP… • Ping、SSH… • HTP、JVM… 系统监控 基础指标监控方 案 DNS、NTP… • 端口流量、带宽、丢包、 风扇、Power.. • 温度、湿度、电力... • • 应用监控 • 应用服务监控方 案 基础服务监控标准方案 • 网络监控方案 全局的故障应急调度 阿里集团故 障应急流程 故障定义 业务监控 风险预警 故障通告 故障快恢 应急协同 故障复盘
14. 混合云可观测架构实现路径—阿里集团监控平台转型之痛 直面Sunfire转型之痛 大规模监控计算调度和在混合云现有客户场景 下并非刚需。 急需补全的能力 客户侧专有云资源严格规划,小型化瘦身和部 署能力增强是当务之急 客户侧数据迟延较大,秒级监控几无用武之地。 需要兼容全栈监控能力,增加链路监控和日志 客户普遍缺失业务监控的理念 监控能力。 客户侧技术栈不统一、部署环境复杂多变。 集成和兼容客户侧多样监控数据源和监控工具 报警事件的能力。 … … … …
15. 混合云可观测架构演进路线图 云 + 应 用 一 体 化 运 维 对 象 业 务 应 用 云 平 台 故障发现 业务监控向三层全景 监控架构演进 故障定界 实时计算架构和 Prometheus架构兼 容 安全生产业务场景 事件定级 故障处理 指标监控和开源链路 智能化框架融合和演 面向一体化定级的事 监控系统集成 进 件中心架构演进
16. 实时计算架构和Prometheus架构融合 架构演进要点 • 将Promethues原生架构的计算能力和Sunfire计算、存储进行有机结合 • 通过扩展设计,提升了Prometheus的高可用能力。 Map-Reduce融合Prometheus HA Prometheus Group
17. 指标监控和开源链路监控系统(Skywalking)集成 Sunfire * Prometheus * SkyWalking -> 云原生可观测性 架构演进要点 调用链信息与应用性能监控指标联动 不需要在JavaAgent端加指定参数,能 做到服务自发现
18. 智能化框架融合和演进—算法功能演进 算法功能演进 从智能基线到黄金指标异常检测,再到智能诊断、智能配置推荐、智能.. … 智能检测,根据历史推测该时间点同比下跌40%,异常 需要关注 算法产品化能力迭代 算法参数可配置 检测边界可视化 线上回溯
19. 智能化框架融合和演进—算法工程架构演进 架构演进要点 算法调度框架 算法中心调度 • 存算一体化,降低报警发送延迟 • 统一调度:统一调度分发任务,控制错误重传等容错机制,衍 生出不同类型的任务调度插件满足不同类型业务需求 任务分发 配置存储 存储API 任务执行 报警分发 时序存储 算法配置界面 算法实现框架 添加算法场景 回溯算法任务 异步回调 Api层 Service层 公共算法层
20. 面向云+应用一体化运维的事件中心功能布局 统一事件中心解决方案 一体化定级解决方案 事件盯屏 应用视图 业务视图 异构事件接 入 故障定级 事件聚合规 则 事件抑制配 置 报警收敛报 告 事件中心产品功能 事件接入 事件去重 事件抑制 K8s事件接 入 事件去重 (无状态) 事件聚合 按时间抑制 自定义聚合 应用层告警 事件接入 事件去重 (有状态) 云平台层告 警事件接入 异构事件配 置化接入 统一推送 API 统一拉取 SPI 事件通知 事件订阅 通知策略 接收人管理 抖动抑制 维度智能聚 合 逐级通告 接收账号管 理 变更抑制 历史关联聚 合 通知组管理 值班组管理 模板渲染 钉钉群通知 渠道管理 Webhook 推送 事件丰富 元数据丰富 自定义内容 丰富 业务树丰富 事件处置 事件关联 事件数据分析 比例关联 事件认领 相似事件推 荐 就高关联 事件诊断 事件处理记 录 报警数据多 维分析 客户成功分 析 预警事件挖 掘 报警收敛优 化报告 数据导出 报警日报 企业级能力 统一认证 权限 租户管理 自监控 容量管理 事件数据流
21. 面向云+应用一体化运维的事件中心架构设计 架构演进要点 • 通过开放性设计和事件模型抽象,提供丰富地南向、北向集成能力。 • 结合阿里云专有云的部署方案,支持各种场景下的容灾能力。 技术架构 发布数据 事件盯屏 北向集成 渠道注册 下游渠道 处置&分析 可视化 Normandy应用变更 渠道管理 应用视图 业务视图 事件认领 事件 数据分析 事件诊断 钉钉群 渠道映射 k8s 邮件 事件聚合 事件网关 报警数据 接入网关 事件去重 事件丰富 事件组聚合 事件关联 渠道分派器 通知订阅 Sender 短信 Sunfire 电话 ASO 元数据适配器 自定义数据 渠道账户适配器 渲染引擎 Webhook Premetheus 元数据 ARMS Normandy CMDB Sunfire 业务树 账户系统 EMC 客户CMDB Zabbix 南向集成 Uni-manager 客户账户系统
22. 内容提要 • 混合云场景下落地可观测能力的技术挑战 • 面向混合云客户的企业级监控平台技术架构探索 • 混合云可观测实战案例
23. 某大型能源企业监控最佳实践案例 通过建立一套总部与省侧两级监控的全景监控体系,实现从SaaS、PaaS 、IaaS 层的全面覆盖。通过对IT各层面的信息的采集以及监 控报警规则的定义,不仅实现对每层监控的快速发现,快速告警,同时为监控数据分析提供全面的数据支撑。 统一事件中心( 统一接入、过滤、合并、处理事件 ) 业务监控大屏,客户重点展示和使用 业务指标 原始消息 2000+条/天 报警 500+条/天 事件 400+条/天 通知 100+条/天 应用监控 微服务基础资源 云服务实例 云平台底座 Metric Logs Tracing 总部 交费 主动 网上业务 直收渠道信 息查询功能 直收 代扣托收 XX宝 直收渠道电 费查询功能 直收渠道电 费缴纳功能 前端微服 务接口 中台微服 务接口 XX联网 数据微服 务接口 省侧 一周告警数据汇总
24. 某党建类项目全站监控最佳实践案例 客户痛点 整体背景 该项目是国家级重点项目,对系统稳定性要求极 高。同时整体业务板块多、规模大,集群超2W节 点,入口总QPS峰值超过80W 解决方案 监控系统分 散,无法全 链路排查 监控能力部 分缺失,出 现断层 • 统一的监控实体领域模型, 自动化的监控接入流程。 业务监控快速覆盖+智能异常 深度链路监控能力,沉淀海 检测 快速发现故障 量链路监控数据。 应用及云资源监控功能,定 自动发现+自动部署,解决大 位云服务潜在异常 规模监控覆盖问题 。 • 业务、应用、云资源三层全 链路监控,一站式解决业务 连续性保障需求。 • 自主可控的组件化监控架 构,快速扩展私有协议监 控,采用链路性能提升 90%。 多套系统运 行、维护成 本高昂 现有监控系 统自动化能 力不足 业务价值 • 依托自动化部署,上线1个月已接入上万监控指标,被监 控节点达数千个,每天链路数据超过数百万条。 • 从业务角度出发,建设了整套业务、应用、云资源监控体 系,确保问题能第一时间发现。 • 通过业务监控告警,结合链路排查和SQL监控,已成功发 现1次线上故障,并快速锁定为SQL语句错误。
25. 某省份政务钉、政务中台全景监控案例 客户痛点 解决方案 业务梳理和监控覆盖 客户对 于稳定 性要求 高 问题需 快速发 现及处 置 需持续 改进形 成闭环 全链路 考核管 理 业务价值 持续监控 监控规模 • 数百个应用 • 数千个实例 • 数万个指标 • 覆盖政务钉和政 务中台100%核心 业务模块,实现 业务、应用、资 源的全面监控。 故障处理 对接阿里云故障管 理平台和服务,监控 发现率超90%,业务 故障5分钟快速响 应,重大故障15分钟 快速恢复。
26.

Accueil - Wiki
Copyright © 2011-2024 iteam. Current version is 2.137.1. UTC+08:00, 2024-11-15 21:22
浙ICP备14020137号-1 $Carte des visiteurs$