“数智”运维:阿里大数据AIOps工程实践

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. “数智”运维 阿里大数据 AIOps 工程实践 演讲人:徐小飞
2. 徐小飞 “数智”加速运维进化 高级技术专家 带领团队打造支撑阿里飞天大数据及AI平台的底座 ——大数据运维平台ABM(Apsara Big Data Manager) 产品,该运维平台沉淀了阿里巴巴大规模分布式系统集群及业务管控最佳实践,支撑阿里大数据 &AI系统在集团、公有云及混合云的上云、云上日常运维运营及云原生落地实践。 曾就职:华为,先后在运营商BG的OCS/CBS计费平台、平台中间件、云运维平台部门从事产品规划与 研发, 参与国内外多个大T局点现场交付, 带领团队从传统运维到云运维的转型。
3. Agenda 业务背景与运维挑战 “数智”运维架构 数据与智能 运维 AI O p s 业 务 场 景 工程实践思考
4. P a r t 1 : 业务背景 业务背景:超大规模集群运维 八 数十 数千 数十万 大数据产品 数据中心 集群 节点 • 国内 • 海外 • 专有域 • 集群规模差异大 • 集群技术差异大 • 全托管与半托管 • 物理机 • 虚拟机 • 容器 • MaxCompute • Flink • Hologres • DataHub • PAI • DataWorks • EMR • Elasticsearch
5. P a r t 1 : 运维挑战 业务挑战:增长需求 vs 有限资源 稳定性挑战 有 限 的 人 与 资 源 日 益 增 长 的 需 求 • 单机故障在大规模集群中体现出必然性 • 集群复杂性带来监控与故障恢复的难度 • 高频发布变更与稳定性管控的冲突 成本挑战 • 用户的资源需求超过资源供给能力 效率挑战 • 大量琐碎的用户咨询影响工作效率 • 资源需求的峰谷差异导致资源浪费 • 无法清晰定义团队运维活动的价值
6. P a r t 2 : 数智运维 架构 业界应对策略:大数据&机器学习&AIOps 利用数据与算法,探索能为运维带来提效的业务场景
7. P a r t 2 : 数智运维 架构 应对策略—内核:从DataOps到AIOps 的数智运维架构 构筑运维数仓,以场景数据驱动机器学习,沉淀智能模型,提供数智运维服务
8. P 4 : 工 程实践思 考 稳定性、成本、效率下的典型场景举例
9. P a r t 3 : A IO p s 业 务 场 景 — —稳 定 性 稳定性保障:异常检测,无阈值海量指标监控 业务核心指标实现无阈值自动检测,对违反历史运行规律的指标提供告警
10. P a r t 3 : A IO p s 业 务 场 景 — —稳 定 性 稳定性保障:日志聚类,海量日志模式分析 寻找异常日志模式,监测其异常波动发出告警
11. P a r t 3 : A IO p s 业 务 场 景 — —稳 定 性 稳定性保障:异常根因诊断与快恢 利用数仓与异常实体相关指标事件,诊断定位问题根因
12. P a r t 3 : A IO p s 业 务 场 景 — —稳 定 性 稳定性保障闭环:异常发现与快恢 建立异常发现与快恢流水线,利用数据与算法助力SRE缩短异常处置时长
13. P a r t 3 : A IO p s 业 务 场 景 — —成 本 成本优化:弹性扩缩容 通过预测集群资源需求的峰谷波动,实现资源的弹性扩缩容 ODPS ECS 弹性采购 波峰 时段 ECS 采购 业务场景 每日 峰谷 预测 智能算法 周期识别 运维数仓 Blink Job 自动调优 波谷 时段 ECS 释放 作业 流量 预测 预测模型 实体库 资源 分配 决策 决策模型 指标库 PAI GPU 配额腾挪 GPU 用量 预测 低消 耗减 配 高需 求增 配 满足度评估 事件库 纯物理机供应模式 vs ECS性供应模式
14. P a r t 3 : A IO p s 业 务 场 景 — —成 本 成本优化:集群资源排布与迁移 定期分析集群间的资源水位,利用线性规划算法寻找更合理的排布并推荐迁移方案
15. P a r t 3 : A IO p s 业 务 场 景 — —成 本 成本优化:日常低资源利用率机器治理 通过核心指标与财年目标的差距跟踪,驱动低水位机器及时处理
16. P a r t 3 : A IO p s 业 务 场 景 — —效 率 效率提升:大促支撑热点机器治理 在集群中,通过多个性能关键指标聚类寻找热点机器(离群点),快速排除性能瓶颈
17. P a r t 3 : A IO p s 业 务 场 景 — —效 率 效率提升:ChatOps,面向用户的智能答疑 高频支撑场景ChatOps服务化,提高运维知识答疑、故障诊断、流程协同效率
18. P a r t 3 : A IO p s 业 务 场 景 — —效 率 效率提升:运维数字量化运营看板 设定衡量运维研发/日常活动核心指标,建立跟踪系统逐步优化,通过运维大盘呈现顶层KPI
19. P 4 : 工 程实践思 考 思考:AIOps工程实践的要点是什么?
20. P a r t 4 : 工程实践 思考 闭环:感知、决策、执行——自愈任务链 以事件驱动的智能感知-决策-执行的闭环体系作为AIOps工程体系的基石 系统检测 • 巡检任务 • 异常检测 • 检测出告警 告警分析 • 关联分析 • 报警压缩 • 分析出异常 异常诊断 • 根因分析 • 诊断出新异常 异常诊断 • 诊断树 • 诊断出根因 决策执行 •恢复作业 •变更通知
21. P 4 : 工 程实践思 考 重新定义:系统进化—云原生应用/运维规范OAM 将运维和基础设施能力——抽象服务化进行输出的最佳实践(Traits) 寻找云原生下的运维载体: • 当K8s成为云原生的事实标准后,需要寻找在K8s理念体系下 的运维实现——其中OAM规范中的Traits理念非常适合作为云 原生下运维的载体。 • 运维根据应用描述,为应用添加对应的Traits,比如弹性扩缩 容可能是一种Trait,日志可能是一种Trait、监控可能也是一种 Trait。 • 通过运维Traits输出, 研发无需关注底层运维细节,只需声明 应用想拥有的运维能力,实现应用运维的自动化托管,而且 各种运维能力可以自由组合,实现应用稳定高效的运行
22. P 4 : 工 程实践思 考 即将开源:一站式运维SaaS——开箱即用 开源运维产品: 针对运维日常工作,围绕运维领域“稳定性,成本,效率,安全,体验”本质需求,基于“自动化、数据化、智 能化”思想,为用户提供专业高效、安全可靠的一站式“数智化”运维SaaS应用套件(交、监、管、控、营、服)
23. P 4 : 工 程实践思 考 即将开源:一站式运维SaaS——开箱即用
24. THANK YOU!

Home - Wiki
Copyright © 2011-2024 iteam. Current version is 2.137.1. UTC+08:00, 2024-11-15 22:44
浙ICP备14020137号-1 $Map of visitor$