阿里云弹性计算稳定性建设和云上运维最佳实践

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 阿里云弹性计算稳定性 建设和云上运维最佳实践 李刚 (东任) 阿里巴巴 高级技术专家
2.
3. 大纲 • • • 阿里云弹性计算概念 阿里云弹性计算稳定性建设实践 阿里云弹性计算云上运维最佳实践
4. 什么是阿里云弹性计算? • 又名云服务器ECS(Elastic Compute Service) • 云计算最核心基础IaaS服务之一 • 让大家像使用水、电、天然气等公共资源一样便 捷、高效地使用服务器,实现计算资源的即开即 用和弹性伸缩
5. 阿里云弹性计算稳定性建设实践
6. 双轮驱动下的弹性计算极致稳定性诉求 百万级外部客户 2019阿里全面上云 对弹性计算稳定性强依赖 开机自启动客户占比 在线业务场景 游戏 直播 创业期业务 …… 10% AI大模型离线场景 21.3% 90% 无开机自启动 有开机自启动 训 练 集 群 日 化 故 障 率 14.8% 7.7% 0.8% 10 1.6% 20 2.4% 30 3.9% 50 100 模型训练集群节点数 200 300
7. 目标:用x86的硬件,提供小型机级别的稳定性 现实 目标 体感可用率 体感可用率 VM 10x ECS平台 小型机 x86服务器 X86 小型机 ECS x86服务器
8. 挑战:复杂度和规模 镜像/Guest OS Aliyun linux 裸金属 实例 vm实例 ECI实例 存储 (块存储) kvm/Near-Metal Hypervisor 轻量虚拟化沙箱 CIPU、块存储TDC 网络AVS、管控运维 虚拟网路 (vpc) Ali OS 服务器 物理网络 数据中心 基础设施 复杂度 供应链 20+ 80+ 数据中心区域(Region) 可用区(AZ) ~5000+ ~1000000+ 集群(Cluster) 设备(Server) 2023年4月 规模
9. 识别问题:宕机、夯机、抖动 • 宕机 • • 夯机 • • 抖动 • 现象:ECS资源100%不可用,多数因基础设施、服务器硬件或底层软件 原因导致。 影响:所有未持久化的数据和配置都将丢失,该ECS实例上的业务将完 全中断。 现象:ECS资源服务时断时续,甚至某些核心功能不可用或无法连接和 操作。如:OS 夯,IO hang等。 影响:未持久化数据尚未丢失,但整个ECS几乎无法使用,有时甚至无 法恢复、没有备份的机会。 现象:ECS资源核心服务可以正常使用,但在极端情况下会出现网络或 性能抖动。 影响:着重影响抖动敏感用户,性能抖动可能导致用户压测等容量规划 付之东流,甚至可能因抖动引发用户应用系统雪崩效应,导致整体业务 中断。
10. 量化问题:从客户体感视角全面度量稳定性过程和结果 影响客户稳定性体感的技术指标 实例 宕机 宕机率 数量 GuestOS panic 率 实例 夯机 夯机率 实例 抖动 有损率 实例 主动运维 客户稳定性体感结果指标 主动运维率 事件响应 成功率 工单 客 户 体 感 可 用 率 时长 数量时长 积分 客户侧应用架构 容错容灾能力 数量 客情 时长 数量时长 积分 稳 定 性 客 诉 率
11. 解决问题:弹性计算稳定性系统工程 稳定性重保体系 重保机制 重保等级和套餐 重保技术支撑平台 客户侧联动体系 线上守护体系 线下预防体系 产品设计 产品适配 产品验收 硬件准入标准 业务适配 验收报告 稳定性准入标准 基础设施适配 稳定性准出标准 智 能 故 障 预 测 灰 度 发 布 能 力 数据和算法底座 监 控 诊 断 能 力 异 常 调 度 能 力 故 障 快 恢 能 力 事 件 中 心 事 件 订 阅 事 件 响 应
12. 线下预防体系 稳定性评估报告 ECS 产品线 运维验收准出标准 产品 定义 硬件 设计 软硬件 适配 基础 设施 公开对外 服务 线上 准入 稳定性测试和验收 部件 测试 整机 测试 供应商实验室 ODM实验室 设计研发阶段 工厂制造阶段 阿里实验室 IDC交付阶段 测试系统 - 基线库、工具库、用例库 ECS 产品线 业务监控适配 业务部署适配 异常业务隔离适配 基础 设施 基础监控适配 装机等基础系统适配 升级维修等能力适配 ECS 产品线 基础 设施 功能需求 性能需求 硬件准入标准 功能 稳定性需求 可运维性需求 运维准入标准 性能 稳定性 可运维性
13. 线上守护体系:智能故障预测 内存宕机率 月宕机率(%%) 年宕机率(%%) 实时故障预测 采集系统 业务 内核 特征公共层 模型预测 运维决策 样本生产 非预期宕机 运维高优先级 可预期宕机 运维低优先级 模型融合 Error Pattern 特征编码 硬件 Dry Run 性能评估 宕机事实验证 主动运维 自然宕机 深层轮转 部件压测 隔离/热迁移 模拟负载 限流/兜底/开关 数据底座 特征数据 模型生命周期管理 宕机标签 推送决策 异常调度 数据链路(实时/离线) 评价 模型runtime
14. 线上守护体系:灰度发布能力 问题 解决方案 地域、组件、资源等维度 待变更范围 变更是导致故障和损失的头号杀手 用 户 影 响 编排 服务 10% 单机房故障损失 多机房故障损失 组合、排序 获取发布批次资源 创建灰度编排 90% 变更 平台 创建发布任务 批次资源变更 资源变更状态 资源变更状态检查 熔断 生成资源变更集 熔断保护 熔断指令 30% 70% 变更导致 其他导致 熔断 服务 通知 异常诊断 实时计算关联分析 熔断判定引擎 熔断通知订阅
15. 线上守护体系:监控诊断能力 场景输出 异常调度体系 全链路诊断(客户侧自诊断) 故障恢复 事件输出 诊断服务 异常特征提取 多维特征关联分析 关联维度聚合 根因诊断 基础设施维度 服务器维度 飞天核心组件维度 实例维度 异常数据 监控采集 IDC环境异常 基础设施工单 服务器掉电 硬件故障 资源争抢 网络延迟高 实例crash 实例hang 网络设备异常 …… 资源争抢 …… IO中断/hang …… 心跳异常 …… 基础设施层 原始数据 监控采集 IDC 飞天核心组件层 服务器层 功耗 交换机 CPU OS日志 温度 带宽状态 内存 资源隔离 暖通 供电 …… 物理 网络 网络延时 网络丢包 …… 硬件 主板 电源/风扇 …… OS 内核 调度状态 coredump …… 虚拟化组件 CIPU组件 云网络组件 块存储组件 管控运维 组件 ……
16. 线上守护体系:异常调度能力 数据洞察(Matrix) API Dashboard 业务策略 在线数据分析 离线数据分析 调度体系 事件 中心 机器学习算法 异常宿主机调度 异常实例调度 异常库存管理 …(其他异常资源管理、调度) 数据仓库(汇集/清洗) 异常调度工作 定时任务 监控数据 事件中心 ECS实例 事件中心 事件中心 飞天核心组件 物理服务器 基础设施 客户 异常 报障 监控 诊断 中心 宿主机调度 业务规则 工作流引擎 实例调度 库存管理 …(其他资源管理、调度) 正常调度工作 外部 交互 系统
17. 线上守护体系:故障快恢能力 目标:1 - 5 - 10 整体思路 故障预案和SOP 故障快恢系统 故障处理预案 人 流程 故障应急 处理人员 工具 故障预案 和SOP 批 批 批 批 量 量 量 量 宕 夯 脱 掉 机 机 网 电 故障总指挥 监 控 系 统 故障 处置 角色 故障处理角色 客诉处理角色 应急角色小组 …… 故 障 应 急 流 程 原因 进展 ECS恢复 war room ... 故障处理SOP 故障快速 恢复系统 故障演练 全面验收 影响 范围 故障 看板 故障演练体系 故障 处理 并发止损安全控制 实时状态探测 故障 感知 故障漏检录入 告警 动态聚合 数据支撑 ECS数据中台 故障 实时更新 根因诊断 根因诊断平台 异 常 调 度 体 系 演练 日常 类型 演练 三新 演练 开服 演练 突袭 演练 批量 宕机 批量 夯机 批量 脱网 ... 演练 场景 演练 Gamma 环境 开服环境 线上环境 故障演练平台 平台 支撑 能力 场景 管理 用例 创建 对象 圈定 故障 注入 报告 生成 环境 恢复 故障注入原子能力 安 全 控 制 告 警 设 置
18. 客户侧联动体系 终端客户 钉钉 登录查看 OOS 直接调用 控制台 系统事件类型 事件通知 MQ 订阅 OpenAPI 事件 推送 事件查询 ECS事件服务 异常事件原始数据 运维事件上报 … • 为规避底层宿主机软 硬件隐患发起的主动 功能 维护事件 非预期 运维事件 • 底层宿主机突发软硬 功能 件故障导致的实例重 启或宕机发送的事件 本地盘 实例事件 • 因本地盘实例故障或 功能 单磁盘故障发送的事 件 突发性能实 例性能受限 事件 • 突发性能实例的CPU 积分已耗尽,可能对 功能 实例性能产生影响的 提醒事件 实例因底层 升级需迁移 事件 • 升级或改造基础设施 时,可能影响对应实 功能 例,提醒根据系统事 件引导进行实例迁移 实例 费用事件 • 影响费用的事件,例 如实例到期、账号欠 功能 费,导致实例即将被 停止或释放 • 影响实例安全的事件, 例如实例遭遇DDoS攻 功能 击或进入黑洞,导致 实例安全受到威胁 状态 变化事件 • 实例的生命周期或其 功能 他状态发生变化时发 送的事件 计划内 运维事件 云监控 事件来源 CIPU组件 云网络 组件 块存储 组件 …… 基础设施 服务器 内核 虚拟化 组件 实例 安全事件
19. 稳定性重保体系 需求场景 客户 新业务上线 重保体系 重保 机制 重保分级审批机制 重保评估机制 重保准入标准 重保 阵型 前台 中台 后台 服务经理 售后专家 产研专家 客户大型 运营活动 客户业务 敏感期 极致稳定性 诉求 重保等级 和套餐 客户 重大变更期 …… 重保技术 支撑平台 一级重保 研发与服务人力投入 额外资源成本投入 对后端服务影响 三级重保 研发与服务人力投入 额外资源成本投入 对后端服务影响 重保业务模型 二级重保 研发与服务人力投入 额外资源成本投入 对后端服务影响 四级重保 研发与服务人力投入 额外资源成本投入 对后端服务影响 重保原子能力 重保策略
20. 阿里云弹性计算云上运维最佳实践
21. ECS云上运维最佳实践概览 响应ECS系统事件 建设高可用架构 实例健康自诊断 通过OPENAPI响应ECS系统 功能 事件,优雅规避实例运行风险 通过HA能力提升应用单实例 功能 宕机容错和极端场景容灾能力 对实例本身的系统、网络、磁 功能 盘等状态进行全方位诊断 弹性能力规划容量 建立应用防抖动能力 网络连通性自诊断 使用ECS弹性能力,自动规 功能 划管理应用系统容量水位 选择适合的实例规格 结合应用实际场景合理选择 功能 实例规格,兼顾成本和稳定 设置合理的访问超时重试机 功能 制,规避实例短暂抖动对业 务应用的影响 问题规避 可通过OPEN 功能 API等方式将 ECS实例问题报给阿里云 应用侧止损 可在应用层通过摘除流量或 功能 流量切换等方式先行止损 选择适合部署方式 结合应用场景,使用专用宿 功能 主机或部署集,实现亲和性 或反亲和性部署 问题止损 问题诊断 保持GuestOS更新 不选择已经EOL的OS,定期 更新系统补丁和软件驱动 对不同ECS实例之间网络连通 功能 性进行全面诊断,定位网络不 通的原因 问题报障 问题容错
22. 部署高可用架构,提升应用系统单实例宕机容错和极端场景容灾能力 阿里云ECS实例可用性SLA 99.975% 单实例可用性SLA 99.995% 跨AZ多实例可用性SLA • 负载均衡SLB流量分发 • 单元化部署,架构消除拧麻花 • 容量规划N+1冗余 • 具备应用系统流量切换能力
23. 主动响应ECS系统事件,高效优雅规避实例运行风险 阿里云ECS事件体系 最佳实践典型示例 云盘宿主机宕机风险 OPEN API 本盘宿主机宕机风险 控制台 本盘实例单磁盘故障 云盘宿主机故障 本盘宿主机故障 实例性能受损 …… 实例硬件 风险场景 短信/邮件/站内信 系统 事件 钉钉 云监控 终端 用户 OOS MQ …… 本地磁盘 故障场景 ECS硬件 宕机风险 阿里云发布 系统事件 用户提前 摘除流量 OPEN API 用户恢复 ECS流量 ECS宕机风 险消除 用户响应 系统事件 本盘实例 磁盘故障 发布磁盘 隔离事件 用户响应 隔离事件 新盘插入 重启实例 (视情况) 隔离坏盘 初始化 并挂载新盘 重启实例 (视情况) 实例 磁盘恢复 更多详见:查询和响应ECS系统事件
24. 通过ECS弹性能力,低成本自动规划管理应用系统容量水位 业务场景 无规律业务量波动 业务量波动无规律,访问量突增 功能 和回落的具体时间难以预测 ESS弹性伸缩服务 伸缩模式(触发伸缩活动) 固定数 量模式 健康 模式 定时 模式 自动 模式 动态 模式 2. ExcuteScalingRule (Rule Ari) 有规律业务量波动 每天固定时间业务量急速增长进 功能 入高峰期,到固定时间业务量下 降,高峰期结束 负载均衡 1. 监控健康状 态和性能 伸缩活动执行程序 3.3 创建伸缩活动 功能 伸缩组 ECS ECS ECS RDS RDS RDS 3.1 增加多少台ECS? 3.2 创建什么类型的ECS实例? 无明显业务量波动 业务量无明显波动,如果现有计 功能 算资源突然出现故障,很难及时 维修,导致业务受到影响 伸缩组 伸缩规则 伸缩配置 4.2添加到伸缩组,并配 置负载均衡和RDS 伸缩活动 4.1 创建ECS实例 ECS
25. 使用实例健康诊断能力,快速定位问题根因,高效完成ECS实例深度巡检 痛点场景 1 实例健康诊断能力 ? 应用系统触发监控告警, 根因难以定位,到底是云 的问题还是自身系统问题? 2 ? 业务大促前,需要对云资 源做一次全面深度巡检, 如何高效实施? 计算服务诊断 诊断ECS实例底层的资 源和虚拟化层 网络服务诊断 检查实例内网络组件和外 部网络环境异常 存储服务诊断 实例配置管理诊断 检查实例磁盘和存储的运 行状态 检查实例启动或运行过程 中,是否存在阻塞等操作 安全控制诊断 费用类诊断 检查实例关联的所有安全 组相关状态 检查实例本身和实例关联 组件的费用情况 资源配额诊断 GuestOS内配置诊断 检查核心资源使用量是否 即将达到配额 检查实例OS内系统文件、 关键进程等状态 使用方式 选择问题类型 输入实例和时间范围 查看诊断报告 开始诊断 查询诊断指标 管理诊断指标集合 查询诊断报告 创建诊断报告 控制台 OPEN API
26. 回顾总结 1 • 什么是弹性计算? 2 • 阿里云弹性计算稳定性建设实践 3 • 阿里云弹性计算云上运维最佳实践 - - - - - - - - - - 稳定性度量体系 线下预防体系 线上守护体系 客户侧联动体系 稳定性重保体系 最佳实践概览 部署高可用架构 响应主动运维事件 弹性能力管理容量 自诊断定位根因
27. Q&A 谢谢! 为了永不停机的计算服务!
28.

Home - Wiki
Copyright © 2011-2024 iteam. Current version is 2.139.0. UTC+08:00, 2024-12-22 19:47
浙ICP备14020137号-1 $Map of visitor$