云环境下的企业运维平台演进历程

如果无法正常显示，请先停止浏览器的去广告插件。

1. 云环境下的企业运维平台演进历程阿里云朱超健

2. 十年互联网行业技术经验，专注于运维、安全、网络，具备丰富的运维平台产品建设经验；早期就职于安全公司，经历了从传统安全模式到云环境安全体系的运维工具平台建设及落地；后就职阿里云，经历了云技术快速发展的关键时期，有从云平台底层到业务最上层的全链路专家经验，洞察运维平台关键点，长期专注智能运维领域，从事技术服务工作，聚焦金融、互联网、教育、泛娱乐等行业客户，基于客户业务打造托管式的云上智能运维解决方案，擅长用云最佳实践、产品管理、研阿里云朱超健发管理、业务重保、疑难问题攻坚等。

3. 目录  多角度洞察运维痛点  企业演进过程中运维解决之道  阿里集团用云最佳实践  企业运维平台的未来

4. 目录  多角度洞察运维痛点  企业演进过程中运维解决之道  阿里集团用云最佳实践  企业运维平台的未来

5. 智能运维发展的必然性运维从人工到工具，从自动化到智能化也是互联网发展及企业业务发展的必然趋势。农业时代 1.手工运维蒸汽时代 2.脚本运维工业时代 3.自动运维智能时代 4.智能运维手工运维阶段的特点——以人为主劳脚本运维，常常是运维人员通过实践沉淀自动化运维工具和平台大幅度提升在可以预见的未来，IT系统架构的复杂动，效率相对较低。因此，在这个阶段了一小部分场景逻辑，使用shell来实现一运维效率，让运维团队从机械、重度越来越高，规模越来越大，同时伴随当企业IT系统发展到一定规模后，就会小段简单的逻辑。只能说在手工运维的基复的劳动中解放出来。但随着运维人力成本不断提高，渐渐地对于重型信引发很多问题。正如生产力发展的农业础上做了简单升级，实则还有很大问题。工作的深入，自动化运维一些潜在息化企业来讲，运维不是简单依靠人力时代。正如生产力发展的蒸汽时代。缺点也逐渐暴露出来。正如生产力或传统的运维软件能解决问题了。正如发展的工业时代。生产力发展的智能时代。

6. 智能运维发展的必然性运维从人工到工具，从自动化到智能化也是互联网发展及企业业务发展的必然趋势。农业时代 1.手工运维蒸汽时代工业时代智能时代 2.脚本运维 3.自动运维 4.智能运维运维资源不足脚本适用范围小问题判断依赖经验机器学习标准化程度低无法自动运维缺少数据量化支撑根因分析知识体系转移较慢依靠人力运维操作对事件影响不明趋势预测企业对IT系统依赖度高运维稳定性差知识复用性低故障画像

7. 目录  多角度洞察运维痛点  企业演进过程中运维解决之道  阿里集团用云最佳实践  企业运维平台的未来

8. 企业云上运维的核心问题应用架构师应用开发云平台架构师应用运维 CCB 云上应用如何运维？资源供给部署逻辑态、部署态模型；流程编排；资源创建监控与可观察性监控指标，告警阈值，trace，事件定级运维操作与自动化扩缩容，巡检，备份与恢复，应急操作可靠性与可恢复性快恢，自愈，限流降级，容灾合规与运维风控风险识别、防护、检测、评估和处置如何运维平台，如何保障业务稳定、高效运行，支撑企业稳定用云？业务监控、智能基线、自愈能力专业运维

9. 业务监控的意义随着社会对互联网的依赖不断提升，互联网服务故障，影响越来越大故障导致公司资金损失客户流失还可能产生社会舆情及群体事件摩菲定律告诉我们，如果一件事情有可能发生，那么必然将会发生，无法彻底避免虽然故障无法彻底避免，但可以通过监控手段快速发现，缩短故障时长，降低影响

10. 业务监控概述历年故障分析监控发现恢复时长远小于非监控发现监控对于故障快速恢复非常重要付款成功量异常监控 P1P2故障故障发现时长故障持续时长（MTTR）监控发现分钟级分钟级*4 用户上报 >小时级 >小时*2 为何选择业务监控发现故障？ • 相比其他监控，对公司核心业务指标进行监控，更易发现业务异常异常发生 • 代码无侵入业务监控选择 SDK X Export X 拨测 X … 日志 • 业务改造少 • 信息详细

11. 业务监控技术方案 • 调度10万+核计算资源，提供分钟级百T日志处理能力，存储亿级监控项原始日志业务监控平台数据源采集数据计算存储展示报警 Web 报警规则 OpenAPI 智能监控 Hbase 订阅管理 MongoDB 报警网关租户间隔离 SLS Map 监控系统 agent Reduce Log 数据流 Brain 任务流时序数据元数据时序监控

12. 业务监控-指标自定义采集配置可视化配置，将非标日志转换为统一时序监控数据名称说明简单直观的反 • 映监控指标代表含义 • 路径环境日志文件完机房/IP/预发/ 整路径线上等 • 增量采集 • 详细筛选压测标业务逻辑业务结果响应时间关键字段前后有明确标识分割（如｜）以上筛选能力一般是基于具体业务需要场景组合使用统计错误码列-多维度求和、平均等

13. 业务监控-自定义报警规则配置淘宝交易创建 – 量大稳定业务特征报警规则菜鸟仓储操作 – 波动稳定饿了么退款申请 – 量少 • 量大，周期趋势稳定 • 量中等有抖动，周期趋势稳定 • 量少，无周期趋势 • 故障等级：异常下跌5%触发故障 • 故障等级：异常下跌15%持续3分钟触发故障 • 故障等级：持续5分钟成功率低于80% • 场景复杂，成功明确，失败可能非系统异常 • 场景相对简单，成功失败原因均明确 • 场景相对简单，成功失败原因均明确 • 成功率持续3分钟低于90% 且失败量持续3分钟大于 • 成功量8-22点环比下跌超过2% • 或成功量 22-8点 2分钟求和环比下跌超过3% • 不宜配置失败量报警 • 成功量 3分钟求和环比下跌10% 且成功量3分钟求和昨天同比下跌10% 且成功量3分钟求和上周同比下跌10% • 或成功率持续2分钟小于95% 等于5 • 或成功量持续3分钟为0（兜底入口异常无失败量） • 不宜配置成功量波动报警故障场景周期趋势注：上述配置阈值，均为示意值。波动幅度业务等级高，全站交易核心业务故障场景下跌3%就触发故障实效性高，1分钟就触发故障业务体量大，趋势稳定波动小业务体量业务等级实效性报警规则 ……

14. 智能监控-智能基线智能基线 ——基于机器学习算法的业务监控无阈值异常检测基线拟合 STL 异常判定 N-sigma 不同业态曲线的特征有较大差异不同业态的异常判定标准有较大差异面临挑战 • 线上业务（游戏） .vs. 线下业务 (新零售) 无阈值高召回低误报对外部干扰抵御较差非周期曲线支持不足 • 数量级 • 局部波动程度 • 周期实现方案

15. 智能监控-实际效果针对周期性特征明显的业务监控指标，具有较高召回率及准确率准确率>70% 召回率>90%

16. 监控报警核心指标通过核心指标，衡量公司业务监控报警质量，降低故障影响取决监控覆盖及报警质量决定异常是否能被监控发现取决于合理订阅及准确率报警量大员工无法有效应急重大故障 >= 90% 一般故障 >= 70% 报警准确率>=50% 01 取决于监控报警配置质量准确率低误报多导致报警成本高 02 人均日报警<=30条 03

17. 目录  多角度洞察运维痛点  企业演进过程中运维解决之道  阿里集团用云最佳实践  企业运维平台的未来

18. 阿里巴巴上云过程阿里集团已经实现业务跑在云上，从回顾这几年上云过程，基本可以划分三个阶段。  上云历程集团上云三个阶段：弹性上云核心系统上云全面上云在每个阶段集团上云解决的问题和核心关注点都是有差异的。同时在每个阶段达成具有里程碑意义的上云案例。 2020~ 全面上云 2019~2020 核心系统上云 2017~2019 弹性上云连续3年完美支撑双十一购物节上阿里云神龙计算架构通过双十一验证，并在公共云对外商业化电商核心系统全部上云计算平台搜索广告等业务中台上云阿里云运营支撑上云充分利用公共云的弹性，云上降成本经济体一环/二环BU增量业务全战上云考拉饿了么高德优酷等 100%上云统一资源池，电商搜索计算平台混部中间件云产品化支撑集团上云极致弹性，SP模式引入集团上云用云优化，云上降本提效

19. 云上冬奥业务连续性保障方案业务连续性保障方案 - 风险治理、容灾演练、压力测试、安全加固、预警风控、应急预案风险治理容灾演练压力测试 • 基于飞天技术服务平台（Apsara ServiceStack）CloudDoc/Advisor模块能力进行云平台风险巡检并前置治理风险。 • 重保期云平台针对性封网管控及变全网更评审把控。 • 云平台集群水位评估与管控。 • 批量资源预留和资源腾挪。 • 云平台基础设施容灾能力验证，如负载均衡 SLB 多可用冗余验证，RDS数据库HA切换验证等。 • 业务整体架构容灾演练验证，如跨域专线。 • 业务系统容灾演练：演练业务损失某单元模块功能的系统容灾切能力。 • 利用单元压测摸排各模块性能瓶颈，并完成容量评估。 • 利用全链路压测方式验证系统整体并发能力是否符合业务需求。 • 对系统全链路性能瓶颈点做性能调优。北京冬奥累计压测奥运相关项目数十个子模块，数百个接口，性能优化2-6倍。区域服务铁三角敏捷响应，抓住商机识别云基础设施潜在风险区域服务铁三角敏捷响应，抓住商机保证关键系统高可用区域服务铁三角敏捷响应，抓住商机保证关键系统并发性能安全加固预警风控应急预案 • 数据中心建设期间，2019年开启安全架构和策略设计。 • 大型国家级安全攻防演练。 • 主管单位、冬奥组委和各厂商安全情报协同处置。 • 冬奥重保期间蜜罐捕获请求数千次，恶意请求拦截超千万次，云安全中心告警及处理超千次，并封禁大量恶意IP。 • 钉群机器人主要产品核心告警项目35项，重保期核心告警主动处理41次，避免风险扩大。 • 利用资源Grafana监控大屏按照top异常资源观察和汇总异常实例资源信息，做到全局实施观测实时处置。 • 按问题场景梳理准备应急预案73项，覆盖云上弹性、网络、安全、数据库、容器、存储、大数据和中间件等8个产品垂直线方向。 • 覆盖过载、丢包、业务IP错误拦截、黑洞清洗、超限和管控异常等不同问题的应急处理。 • 主要产品钉群机器人35类核心告警处理预案。区域服务铁三角敏捷响应，抓住商机构建纵深防护体系区域服务铁三角敏捷响应，抓住商机识别赛事风险并处置区域服务铁三角敏捷响应，抓住商机赛事问题快速恢复

20. 账号与权限治理基于业务和组织进行云上资源的身份管理和授权规范用户权限访问控制流程治理原则治理实践 •根据组织架构对云资源进行分组，并以云上用户组为最小粒度授予相应的权限 •权限越界访问用户数审计 •授权失败审计 •未在指定时间登录的用户数审计 •闲置策略数审计 •未配置强制多的因子认证的用户数审计 •根据组织架构对云资源进行分组，并以云上用户组为最小粒度授予相应的权限 •云上用户组在信息系统运行不同阶段权限的治理 •制定访问管理流程 •配置审计进行持续合规审计 •云安全中心进行持续合规审计 Beijing2022 总体账号设计信息系统运行不同阶段权限治理

21. 资产与数据安全治理基于丰富的阿里云安全标准化产品巡检发现问题，进行资产与数据的安全治理治理原则治理实践 • 所有已部署的资产必须按照重要程度和数据敏感性进行分类 • 在可以批准并实现足够的安全和治理要求之前，无法将任何使用受保护数据级别的资产部署到云 • 任何包含受保护数据的段中提升权限都应属于异常 • 定期检查可能影响云部署的趋势和攻击，以更新云中使用的安全管理工具 • 日志按需持久化便于进行安全溯源 • 依据安全法规、冬奥业务类型，对资产和数据进行分类。 • 依托SSL保证数据传输过程的安全性，依托KMS、加密服务对敏感数据进行安全存储 • 基于操作审计、配置审计、日志监控一体化系统、数据库审计、堡垒机审计等对数据提取操作进行合规审计 • 定期检查可能影响云部署的趋势和攻击，不断优化安全工具 Beijing2022 云上安全产品安全产品 WAF Anti-DDoS （ BGP ） Anti-DDoS( 国际 ) 加密服务堡垒机云安全中心云防火墙日志服务 KMS 人机验证数据库审计 SLS Audit Center 云上威胁一体化监测方案安全监控大屏

22. 全过程安全防护保障基于强大的安全服务团队保障赛前赛中赛后的全过程零安全事件历经4年构建了严密的纵深防护体系（应用、网络、主机、蜜罐、综合分析、预警、架构设计），赛前主动解决产品稳定性风险；推动WAF接入率到达 97% 以上，实现高防和云安全中心100%覆盖率，默认重保模式，修复安全漏洞，大型国家级攻防验证10+，梳理应急预案30+，确保赛前风险最小化。蜜罐捕获请求数千次，恶意请求拦截超千万次，云安全中心告警及处理超千次，封禁大量恶意IP，联合网信办、冬奥组委会处置、同步威胁情报。全生命周期默认安全建设整体默认安全架构设计，默认deny策略，尽早发现安全防护的缺陷，通过服务弥补产品不足全面风险评估和安全验证多轮125项的全面风评，赛前完成安全加固，经过N次内外部的攻防演练验证安全防护水位安全责任有效区分落地组委、三方厂商之间明晰责任模型，确认底线并且形成文档，明确自身防守区域和权限范围情报协同与应急预案情报协同与应急预案：协同IOC，网信办，三方厂商的安全信息，以便及时响应并对外发声

23. 云上冬奥保障工具平台支撑数十个云上系统的数百个关键指标的全景观测、告警，问题诊断与快速恢复云基础设施全景大屏全景作战大屏业务信息系统全景大屏飞天技术服务平台 - CloudDoc/Advisor 交互功能特性技术控制台自动根因分析自动产出解决方案机器人学习自动化运维配置操作系统级别数据自动分析开放能力特征库用户业务日志数据可视化大盘运维机器人自处理能力多云联动分析模型训练模式匹配实时计算特性数据源（租户层、业务层） OPEN API 离线计算用户平台操作数据云监控数据历史分析数据

24. 智能诊断平台冬奥实践冬奥某业务系统突发业务异常应急业务算法出现时序访问监测异常源站 ODS- 对应 DFV 源站时间业务业务点有指标日志变更异常实时发布 5xx比推导例与操作根因 WAF 发布过可能侧一程出现由于致 java内源站存占用异常异常，解决导致导致方案 java进及高程崩溃可用建议 ①业务异常发生 ②算法实时动态检测 ③算法多维度根因分析 ④NLP以及时序数据实现定界 ⑤专家经验自动化根因下钻 ⑥时序数据清洗分析，定位根因 ⑦提供问题处理建议&解决方案智能诊断系统流程阈值分析自动监控资源及业务数据源接入拓扑发现智能诊断指标整合自动获取，分析数据来自：里云专家经验，使用不同数据流和明确资源授权及业务各项监云监控、操作审计、配置审计、应用实监控相关指标，以利用机器学习模控核心指标时监控服务、用户业务日志数据根据阿里巴巴多年运维沉淀以及阿通过数据接入自动绘制资源架构拓扑，可视化展示业务逻辑型快速生成正常的应用程序模式和行为。根因下钻聚合分析使用机器学习算法，将监控项异常与操作事件关联起来，以实时产出或者前瞻性的产出处理建议。告警及API集成集成告警配置，相关产品配置项和第三方事件管理服务。

25. 从云上冬奥到大型活动保障云上大型活动挑战高峰流量达到百万QPS级别，需要大量资源预留调度，深度性能优化涉及多业务承压运行和调度，带来系统复杂度和内部组织协同复杂度短时间达到TB级别数据交换和处理，对大数据处理能力要求高大型活动需要确保零故障，对整体稳定性及应急预案要求极高云上大型活动保障策略通过全链路压测感知系统瓶颈，以容量预置和性能调优进行治理梳理和优化业务及云平台架构，实现模块化和全局接口可调用性区分实时处理和离线处理业务，对实时数据处理逻辑做优化大型活动案例利用监控和应急体系保障稳定性，活动前完成高可用性方面演练

26. 目录  多角度洞察运维痛点  企业演进过程中运维解决之道  阿里集团用云最佳实践  企业运维平台的未来

27. 运维平台的发展趋势企业围绕应用、云服务、云平台、基础设施构建可观测、可自动化智能化运维全新的云运营、云工具策略和云运维模式成为必然趋势. Gartner 2022 IT运维与云管关键趋势指出 2022 key in IT Operations and Cloud Management 1、加快应用程序发布速度将需要新的运营和工具策略不可变基础设施和基础设施即代码（IaC）作为应用程序操作和工具的核心原则。 3、云增加的复杂性需要新的架构元素和成熟的云运营模式使用云”Landing Zones”以增强管理和治理的最佳实践 2、从基础设施向平台和服务的转变，需要纪律性的自动化，这是云运维的基础使用DevOps和开发实践使自动化成为IT和业务的弹性基础。称为持续基础架构自动化（CIA）。 4、对可观察性和效率的需求不断增长会加速APM，DEM和AIOPS的使用可观察性（observability）是一个属性而不是过程最小化、持续的投资AIOPS组合来获取即时价值 5、自助服务和去中心化将需要成熟的治理和ITSM实践 ——在分布和敏捷的时代，IT服务管理并没有消失使用策略即代码（PaC）来加强安全性和合规性发展ITSM实践以满足数字业务的需求 • 自动化事件管理 • 通过变更管理平衡速度和风险 • 去中心化的配置管理

28.

29. GTS服务介绍阿里云GTS部门(Global Technical Service) 通过多种服务方案组合帮助您在企业数字化转型全生命周期中实现业务成功用云/管云上云/迁云起步优化扩张 • Landing Zone • 架构设计 • 云迁移咨询 • 数仓设计 • 电商容灾方案设计 • 运维日常技术支持 • 安全托管专家服务 • 主动服务 • 中国出海网络解决方案 • 培训认证方案 • 数据库迁移 • 云原生迁移改造 • • 数据中台建设大数据平台建设 • 重保护航 • 健康检查 • 云网络专家服务 • FinOps 解决方案 • 容量评估 • 安全加固专家服务 • 风险评估 • 容灾方案 • 数据类专家服务(数据库/大数据) • CDN直播点播专家服务