腾讯游戏SRE工具链建设实践

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 腾讯游戏SRE工具链建设实践 演讲人:刘天斯 全球敏捷运维峰会 广州站
2. 个人简介 刘天斯 16年互联网相关工作,天涯、腾讯 腾讯运维专家 ◆ 个人著作 《Python自动化运维》、《循序渐进学Docker》 《数据标准化》、《软件研发效能提升实践》等 ◆ 专注方向 自动化运维 数据治理 云原生 DevOps 大数据 SRE AiOps 全球敏捷运维峰会 广州站
3. 分享目录 01 云原生运维转型之道 02 SRE工具链建设思路 03 SRE工具链建设实践 可观测性实践 混沌工程实践 全链路压测实践 全球敏捷运维峰会 广州站
4. 云原生运维转型之道 – 业务背景 为玩家提供多样化的在线营销活动,提升玩家游戏体验。 全球敏捷运维峰会 广州站
5. 云原生运维转型之道 – 微服务架构 ➢ 面临的问题与挑战 面临 挑战 ① 微服务调用关系错综复杂,难于理解 ④ 很难在上线前发现服务性能瓶颈点 ② 追踪、指标、日志数据上报标准不一 ⑤ 无法判断节点间强弱依赖关系 ③ 无法快速定位服务问题以及根因 ⑥ 新上线业务容量评估无法精准计算 全球敏捷运维峰会 广州站
6. 云原生运维转型之道 – 环境的改变 团队业务95%流量完成自研上云,云原生模式的改变: 资源 资产 单体 微服务 管理 治理 事件驱动 DO分离 业务运维 流水线 DO融合 SRE 一站式开发者DevOps平台 -- 打通服务开发、编译、构建、部署、监控、运营、治理等全流程 全球敏捷运维峰会 广州站
7. 云原生运维转型之道 – 触发转型 ✓ 云原生背景下运维为什么要转型? ✓ 怎么转?需要做什么? 全球敏捷运维峰会 广州站
8. 云原生运维转型之道 – 触发转型 ➢ 职能演变与转型路径 全球敏捷运维峰会 广州站
9. 云原生运维转型之道 – 目标设定 ➢ 云原生运维体系建设目标 ▪ 具备服务全链路质量覆盖,定义可量化的SLI与SLO ▪ 提升 MTBF(平均故障时间间隔)、降低 MTTR(故障平均修复时间) ▪ DevOps升级至DevSecOps,关注云成本(FinOps) ▪ 具备多云多级的资产编排与治理的能力 ▪ 具备一定的故障预警、根因分析、问题定位能力 ➢ 实践思想:云端一切皆可编排 + “三位一体”SRE可靠性保障体系。 全球敏捷运维峰会 广州站
10. SRE工具链建设思路 – SRE 8 准则 ➔ 架构设计准则 ➔ SRE前置准则 ➔ 可观测性准则 ➔ 混沌实验准则 ➔ 全链路压测准则 ➔ DevOps交付准则 ➔ 故障应急准则 ➔ SRE学习准则 全球敏捷运维峰会 广州站
11. SRE工具链建设思路 – SRE体系全景 全球敏捷运维峰会 广州站
12. SRE工具链建设思路 – 底层组织逻辑 强 弱 依 赖 分 析 混沌压测原子 资源精准评估 全球敏捷运维峰会 广州站
13. 可观测性实践 – 一个典型的故障处理过程 1.Alert Fix! 2. Dashboard 5. Log Aggregation 全球敏捷运维峰会 广州站 3. Adhoc Query 4. Distributed Tracing
14. 可观测性实践 – 可观测性的意义  Metrics:提供服务性能、业务及运营等指标 ➔ 异常告警及可视化报表  Traces:分布式链路跟踪,记录请求跟踪路径 ➔ 定位到具体服务或方法  Logs:服务日志,提供精确全面的系统记录 ➔ 最终定位问题根源 全球敏捷运维峰会 广州站
15. 可观测性实践 – 系统架构 全球敏捷运维峰会 广州站
16. 可观测性实践 – 平台能力 高级能力 基础能力 秒级延迟 提供多语言SDK 综合管控治理 提升采集ROI 数据上报到UI,延迟率在5-30s 多语言SDK完全兼容opentracing、 opentelmetry标准 提供更加精细化的运营治理,包括熔断、 降级、限速、染色等机制,确保业务服务 稳定运营 通过“尾部采样”机制,筛选有价 值的数据,目标无损,提升运营 ROI ONE-SDK 增值扩展 行业率先实现完整指标、追踪、日志一个 SDK数据采集集成,直达可观测性目标 结合混沌强弱依赖分析,全链路动 态压测(资源精准评估),AiOps 智能监控等 异常全捕捉 服务链路上如有异常产生,全链路跨 服务的调用信息自动全量上报 服务调用拓扑图 服务调用关系图形化展示 采样率配置 根据不同业务特性要求,支持网关、服务入 口的固定采样率、染色等规则配置 数据冷热分离 冷热分离,降低运营成本 全球敏捷运维峰会 广州站
17. 可观测性实践 – 综合治理 ➢ 运营治理 ➢ 采样治理 ▪ 头部采样 : 入口服务开启采样并向下游服务传递 ▪ 熔断:紧急情况下按租户、服务名、方法等规则,临时关闭采样 ▪ 尾部采样 : 缓存数据后对上报数据规则过滤 ▪ 降级:负载过高时自动关闭复杂的采样规则,采用固定采样率 ▪ 数据冷热分离 : 热数据采用高性能实时检索引擎 ▪ 限速:丢弃超过自身服务上限请求,保障服务柔性可用 ▪ 染色:给trace数据新增染色标签,定义染色数据上报规则 冷数据采用离线数仓库方案,追求最高ROI 全球敏捷运维峰会 广州站
18. 可观测性实践 – 综合治理技术实现 全球敏捷运维峰会 广州站
19. 可观测性实践 – 异常检测 ➢ 基于全链路的异常检测方案  测试阶段:结合压测平台+混沌实验,明确故障原子,自动标注异常特征  上线阶段:采集现网真实Trace异常点,人工判断并更新特征库  持久存储异常特征库数据,为后续模型训练,样本判别提供支持 全球敏捷运维峰会 广州站 方案 优势 结合混沌实验,大大降低人工 标注异常成本
20. 可观测性实践 – 异常检测 ➢ 异常检测效果 ➢ 算法模型(MP) 捕捉异常点 ◆ 原理解析:Matrix Profile 的值表示子序列间的距离,距离越小的表示序列相似度高,而距离越大表示越异常。 全球敏捷运维峰会 广州站
21. 混沌工程实践 – 混沌的意义 故障预防 • • • • • • • • • • 架构评估 优化容量 评估优化 全链路压 测 监控覆 盖优化应 急预案优 化日志工 具就绪观 测工具就 绪 应急演练到位 防患未然 专家风险 把控故障 容灾演练 故障发现 监控 告警 主动 拨测 用户 反馈 舆情 监控 定期 巡检 客服 反馈 测试 发现 • 运行预测 发现快 • AIOPS (MTTD) • • • • • • • 故障响应 • • • • • • • 故障定位 告警触达 应急协同 故障影响评 估预案启动 客服周 知故障 公告故 障同步 • • • • • • • 告警分析 日志分析 链路分析 监控分析 运营数据分析 变更分析 诊断工具定位 故障恢复 • • • • • • • 容灾切换 扩容升配 服务重启 版本发布 配置变更 限流、熔断 降级 复盘改进 • • • • • • • 沙盘演练 过程推理 根因分析 故障复现 故障影响统计 改进措施 同类排查 混沌工程 响应快 • 专家决策 定位快 • AIOPS • 进展同步 全球敏捷运维峰会 广州站 • 应急预案 恢复快 • 隔离 (MTTR) • 进展同步 • 问题跟进 复盘演练 • 故障总结同步
22. 混沌工程实践 – 平台架构 全球敏捷运维峰会 广州站
23. 混沌工程实践 – 平台能力 基础能力 高级能力 实验编排 一站式服务 支持串行、并行灵活的实验编排功能。 提供实验设计、编排、实施、观测、 报告等全套混沌工程能力。 故障原子 云原生实验 混沌工程实验平台提供27种故障原子, 支持ODP K8S实验,包括Pod、容 覆盖机器、网络、IO等多种场景。 器、网络、IO等场景。 全BG通用 打造了全BG通用的混沌工程实验平 台,全BG业务开箱即用,0接入成本。 红蓝对抗 支持以攻击、防守对抗形式发起混 沌实验。 全球敏捷运维峰会 广州站 自动化实验 支持以蓝盾流水线编排自动化混沌 实验。 依赖分析 混沌工程结合可观测性平台能实 现服务间强弱依赖分析。
24. 混沌工程实践 – 服务强弱依赖分析 ➢ 基于可观测性技术,追踪到服务间 的上下游依赖关系 ➢ 对下游服务注入故障(丢包、超时、 过载、响应慢等) ➢ 检验主调服务稳态指标(成功率、 耗时、QPS等),判断对下游服务 强弱依赖关系 全球敏捷运维峰会 广州站
25. 全链路压测实践 – 全链路压测的意义 新活动上线遇到性能瓶颈 资源、参数、环境、网关、DB,变量太多,逐个排除, 费时费力,效率太低。 重大运营节点资源如何保障 容量与负载并非线性关系,容量够不够, 压测一下才知道。 全球敏捷运维峰会 广州站
26. 全链路压测实践 – 平台架构 全球敏捷运维峰会 广州站
27. 全链路压测实践 – 平台能力 基础能力 高级能力 高并发压力源 压力源弹性伸缩 单核 2w/s 发压能力 基于云原生架构,压力源自动扩缩 压测异常熔断 拨测验证 能根据失败率和耗时,自动终止 压测 实时监控报表 实时展示压力源QPS、耗时等指标 提供拨测功能,快速检验请求响应 参数模板 提供随机参数灵活生成构造压测请求 链路拓扑绘制 链路统计 自动计算并绘制全链路微服务间调用 拓扑图,展示服务间调用关系 实时计算每一条调用链黄金指标, 包括QPS、耗时、成功率等 自动补充下游末端服务调用链路 从压测源自动注入压测标记 自动补链 性能瓶颈分析 实时展示服务间性能指标,快速 定位性能瓶颈 全球敏捷运维峰会 广州站 压测染色 根因下钻 提供调用跟踪详情和指标详情下钻 功能,快速定位异常根因
28. 全链路压测实践 – 服务压测链路拓扑 ➢ 关联可观测性链路追踪,自动计算目标服务内部调用关系拓扑图 ➢ 自动计算每一层微服务间调用黄金指标(QPS/耗时/成功率/放大倍数) ➢ 对下游第三方组件(如Tendis、CDB、微信接口、手Q接口)自动补链 全球敏捷运维峰会 广州站
29. SRE实践总结 全球敏捷运维峰会 广州站
30. THANK YOU! 全球敏捷运维峰会 广州站

Home - Wiki
Copyright © 2011-2024 iteam. Current version is 2.137.1. UTC+08:00, 2024-11-16 21:22
浙ICP备14020137号-1 $Map of visitor$