腾讯PCG数据中台DEVOPS和AIOPS实践

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. PCG数据中台 DEVOPS和AIOPS实践 童光辉 腾讯PCG大数据平台部SRE负责人
2. 目录 CONTENT 01 数据中台运营挑战 02 保障数据中台落地 03 数据中台架构
3. 01 数据中台运营挑战
4. 腾讯PCG前世今生 SNG 现状:BG架构在应用层架构绝大部分不同, 导致业务在数据使用上数据不通、口径不同、 质量不一致、易用性差 OMG 要求: Ø 数据互通要求非常迫切 Ø 需要一个统一且稳定的数据管线 Ø 数据决策提效,需要更快的数据交付(秒级)和 简单易用的数据工具(开箱即用) MIG
5. 腾讯大数据顶层架构设计 应用平台 工具平台 计算引擎 商业智能 Ti (Tesla) Super SQL Hive 数据集市 Idex Flink Spark 维纳斯 无量 Angel 资源管理 DataHub TF GraphX Caffe Plato Graph 笛卡尔 推荐中台 黄金眼 Hbase Druid 灯塔 Kudu Hermes Impala 锋刃 OLAP Yarn/K8S HDFS 数据存储 采集分发 数据中台 Tdbank ATTA COS TGlog S2Graph Mmdata 组件繁多,多团队协助,质量保障难度超过单个人的认知上限 统 一 调 度 系 统 数据 资产 管理 权 限 中 心 元数 据管 理
6. MQ架构(CDMQ) 易使用:kakfa通用协议,腾讯内一套架构(MQ OT),优化点正在合入社区(KIP-500) 高可用:Region内、Region间支持2级容灾调度,broker运行在docker中,支持docker规格升降和迁移 TP数突破:从千级Topic、万级partion突破到百万级TP数
7. 日志管道 MetaManager 写入调度 消费调度 日志系统 AttaSDK APPSDK !"# 接入层 Agent DataStore 代理层 DataStore S Z 接入层 权限&流程 离线数仓 业务消费 代理层 KVS DDS S H AttaAPI HttpAPI 代理层 DataStore T J DDS MQ 实时计算 代理层 元数据管理 缓存层 路由管理 分发层 运营管理 OpenAPI
8. 实时数仓批流一体平台 SQL + 算子 MQ 数据 流批统一处理 OLAP存储 产品组装 成本管理 日志管道 批存储 5秒 ~ 2小时 TP99 <5秒 TP99 <5秒 目标存储 数据加工 数据接入 impala clickhouse blade olap druid hive MQ DB redis kudu Iceberg 去重算子 XX算子 XX算子 XX算子 新增算子 XX算子 XX算子 XX算子 FLink 实时质量监控 MQ 端到端染色 实时审计 后台服务上报 代理层 终端SDK上报 运营支撑工具 接入层 Data Store 分发层 链路元数据
9. 02 保障数据中台落地
10. 定义:系统可运维性目标
11. 定义:错误预算 业务质量SLO,产品负责人主导确认 决定 根据业务 SLO要求 选择合适 级别的平 台服务, 平台SLA 即是上限 也是下限。 开发 不满 足 Oncall响应处理时间 及问题升级机制 支撑 错误预算 (可靠性) 告警级别及阈值 满 足 有部分细 化SLO是 直接支撑 业务质量 SLO的 发布 CI质量红线阈值设置 其他SLO 分级质量承诺,负责人主导确认 平台&中台&服务 SLA(service level agreement): 服务等级协议 SLO(service level objective): 服务等级目标 SLI(service level indicator): 服务等级指标 错误预算(error budgets ):错误预算是存在于完美可靠性与 SLO 之间的差距 提供对应 级别的服 务质量支 撑
12. 全生命周期的质量管理 l 早监控:在方案设计阶段就需要考虑监控如何建设,常见故障应该如何处理 l 早测试:构建大数据场景预发布环境镜像真实现网流量,构造出大数据现网的复杂场景用于集成测试 l 早验收:实施混沌工程,通过常态化故障注入、流量压测,拦截程序、任务的部分BUG l 早处理:故障能够及时发现,有提前的预案进行有序处理,能快速止损
13. 架构风险管理
14. CI:研发过程管控
15. CD:镜像发布 实时对账审计 业务 数据 ATTA MQ Flink ETL MQ Flink ODS入库 ODS 生产环境 数据 比对 按需镜像 流量 ATTA MQ Flink ETL MQ 镜像环境 实时对账审计 Flink ODS入库 ODS
16. CO: 故障有序处理 故障恢复 Mean time to recovery ! 发 现 Alert Repair stabilize begin begin 定 故障 位 修复 故障间隔 解决 Mean time between failures 复盘 质 量 优化 优化 Next data 响应 根因 recovery outage starts 人工 here 自动处理 优化措施 落地 Mean time to data recovery 数据恢复 Mean time to resolve 彻底解决 自动定位 报警
17. 全面监控(SLA -> SLO -> SLI) Metric 监控 拨测 控制 染色 控制 业务 数据 代理层 染色 库 Data Store agent 分发层 Flink ETL 审计上报 进/出流量、条数 审计 代理 MQ MQ ODS 入库 Metric 监控 Flink ODS入库 MQ 端到端拨测/染色数据 OLAP 审计 查询 ODS
18. 数字化运维能力建设 Ø 指标:metric(流量、耗时、异常、超时)、日志 Ø 数仓:基于离线、实时数仓标准构建运维数仓 Ø 根因:问题的挖掘与自动化解决
19. 故障处理由繁入简 报警 自动定位 自动处理 一线Oncall 无自动处理流程 噪音消除 二线Oncall 模块负责人 L1故障 事件处理 质量经理
20. 03 数据中台架构
21. 提供全栈易使用高质量的数据服务
22. PCG数据抽象中台架构
23. 非常感谢您的观看
24. 期待您加入

首页 - Wiki
Copyright © 2011-2024 iteam. Current version is 2.125.1. UTC+08:00, 2024-05-17 16:11
浙ICP备14020137号-1 $访客地图$