腾讯PCG数据中台DEVOPS和AIOPS实践
如果无法正常显示,请先停止浏览器的去广告插件。
1. PCG数据中台
DEVOPS和AIOPS实践
童光辉
腾讯PCG大数据平台部SRE负责人
2. 目录 CONTENT
01 数据中台运营挑战
02 保障数据中台落地
03 数据中台架构
3. 01
数据中台运营挑战
4. 腾讯PCG前世今生
SNG
现状:BG架构在应用层架构绝大部分不同,
导致业务在数据使用上数据不通、口径不同、
质量不一致、易用性差
OMG
要求:
Ø 数据互通要求非常迫切
Ø 需要一个统一且稳定的数据管线
Ø 数据决策提效,需要更快的数据交付(秒级)和
简单易用的数据工具(开箱即用)
MIG
5. 腾讯大数据顶层架构设计
应用平台
工具平台
计算引擎
商业智能
Ti (Tesla)
Super
SQL
Hive
数据集市
Idex
Flink
Spark
维纳斯
无量
Angel
资源管理
DataHub
TF GraphX
Caffe Plato
Graph
笛卡尔
推荐中台
黄金眼
Hbase
Druid
灯塔
Kudu Hermes
Impala 锋刃
OLAP
Yarn/K8S
HDFS
数据存储
采集分发
数据中台
Tdbank
ATTA
COS
TGlog
S2Graph
Mmdata
组件繁多,多团队协助,质量保障难度超过单个人的认知上限
统
一
调
度
系
统
数据
资产
管理
权
限
中
心
元数
据管
理
6. MQ架构(CDMQ)
易使用:kakfa通用协议,腾讯内一套架构(MQ OT),优化点正在合入社区(KIP-500)
高可用:Region内、Region间支持2级容灾调度,broker运行在docker中,支持docker规格升降和迁移
TP数突破:从千级Topic、万级partion突破到百万级TP数
7. 日志管道
MetaManager
写入调度
消费调度
日志系统
AttaSDK
APPSDK
!"#
接入层
Agent
DataStore
代理层 DataStore
S
Z
接入层
权限&流程
离线数仓
业务消费
代理层
KVS
DDS
S
H
AttaAPI
HttpAPI
代理层
DataStore
T
J
DDS
MQ
实时计算
代理层
元数据管理
缓存层
路由管理
分发层
运营管理
OpenAPI
8. 实时数仓批流一体平台
SQL + 算子
MQ
数据
流批统一处理
OLAP存储 产品组装
成本管理
日志管道
批存储
5秒
~
2小时
TP99
<5秒
TP99
<5秒
目标存储
数据加工
数据接入
impala clickhouse blade olap druid hive
MQ DB redis kudu Iceberg
去重算子 XX算子 XX算子 XX算子
新增算子 XX算子 XX算子 XX算子
FLink
实时质量监控
MQ
端到端染色
实时审计
后台服务上报
代理层
终端SDK上报
运营支撑工具
接入层
Data
Store
分发层
链路元数据
9. 02
保障数据中台落地
10. 定义:系统可运维性目标
11. 定义:错误预算
业务质量SLO,产品负责人主导确认
决定
根据业务
SLO要求
选择合适
级别的平
台服务,
平台SLA
即是上限
也是下限。
开发
不满
足
Oncall响应处理时间
及问题升级机制
支撑
错误预算
(可靠性)
告警级别及阈值
满
足
有部分细
化SLO是
直接支撑
业务质量
SLO的
发布
CI质量红线阈值设置
其他SLO
分级质量承诺,负责人主导确认
平台&中台&服务
SLA(service level agreement): 服务等级协议
SLO(service level objective): 服务等级目标
SLI(service level indicator): 服务等级指标
错误预算(error budgets ):错误预算是存在于完美可靠性与 SLO 之间的差距
提供对应
级别的服
务质量支
撑
12. 全生命周期的质量管理
l 早监控:在方案设计阶段就需要考虑监控如何建设,常见故障应该如何处理
l 早测试:构建大数据场景预发布环境镜像真实现网流量,构造出大数据现网的复杂场景用于集成测试
l 早验收:实施混沌工程,通过常态化故障注入、流量压测,拦截程序、任务的部分BUG
l 早处理:故障能够及时发现,有提前的预案进行有序处理,能快速止损
13. 架构风险管理
14. CI:研发过程管控
15. CD:镜像发布
实时对账审计
业务
数据
ATTA
MQ
Flink
ETL
MQ
Flink
ODS入库
ODS
生产环境
数据
比对
按需镜像
流量
ATTA
MQ
Flink
ETL
MQ
镜像环境
实时对账审计
Flink
ODS入库
ODS
16. CO: 故障有序处理
故障恢复
Mean time to recovery
!
发
现
Alert
Repair stabilize
begin begin
定 故障
位 修复
故障间隔 解决
Mean time between
failures
复盘 质
量
优化
优化
Next
data
响应
根因
recovery
outage
starts 人工
here 自动处理
优化措施
落地
Mean time to data recovery
数据恢复
Mean time to resolve
彻底解决
自动定位
报警
17. 全面监控(SLA -> SLO -> SLI)
Metric 监控
拨测
控制 染色
控制
业务
数据 代理层
染色
库
Data
Store
agent
分发层
Flink
ETL
审计上报
进/出流量、条数
审计
代理
MQ
MQ
ODS
入库
Metric 监控
Flink
ODS入库
MQ
端到端拨测/染色数据
OLAP
审计
查询
ODS
18. 数字化运维能力建设
Ø 指标:metric(流量、耗时、异常、超时)、日志
Ø 数仓:基于离线、实时数仓标准构建运维数仓
Ø 根因:问题的挖掘与自动化解决
19. 故障处理由繁入简
报警
自动定位
自动处理
一线Oncall
无自动处理流程
噪音消除
二线Oncall
模块负责人
L1故障
事件处理
质量经理
20. 03
数据中台架构
21. 提供全栈易使用高质量的数据服务
22. PCG数据抽象中台架构
23. 非常感谢您的观看
24. 期待您加入