快手基于自动化治理实践驱动数据成本零增长
如果无法正常显示,请先停止浏览器的去广告插件。
1. 基于自动化治理实践驱动数据成本零增⻓
孙伟
快手 数据平台部 数据治理负责人&商业创新数据BP负责人
2. •
十多年大数据建设和应用经验,曾就职于百度、
阿里,目前在快手负责数据治理和商业创新数
据BP团队,专注打造高效的治理工具和可持
续的治理机制,以及建设丰富易用的数据内容
赋能业务
3. 关于快手数据平台部
使命:提升数据决策效率,利用数据助力业绩提升
职责:通过大数据技术,对公司数据统一采集、存
储、加工和挖掘形成高质量全域数据资产,以分析
决策产品和服务的方式对外提供数据解决方案
集群规模
万级
总数据量
EB级
日新增数据量
PB级
任务量
十万级
4. 目录
•
•
•
•
数据治理概述
成本治理方案
自动化治理实践
总结与展望
5. 数据治理概述
质量
• Why:对抗大数据系统的熵增,让数
据管理有序、可控,以及价值最大化
• What:保障数据质量,合理降低数据
成本,守住安全红线,优化数据架构
• How:管理+治理,通过有效的评估
体系配合组织与流程机制,以及工具
能力,驱动可持续治理
成本
数据
治理
安全
架构
6. 成本治理方案:思路
业务白盒化
技术白盒化(自动化)
成本管理
7. 成本治理方案:成本元数仓
8. 成本治理方案:技术白盒化
•计算用量公式 = 任务数 X 调度频次 X 申请计算资源数
X 运行时⻓ X 优先级权重
•存储用量公式 = 单行单列存储量 X 列数量 X 行数量 X 表数量 X EC副本数量
9. 成本治理方案:技术白盒化策略
低热模型
0热模型
减表
无下游模型
低热模型
下线未删除模型
减任务
0热模型
低价值模型
0热大字段治理
减行减列
埋点上报治理
存储用量优化
压缩格式
计算用量优化
减频次 小时降频
减时⻓ 引擎、SQL优化
减权重 不合理优先级
规范生命周期治理
减分区
Top任务优化
特殊生命周期
减副本
冷存
EC
少申请
参数优化
10. 自动化治理实践:生命周期自动纠正
生命周期规范
• 根据不同数据等级、不同数据分
层,结合数据是否可恢复以及恢
复的成本制定标准生命周期规范
避免误删数据
• 通过基础的数据血缘,结合数据
的查询访问日志来判断,并且取
最早分区和推荐生命周期的最大
值
通知机制
• 三轮通知,过程用户可以申请加
白,无反馈后,一周后进行治理
纠正
11. 自动化治理实践:0热度表/任务自动下线
避免误删数据
• 通过基础的数据血缘判断下游依
赖,结合数据的查询访问日志和
创建时间判断该表和任务是否真
实在用
通知机制
• 三轮通知,过程用户可以申请加
白,无反馈后,一周后进行治理
删除和下线
数据恢复
• 对于自动下线任务和删除表,用
户可以在工具上进行一键恢复
12. 自动化治理实践:任务参数自动调优(HBO)
通过分析作业历史运行指标,以数据驱动的方式,自动化
为每一个DAG推断最优的运行参数,以减少资源开销、提
升运行效率
优化资源配额 优化任务分片
• 通过自适应扩缩容
CPU/MEM,解决资源不
足和分配过大的问题 • 通过自适应调整
Map/Shuffle分片,解决分
片不够、过多的问题
优化功能参数
• 通过小文件合并等参数调
整,提升性能
13. 自动化治理实践:增量自动化归因
日新增拆解
面临的问题
• 降本背景下,存储水位处于高位(95%)
• 日新增波动较大,缺少合理监控,每次
发现很被动
• 波动原因无法快速定位,每次排查工作
量大,不能快速修复问题
影响因子拆解
思
路
与
方
案
MOLAP
数据增⻓
数据删除
KIM推
送
自然新增
EC
表多维下钻
波动与归因
自动化工具化
归因、库、
历史补数 冷存
数据回溯 手动删除
生命周期删除
14. 智能化相似模型检测
面临的问题
• 业务烟囱建设导致大量相似模型
• 难以定义相似模型
• 难以计算相似模型
15. 成本治理运营机制
16. 治理收益
成本 • 大数据成本节约上亿元
效率 • 治理效率提升N倍
17. 总结
成本优化思路
• 成本管理(评估、流程、组织)
• 技术白盒化
• 业务白盒化
自动化治理方案
• 自动化生命周期纠正(标准规范、血缘
准确率)
• 自动化下线任务
• 自动化删除表
• 自动化参数优化(HBO)
18. 展望未来:规划
•
•
•
•
自动化治理覆盖提升
实时资源HBO
业务白盒化治理自动化诊断
数据湖治理
19. 展望未来:思考
NL2SQL
用户行动
数据应用
数据加工
数据源
数据分析
ODS
DWD
Client Log
数据挖掘
DWS
ADS
Server Log
AB
数据管理
DB Log
数据决策大模型
Table2Text
行
动
信
息
NL2Graph
NL2ETL
数仓大模型
Zero/AutoETL
智能化治理
数
据
元数据
基础大模型
算力升级
数据源
20.