快手基于自动化治理实践驱动数据成本零增长

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 基于自动化治理实践驱动数据成本零增⻓ 孙伟 快手 数据平台部 数据治理负责人&商业创新数据BP负责人
2. • 十多年大数据建设和应用经验,曾就职于百度、 阿里,目前在快手负责数据治理和商业创新数 据BP团队,专注打造高效的治理工具和可持 续的治理机制,以及建设丰富易用的数据内容 赋能业务
3. 关于快手数据平台部 使命:提升数据决策效率,利用数据助力业绩提升 职责:通过大数据技术,对公司数据统一采集、存 储、加工和挖掘形成高质量全域数据资产,以分析 决策产品和服务的方式对外提供数据解决方案 集群规模 万级 总数据量 EB级 日新增数据量 PB级 任务量 十万级
4. 目录 • • • • 数据治理概述 成本治理方案 自动化治理实践 总结与展望
5. 数据治理概述 质量 • Why:对抗大数据系统的熵增,让数 据管理有序、可控,以及价值最大化 • What:保障数据质量,合理降低数据 成本,守住安全红线,优化数据架构 • How:管理+治理,通过有效的评估 体系配合组织与流程机制,以及工具 能力,驱动可持续治理 成本 数据 治理 安全 架构
6. 成本治理方案:思路 业务白盒化 技术白盒化(自动化) 成本管理
7. 成本治理方案:成本元数仓
8. 成本治理方案:技术白盒化 •计算用量公式 = 任务数 X 调度频次 X 申请计算资源数 X 运行时⻓ X 优先级权重 •存储用量公式 = 单行单列存储量 X 列数量 X 行数量 X 表数量 X EC副本数量
9. 成本治理方案:技术白盒化策略 低热模型 0热模型 减表 无下游模型 低热模型 下线未删除模型 减任务 0热模型 低价值模型 0热大字段治理 减行减列 埋点上报治理 存储用量优化 压缩格式 计算用量优化 减频次 小时降频 减时⻓ 引擎、SQL优化 减权重 不合理优先级 规范生命周期治理 减分区 Top任务优化 特殊生命周期 减副本 冷存 EC 少申请 参数优化
10. 自动化治理实践:生命周期自动纠正 生命周期规范 • 根据不同数据等级、不同数据分 层,结合数据是否可恢复以及恢 复的成本制定标准生命周期规范 避免误删数据 • 通过基础的数据血缘,结合数据 的查询访问日志来判断,并且取 最早分区和推荐生命周期的最大 值 通知机制 • 三轮通知,过程用户可以申请加 白,无反馈后,一周后进行治理 纠正
11. 自动化治理实践:0热度表/任务自动下线 避免误删数据 • 通过基础的数据血缘判断下游依 赖,结合数据的查询访问日志和 创建时间判断该表和任务是否真 实在用 通知机制 • 三轮通知,过程用户可以申请加 白,无反馈后,一周后进行治理 删除和下线 数据恢复 • 对于自动下线任务和删除表,用 户可以在工具上进行一键恢复
12. 自动化治理实践:任务参数自动调优(HBO) 通过分析作业历史运行指标,以数据驱动的方式,自动化 为每一个DAG推断最优的运行参数,以减少资源开销、提 升运行效率 优化资源配额 优化任务分片 • 通过自适应扩缩容 CPU/MEM,解决资源不 足和分配过大的问题 • 通过自适应调整 Map/Shuffle分片,解决分 片不够、过多的问题 优化功能参数 • 通过小文件合并等参数调 整,提升性能
13. 自动化治理实践:增量自动化归因 日新增拆解 面临的问题 • 降本背景下,存储水位处于高位(95%) • 日新增波动较大,缺少合理监控,每次 发现很被动 • 波动原因无法快速定位,每次排查工作 量大,不能快速修复问题 影响因子拆解 思 路 与 方 案 MOLAP 数据增⻓ 数据删除 KIM推 送 自然新增 EC 表多维下钻 波动与归因 自动化工具化 归因、库、 历史补数 冷存 数据回溯 手动删除 生命周期删除
14. 智能化相似模型检测 面临的问题 • 业务烟囱建设导致大量相似模型 • 难以定义相似模型 • 难以计算相似模型
15. 成本治理运营机制
16. 治理收益 成本 • 大数据成本节约上亿元 效率 • 治理效率提升N倍
17. 总结 成本优化思路 • 成本管理(评估、流程、组织) • 技术白盒化 • 业务白盒化 自动化治理方案 • 自动化生命周期纠正(标准规范、血缘 准确率) • 自动化下线任务 • 自动化删除表 • 自动化参数优化(HBO)
18. 展望未来:规划 • • • • 自动化治理覆盖提升 实时资源HBO 业务白盒化治理自动化诊断 数据湖治理
19. 展望未来:思考 NL2SQL 用户行动 数据应用 数据加工 数据源 数据分析 ODS DWD Client Log 数据挖掘 DWS ADS Server Log AB 数据管理 DB Log 数据决策大模型 Table2Text 行 动 信 息 NL2Graph NL2ETL 数仓大模型 Zero/AutoETL 智能化治理 数 据 元数据 基础大模型 算力升级 数据源
20.

inicio - Wiki
Copyright © 2011-2024 iteam. Current version is 2.129.0. UTC+08:00, 2024-06-29 20:24
浙ICP备14020137号-1 $mapa de visitantes$