数据治理在成本优化上的实践
如果无法正常显示,请先停止浏览器的去广告插件。
1. 数据治理在成本优化上的实践
周邦涛
美团 数据平台 资源效率&数据生产负责人
2.
3. 我是谁,又为什么是我?
• 目前在负责数据生产、资源效率。
• 先后负责过数据开发平台、模型管理、数据质
量、查询服务、元数据管理等的平台建设,也
负责过业务数仓建设。
• 2015年加入美团,已经7年光景
4. 说说大数据
IDC:存储会以23%的复合增长率增长
信通院:算力未来会以超过50%的复合增长率增长
5. 关于美团数据平台
(来源:美团公开介绍材料)
数据平台美团的基础服务,各个业务有自己的数据团队,
使用数据平台服务。
不同于公有云,数据平台具有服务和治理的双重职责。
外
卖
配
送
酒
店
…
打
车
公共数据
数据平台
快
驴
电
商
优
选
数据平台已经成长为网站运维成本的绝对大头。
集群规模 总数据量 日新增数据量 生产任务量
万级 EB级 PB级 十万级
6. • 美团成本治理全貌
• 统一元数据 - 做好预算和优化的基础
• 预算管理 - 被忽视了的治理环节
• 资源优化 - 成本治理的核心
• 总结及展望
7. 美团成本治理发展历程
集群规模:百级别到千级别
核心问题:如何快速发展
典型特点:
• 数据平台按照过去增量采购机
器,业务无需提报预算。
• 业务没有资源意识,认为集群
资源无限。
• 资源管理相关需求还处在建队
列、加用户的阶段。
集群规模:千级别到万级别
集群规模:万级
核心问题:如何良性发展
核心问题:如何有效的提效降本
典型特点:
典型特点:
• 业务按照自己的需求进行线下提报 • 预算提报系统化,结构化,租户
预算。
化。
• 通过资源隔离,开启资源抢占,账 • 大数据资源优化工作组成立,从公
单等驱动业务形成资源优化意识。
司层面驱动资源效率的治理工作。
• 资源管理需求日益增加,开始对部 • 资源管理常态化,进入全流程产品
分流程进行系统化的尝试和探索。
化提效阶段。
蛮荒期 探索期 成长期
2015年以前 2015-2018年 2018年-至今
8. 美团成本治理全貌
资源管理平台
预算管理
资源
申请
盘点
复盘
机制
预算
交付
调整
监控
资源优化
退回
洛书治理工具箱
计费
分配
建设资源管理平台,提高业务干预资源的效率
合理
使用
优化
治理
治理
生命周期
提效降本
总体成本可控
合理
预算
水
结构化提报
电
流出不合
理使用
(P)
优化目
标
气
(D)
实施治
理
(A)
评估
流程
(C)
跟进效
果
统一元数据
预算Review
结构化
建设预算流程机制并运营,提高
预算合理性
分析
业务元数据(模型、类目)
技术元数据
管理元数据
全链路字段级血缘
通过元数据集成及资产盘点构建资产画像,结构化预算,精细化治理
精细化
提供资源治理工具、方法和驱动
策略,提效治理
9. 统一元数据
10. 统一元数据
通过元数据集成系统、全链路数据追踪系统OneDataTrace构建统一元数据
11. 预算管理
12. 预算管理
预算管理相关的流程及问题
๏ 预算质量参差不齐,资源预估的粒度太粗,可评估性差,不可Review。
๏ 预算阶段bottom-up和top-down断层,信息存在严重gap
方式
一
根据历史资源增长情况做线性或非线性拟合
预估
缺点:跟业务目标无关
无法Review
Top-down
审批
预估
方法
方式
二
方式
三
根据财务指导线拍,在各资源间
分配
缺点:跟业务间接相关,但缺乏
技术判断
根据业务目标增长率,同比预估资源增长率
缺点:资源和业务目标的关系说不清
粒度太粗
缺少信息
不可评估
决策困难、周期长
一刀切
Bottom-up
提报
13. 预算管理
根据元数据信息解构数仓,结构化预算,预算可评估
数据资产盘点而来
业务目标
可优化内容
预算
存量资产
自然增长
新项目
需求
优化方法
计划优化
预期优化资源量
优化计划
需要的支持
14. 预算管理
在整体预算流程和机制上,形成预算申请、合理使用、优化治理、盘点复盘的正向迭代
流程上
良性可迭代机制
预算决策
资源
申请
决策层
为合理性做背书
Review专家小组
盘点复盘
合理
使用
预算Review
优化
治理
结构化提报
业务
盘点
复盘
结构化提报样例
结构化提报
优化治理
效果:每年2~5%的不合理资源需求被优化在采购前
15. 资源优化
16. 资源优化 – 核心问题
资源优化面临的核心问题
核心问
题一
核心问
题二
核心问
题三
哪里可以优化?怎么优化?
涉及的资源有计算、存储,事前、事中、事后
如何高效优化?
分析 – 分配 – 治理 – 效果复盘
如何驱动持续优化?
自驱 -> 他驱
17. 资源优化 – 识别和治理方法
存储资源相关的治理项及治理手段,发现哪儿可以优化并在前中后提供治理能力
治理能力
治理项
๏模型冗余
๏表/分区冗余
๏无效存储
๏生命周期不合理
๏未压缩
๏存储选型不合理
๏无责任人
配置生命周期 生命周期配置
默认ORC格式 温数据
RAID、降幅本
测试表进测试库 禁写 冷数据
S3、蓝光、EC
中间表清理 无用数据
删除
中间表进暂存库
压缩
配额配置
前
中
后
模型
重构
18. 资源优化 – 识别和治理方法
计算资源相关的治理项及治理手段, 发现哪儿可以优化并在前中后提供治理能力
治理能力
治理项
๏高耗资源任务
๏高失败率任务
配置生命周期
小文件检查
๏低利用率任务
๏数据倾斜任务
๏暴力扫描
๏产生大量小文件任务
๏无效任务
倾斜告警
参数优化(手册)
逻辑优化(手册)
倾斜检查 小文件过多告警 扫描检查 查杀 下线
中 后
性能测试
前
19. 资源优化 – 治理工作台
业务治理的流程和参与的角色
20. 资源优化 – 治理工作台
治理产品多视角分析哪里可以治理,可以获得多少收益
๏资源视角:
๏已治理
๏待治理
๏组织视角
๏团队
๏租户
๏个人
21. 资源优化 – 治理工作台
治理负责人通过治理产品分配任务,进入治理流转
治理负责人挑选ROI较高的治理
项创建治理计划,分配治理。
22. 资源优化 – 治理工作台
资产负责人通过治理产品开展具体治理工作
๏治理操作
๏移交
๏删除
๏下线
๏压缩
๏冷存
๏配置生命周期
不同资源问题不同的治理操作
23. 资源优化 – 治理工作台
自动化治理提高常态化治理效率
๏问题:
๏治理不及时、不持续
๏治理负责人工操作成本高
24. 资源优化 – 驱动
如何驱动持续优化?
自驱 横向对比 他驱
业务数据团队 数据公会 资源优化工作组
25. 资源优化 – 驱动
横向对比:数据公会建立事实标准,所有业务拉齐通晒
๏组织团队参赛。
๏季度评比,颁奖。
๏团队根据琅琊榜提示的问题治理。
๏优秀团队分享经验。
26. 资源优化 – 驱动
他驱:资源优化工作组会自顶向下,在更高层面达到共识
数据执行委员会例行会议,由各工作组提出议题并在会议上达成一致。
27. 资源优化 – 效果
效果
日均清理数据量 年优化算力 成本节约
PB级 万核级别 千万级别
28. 总结及展望
29. 总结
๏前言和全貌:
๏预算管理:
๏美团数据平台是私有云、toB模式、体量巨大。 ๏结构化预算提报,预算可评估
๏美团成本治理贯穿了资源全生命周期。 ๏通过Review小组和流程机制,消除业务预算和决策之间的信息差。
๏统一元数据:
๏美团建立完善的全链路血缘、分层、热度等元数据体系。
๏美团通过自动化 + 人工的方式进行资产盘点,正在向常态
化管理演进。
๏资源优化:
๏发现:资源问题识别指标,并建设了前、中、后的检查项和治理手段
๏工具:建立了从分析 – 分配 – 治理 - 效果复盘的全流程产品,提高
业务治理效率。
๏驱动:自驱 -> 他驱;官方组织 + 民间组织的方式驱动优化。
30. 展望
• 开发即治理
• 引擎参数自动化配置
• 基于达成时间的编排调度
• 冷热数据自动分层
31.
32.