蚂蚁金服数据成本治理实践

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 蚂蚁数据成本治理实践 数据产品与技术部 - 阮宏博
2.
3. 自我介绍 阮宏博 tang.006@outlook.com • 多年在大数据领域的开发和数据架构经验,参与和主导 过多个行业的数据架构和数据体系建设 • 当前负责蚂蚁金服数据成本治理业务,同时负责建设统 一的数据资产治理平台
4. 目录 1)背景介绍 2)组织设计和职责定义 3)蚂蚁成本治理实践
5. 为什么要做数据成本治理 增速难衡量 效率难看清 资源增速快,会稀释业务 的盈利能力 从平台视角, 看不清各业 务使用资源效率 单靠引擎和硬件的红利已 经难以满足业务的需求 从业务视角, 觉得平台效 率看不清 成本 价值
6. 组织设计和职责定义 通过合理的组织架构,以及清晰的职责定义,可以帮助治理快速落地, 且达成目标
7. 组织视角的成本体系和职责定义 蚂蚁技术战略 数据智能架构委员会 各业务CTOs 蚂蚁数据工作组 蚂蚁全域架构组 数据成本治理小组 业务体系 职责:接受各业务数据工作组的指导,完成本业务线内的成本预算目标设定、成本治理目标达成,并与产品能力小组配合,迭代成本治理能力 支付宝业务 数据智能业务 数字金融业务 安全业务 国际业务 数字科技业务 ...... 平台体系 定价体系建设  对客定价设计和测算  资源成本体系监控  持续优化单价 标准和制度建设  制定统一的标准和规则  达成共识的目标 用量体系建设  资源用量账单建设  治理策略挖掘和方案设计  提升业务治理和管理的效率
8. 财务视角的成本体系和职责定义 硬件选型,定制加速卡,自研硬件...... 硬件 SRE + 基础资源团队 + 数据软件团队 可承载 利用统一调度和容器技术来实现池化资源 容器 池化资源 定价 售卖 集群 提升流转效率,无用资源及时归还容器,降低无效持有 已持有 实际 定价 业务团队 + 平台治理团队 售卖 通过需求错峰和分时,来提升配额的利用率 已分配 实际 使用 管理和评估需求的合理性,平台提升用量的治理效率
9. 成本治理实践 从定价用量管理、单价治理、用量治理、以及平台能力四个维度分别阐述 我们在蚂蚁的成本治理实践
10. 整体技术架构 控制成本的增速,确保健康有序发展,提升资源的密度,看清成本的构成 业务用量管治 组织保障 制度规约 支付宝业务 定价和用量 设计 健康分规范 数据智能业务 金融业务 大安全业务 国际业务 数字科技业务 ...... 平台用量管治 财务成本账单 事前事中资源管理 BU账单 大任务自动查杀 项目/团队账单 运维补数据管控 个人账单 成本发布管控 成本运营 培训分享, 最佳实践 链路下线 健康分和治理策略挖掘 自动重排和归档 冷数据重排 提升治理资产覆盖率和治理效率 将策略覆盖到事前事中 表级别自动归档 ...... 单价治理 网络削峰优化 计算资源错峰调度 跨集群缓存 配额分时 任务延迟起调 闲时补数据 基于时效承诺,自动的对计算资源池,任务 起调时间进行统筹规划,从而实现CPU全天 资源的利用率最大化,以及提升 网络限流 架构分拆和迁移 其他资源优化 通过尽可能的数据本地化存算以及 一定程度的网络限流来降低网络成 本 回收站治理 系统账号治理 tunnel上传下载 非法传参治理治理 系统错误治理 ...... 基础设施和引擎优化降本 算力混部 自建网络 硬件选型 热冷分级存储 SSD 缓存提升I/O 短查询加速 ......
11. 单价和用量 目标:  平台产品化计量计费,使用方看得清使用成本  建立数据资源的效率评估体系,推进效能整体可衡量 单价 用量 (效率) (需求) 存储 资源成本 存储 计算 网络 软件 运维 表存 储 其他 可 管理 其他成本 第三 方 成本 其他 回收 站 其他 可 度量 计算 业务 消耗 系统 消耗 基于计量计费体系,向用户透明化 计算/存储使用量及成本; 其他 建立P&L管理 定义关键指标,包括成本指标&效 率指标;
12. 资源现状
13. 单价治理—— 提升配额的利用率,降低单价 结合时效承诺,寻找资源的瓶颈,通过适当的价格引导和技术能力,来提升资源的利用率 CPU 内存 网络 日均利用率% 日均利用率% 日均利用率% 峰值利用率% 峰值利用率% 峰值利用率% I/O吞吐能力能力(峰值排队率,日均排队率) 存储资源 利用率%
14. 存储/计算用量治理—— 管治结合 数据治理策略 成本管控 存储治理 计算治理 其他优化 运维成本管控 暴力扫描 数据裁剪 数据倾斜 事中成本发布管控 渐进计算 DynamicFilter reduce倾斜 Map Join 分区裁剪 Cluster Zorder join倾斜 低性能函数 group倾斜 函数替换 事中大任务自动查杀 业务裁剪 事前任务运行成本预估 增量化改造 map倾斜 资产退役 存储生命周期缩短 无效任务和表下线 大字段结构化 无效报表下线 简单加工 无效标签下线 重复数据表 无效回流下线 参数不合理 事前 事中 事后 制定规范,建立标准 落实管理 持续优化,需求审计
15. 平台治理提效 (成本健康分) 1 2 基于累计浪费和时间加成,升级成本健康分算法 �( 个人健康分 = �( �统计当天 全面性 治理项每日实际浪费 ) 发现日期 统计当天 풎� ( 发现日期 通过产品和技术能力,提升用户治理体验 可量化治理项 治理项上游每日实际浪费,时间加成 ) 不可量化治理项 全天候 设计理念:基于累积浪费和时间加成,越久治理,扣分越多 准确性 计算健康分 存储健康分 无访问表 无访问报表 无访问标签 产出无访问任务 连续出错任务 生命周期不合理 暴力扫描 Top计算 重排 简单加工 无效生产query 参数不合理 ....... 3 标准函数替代 首创基于增量的离在线更新的架构, 平台实 现7*24业务可用 整合调度频率的废弃表和无效任务识别 整合调度频率和访问跨度的生命周期推荐 基于配置化 + 全资产的架构,未来可以快速 健壮性 的集成其他不同类型资产融入健康分,同时也 可以集成更多特色的处置能力 及时性 HashTable优化 覆盖N个核心研发平台,可快速集成管控能力 部分策略实现实时健康分刷新 …… 统一治理基准 【基于成本目标,设定健康分85分及格线(即每人最多允许累计浪费存储XTB(x元)或计算xCU(x元))】
16. 平台治理提效 (事中和事前的成本管理能力) 事中大任务查杀(避免随意大任务提交)  从原来的随意提交,演进到事中的管理和治理模式,禁止随意提交超大任务导致整个资源池的堵塞和打满,进而造成高昂的成本消耗,同时也兼顾效率,仅对异常使用进行管治。 任务运行超配额 实时资源巡检 任务运行超时 特殊任务 白名单开放 任务运行占比过高 事前和事后的成本审计(预测未来一年成本消耗, 在事前做到需求合理性评估)  新上线资产在3天内,预测未来一年后表和任务的成本消耗,从而实现,在成本发生的第一时刻就立即对成本消耗异常的任务进行评估  存量历史资产,定期只对TOP的进行review持续追踪和评估成本消耗的合理性,从而推动优化和体系升级  补数据事前评估,通过本次补数据预估成本消耗,从而推动代码优化和需求ROI的评估
17. 如果比作今天的大数据,我们希望数据变的更加普惠,更加经济 让人人用得起,让人人用的爽
18.
19.

ホーム - Wiki
Copyright © 2011-2024 iteam. Current version is 2.137.1. UTC+08:00, 2024-11-15 10:01
浙ICP备14020137号-1 $お客様$