字节跳动一站式数据治理架构与实践

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 字节跳动一站式数据治理 架构实践 基于数据驱动的分布式治理 王慧祥 字节跳动全域数据治理负责人
2. 目录 • 机遇与挑战 • 字节数据治理理念 • 分布式数据治理架构及实践 • 数据驱动治理 • 智能化治理探索 • 总结&未来展望
3. 01 机遇与挑战
4. 数据治理挑战 01 02 03 04 治理效益与业务影 响的矛盾 治理涉及的组织和 管理难度大 规范“人”的动 作难度大 缺乏适配性强的 产品工具  业务系统、生产流程改造影 响业务  需求难统一,全局策略难落  保障治理大目标,无法顾及 业务个性需求  ROI 评估:治理收益、时间 周期、业务影响  角色多、范围广、链路长  治理目标对齐、管理、跟进 难度大  组织越复杂,数据治理难度 越大  人员能力参差不齐,对齐目 标和优先级困难  治理操作依靠人,规范对人 的偏差操作容忍度低  组织文化差异,数据治理落 地的方法、挑战、成效各异  现状、问题客观工具缺失  无全局视角工具,直接跳入 治理细节  跨部门、跨系统治理目标对 齐、协商缺乏治理全流程工 具  平台工具不够灵活,只能解 决通用治理问题
5. 字节治理挑战 文化与效率、业务第一 业务要求 多业务齐发展 业务快速发展 快速响应业务需求 敏捷迭代 OKR文化 每个人都可参与规划与策略制定分解 主动寻找实现路径互相对齐 组织快速前进 高效治理 没有集团层面的数据治理委员会 各部门采取自决策自治的数据治理模式 决策与执行效率很高 规模大 业务场景丰富 • 互娱 • 电商 • 商业化 海量数据 数据驱动 资产数据盘点,体系建设 • 资产元数据,特征、标签 • 资源使用,存储、计算 • 工具,操作及收益 经验数据反哺,算法推荐 影响大 业务影响 • 数据延迟 • 质量问题 • 数据生命周期
6. 02 字节治理理念
7. 分布式数据自治 传统式治理 分布式治理 目标一刀切、自上而下、运动式 组织与制度 • 梳理业务与数据部门,设立公司 级别数据治理委员会/部门 职权与管理 • 定期梳理公司数据资产,确保资产 归属与治理权责明确 成果抽查 • 组织定期检查业务治理过程是否符 合制度,定期检查治理结果 目标多元化、灵活自治、常态化 业务影响小 周期短,见效快 效率高,省人力 • 业务自决策,各级业务/个人都可自驱治理 • 工具灵活,业务根据自身发展按需,治理助 力业务发展 • 以业务为目标对齐优先级 • 确认核心数据问题,聚焦投入,非“一刀 切” • 业务内治理目标对齐 • 实施、追踪、核算工具化 • 低门槛与算法推荐:业务自驱分析与诊断, 自驱优化治理 • 产品横向沉淀业务治理经验,治理规则、策 略共享
8. 分布式数据治理平台 业务影响小、治理效率高、适配性强 业务影响小-灵活的自治模式 • 治理是不同业务与阶段的实践,在规范与 组织上应足够灵活,业务可自身发展阶段 制定治理内容,自行对齐与制定部分治理 标准,互相对齐形成自驱组织 • “一个业务单元内的数据有效性提升为数 据治理的范围和目标” 沉淀各业务治理经验,提升治理效率 • 产品辅助业务自驱,沉淀业务经验规则化、策 略化、自动化进行持续的数据治理 • 低门槛与算法推荐:业务自驱进行分析与诊断 能力,算法赋能治理提效 • 提供自上而下的规划式治理和自下而上的响应 式治理 适配性强-产品建设覆盖治理全链路 • 从治理规划到执行诊断与复盘全流程进行治理把 控。集成多种治理场景-稳定性、质量、安全、 成本、报警 • 各模块可独立使用,按需组合,满足不同业务场 景下的数据治理需求 • 产品提供完整的开放能力,业务根据自身特性和 发展阶段进行接入
9. 分布式数据治理平台-逻辑架构 治理用户层 管理角色 治理评估层 健康分体系 存储/计算/质量… SLA大盘 就绪情况/延迟趋势… 资产大盘 数量/资源用量/成本… 报警大盘 趋势/起夜率/根因… 治理方案层 范围域 部门/项目/数据团队/个人 资源组/队列/库 数仓层级/优先级/成本 Top… 目标域 提升健康分 降低存储/计算资源 优化资产数量… 规则域 存储/计算治理规则 质量治理规则 安全治理规则… 消息域 SLA报警 任务运行报警 质量规则报警… 健康分驱动 流程框架层 基础能力层 健康分 规划驱动 确定范围 响应驱动 报警订阅 Metadata仓库 表/任务/报警… 治理推动角色 扣分分析 问题定位 选取规则 设定目标 问题处置 治理规则引擎 统计规则/算法规则 执行诊断 根因登记 治理执行角色 实施治理 消息触达 复盘总结 优化工具集 TTL/温存/申报SLA… 健康分更新 实施治理 进展更新 大盘分析 收益核算 存储量/任务量/vcore…
10. 分布式数据治理平台-核心能力 数据驱动 规划治理 智能推荐 开放能力 资产清晰 • 数据治理的基础 • 对全域数据进行维 度划分、打标及相 关指标计算 规则丰富 • 根据资产特征生成 • 根据资产指标生成 • 根据治理手段生成 动线完整 • 管理者视角 • 推动者视角 • 实施者视角 收益准确 • 评估体系达标 • 成本缩减 • 优化性能
11. 03 分布式数据治理架构及实践
12. 分布式数据治理-体系建设 最小的业 务打扰 资源大盘 治理分析 业务单元内制定目标,配合使用常态化及规划式诊 SLA大盘 报警大盘 断,构建业务自治体系 高效的组 织形式 自定义 规则 业务单 元(划 分资 产) 治理评估 灵活配置推进治理的业务单元,自下而上人人参与数 实时健康分 业务方向 (划分人员) 系统 规则池 治理方案 专项治理 沉淀常态化规则 规则管理 计算/存储健康分 质量健康分 治理效果跟踪 迭代 日常扫描 最高的执 行效率 沉淀专家知识及智能化工具,执行经验的传承与协 同,不断提高自动化水平 治理大盘 业务看板嵌入 温存 参数优化 TTL 关闭任务 业务单元内 专 连续7天 家 知 通知 识 沉 淀 跨业务单元(平台级) 无效资产 低效资产 治理看板/排行榜 合并小文件 原子操作能力 据治理 自定义健康分 删表 消息推送 低ROI资产 自动治理方案 工作台 温存 操作pipeline(自动化) 回收权限 等待7天 删表/任务 通知 物理删除
13. 分布式数据治理-治理动线 自定义治理、常态化治理 推动方案资产干系人治理 制定诊断方案 2 使用规划诊断能力,根据资产 维度、标签、相关指标等信息 圈选数据资产,预设目标,完 成时间创建方案 1 3 通过治理全景、业务目标、数 据运营资产推送信息,发现资 产问题 4 推动者/执行者视角 通过治理操作明细,在治理过 程中管控治理进度,并根据阶 段性目标校准治理策略(激进 OR稳妥) 使用平台工具,如TTL调整、 删表、转温存、参数优化、任 务下线等手段,实施治理操作 5 方案完结后,核对收益是否符 合预期,评估治理工作,并复 盘治理问题 实施者视角
14. 分布式数据治理-推动者动线 业务目标 N 治理 新方向 资产大盘 治理全景 常态化治理跟踪 Y 日常观测 规 N 则 沉 淀 分析诊断 制定策略 规则/元数据管理 圈选资产设定周期 诊断方案 跟踪治理效果 调整规则 Y
15. 分布式数据治理-实施者动线 治理操作入口 数据运营推送 个人工作台 成本优化 个人健康分 诊断明细 SLA治理 • 设置表TTL • 手动调整参数 • 删表 • 补充元信息 治理效果跟踪 资产状态Review 治理工具 治理手段 • 下线任务 查看操作明细 • 低热度表转温存 • 降副本 • 小文件合并 • 引擎工具任务 参数优化
16. 分布式数据治理-创建方案&目标 资产A 命中操作1: 预计收益a 命中操作2: 预计收益b 预估收益有多少? 资产B 命中操作1: 预计收益c 命中操作2: 预计收益d max(a, b) 资产A预计收益a sum(a,b) max(c, d) 规则总收益 资产B预计收益d 目标如何设置? 命中规则x,y操作1: 预计收益a 治理ROI如何? 资产A 资产B 命中规则x的操作2: 预计收益 b 命中规则z的操作3: 预计收益 c max(a,b,c) 命中规则y的操作1: 预计收益 e max(e,f) 命中规则z的操作3: 预计收益f 目标配置提效 资产C 命中规则x的操作1: 预计收益 g 命中规则y,z的操作4: 预计收 益h max(g,h) 预计收益c 预计收益e 预计收益g sum(c,e,g) 规则总收益
17. 分布式数据治理-治理实施&操作 80+ 集中式:平台集中建设规则数据及治理手段 • • 研发人力投入成本高 很难匹配所有业务的需求 开放能力建设 默认规则 存储、计算、质量、安全 治理场景 自定义元数据、规则逻辑 分布式:数据开放、规则开放、治理操作开放 • • • 满足个性化诊断治理需求 规则迭代稳定后沉淀到平台,实现共赢 操作开放,业务自定义组合pipeline,满足精细化治理 个性化需求 自助接入方法、灵活定义参数 精细化治理
18. 分布式数据治理-治理实施&操作(开放性建设) 治理产品模块 工作台 治理全景 规划诊断 健康分体系 治理数据 规则库 事前检测规则 事后治理规则 事中监控规则 系统规则、自定义规则 元数据管理 开放插件集成 开放接口/数据 治理主数据管理 元数据接入 (健康分、治理收益、诊断明细) 方案配置 (增删改) 治理操作 规则配置 (增删改) 系统数仓 离线 实时 业务 自定义元数据 元数据配置 (增删改)
19. 分布式数据治理-收益统计&结果验收 数仓离线APP层 数据平台治理 收益数据自动化收集 明细埋点 操作事件 前端上报 结果(评估/收益)标准化: • 内存节约量/利用率 • CPU节约量/利用率 • 产出小文件数量 • … 存储 • 节约物理存储量 质量&安全: • 质量监控治理数 • 安全风险处置数 生命周期 存储资产域 … 小文件合并 计算资产域 Topic 事件中心 API Server 操作实时同步模块 删表 生命周期 操作来源 收益离线更新模块 计算收益元数据 来源明细埋点模块 治理场景 旁路打标 计算 参数优化 格式转换(统一化表达) 关联操作 任务关闭 操作明细 存储收益元数据 收益明细 思路:操作实时同步、收益离线更新、埋点旁路打标 扩展元数据 基础 元数 据
20. 分布式数据治理-平台架构 资产大盘 治理评估 数据查询服务 治理方案 元数据注册 规则配置 规则解析 规则调度 DQL Parser 事件中心 操作收集 Source Adaptor CH Adaptor Hive Adaptor 收益收集 ETL 离线同步 收益进展 开 放 规 则 结果汇总 收益同步 ClickHouse Message Queue 心跳\状态上报 Task Executor 结果返回 治理工具箱 参数优化 生命周期配置 操作 小文件合并 … 删表 业 务 数 据 HIVE 状 态 管 理 Task Generator Mysql 提交 目标管理 旁 路 打 标 存储介质 治理工具 结果衡量 资产诊断服务 业务单元配置 规则管理服务 Analyze Engine Mysql Adaptor 诊断明细 HDFS|HMS|YARN|离线调度系统|SPARK|FLINK
21. 04 数据驱动治理
22. 数据驱动治理 如何高效定位资产问题 资产 体系 盘点资产数据,构建完备的元数据组织方式, 通过特征、标签描述元数据,根据不同场景设计治理策略(存储、计算等) 01 评估 体系 如何高优治理业务资产数据 构建全公司的治理评估体系,提炼核心资产问题项 通过对资产打标,可快速定位高优待治理资产 如何快速完成资产治理 挖掘、沉淀并复用治理经验 通过往期治理经验,并对行为埋点数据分析,智能推荐治理目标 04 02 经验 复用 03 规则 体系 数据驱动闭环
23. 整体数据架构 分布式治理平台 数据地图平台 治理POC 数据运营 CN VA SG 私有化 公有云 SLA保障 特征 标签 治理规则 健康分 目标推荐 权限控制 分层体系 数据域 模型设计 APP DM DWM DWD D I M 报 警 域 任 务 域 权 限 域 流 量 域 质 量 域 成 本 域 资 产 域 治 理 域 查 询 域 Oncall答疑 ODS 离线调度系统 质量保障 数据管理系统 HMS HDFS Yarn/Spark 任务运维
24. 数据驱动-资产体系建设 治理全景 01. 数据分析与展示能力,解释性强,功能丰富 大盘、趋势、明细 元数据仓库 维度划分 9大数据主题域 团队、项目、 资源组 数据采集 02. 根据数据特征划分不同主题域,提供稳定可靠 的维度、指标等 03. 全链路保障数据采集,做到数据无丢失、可监 控、质量稳定 04. 从源头对资产数据打标,血缘脉络清晰,可追 踪、可优化 业务DB、消息队列、数据推送、数据拉取 组件与平台 存储(HDFS|HIVE)、调度(YARN|SPARK|FLINK)、平台(质量监控|研发)
25. 数据驱动-评估体系建设 从完备的数据域建立资产评估体系,将资产问题具像化,并提炼高优问题项 根据资产类型进行分数加权计算,形成健康分,在公司层面达成共识,进行推广运行 TTL不合理 存储 无效存储 数据无查询 小文件数过多 存储格式不合理 异常存储 全局视角 整体评估 单指标分数 团队视角 个人视角 趋势曲线 资产问题数 治理成效 资源消耗 无效计算 计算 数据倾斜 低优任务调度在高优队列 数据及时性 数据内容质量 质量 诊 断 连续失败 资源申请不合理 异常计算 催 办 成员排名 成本收益 同环比值 产出表无热度 资产 评估 体系 多维分析 产出表为空 监控告警 任务稳定性 元信息完整性 SLA buffer不足 核心任务缺失质量监控 质量监控不达标 核心任务缺失告警配置 非核心任务配置夜间值班计划 高优任务运行在低优队列 层级信息缺失 描述或中文名缺失
26. 数据驱动-规则体系建设 • 完备的治理规则能力 • 存储、计算、质量、报警4大维度(80+) • 全局规则 & 自定义规则 1 2 3 数据模型 规则体系 资产圈选 • 数据建设 • 分析挖掘 • 规则建模 • • • • 存储规则 计算规则 质量规则 报警规则 • 资产维度 • 特征细节 • 指标范围  生命周期永久 /近7天产出为空 / 暴力扫 描任务  生命周期xxx天 / 近xxx天产出为空 • 统计类规则 & 挖掘类规则  近90天无访问表 / 数据倾斜任务  相似库表 / 相似任务 • 根据规则圈选资产范围 • 用户自定义规则
27. 数据驱动-智能提效 TTL推荐 合理设置表生命周期 阶梯分层推荐TTL • 访问热度 • 表分层 • ODS • DWD • 表类型 • 全量表 • 增量表 温存推荐 减少存储层压力 通过打分机制推荐 • 访问得分 • 访问周期 • 访问次数 • 总文件大小得分 • 目录总大小 • 文件平均大小 • 元数据平台目录得分 • 基础库,核心目录减少进入温存 得分 • 跨机房访问状况,越频繁使用, 越不应导入温存 治理目标推荐 精细化推进资产治理 根据治理经验数据预测治理收益 • 单资产多操作收益预估 • Max(O1,O2) • 多规则的目标计算 • Max(R1,R2,R3) • 考虑治理整体完成度,初步将总目标值 计算最后 * 40%
28. 05 智能化治理探索
29. 思考:数据治理智能化 操作简易 集成化、结果可度量、效果好 解决 业务痛点 强化治理能力 数据支撑 多服务、多引擎、海量数据 助力降本增效 算法引擎 规则库、经验分析、自主纠错
30. 智能化治理实践-基于血缘和热度的推荐 热度数据作为判断数据访问 情况的有效输入,其数据的 精细化可以为更为细致、激 进的治理提供数据支撑。 数据维度广,完善度 高,来源可覆盖全公司 处理流程统一,可明确 访问次数概念 最终结果可衡量,有效 提升业务治理效率 血缘 数据 查询 埋点 数据 Yarn Application join by app id Query Service 离线任务 离线任务 执行实例 终端服务 join by task id join by instance id join by service token join by query id combine log Engine log HDFS audit log combine log agg join by table spark/hive、presto 存储 埋点 数据 agg by table agg by table HDFS audit log agg uniq query stat
31. 智能化治理实践-任务参数自动优化 根据作业的特点,自动推荐 最合适的参数 Spark Engine:  shuffle 溢写分裂  shuffle 分级限流  oom 自适应  blacklist 功能优化 数据源 Application Aggregaton Application Aggregaton 作业优化设置 Rule Engine:  资源优化规则  Shuffle优化规则  任务读写优化规则 作业元信息设置 AppState 引擎规则 AppState 规则引擎 引擎API层 报警信息 报警信息 推荐参数预览 告警管理 收益统计 调参设置 作业指标 健康分 pyspark spark jar spark sql 治理平台
32. 智能化治理实践-其他算法探索
33. 06 总结
34. 总结 分布式治理 闭环链路 平台功能 数据赋能 资产清晰 高效治理 高度灵活治理 低业务影响 规则丰富 动线完成 收益明确 治理分析 治理目标 治理方案 治理实施 治理收益 治理全景 绝对值 规划诊断 通知催办 数据收集 健康分 分数值 治理周期 进度跟进 收益归属 治理大盘 目标推荐 操作动作 收益计算 数据资产体系建设 治理评估体系建设 治理规则体系建设 元数据采集 模型建设 数据挖掘 智能化策略沉淀 特征构建 治 理 推 动 者 治 理 实 施 者
35. 07 未来展望
36. 未来展望 行业模版沉淀  行业模版 电商、互娱治理模版  治理流程 治理驾驶舱、治理运营、 治理策略  治理能力原子化 行业治理规则、治理操作 原子 能力 流程 行业模 版 开放生态打造 大模型能力赋能  接入 - 元数据 - 规则 - 收益  配置 治理 建议 - 数据团队 - 资产范围 - 运营流程  接出 - 治理方案 - 治理收益 - 治理操作 API Data 元数据沉淀 UI 模型能力建设 一键 治理 •丰富 •准确 •总结&推断 •SFT 自动 治理
37. 关于我们 进入火山引擎DataLeap官网 进入官方交流群 了解更多产品信息 获取更多技术干货、活动信息
38.

Home - Wiki
Copyright © 2011-2024 iteam. Current version is 2.139.0. UTC+08:00, 2024-12-22 13:41
浙ICP备14020137号-1 $Map of visitor$