贝壳数据治理实践

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1.
2. 01 数据治理背景 02 数据存储治理 03 数据算力治理 04 数据质量治理 05 数据指标治理 06 数据安全治理
3. 数据治理背景
4. 数据治理背景 01 数据治理定义 数据治理是一种数据管理概念,从数据全链路的视角出发,采用多种手段 从多维度对数据进行治理,从而提供高质量的数据,打造健康的数据治理 体系。 02 治理背景 各模块规范性差、模块之间沟通有问题、数据增长迅速,对存储和算力消 耗很多、数据质量差、延迟高、口径不统一,准确性无法保证 03 治理范围 数据全链路,包括数据接入、数据平台产品、底层架构、数据仓库,数据 可视化平台,指标口径等
5. 数据治理背景 标准 算力 治理 流程 指标 治理 治理 维度 存储 治理 质量 治理 治理 手段 组织 技术 评估 安全 治理 运营
6. 存储治理
7. 存储治理 - 现状及背景 需求背景 1、数据增长速度加快,造成存储消耗成本成倍增加。 2、数据增长不可控,导致年度预算及存储无法稳定。 3、数据价值不可衡量,导致无法决策交付。 4、存储资源的浪费,导致集群成本增加。 必要性&价值 1、建立数据增长预测及评估体系,实现数据增长可洞察 2、建立数据长效及应急治理体系,实现数据增长可控制 3、建立数据价值评估体系,实现资产价值可衡量 4、建立压缩及低成本存储架构体系,降低整体存储成本
8. 存储治理 - 目标 01 数据增长可控制 建立数据增长预测、评估及监控体系,通过生 命周期管理及规则治理实现数据存储治理自动 化,针对异常增长实行专项或应急举措治理。 03 02 03 数据价值可衡量 存储成本可降低 通过资产盘点实现数据应用业务及服务划分,建立 数据价值评估体系,针对不同价值数据进行分类存 储保障及治理,并按照数据应用业务划分建立存储 成本分摊机制 根据数据价值及数据利用率建立数据周期性压 缩机制,减少数据存储。通过调整冷数据存储 介质减少机器成本。
9. 存储治理 - 解决方案 运动式治理 自动化治理 智能化治理
10. 存储治理 – 全链路治理手段 数据登记 数据生产及采集上报 数据采集 数据处理 数据输出 罗盘 终端上报 DP 离线接入 数据仓库 数据应用 无效埋点 业务埋点 埋点过滤 生命周期平台 重复埋点 推荐埋点 PID合并 数据价值评估 测试埋点 搜索埋点 维度合并 数据资产目录盘点 错误埋点 DSP埋点 长度优化 归档迁移 EC、压缩存储 低价值应用治理 低价值埋点 服务埋点 无效来源 全量改增量 层级改造 API合理性 实时接入 无效模型治理 看板合理性 模型合理性 指标合理性 无应用治理 项目合理性 业务系统 DataBus 测试数据 异常增长检测 业务重复校验 无效数据 小文件合并
11. 存储治理 - 生命周期管理 现状分析与维度梳理 数据生命周期配置与确认 效果周知与反馈 单表配置流程 新建表 强制配置 已有表 单配置 配置生命周期 配置确认周期 配置排除分区 选择生命周期标签 自动清理 自动清理 批量表配置流程 批量表 维度管理 表集管理 规则配置 确认流程 成本周知 效果回收
12. 存储治理 - 数据资产目录 业务标准 部门 业务 服务 服务标准 部门 业务服务标准 平台 服务 数据血缘 业务及服务标准 部门 大数据 分类 标签 资产目录
13. 存储治理 - 数据价值评估 场景 识别引擎 1. 进入 2.1 形成 基于经验规则 l l l l 应用 存储 模型 质量 数据应用 数据价值 成功 失败 2.2 进入计算模型 3 形成 计算模型 l l l l 高价值 中价值 低价值 无价值 l l l l 数据治理 数据存储 数据质量 数据安全
14. 算力治理
15. 算力治理-问题分析 • • • • • • • • • 存量任务数量多、增长快,平台上有大量异常(或无效) 任务 新增任务无“查重”检测机制,平台存在冗余或相似任务 存在没人使用(无价值)的任务,长期空跑 平台缺乏任务治理产品 数据倾斜等慢任务,缺乏诊断工具,优化工具 计算引擎以MR/Tez为主,Spark引擎使用占比不足5%, 算力利用效率不高 缺少算力量化指标,任务价值量化 算力使用粗放,资源成本意识弱 算力使用需要精细化运营 专项一:提高有效算力占比 ① 获取无效任务(异常、冗余) ② 建立治理规则引擎 ③ 效果评估 ④ 建立“识别-治理-分析”闭环产品 专项二:提升平台计算资源利用效率 ① Hive->Spark迁移工程 ② hive优化诊断工具 ③ 任务分发 ④ 在离线混合部署 专项三:建立算力增长可控体系 ① 算力量化、任务价值量化 ② 治理效果评估 ③ 算力/任务 健康度监测 ④ 算力管理、资源拆分
16. 算力治理-整体架构 提 升 有 效 算 例 占 比 用户 问题任务优化 报警推送系统 核心任务保障 任务白名单 报警推送 算力健康度监控看板 相似任务合并 功能 调度 功能 工具 提 高 算 力 能 效 重复计算缓存 无效任务下线 问题任务识别 重复计算识别 单任务诊断工具 集群 算力采集 计算引擎升级 算力量化 tez 任务价值量化 相似任务识别 调度策略编排 链路任务诊断工具 支撑 底层 功能 核心任务保障 任务日志 收集 spark 任务日志 解析 数据 来源 在离线服务混部 API 数据地图 奥丁 …… 在离线物理 集群划分 分时错峰复 用资源
17. 算力治理-任务治理流程 数据平台 l l l l l l l 日志 数仓 集市 业务 指标 交换 Odin 识别引擎 治理策略引擎 收益模型 (留下有效算力) (治理无效算力) (量化治理效果) 1. 进入 2.1 判定 规则库 失败 l l l l 成功 2.2 进入计算模型 3 判定 识别模型 下线 修复 优化 合并 6.3 迭代 5 反馈 6.2 迭代 治理闭环 价值挖掘 完善治理体系 信息采集 业务价值数据 收集 任务治理规则 库沉淀 模型治理规则 库挖掘 价值量化模型 规则库迭代 识别模型:相似 模型、价值量化 模型 治理策略引擎: 优化、合并策略 开发 收益模型(量化 平台/团队/用户 治理效果) 用户参与/反馈 机制 用户参与 规则、模型评测 平台量化分析 规则、计算模型 效果评测 价值分、健康分 l 用户 l 团队 l 平台 (治理率、算力收益、 健康分、价值分、等 效成本) (价值分、相似度) 6.1 迭代 算力量化 4 量化 治理闭环系统 (反馈机制) 核心举措 P1 任务价值量化 P2 完善治理闭环 P3 冗余计算消除 P4 相似模型合并
18. 算力治理:HiveSQL向SparkSQL迁移
19. 算力治理:Hive优化诊断工具 Loading Data 耗时异常 File Merge 耗时异常 输入 超时任务ID 通过调度日志 获取任务 Application id 通过Tez ui接口获 取DAG列表等相 关信息 Map 端数据倾斜 Reduce 端数据倾斜 切片耗时异常 重复使用大表 根 据 问 题 类 型 选 择 优 化 策 略
20. 算力治理:在离线混部
21. 算力治理-建立算力增长可控体系 1、全局视角:算力使用现状是否健康? 2、什么时候 该增加机器? 说不清! 3、增加多少机器? 算力增长可控的四个阶段: L0-自然增长:无治理,算力不可量化 L1-初步可控:任务消耗算力可采集量化,实现治理产品闭环,算力成本可分摊(当前阶段) L2-中等可控:算力增长趋势可预估,算力价值可量化,计算效率大幅提升,算力扩容流程产品化 L3-完全可控:算力分配实现自动化弹性伸缩,任务的智能诊断与优化
22. 算力治理-健康度监测
23. 质量治理
24. 质量治理-整体架构 标准 流程 数据标准定义 数据标准落地 系统稳定性标准 标准版本管理 故障定级标准设定 产品 系统/数仓 组织 数据监控流程 质量值班流程 数据/产品问题 故障组 数据治理组 业务方 运营 评估 故障定责机制 质量红黑榜 智能分析服务(IDAS) 质量产品触达用户 提高使用率 数据小帮手 大数据平台产研 反馈、收集、跟进 数据质量管理平台(DQMT) 问题分析工具 大数据委员会 上线、迭代、测试SOP 提升数据质量意识 质量分模型 故障发生率 系统稳定 项目质量 用户满意度 质量治理全局效果检测
25. 质量治理-质量管理平台 数据质量管理平台(DQMT) 事中监控 事前排查 知识沉淀 解 决 方 案 核心功能 问题跟进 事后分析 隐患排查 实时 监控报警 易用 质量透明度 质量分析 质量日报 监控大盘 智能 功能触达 异常定位 质量感知 问题下钻
26. 质量治理-隐患排查 数仓类变更 依赖变更/上下线 隐患定位 架构类变更 重大变更流程/评审/通知 影响程度 平台类变更 系统稳定性指标监控 定时报警 全平台系统变更 覆盖数据生产全场景 隐患排查更实时
27. 质量治理-监控报警 任务状态 智能基线算法 基线开始时间 + 未开始 基线结束时间 + 未完成 基线运行耗时 + 已开始 多场景多频次 ◆ 小时级监控 ◆ 天级别监控 ◆ 阶段性趋势 & 多种监控策略 ◆ 超失败次数监控 ◆ 超基线buffer监控 ◆ 运行时间异常监控 报警信息 监控系统 监控系统 监控系统 超基线未开始 预估延迟时间 运行耗时异常 异常及时暴露 问题及时定位 累计趋势跟踪
28. 质量治理-质量分析 项目数据质量报告 产出时间延迟分析 系统优化 模型合理性+历史运行状况诊断: 1. 关键延迟链路,次要延迟链路 • 实际案例收集 • 模型跨层依赖 2. 各节点延迟贡献度 • 链路长度过长 3. 各类原因造成延迟度 • 解决方案沉淀 • 上游单节点耗时过长 • 新增较晚节点 • 链路空闲时间(时间触发/分发等待) • 上游节点耗时异常/失败重试 • 优化值班流程 ··· ··· • 时间触发/等待时长 • 完善产品功能
29. 质量治理-质量透明度 质量日报 监控大盘 零散报警 监控任务多 平台数据质量整体感知 项目整体质量无感知 报警洪流 质量问题逐层下钻 · 定位跟踪 早报:今日项目产出是否异常,异常点定位 项目延迟 率 晚报:全链路修改是否对次日产出有影响 调度系统 databus 耗时异常 率 DP 项目延迟 度 kylin 项目质量问题统一定位汇总 对于项目全链路修改,统一暴露次日问题隐患 变更隐患 率 异常波动 率 hadoop 指标平台 druid
30. 指标治理
31. 指标治理-背景 体系化治理
32. 指标治理-整体框架 业务口径统一 流程规范 约束 实现成本控制 保障数据质量 可视化 监控 奥丁 认证 打标 外部系统 悬浮 窗口 监控系统 页面 通告 服务层 口径变更流程 一站式指标开发平台 逻辑变更流程 指标模型变更 约束 服务层 业务字典 指标加工 指标API 标准规范开发 管理效率提升 一致性 准确性 链路归因 波动监测 环比 同比 动态阈值 固定值 自定义范围 业务归因 指标查询 监控 指标认证 指标注册 监控大盘 存储层 Kylin Kafka Doris Mysql 产品&流程 技术层 数仓模型变更 数据回刷流程 分析报告 Druid 贡献度算法 皮尔森相关性系数 prophet Isolation forest 隐患检测 预警 指标下线流程 react 约束 数据仓库 业务方 大数据平台 监控 数据治理组 springboot mybati s 大数据委员会 组织结构
33. 指标治理-一站式指标平台 1 开发流程 线上化 Ø 数仓规划 Ø 数仓建模 Ø 指标定义 Ø Cube建模 Ø 指标加工配置 3 2 注册认证 线上化 Ø 注册配置 Ø 认证流程 Ø 指标发布审核流程 生命周期 管理线上化 Ø 模型生命周期 Ø Cube生命周期 Ø 指标生命周期 Ø 认证生命周期 5 4 指标订阅 变更通知 Ø 口径变更通知 Ø 开发逻辑变更通知 Ø 检测链路变更通知
34. 指标治理-一站式指标平台 奥丁可视化分析 梅林、图灵、CA看板等数据产品 restful api 指标API 指标定义与管理 指标查询 指标缓存 …… Cube管理 指标平台 统一查询接口 查询转换 查询路由 …… 查询缓存 熔断降级 查询引擎(Query Engine) Apache Kylin Apache Druid OLAP引擎 HDFS/Hive Clickhouse Apache Doris
35. 指标治理-监控平台
36. 指标治理-准确性监控框架 用户展示 后端服务 前端:生成异常波动分析报告 报警推送 指标异常监测+基础规则监控 (自定义策略/智能异常检测算法 ) 链路归因 调度任务 Task 结果记录 库 Task 业务归因 (指标拆解、维度拆解) Task 结果记录 库 指标api 数据源 HIVE 元数据 转为统一数据格式 数据获取 自定义SQL 结果记录 库 KYLIN DRUID ODIN接口
37. 指标治理-一致性监控框架 自 动 化 监 控 | 指 标 全 链 路 自 定 义 监 控 指标名称一致性判别 指标口径一致性判别 指标数值一致性判别 复合 公式 词库构建 指标分词 同义词匹配 相似度计算 自定义配置监控规则:数据关系、 业务规则等 数据 关系 趋势 相关 数量 级 其他 倍数 定时监控 发送一致性监控报告
38. 安全治理
39. 安全治理-安全架构 安全 治理 大数据安全专项 数据安全管 理制度 大数据安全 操作规范 数据权限 评审收敛 数据加密 方式升级 数据外发 权限管理 异常行为 审计 数据落地 可追溯
40. 安全治理-安全操作规范 数据 产生 资产明确、安全定级、数据脱敏 数据 存储 严禁 C3 、 C4 级敏感数据明文落地存储 数据 使用 审批前置、最少必要、最小期限、数据脱敏、 用户授权。
41. 安全治理-动态加解密 敏感 数据 地图 提高敏感数据识别准确率,建设隐私数据明文 扫描与校准能力 KMS 密钥 托管 对密钥的生命周期进行管理,提供统一的使用 接口,并实现权限管控、审计追溯等能力 数据 加密 1. 对称加密:下游解密出明文使用,动态 2. 哈希加密:检索、关联匹配使用,固定 数据 脱敏 大数据脱敏能力的建设与运营覆盖手机号、身 份证号、银行卡号、地址、邮箱五类隐私数据 脱敏能力。
42. 安全治理-敏感数据处理服务 UDF 建设 提供加密 / 解密 / 检索 / 转换 / 脱敏等多种敏感数据 处理函数,方便用户使用 权限 管控 对密钥的生命周期进行管理,提供统一的使用 接口,并实现权限管控、审计追溯等能力 多种 输出 方式 1. 对称加密:下游解密出明文使用,动态 2. 哈希加密:检索、关联匹配使用,固定
43. 安全治理-安全审计 DLP 部署 审计 平台 平台职能和城市职能运营人员终端部署数据泄 露防护产品 大数据用户行为日志接入安全审计系统 01 周期批量下载数 据 02 异常时间下载数 据 03 直接使用敏感 明文数据 04 敏感数据明文 落地 05 与职位权限不 符
44. 价值观 u责任心强 u对结果负责
45.

首页 - Wiki
Copyright © 2011-2024 iteam. Current version is 2.123.1. UTC+08:00, 2024-03-29 19:42
浙ICP备14020137号-1 $访客地图$