数仓标准化之指标系统建设和实战

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 数仓标准化之指标系统 建设与应用实践 张国鹏 | 机票目的地事业群/技术运营中心/数据平台 王俊答 | 机票目的地事业群/服务/数据开发
2. 个人介绍 2020年加入去哪儿,主要进行数据治理相关工 作,推进数据标准化建设。负责一些标准化系 统的开发。目前致力于建设一套完整的数据治 张国鹏 理体系,管理好公司数据资产,提升数据价值 。
3. 目 录 CONTENTS 01 02 03 04 系统建设 应用与实践 未来规划 背景介绍
4. 背景介绍
5. 数据平台整体架构 酒店报价 酒店营销 会员权益 代理商数据平台 机票辅营 信息流推荐 API CDP 业务应用 数据应用 BI 数据标准 数据开发 数据仓库 数据治理 离线数仓 数据质量 实时数仓 数据同步 调度系统 基础平台 数据资产 Hive Trino Flink 开发平台 数据安全 Hadoop Hbase Kafka 埋点系统
6. 业务背景 机票 机票数仓 机票调度 决策系统 酒店数仓 酒店调度 BI系统 服务数仓 宙斯调度 达芬奇系统 市场数仓 marmot调 度 marmot系 统 酒店 火车票 机票比价 门票 度假 …… 业务发展 数据分析
7. 痛点问题 角色 问题 分析 运营 看数系统多,数据对不上,对结果不信任 数据质量差 指标重名口径不一致,业务含义不明确 规范不统一 核心指标变化,定位原因耗时,多维分析复杂 血缘缺失 重复需求,烟囱开发,效率低,质量差 建设方法不合理 产品 主管 研发
8. 解决思路:数据标准化 数据标准化:指研究、制定和推广应用 统一的数据分类分级、记录格式及转换 ,编码等技术标准的过程; 数据标准 制定统一的数据标准 数据 标准化 规范产研开发流程 + 流程和制度 技术和工具 技术/工具化落地、管控
9. 指标系统的应用 10000+ 6+ 60+ 指标数量 覆盖核心业务线数量 指标的类型 8+ 指标建设平均复用次数 10+ 数据质量分提升 4000+ 标准化报表访问次数/天
10. 系统建设
11. 方案设计
12. 建设方案&指标规范定义 B U 业务板块:指企业中相对独立的业务活动。可 根据企业的组织架构或者整体业务架构进行划 分 业务板块 数据域:指面向业务分析,将业务过程或者维 度进行抽象的集合 数据域 规 范 定 义 数据字典 统计周期 业务限定 原子指标 业务过程: 企业的业务活动中一个个不可拆分 的行为事件 维度 业务过程 复合指标 统计粒度 原子指标:业务过程 + 度量 (对业务过程的 衡量) 例如:酒店下单 用户数 派生指标 模 型 建 设 复合指标:业务活动(业务过程的组合)+ 度 量(多个原子指标的四则运算) 例如:酒店提交订单到支付订单O2P 汇总事实表 指标系统建设方案 明细事实表 维度表 派生指标:统计周期+业务限定+统计粒度+原 子/复合指标 例如:最近一天 北京地区 分星级 酒店下单 用户数
13. 模型规范 DWS模型设计 数据仓库 ADS(应用层) DWS(轻度汇总层) DWD(明细层) ODS(存储层) 数仓分层 D I M ( 公 共 维 度 层 ) • 确定粒度 • 选择指标 • 冗余维度 DIM模型设计 • 确定维度 • 选择维度属性 • 冗余高粒度维度属性 DWD模型设计 • 选择业务过程 • 声明粒度 • 确认维度 • 确认事实
14. 流程规范化
15. 工具化-指标系统 1.统一管理 2.统一建模 指标系统 3.数据质量保障 4.指标更好用
16. 1.统一管理 数据应用 Qlibra 达芬奇 API 指标系统 模型管理 表类型 数据分层 数据范围 数据粒度 指标管理 指标定义 逻辑查询 业务描述 数据预览 维度管理 维度定义 维度整合 维度视图 一致规范 规范管理 数据字典 业务板块 数据域 统计周期 数据源 元 数 据 管 理 流 程 审 核 数 据 质 量
17. 2.统一建模 | 建设流程 统一数仓指标模型开发 构建企业的公共数据层, 把原先分散的、烟囱式的、 杂乱的小数仓合并 可视化层 自动化生成SQL代码,让开 发人员专注于设计(设计即 开发) 趣分析 推送 自动化构建dws/ads层, 提供模型可共享、可复用 的能力。 达芬奇 邮件报表 模型层 维 度 建 设 ADS层自动建模 模型物化 DWS层自动建模 引擎层 OneSQL 指标层 指标 明细层 DWD 分布式调 度
18. 2.统一建模 | 维度建模 维表1 维表2 维表1 事实表 维表4 维表2 维表6 事实表 维表3 维表4 星型模型 星座模型: • 及时性要求高 • 一致性维度建设 • 空间换时间 维表3 维表5 雪花模型 维表1 维表2 事实表 维表4 事实表 维表3 星座模型
19. 2.统一建模 | 自动化建模 ads_xxx_dt 统计周期 指标A 指标B 维度A 指标C 指标D 是 是否依赖 原子指标 原子A dws_事实表_维度组合ID_rd_dt 是否已包 含原子指 标 是否存在 否 拆解为原 子指标 否,创建DWS 并新增指标 否 dws_02 dws_01 统计周期 原子C 原子A 原子D 原子B 维度A 统计周期 维度A
20. 3.数据质量保障 完整性 指标质量 事后 校验 元数据管理 校验规则 一致性 合理性 有效性 查询服务 模型管理 规则管理 规则分析 指标匹配 模型路由 库表监控 指标血缘 监控告警 诊断预测 引擎路由 监控配置 调度系统 应用系统 数据探查 字段校验 依赖监控 执行监控 数据流转 阈值监控 空值检验 数量对比 计算监控 耗时监控 看板更新 波动监控 规范 事前 规范 唯一性 指标管理 数仓模型 事中 监控 及时性 流程 工具 数据规范 模型规范 流程规范 上线审核 标准管理 指标检验 指标规范 发布规范 版本控制 质检配置 模型工具 监控工具
21. 4.指标数据好用 | 对口径查问题更快 看板平台 ADS报表/调度 指标详情页
22. 4.指标数据好用 | 找指标看数据更方便 指标 搜索 指标 导航 指标血缘图
23. 总结 业务覆盖 数据开发效率 指标数据准 应用分析好用 核心业务线接入: 6+ 原子指标复用率 800% 标准化指标质量分平 均高10分以上 口径一致、含义清楚 找指标方便 指标类型:60+ 指标变更成本1pd降 至15min - 标准化看板每日 pv>4000+ 派生指标:10000+ - 数据分析效率提升 80%
24. 应用与实践
25. 王俊答 20年加入去哪儿数仓团队 搭建服务数据仓库 建设服务数据标准化 推进标准体系建设
26. 服务业务简介 售后业务:支付后业务 出票、退改、报销、航变 客诉相关 呼叫中心 智能机器人 服务质量运营 用户分层运营 服务体验测量
27. 服务业务简介 业务线 机票 酒店 门票 度假 酒店 机票 退款 改签 入住 变更 发票 航变 取消 拒单 呼叫中心 客服运营 IVR 工单 赔付 评价 CHAT 网络电话 体验 事件 客损
28. 建设层次化 — 服务总线矩阵 机票服务数据域分析矩阵 酒店服务数据域分析矩阵 服务数据域实现全覆盖,关键节点业务过程均 涵盖在已知数据域中,满足S/A级看板业务需求 及日常数据开发。
29. 建设层次化 — 构建总线矩阵 ⚫ 不合理构建 ◆ 未关注业务 整理ODS表清单 咨询架构与系统开发 按照ODS清单命名业务过程 ◆ 未考虑全局 整理需求或指标 基于ODS表直接计算指标
30. 建设层次化 — 业务梳理 产研协同流程 确定数据域 指标系统新增数据域 产品 研发 退款 改签 历史报表 整理需求 发票 航变 新需求 需求归类 工单 CHAT 指标 需求分析 电话 评价 维度 抽象业务 留言 赔付 业务知识 指标定义 事件 ······ 研发 梳理业务 研发 新增申请 数仓负责人 组内review 数据委员会 委员review 研发 录入指标系统
31. 建设层次化 — 业务梳理 业务研发合作 业务 研发 指标系统管理 业务流程讲解 系统实际体验 新增业务过程申请 标注核心指标 确定关键事实 确定关键事实 技术讲解业务 系统主体流程 确定一致维度 确定一致维度
32. 建设层次化 — 关于总线矩阵 业务数据管理 项目规划和排期 一致性维度更好的实现跨业务过程钻取 数据域和业务过程互不重叠 方便做数据集成和统一管理 开发遵循架构异步独立开发 优势 数据一致性保障 共享一致性维度,有序建设维度 减少冗余的出现 减少烟囱式建设 分工清晰,任务明确 避免面向需求开发 基于业务过程建设 避免盲目建设
33. 数据规范化 — 规范化分层 应用数据层 轻度汇总层 ADS 面向业务定制; 个性化统计; 应用结果数据 DWS 面向分析主题建模; 通用维度聚合; 预计算 ADS层:数据应用层,和业务强相关的报表层 退款监控报表 二退原因分析报表 DWS层:轻度汇总层 DIM层:公共维度层 机票退款分业务类型天表: 明细层 存储层 DIM 一致性处理; 统一口径 DWD 面向业务过程建模; 数据清洗; 数据规范化; 维度退化 ODS 关系数据库模型; 保留历史; 不做处理; 与业务实体保持同构 机票退款天表 ······ 1. 统计维度:业务类型 2. 统计指标:申请量、时长 公共维度层 退款页面跳转率报表 退款行为天表 退款类型维度表: 1. 维度一致处理 2. 枚举口径统一 退款原因维表 DWD层:数据明细层 机票申请退款事实表: 1. 确定粒度:一次退款申请 2. 确定维度:订单、退款信息 3. 确定事实:退款金额、时长 4. 维度冗余,异常值处理 机票完成退款 表 ······ ······ 机票浏览退款 表 退款单状态维表 ODS层:离线或准实时接入的数据 退款页面前端 访问日志 机票退款业务 系统数据 机票退款后端 埋点日志 退款数据域应用 机票订单 系统数据
34. 数据规范化 — 规范化分层 DWS DW RPT ODS DM ODS ADS DWD 标准化需求 分层前: 分层后: 临时需求
35. 数据规范化 — 系统规范化分层 ODS 研发 DWD ads_xxxx_xxx_di DWS 指标系统 ADS dws_xxxx_xxxx_dt …… ads_xxxxx_xxx_di 天粒度退款汇总表复用在近30张数据应用报表
36. 数据规范化 — 规范化建模 传统建模设计方案 业务板块 一级分类 服务 方案一: 1. 从梳理业务流程到业务过程落地 2. 从划分主题到指标拆分 3. 从事实表设计到物理模型建立 方案二: 1. 拆分原子指标 和 派生指标 2. 指标归属业务过程、数据域 方 案 一 : 业 务 建 模 退款 定义 业务过程 1. 自下而上分析需求,拆分指标 2. 自上而下规范化建设 业务过程 维度 国内机票申请退款 退款方式 定义口径 3. DWD模型设计 混合建模方案 数据域 二级分类 多维分析 业务活动 统计周期 原子指标 业务限定 统计粒度 最近1天 退款量 自愿 退款方式 派生指标 最近一天服务国内机 票自愿申请退款量 (group by 退款方式) 方 案 二 : 维 度 建 模
37. 流程标准化 — 指标系统建模流程 标准化建模产出 以维度建模理论为基础,基于维度建模总线架构,构建一致性的维度和事实,划分和定 义数据域、业务过程、维度、度量/原子指标、修饰类型、修饰词、时间周期、派生指标。 业务板块 数据域 服务 度量/原子指标 修饰类型 修饰词 时间周期 申请 申请退款量 退款类型 自愿退款 最近一天 最近一天自愿申请退款量 完成 完成退款量 退款类型 自愿退款 最近一天 最近一天自愿完成退款量 业务过程 派生指标 退款 ……
38. 流程标准化 — 体系化建模 基于业务分析的逻辑建模 数 据 域 需 求 模 型 业务过程 分析 指标 基于逻辑建模的物理建模 分析粒度 分析事实 指标拆解 原子指标 分析 维度 数据 域 数 据 规 范 复合指标 派生指标 统 统 一 物 理 表 业务 过程 冗余 维度 事实 个性 化 基础事实 衍生事实 一致性维度 统 一 一 基于基础建模的应用建模 配 置 化 数 应 据 用 主题 统计粒度 统计周期 维度组合 轻度汇总 指标组合 个性化应用 体系化建模流程 时间 周期 个性化
39. 流程标准化 — 体系化建模实例 需求模型 机 票 改 签 监 控 数 据 需 求 逻辑建模 分析指标 指标拆解 改签申请量 四则 运算 改签原子指标 改签复合指标 改签完成量 自愿 及时 ······ 改签事件创建量 分析维度 业务类型 最近 一天 自愿 及时 最近一天自愿改 签及时完成量 改签原因 确定数据域: 改签域 确定业务过程: 机票改签申请 声明粒度: 一次改签申请一条记录 确定维度: 域名、改签类型······ 确定事实: 改签量、改签时长······ 最近 一天 最近一天自愿改 签及时完成率 ······ 改签状态
40. 流程标准化 — 体系化建模实例 自动化应用模型 基础物理模型 改 签 申 请 事 实 表 初 始 化 业务系统抽取 业务分析沉淀 分析维度 数据清洗 逻辑处理 规范化处理 统计粒度 基础事实 衍生标签 一致性维度 改 签 主 题 域 统计周期 主题 拆分 统计维度 维度 拆分 分析指标 改签事件监控 应用 分业务类型 轻度汇总 分改签原因 轻度汇总 分航司 轻度汇总 主题 拆分 维度 拆分 改签监控 应用 改签自助签转 应用
41. 标准化建设效果 建设前 建设后 数据域 5个 22个 口径个数 (例: 改签) 15个 1个 需求迭代工时 2pd 0.5pd 指标查看次数 1072PV/天
42. 未来规划
43. 未来规划 1. API&OLAP 2. 标准化标签 3. 实时指标 能力拓展 1. 指标覆盖度 1. 全链路血缘完善 2. 资源消耗合理 2. 工具一体化建设 细节打磨 建管一体化
44. · · ·

首页 - Wiki
Copyright © 2011-2024 iteam. Current version is 2.123.1. UTC+08:00, 2024-03-29 00:36
浙ICP备14020137号-1 $访客地图$