快手数据治理在质量方向上的实战

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 快手数据治理在质量方向上的 实战 刘一凡 快手大数据服务负责人
2.
3. 个人介绍 刘一凡 参与并负责快手统一数据服务、数据管理、大数据安全 专注于大数据管理、数据服务以及BI分析产品 等大数据中台化建设工作
4. • 快手在质量上面临的问题 • 快手质量整体解决方案 • 数据服务质量解决方案 • 典型业务场景实战案例 • 未来规划
5. 关于快手 愿景 短视频 + 直播 电商,招聘,本地生活 …  致力于成为全球最痴迷于为客户 创造价值的公司。 平均日活22Q1 3.4+亿  我们的使命是帮助人们发现所需、 平均月活22Q1 5.9+亿 发挥所长,持续提升每个人独特的 日均时长22Q1 128分钟 幸福感。
6. 关于快手大数据平台 以领先的大数据技术,激活数据价值,赋能业务,打造快手核心竞争力 平台+BP组织 短 视 频 直 播 电 商 快手数据平台 统一化建设 … 游 戏  统一建设 数据仓库  统一建设 数据系统  统一制定 规范流程 万级 EB级 集群规模 总数据量 十万级 万级 日作业量 日活跃用户数 PB级 日净增数据量
7. 关于数据治理/数据质量 数据治理 数据质量 唯一 性 及时 性 一致 性 数据 质量 有效 性 准确 性 完整 性
8. 快手数据平台在质量面临的问题 数 据 全 链 路 质 量 问 题 数据源 数据集成 数据仓库 在线数据库  业务DB  Kafka2Hive  APP  CK  客户端日志  DB2Hive  TOPIC  Druid  服务端日志  DWS  Hbase  DWD 埋点质量问题 数据重复 计算口径不一致 数据库Schema变更 数据丢失 数据变更不同步 业务脏数据 数据刷新不同步 任务延迟破线 数据刷新不同步 数据服务 数据应用 数据应用 指标计算口径不一致 指标命名不一致
9. 快手在质量上整体解决方案 度 量 北极星指标 : 数据质量故障数 规 范 监控规范 事 前 工 具 埋点测试 埋点规范 SQL Scan 故障规范 代码测试 指标管理规范 变更诊断 事 中 埋点监控 + 生产监控(DQC / SLA) + 应用监控(一致性对比) 事 后 数据治理平台 (数据质量评估体系 – 质量健康分) … 组织 指标平台 质量 团队
10. 对于指标体系的理解 指标的理解 业界趋势 统一指标的好处 数据的表达 Headless BI 口径统一,避免数据质量 统一语言 统一语义层 数据复用,避免重复建设 逻辑抽象 智能建模 低代码 服务提效,低代码数据服务
11. 指标体系建设通用性问题 应 用 层 服 务 层 ☓ 数据地图 应用产品 ☓ ☓ 指标服务  缺少指标服务:指标管理仅作为数据字典,约 等于Wiki ☓ 指 标 管 理 数 据 ☓ ☓ 数据仓库 D Q C S L A 流 程 规 范  缺少流程规范:数据准确性无法保障  缺少互联互通:没有和数据生产、消费体系打 通,无法一处变更,全局生效 没有发挥最大价值 指标管理动力不足!!
12. 快手在数据服务面临的质量问题 烟囱式数据服务 数据应用1 数据应用2 数据应用3 数据开发 数据开发 数据开发 定义指标 定义指标 定义指标 需求对接 需求对接 需求对接 业务1 业务2 业务3 命名不一致 口径不一致 出口不一致
13. 指标平台对服务质量整体方案 指标平台 统一指标管理 统一指标监控 统一指标服务 1、指标定义唯一 2、指标口径正确 3、指标出口统一  指标统一化管理  指标一致性检测  指标管理与指标服务打通  指标命名唯一性  指标的规则监控  指标服务OneService  指标名字使用词根组成  指标的SLA  明确角色以及流程管控
14. 指标平台设计理念 元数据 指标监控 指标维度元数据 生产元数据 指标服务 数据管理驱动 —— 一处管理,全局使用
15. 统一指标管理 数仓规划 指标管理 维度管理 表管理 业务线 业务信息 业务信息 技术信息 数仓分层 技术信息 技术信息 指标/维度绑定 数据域 命名字典 维度码值 业务过程
16. 指标定义唯一性保障 命名规范 审核流程
17. 统一指标监控 及时性保障 准确性保障 自身检测 指标SLA 一致性检测 横向对齐 指标 值域检测 波动率检测 App1 … AppN Topic1 … TopicN 纵向对齐 数据表 数据表 Dws Dwd 数据表 数据表
18. 统一指标服务 日常看数 (管理层/DA/运营等) Headless BI 数据分析 (DA/运营等) 专题类看数 (DA/运营/外部等) 指标只需定义一次,就可以统一的在仪表盘、以及自动化工具 中使用 BI产品 定制产品 自助分析 低代码 用户只需查询指标维度,平台自动化生产引擎查询代码 指标服务 指标 口径 指标 口径 指标 口径 指标 口径 指标 口径 指标 口径 数据建模 数据资产 通过指标的元信息,构建表与表之间的关系-数据模型
19. 指标服务-语言抽象OneDSL 场景1 :面向物理引擎查询支持 引擎联合查询分析 例如:Clickhouse + Druid Hive Druid Clickhouse hbase 面向逻辑表的查询 面向逻辑表的执行计划树 OneDSL 逻辑表 … 转换 场景2:面向数据集指标维度的查询支持 自然语言分析 例如:分地域母婴产品交易金额? 数据集 时间范围 维度 结构化抽象 指标 过滤条件 语法2:编排语法(复杂语法) 语法1:SQL语法(简化语法) 逻辑表  统一语法 支持Native语法  支持流程控制语法 
20. 指标服务-自动化建模 元信息 自动化建模服务 数据模型 指标/维度元信息 表元信息 指标/维度与表关系 逻辑 模型 模型 发现 最佳 路径 计算 维度建模理论 累加 性计 算 模型 索引
21. 指标服务-模型搜索 筛选阶段: 指标维度条件-> N个满足条件的模型 指标查询服务 ModelSearcher ModelSearcher 搜索模块 搜索模块 … 模型索引 v1 淘汰指标不匹配的表 维度筛选 淘汰维度不匹配的表 范围筛选 淘汰数据范围(行)不匹配的表 日期筛选 淘汰数据日期范围不满足的表 模型索引 v2 v1 v2 Zookeeper (模型版本信息) ModelManager 历史版本 指标筛选 线上版本 待上线版本 排序阶段: N个满足条件的模型 -> Top3最优模型 生产排序 取早不取晚,优先取完成时间早的表 效率排序 取快不取慢,优先取效率高的表 维度排序 取粗不取细,优先取粗粒度表 手动排序 自定义优先级,取优先级高的表
22. 指标服务-代码生成 指标服务 Hive 代码生成 指标维度 查询 数据模型 AST树 dim fac t dim join sca n sca n RBO CBO  事实表先聚合再Join  Join顺序调整  长时间查询,自动按照时间切片子查询  Join方式调整  Druid TimeSeries,TopN优化  计划调整  Druid case when 转 lookup查询 …  Clickhouse Bitmap,countif 优化 … 引擎查询 OneDSL 统一查询 Druid ….
23. 指标服务-服务隔离 客户端 配置服务 配置管理 流量管理 路由管理 隔离单元 元数据服务 路由策略 查询服务 优 先 级 Very High Very High High High Normal Normal Normal 商业化 其他 电商 业务隔离 Very High … High
24. 指标平台使服务模式转变 UGC PGC 模式 模式 各自定义,各自使用 一处定义,多处使用  灵活度高  数据服用  质量无保障  质量有保障  低代码
25. 指标平台之上的数仓建设方法论 规范流程建设 01 确定词根与元素以及流程规范 02 指标维度建设 确定维度和指标范围,利用词根和元素确定指标和维度名字,并且定义指标的描述 数据内容建设  指标粒度矩阵的规划与设计 03  模型的建设和规划与实现  模型和指标、维度的绑定 04 数据集建设  数据集的建设和规划  数据集的推广和应用
26. 指标平台在商业化实战 需求对接以及研发流程 数据集的建设思路 业务需求 消 费 侧 业务 应用 数据分析产品 业务 应用 业务 应用 自助 分析 数据集建设(1+N) 业务领域的指标体系 指标管理增加指标 数据集的指标/维度 效果 广告 数据 集 展示 广告 数据 集 生 产 侧 联盟 广告 数据 集 横向数据集 模型管理增加模型 数据无质量故障,研发效率提升10倍 … 独立 业务 集市
27. 指标平台落地成果 服务配置:分钟级别 分析应用 分析看板 指标取数 OLAP OneService 统一指标管理 接入数据 主站,电商,游戏,商业化 ... 查询量:100w+/天 邮件报表 查询能力:Hive/Druid/Hbase, 跨源查询,UDF 离线查询:分钟级别 热查询:毫秒级别
28. 再谈指标平台的价值 向上驱动消费,向下驱动生产,打通数据全链路 数据 生产 驱动 指标 体系 驱动 数据 消费
29. 未来规划  完善生态:模型设计、数据生产、数据服务  统一语言:统一建模语言、统一查询语言  智能化:智能建模、智能优化等  开放共享:开放标准、开源平台
30.
31.

trang chủ - Wiki
Copyright © 2011-2024 iteam. Current version is 2.137.1. UTC+08:00, 2024-11-13 19:43
浙ICP备14020137号-1 $bản đồ khách truy cập$