快手数据治理在质量方向上的实战
如果无法正常显示,请先停止浏览器的去广告插件。
1. 快手数据治理在质量方向上的
实战
刘一凡
快手大数据服务负责人
2.
3. 个人介绍
刘一凡
参与并负责快手统一数据服务、数据管理、大数据安全
专注于大数据管理、数据服务以及BI分析产品
等大数据中台化建设工作
4. • 快手在质量上面临的问题
• 快手质量整体解决方案
• 数据服务质量解决方案
• 典型业务场景实战案例
• 未来规划
5. 关于快手
愿景
短视频 + 直播
电商,招聘,本地生活 …
致力于成为全球最痴迷于为客户
创造价值的公司。
平均日活22Q1 3.4+亿 我们的使命是帮助人们发现所需、
平均月活22Q1 5.9+亿 发挥所长,持续提升每个人独特的
日均时长22Q1 128分钟 幸福感。
6. 关于快手大数据平台
以领先的大数据技术,激活数据价值,赋能业务,打造快手核心竞争力
平台+BP组织
短
视
频
直
播
电
商
快手数据平台
统一化建设
…
游
戏
统一建设 数据仓库
统一建设 数据系统
统一制定 规范流程
万级 EB级
集群规模 总数据量
十万级 万级
日作业量
日活跃用户数
PB级
日净增数据量
7. 关于数据治理/数据质量
数据治理
数据质量
唯一
性
及时
性
一致
性
数据
质量
有效
性
准确
性
完整
性
8. 快手数据平台在质量面临的问题
数
据
全
链
路
质
量
问
题
数据源
数据集成
数据仓库
在线数据库
业务DB Kafka2Hive APP CK
客户端日志 DB2Hive TOPIC Druid
服务端日志 DWS Hbase
DWD 埋点质量问题 数据重复 计算口径不一致
数据库Schema变更 数据丢失 数据变更不同步
业务脏数据
数据刷新不同步
任务延迟破线
数据刷新不同步
数据服务
数据应用
数据应用
指标计算口径不一致
指标命名不一致
9. 快手在质量上整体解决方案
度
量
北极星指标 : 数据质量故障数
规
范
监控规范
事
前
工
具
埋点测试
埋点规范
SQL Scan
故障规范
代码测试
指标管理规范
变更诊断
事
中 埋点监控 + 生产监控(DQC / SLA) + 应用监控(一致性对比)
事
后 数据治理平台 (数据质量评估体系 – 质量健康分)
…
组织
指标平台
质量
团队
10. 对于指标体系的理解
指标的理解 业界趋势 统一指标的好处
数据的表达 Headless BI 口径统一,避免数据质量
统一语言 统一语义层 数据复用,避免重复建设
逻辑抽象 智能建模
低代码
服务提效,低代码数据服务
11. 指标体系建设通用性问题
应
用
层
服
务
层
☓
数据地图 应用产品
☓ ☓
指标服务
缺少指标服务:指标管理仅作为数据字典,约
等于Wiki
☓
指
标
管
理
数
据
☓
☓
数据仓库
D
Q
C
S
L
A
流
程
规
范
缺少流程规范:数据准确性无法保障
缺少互联互通:没有和数据生产、消费体系打
通,无法一处变更,全局生效
没有发挥最大价值
指标管理动力不足!!
12. 快手在数据服务面临的质量问题
烟囱式数据服务
数据应用1 数据应用2 数据应用3
数据开发 数据开发 数据开发
定义指标 定义指标 定义指标
需求对接 需求对接 需求对接
业务1 业务2
业务3
命名不一致
口径不一致
出口不一致
13. 指标平台对服务质量整体方案
指标平台
统一指标管理 统一指标监控 统一指标服务
1、指标定义唯一 2、指标口径正确 3、指标出口统一
指标统一化管理 指标一致性检测 指标管理与指标服务打通
指标命名唯一性 指标的规则监控 指标服务OneService
指标名字使用词根组成 指标的SLA 明确角色以及流程管控
14. 指标平台设计理念
元数据
指标监控
指标维度元数据
生产元数据
指标服务
数据管理驱动 —— 一处管理,全局使用
15. 统一指标管理
数仓规划 指标管理 维度管理 表管理
业务线 业务信息 业务信息 技术信息
数仓分层 技术信息 技术信息 指标/维度绑定
数据域 命名字典 维度码值
业务过程
16. 指标定义唯一性保障
命名规范
审核流程
17. 统一指标监控
及时性保障
准确性保障
自身检测
指标SLA
一致性检测
横向对齐
指标
值域检测
波动率检测
App1 … AppN
Topic1 … TopicN
纵向对齐
数据表
数据表
Dws
Dwd
数据表
数据表
18. 统一指标服务
日常看数
(管理层/DA/运营等)
Headless BI
数据分析
(DA/运营等)
专题类看数
(DA/运营/外部等)
指标只需定义一次,就可以统一的在仪表盘、以及自动化工具
中使用
BI产品
定制产品
自助分析
低代码
用户只需查询指标维度,平台自动化生产引擎查询代码
指标服务
指标
口径
指标
口径
指标
口径
指标
口径
指标
口径
指标
口径
数据建模
数据资产
通过指标的元信息,构建表与表之间的关系-数据模型
19. 指标服务-语言抽象OneDSL
场景1 :面向物理引擎查询支持
引擎联合查询分析
例如:Clickhouse + Druid
Hive
Druid
Clickhouse
hbase
面向逻辑表的查询
面向逻辑表的执行计划树
OneDSL
逻辑表
…
转换
场景2:面向数据集指标维度的查询支持
自然语言分析
例如:分地域母婴产品交易金额?
数据集
时间范围
维度
结构化抽象
指标
过滤条件
语法2:编排语法(复杂语法)
语法1:SQL语法(简化语法)
逻辑表
统一语法
支持Native语法
支持流程控制语法
20. 指标服务-自动化建模
元信息
自动化建模服务
数据模型
指标/维度元信息
表元信息
指标/维度与表关系
逻辑
模型
模型
发现
最佳
路径
计算
维度建模理论
累加
性计
算
模型
索引
21. 指标服务-模型搜索
筛选阶段: 指标维度条件-> N个满足条件的模型
指标查询服务
ModelSearcher
ModelSearcher
搜索模块
搜索模块
…
模型索引
v1
淘汰指标不匹配的表
维度筛选 淘汰维度不匹配的表
范围筛选 淘汰数据范围(行)不匹配的表
日期筛选 淘汰数据日期范围不满足的表
模型索引
v2
v1
v2
Zookeeper
(模型版本信息)
ModelManager
历史版本
指标筛选
线上版本
待上线版本
排序阶段:
N个满足条件的模型 -> Top3最优模型
生产排序 取早不取晚,优先取完成时间早的表
效率排序 取快不取慢,优先取效率高的表
维度排序 取粗不取细,优先取粗粒度表
手动排序 自定义优先级,取优先级高的表
22. 指标服务-代码生成
指标服务
Hive
代码生成
指标维度
查询
数据模型
AST树
dim
fac
t
dim
join
sca
n
sca
n
RBO
CBO
事实表先聚合再Join Join顺序调整
长时间查询,自动按照时间切片子查询 Join方式调整
Druid TimeSeries,TopN优化 计划调整
Druid case when 转 lookup查询 … Clickhouse Bitmap,countif 优化
…
引擎查询
OneDSL
统一查询
Druid
….
23. 指标服务-服务隔离
客户端
配置服务
配置管理
流量管理
路由管理
隔离单元
元数据服务
路由策略
查询服务
优
先
级
Very High Very High High High Normal Normal Normal
商业化 其他
电商
业务隔离
Very High
…
High
24. 指标平台使服务模式转变
UGC PGC
模式 模式
各自定义,各自使用
一处定义,多处使用
灵活度高 数据服用
质量无保障 质量有保障
低代码
25. 指标平台之上的数仓建设方法论
规范流程建设
01
确定词根与元素以及流程规范
02
指标维度建设
确定维度和指标范围,利用词根和元素确定指标和维度名字,并且定义指标的描述
数据内容建设
指标粒度矩阵的规划与设计
03
模型的建设和规划与实现
模型和指标、维度的绑定
04
数据集建设
数据集的建设和规划
数据集的推广和应用
26. 指标平台在商业化实战
需求对接以及研发流程
数据集的建设思路
业务需求
消
费
侧
业务
应用
数据分析产品
业务
应用
业务
应用
自助
分析
数据集建设(1+N)
业务领域的指标体系
指标管理增加指标
数据集的指标/维度
效果
广告
数据
集
展示
广告
数据
集
生
产
侧
联盟
广告
数据
集
横向数据集
模型管理增加模型
数据无质量故障,研发效率提升10倍
…
独立
业务
集市
27. 指标平台落地成果
服务配置:分钟级别
分析应用
分析看板
指标取数
OLAP
OneService
统一指标管理
接入数据
主站,电商,游戏,商业化 ...
查询量:100w+/天
邮件报表
查询能力:Hive/Druid/Hbase,
跨源查询,UDF
离线查询:分钟级别
热查询:毫秒级别
28. 再谈指标平台的价值
向上驱动消费,向下驱动生产,打通数据全链路
数据
生产
驱动
指标
体系
驱动
数据
消费
29. 未来规划
完善生态:模型设计、数据生产、数据服务
统一语言:统一建模语言、统一查询语言
智能化:智能建模、智能优化等
开放共享:开放标准、开源平台
30.
31.