美团打车指标自助取数产品建设实践
如果无法正常显示,请先停止浏览器的去广告插件。
1. 2022
n
lo
a
S
h
c
e
T
T
M
美团打车指标自助取数
产品建设实践
美团打车数据中心-冯培胜
1
2. 个人介绍
n
lo
a
S
h
c
e
T
T
M
美团数据系统开发专家
2017年加入美团,负责美团打车数据体系
建设,从0到1搭建了打车数据服务平台,在对指
标数据的管、用、治等方面有比较丰厚的经验。
2
3. 目录
n
lo
a
S
h
c
e
T
T
M
1 指标自助取数产品系统介绍
2 指标自助取数产品建设思路
3 指标自助取数产品未来规划
3
4. 目录
n
lo
a
S
h
c
e
T
T
M
1 指标自助取数产品系统介绍
2 指标自助取数产品建设思路
3 指标自助取数产品未来规划
1.行业与业务简介
2.面临的指标取数问题
3.指标取数产品理念
4.指标取数产品简介
4
5. 系统介绍
1.行业与业务简介
a
S
h
c
e
T
T
M
n
lo
增量市场转变为存量市场
业务精细化运营
数据高效支撑
5
6. 系统介绍
n
lo
业务特点 数据消费模式 初创期 业务从无到有,探索可行商
业模式 数据从0开始,通过
SQL算数 增长期 商业模式可行,扩张抢占市
场 数据井喷式增长,大量
数据诉求 有数、丰富
成熟期 有比较稳定的市场份额,精
细化运营 高质量数据,精细化数
据 丰富、快、准确、好用
a
S
h
c
e
T
T
M
数据诉求特点
有数
美团打车
1.行业与业务简介
6
7. 系统介绍
数据诉求
丰富、快
准确、好用
2.面临的取数问题
n
lo
• 报表太乱啦!根本不知道去哪里找我想要的数据?
• 现在业务上有哪些指标,我想要的指标有没有? 找不到(全)
• 写sql得半小时才查出来
• 提需求至少得明天才能取数 太慢了(快)
a
S
h
c
e
T
T
M
• 几个报表看到的同一个指标怎么数值不一样?
• 怎么成单数比提单数还大?
• 经常分析指标异常波动,每次都要花费一两个小时
• 每天制作日报周报给其他同事看,太耗时了
• 在地铁上,着急看数看不了
数不对(准)
不好用(好用)
7
8. 系统介绍
3.产品理念
n
lo
产品理念:打造一款集找数、查数、分析、决策于一体的一站式的数据产品,并且数据要做到全、快、准、好用。
全
不用到处找数
不用求人取数
a
S
h
c
e
T
T
M
快 准
立等可取 用户质疑时
用户是错的
好用
比用户想要
的更多
8
9. 系统介绍
4.产品简介
n
lo
a
S
h
c
e
T
T
M
在了解我们具体产品内容之前了解
几个业务核心概念
• 报表 用表格、图表等多样的格
式来动态显示数据
• 指标 业务的度量,即用户关心
的业务的核心度量的数据,比
如提单数、成单数
• 维度 查看指标的筛选分析的条
件,比如日期、城市
9
10. 系统介绍
4.产品简介
n
lo
指标自助取数产品是基于指标和维度进行灵活的查找、快速的查询和丰富的分析以便于用户决策的数
据系统
维度
a
S
h
c
e
T
T
M
指标
10
11. 目录
n
lo
a
S
h
c
e
T
T
M
1 指标自助取数产品系统介绍
2 指标自助取数产品建设思路
3 指标自助取数产品未来规划
1.指标的定义与管理(全)
2.指标的查询与优化(快)
3.指标的质量与安全(准)
4.指标的应用与分析(好用)
11
12. 建设思路
数据好用:
4.指标的应用与分析
数据快:
2.指标的查询与优化
数据全:
1.指标的定义与管理
n
lo
a
S
h
c
e
T
T
M
产品应用
查询服务
质
量
管
理
安
全
管
理
数据准:
3.指标的质量与安全
元数据管理
数仓存储
12
13. 建设思路
1.指标的定义与管理(全)
管理形式不统一
指标
找不到
定义口径不统一
定义流程不规范
统一流程
统一管理
技术定义
业务定义
指标管理
n
lo
模型管理
a
S
h
c
e
T
T
M
统一口径
表管理
事实表
数仓表信息
维表
业务定义
英文名称:order_submit_num
中文名称:提单数
业务描述:按提单时间统计,乘客提交订单的数量总和
通过审核使业务定义和技术定义保持一致
技术定义
数据模型:model_a
新增指标
产品审核
审核业务定义
开发审核
审核技术定义
聚合类型:count
聚合字段:order_id
通过数据对比
使技术定义之
间保持一致
数据模型:model_b
聚合类型:sum
聚合字段:order_num
不同模
型支持
的维度
不一样
13
14. 建设思路
2.指标的查询与优化(快)- 查询
2.1 查询:以指标和维度为入参统一查询,无需关心模型与物理表
请求DSL
指标:提单数、成单数
筛选维度:日期、城市
条件维度:日期=5.1~5.31,城市=北京
a
S
h
c
e
T
T
M
或
模型SQL1
查询服务
语法解析
匹配模型
引擎1执行
模型择优
模型SQL2
数据结果
n
lo
select 提单数、成单数
where 日期>20220501 and 日期<20220531 and 城市=北京
group by 日期,城市
日期 城市 提单数 成单数
0625 北京 108 88
0626 北京 201 99
数据合并
引擎2执行
SQL1:select count(order_id) as `提单数` from t_order_1 where dt
>20220501 and dt<20220531 and city=100 group by dt,city
SQL2:select sum(order_num) as `成单数` from t_order_2 where
dt >20220501 and dt<20220531 and city=100 group by dt,city
14
15. 建设思路
2.指标的查询与优化(快)- 要快
2.2 要快
问题:多指标,多模型查询耗时
• 增加SQL并发 线程池
• 减少SQL数量 指标
+
分组队列
a
S
h
c
e
T
T
M
示例:20指标->20个SQL,3种模型
(对应Hive、ES、Doris三种引擎)
Hive: 20 * 20s = 400s
ES: 20 * 2s = 40s
Doris: 20 * 1s = 20s
n
lo
策略
Hive查询耗时
同模型指标合并
•
模型
指标1 模型1 模型3
指标2 模型2 模型4
指标3 模型1 模型5
指标4 模型2
查询
SELECT 指标1 , 指标3 FROM 模型1
SELECT 指标2 , 指标4 FROM 模型2
降低SQL时长
缓存 + 模型择优 + 模型优化
目标:秒级查询
指标
查询
指标
缓存
匹配
模型
模型
择优
模型
SQL
SQL
缓存
引擎
执行
数据
合并
结果
返回
15
16. 建设思路
2.指标的查询与优化(快)- 更快
2.3 更快
更快思路
落地方案
20个指标,20个SQL,20S
物化视图
20个指标,1个SQL,1S
关键技术
FP-growth
算法
n
lo
a
S
h
c
e
T
T
M
历史查询
指标查询频
繁项分析
多指标SQL拼
接成一个SQL
多指标查询
物化视
图匹配
物化视图是将查询结果预先计算并存储的
一张特殊的表,需要对查询进行改写
SQL改写方式 具体策略
基于语法改写 文本匹配、语法匹配
基于规则改写 和优化器规则相同
基于结构改写 提取SPJG标准形式
物化视图
建表
SQL改写
物化视
图表
数据模
型表
基于规则改写
指标SQL
select count(order_id)
from t_order
=
物化视图SQL
select sum(order_num)
from t_order_view
16
17. 建设思路
3.指标的质量和安全(准)
3.1 质量:查的数要对
事前
规范
事中
监控
规范
指标模型开发 需求流程 指标审核
测试发布 监控配置 数据开发 测试发布
a
S
h
c
e
T
T
M
业务库表
流量监控
指标
校验
事后
校验
工具
数据需求
业务需求跟踪
n
lo
流程
标准化管理 词根管理
建模工具 监控工具
数仓模型
源变监控 任务SLA 时长预警 资源预警 数据量对比
数据异动 基本数据探查 指标监控 字段监控 主外键约束
有效性 合理性
完整性
及时性
元数据管理
一致性
唯一性
校验规则
查询服务
指标管理 模型管理 规则管理 规则分析 语义解析 模型路由
库表信息 指标血缘 监控告警 诊断预测 引擎执行 数据合并
17
18. 建设思路
3.指标的质量和安全(准)
3.2 安全:查的人要对
授权
授权方式
权限
角色
指标
维度
维值
审计
审计流程
n
lo
a
S
h
c
e
T
T
M
组织
记录收集
用户
示例
指标:提单数、成单数
维度:日期、城市
维值:全部、上海
审计分析
授权记录
组织分析
审计预警
查询记录
用户分析
智能分析
权限回收
权限回收
授权原则
权限最小原则
权限限时原则
18
19. 建设思路
4.指标的应用与分析(好用)
怎么做到好用?
n
lo
逐步深入用户需求,越来越好用
用户
需求
功能
迭代
a
S
h
c
e
T
T
M
取数
功能
建设
历程
版本
报表看数 自主查询
只能固化
看数 自由查找
指标维度
查询
SQL报表
指标取数
产品1.0
人工分析
对比分析
下钻分析
指标取数
产品1.1
归因分析
逻辑树分
析归因
指标取数
产品1.2
从人工分析到归因分析,降低分析门槛,让普通用户也有分析数据的能力,工具更好用
19
20. 建设思路
4.指标的应用与分析(好用)
归因分析:找到影响最大的因素
1.过程指标:可以根据波动贡献找到影响最大的指标
n
lo
2.降维指标:可以根据基尼系数找到影响最大的维度
a
S
h
c
e
T
T
M
举例:成单率下降10%,怎么回事?
指标逻辑树拆解
3.关联指标:作为过程指标和降维指标重要参考
20
21. 建设思路
4.指标的应用与分析(好用)
n
lo
根据用户诉求不断迭代功能
更多用户使用、用户更多使用
a
S
h
c
e
T
T
M
下载、
在线
APP
端
天气
分享保存
用户访问量
EXCEL
日报周报
指标
异动
目标
管理
版本发布
21
22. 建设思路
架构
3.指标的应用与分析(好用)
产品
应用
看板服务
天气服务
数据归因分析
共享下载
4.指标的质量与安全(准)
n
lo
目标管理
质量
a
S
h
c
e
T
T
M
二次计算服务
权限审计管理
2.指标的查询与优化(快)
查询
服务
语法解析
模型路由
引擎查询
线程队列
SQL构建
数据缓存
物化视图
数仓
存储
指标管理
数据源管理
kylin
mysql
模型管理 数据表管理
任务链路信息 业务资产目录
doris
es
druid
hive
权限角色
管理
审核流程
数据合并
1.指标的定义与管理(全)
元数据
管理
开发规范
安全
规范工具
业务库表
监控
审计记录
收集
异常审计
分析
数仓模型
监控
校验规则
权限预警
监控
22
23. 建设思路
全
指标覆盖
100%
取数占比
> 80%
效果
n
lo
a
S
h
c
e
T
T
M
快 准
TP90
5S 质疑率
< 0.05%
好用 其他
体验评分 报表制作
2天 -> 10分钟
访问次数
TOP1 接入各方平台
> 10个
... ...
23
24. 目录
n
lo
a
S
h
c
e
T
T
M
1 指标自助取数产品系统介绍
2 指标自助取数产品建设思路
3 指标自助取数产品未来规划
1.更全、快、准、好用
2.未来规划思路
3.愿景与使命
24
25. 未来规划
全
快
准
好用
1.更全、快、准、好用
n
lo
• 存量指标全了,新指标呢?
• 80%,剩下的取数呢?
a
S
h
c
e
T
T
M
• 查的快,但是资源成本呢?
• 已有的数据快,但是走需求的数据呢?
• 数据准了,校验任务运行成本呢?
• 数据准了,建设和运维人力成本呢?
• 已有的数据挺好用的,新需求数据呢?
• ... ...
增量数据需
求交付慢
人力物力
成本大
用户提需
没有全量的业务数据
需求驱动
当前数仓建设模式
ETL任务
RD根据经验编码建设
数仓分层
按照数仓规范分层建设
25
26. 未来规划
2.未来规划思路
规划思路:数据建设模式由被动变为主动,让用户更自主
n
lo
当前模式-需求驱动
1
2
数据需求
数据收集
3
数据查询
规划模式-业务驱动
1
定义取数
数仓物理表
h
c
Te
ETL生产
T
M 逻辑模型
4 物化视图
数据查询
Sa
数仓分层建设
接入层
明细层
业务数据库
4
汇总层
主题层
用户提需
定义取数
2
需求驱动
业务驱动
3
ETL任务
2
自动化生产
4
数据收集
3
1
业务数据库
数仓分层
物化视图
数据底座
数据虚拟化 + 智能物化视图
26
27. 未来规划
3.愿景与使命
n
lo
理想态
愿景目标
a
S
h
c
e
T
T
M
用户定义
即计算
让数据的消费者能在业务的视角自
主定义数据,从而提高分析周期内
的各方人效的目标
数据自动
化生产
业务驱动
数据建设
物化视图
智能构建
产品使命
更全、快、准、好用
深耕数据建设技术
深耕数据建设理论
数据虚拟化技术 逻辑模型 数据底座
智能物化视图技术 物化视图 资产名录
27
28. 期待你的加入
n
lo
a
S
h
c
谢谢 T Te
M
邮箱:fengpeisheng@meituan.com
微信交流群:
28