QBI平台演进与实践
如果无法正常显示,请先停止浏览器的去广告插件。
1. QBI平台演进与实践
杜峻辰 | 机票目的地事业部/技术运营中心/数据平台
2.
3. 目 录
CONTENTS
A 平台介绍
B 平台演进思路
C OLAP场景和实践
D 未来展望
4. 01
平台介绍
5. 数据平台整体架构
酒店报价 酒店营销 会员权益
代理商数据平台 机票辅营 信息流推荐
API CDP
业务应用
数据应用
BI
数据标准
数据开发
数据仓库
数据治理
离线数仓
数据质量
实时数仓
数据同步
调度系统
基础平台
数据资产 Hive Trino Flink 开发平台
数据安全 Hadoop Hbase Kafka 埋点系统
6. QBI是什么
基础设施
工具
数据迁移
数据资产
权限
存储
应用
元数据
(血缘,
依赖) 达芬奇
埋点
(SDK) 自助报表
计算
趣分析
即席查询
监控
管理
。。。
7. QBI能做什么
数据准备 数据分析
数据采集
数据存储/转存 集成SQL+NOSQL
两种方式
数据展示 数据汇报
丰富图形可视化功
能 报表+看板+下载
满足不同汇报需求
8. QBI架构图
可视化 表格 图表 汇报 看板 邮件
报表
分析 SQL NOSQL Adhoc SQL NOSQL
查询服务
API
元数据
标准化
权限
视图层
SQL Template
表
View
SQL
接口
监控
引擎层
文件
数据
视图
书签
...
数据资产
存储层
......
9. 使用情况
QBI目前服务于Qunar全司十几条业务线,现已形成
较为完善的产品矩阵,包括以下场景:
即席查询(Adhoc)模块:日执行次数五千,平均执
行时长一分钟内
邮件报表模块: 100%自助的报表开发
OLAP模块:支撑了百亿明细数据,上百维度指标任
意组合,P99<2S
数据分析模块: 数据自由探索,例如上卷下钻探查
深入分析,日均请求10W+
数据报表(可视化)模块:固化指标快速可视化。
MAU两千,可视化图表1万+。有驾驶舱,酒店大脑
等衍生产品
10. 02
平台演进思路
11. QBI发展阶段
01 02 03 04
起步 发展 成熟 完善
12. 起步阶段
缺乏工具
开发门槛极高
工具少且难用
自助率低
依赖数仓排期
数仓很忙
身兼多职的数据开发
13. 发展阶段
数仓开发
数据
数据开发
访问
平台开发
使用
工具
14. 成熟阶段
数据使用
数据准备
开发 存储
元数据 clickhouse
计算引擎
可视化
davinci
Hive
入仓工具
qlibra
kudu
Presto
开发平台
即席查询
pg
Impala
调度平台
hdfs
报表
15. 完善阶段
后期面临的四个问题
数据出不来/出的慢
数据对不上,口径说不清
数据质量
差
标准不统
一
?
低性能,高成本,难维护
技术待优
化
A系统做一次,B系统做一次
系统难联
动
16. 完善阶段--数据质量
数仓
平台
管理数据
管理链路
管理资源
管理预期
质量管理
主维护
工具
用户
报告
主标准
17. 完善阶段--数据质量架构
18. 完善阶段--标准化
可管理,可追溯,
标准化的指标
标准化
QBI分析
基于标准化指标的深
入分析或基于事实表/
维表的探索分析
19. 完善阶段--技术优化
性能优化 代码优化 配置优化 监控优化
要性能,也要效能 删,改,查 更合理,更可控 排查,预防
20. 完善阶段--系统联动
趣分析 达芬奇
书签 可视化图表
分析过程
数据
单向打通
只打通结果
使用限制多
数据视图
数据
21. 完善阶段--系统融合
QBI
底层数据共享+功能模块化+结果抽象=融合
数据结果抽象
SQL分析
NOSQL分析
数据
22. 03
OLAP场景和实践
23. OLAP场景的变化及思考
三个变化:
时效性变化 分析方式变化 数据量变化
在很多业务场景里,
数据的价值和时效性
息息相关,数据的时
效性要求越来越高。 用户分析由固化场景
分析逐渐转移为灵活
探索分析 分析的数据开始更多
基于明细或关联明细,
不管是复杂程度还是
时间跨度都在增长
场景:
1.百亿数据量
2.最多近百个维度指标任意组合
3.有实时场景
24. 优化示例--分区设计及动态SQL优化
基于宽表结构和查询场
景做文件分区设计
优化前:
优化后:
25. 优化示例--实现colocation join
Broadcast Join
A
B C
a b a a
1 1 2 3
2
A
B
Colocation Join:
在数据写入的时候提前根据左表数据分布安排Join表
的数据分布,Join的时候直接使用Local Join
C
A
a b a b a b
1 1 2 1 3 1
3
查询时消耗:
网络开销为N-1个B表大小
内存开销为N个B表大小
2 2 2
3 3 3
B
C
a b a b a b
1 1 2 2 3 3
查询时消耗:
网络开销为0
内存开销为B表大小
26. 04
未来展望
27. QBI后续方向
01
QBI 2.0
02
数据网关
03
降本提效
28. Q&A
29. 分享完毕,谢谢观看!