走向现代化数据分析架构:趋势与挑战
如果无法正常显示,请先停止浏览器的去广告插件。
1.
2.
3. 走向现代化数据分析架构:趋势与挑战
汪源 2022/09/26
4. About Me
2003 2006 2014 2022
国产数据库 网易DDB 网易猛犸 网易有数
OSCAR
5. 冷技术热思考
我们为什么做NDH 协同决策—一种分析的新思路
数据有机体 聊聊PingCAP和HTAP
细品中台 从数据中台到全链路数据生产力
数字技术名词解释—数据湖:现代分析型数 阿里的数据中台正在背离初心
据架构的核心
数据基础设施创新如火如荼,主要方向有哪
些(上)(下)
6. 数据治理
数据仓库
OLAP与
多维分析
BI
数据挖掘
1990年代
方法论的黄金时代
主数据管理
7. 近20年数据湖体系
存储 计算 数据格式 Catalog
HDFS和对象存储 MapReduce Parquet HMS
YARN/K8s
SQL引擎
Impala、SparkSQL、
Presto
8. 近20年流计算
9. 近20年机器学习应用
个性化推荐
搜索
精准广告
风控
量化交易
10. 热词迭出 眼花缭乱
Lakehouse ELT Data Fabric Semantic Layer 数据中台
流批一体 AutoETL Data Mesh Metric Layer DataOps
Headless BI 数据虚拟化
NoETL
反向ETL
11. 现代数据分析技术三大主题
统一的
基础设施
统一的
中间层
统一的
数据资产
12. 分析引擎
表服务
统一的基础设施:
流式湖仓
Spark、Flink、Impala、Presto
Arctic
Hudi
Delta Lake
表格式
Iceberg
缓存加速 Alluxio/JuiceFS/CurveFS
文件格式 Parquet
存储
HDFS/对象存储
Arctic
Iceberg
元数据
13. 数据
Iceberg
元数据
ACID
Time Travel
分布式元数据
多级索引高级过滤
Schema演化
Partition演化
14. 流批一体
Upsert by PK
Arctic
Self-optimized
兼容 Hive 和 Iceberg
15. Iceberg+Arctic的核心地位
Hive
Spark
Impala
Trino
分析引擎
表服务
表格式
Parquet/HMS
Spark、Flink、Impala、Presto
Arctic
Iceberg
缓存加速
HDFS
S3
OSS
Hudi
Delta Lake
Alluxio/JuiceFS/CurveFS
文件格式 Parquet
存储 HDFS/对象存储
新一代的Parquet+HMS,统一的访问接口
Arctic
Iceberg
元数据
16. 统一基础设施解决的问题
流批一体
湖仓一体
标准格式
存算分离
17. 无所不在的ETL
图片来自Aloudata资料
18. BI a
BI b
BI c
展现 展现 展现
交互 交互 交互
数据仓库
理想
分散的
计算逻辑
BI a BI b BI c
展现 展现 展现
交互 交互 交互
逻辑 逻辑 逻辑
数据仓库
现实
19. 中国方案:数据中台
BI a BI b BI c
展现 展现 展现
交互 交互 交互
数据服务
指标层
数据仓库
数据中台
数据治理
20. 国际方案
Semantic Layer
Headless BI
kyvos
Metric Layer
21. Headless BI
图片来自Cube官网
22. 我们的方案:开发治理一体化
23. BI a
Neckless BI
统一的中间层
统一的模型、指标、计算逻辑与口径
BI b
BI c
展现 展现 展现
交互 交互 交互
数据服务
Headless BI 建模(指标)、权限、加速、服务
开发治理
事前事中事后持续治理
一体化
数据仓库
统一的中间层
24. ETL和HTAP?
因为分析需求和源数据的模型不匹配,ETL永远不可能被消除,只能被转移和隐藏
ETL可以实现自动化,即AutoETL,NoETL也是AutoETL
多源数据融合、ETL和分析查询不需要HTAP
25. 统一的数据资产
看不懂
找不到
信不过
管不牢
26. Data Fabric
Data Fabric是一种用于实现数据整合利用的架构思想或
设计理念(Design Concept),强调元数据集中,数据
则可以通过数据虚拟化、ETL等各种风格处理
数据仓库/数据中台
数据湖
强调数据的集中 强调数据的集中
强调数据的预加工 强调数据不做预加工
Data Fabric
强调元数据的集中
27. 数据源连接
数据虚拟化
Data Fabric的
典型能力
主动元数据
逻辑数据湖
28. 现代数据分析技术三大主题
统一的基础设施
可支持实时数据更新与消费、
开放、低成本的流式湖仓基
础设施
统一的中间层
统一的数据资产
统一的模型、指标、计算逻 企业全域数据资产的高效整
辑与口径 合与管理
事前事中事后持续治理 兼容各种风格的数据处理技
术
29. 冷技术热思考
THANKS
30.
31.