走向现代化数据分析架构:趋势与挑战

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1.
2.
3. 走向现代化数据分析架构:趋势与挑战 汪源 2022/09/26
4. About Me 2003 2006 2014 2022 国产数据库 网易DDB 网易猛犸 网易有数 OSCAR
5. 冷技术热思考 我们为什么做NDH 协同决策—一种分析的新思路 数据有机体 聊聊PingCAP和HTAP 细品中台 从数据中台到全链路数据生产力 数字技术名词解释—数据湖:现代分析型数 阿里的数据中台正在背离初心 据架构的核心 数据基础设施创新如火如荼,主要方向有哪 些(上)(下)
6. 数据治理 数据仓库 OLAP与 多维分析 BI 数据挖掘 1990年代 方法论的黄金时代 主数据管理
7. 近20年数据湖体系 存储 计算 数据格式 Catalog HDFS和对象存储 MapReduce Parquet HMS YARN/K8s SQL引擎 Impala、SparkSQL、 Presto
8. 近20年流计算
9. 近20年机器学习应用 个性化推荐 搜索 精准广告 风控 量化交易
10. 热词迭出 眼花缭乱 Lakehouse ELT Data Fabric Semantic Layer 数据中台 流批一体 AutoETL Data Mesh Metric Layer DataOps Headless BI 数据虚拟化 NoETL 反向ETL
11. 现代数据分析技术三大主题 统一的 基础设施 统一的 中间层 统一的 数据资产
12. 分析引擎 表服务 统一的基础设施: 流式湖仓 Spark、Flink、Impala、Presto Arctic Hudi Delta Lake 表格式 Iceberg 缓存加速 Alluxio/JuiceFS/CurveFS 文件格式 Parquet 存储 HDFS/对象存储 Arctic Iceberg 元数据
13. 数据 Iceberg 元数据 ACID Time Travel 分布式元数据 多级索引高级过滤 Schema演化 Partition演化
14. 流批一体 Upsert by PK Arctic Self-optimized 兼容 Hive 和 Iceberg
15. Iceberg+Arctic的核心地位 Hive Spark Impala Trino 分析引擎 表服务 表格式 Parquet/HMS Spark、Flink、Impala、Presto Arctic Iceberg 缓存加速 HDFS S3 OSS Hudi Delta Lake Alluxio/JuiceFS/CurveFS 文件格式 Parquet 存储 HDFS/对象存储 新一代的Parquet+HMS,统一的访问接口 Arctic Iceberg 元数据
16. 统一基础设施解决的问题 流批一体 湖仓一体 标准格式 存算分离
17. 无所不在的ETL 图片来自Aloudata资料
18. BI a BI b BI c 展现 展现 展现 交互 交互 交互 数据仓库 理想 分散的 计算逻辑 BI a BI b BI c 展现 展现 展现 交互 交互 交互 逻辑 逻辑 逻辑 数据仓库 现实
19. 中国方案:数据中台 BI a BI b BI c 展现 展现 展现 交互 交互 交互 数据服务 指标层 数据仓库 数据中台 数据治理
20. 国际方案 Semantic Layer Headless BI kyvos Metric Layer
21. Headless BI 图片来自Cube官网
22. 我们的方案:开发治理一体化
23. BI a Neckless BI 统一的中间层 统一的模型、指标、计算逻辑与口径 BI b BI c 展现 展现 展现 交互 交互 交互 数据服务 Headless BI 建模(指标)、权限、加速、服务 开发治理 事前事中事后持续治理 一体化 数据仓库 统一的中间层
24. ETL和HTAP? 因为分析需求和源数据的模型不匹配,ETL永远不可能被消除,只能被转移和隐藏 ETL可以实现自动化,即AutoETL,NoETL也是AutoETL 多源数据融合、ETL和分析查询不需要HTAP
25. 统一的数据资产 看不懂 找不到 信不过 管不牢
26. Data Fabric Data Fabric是一种用于实现数据整合利用的架构思想或 设计理念(Design Concept),强调元数据集中,数据 则可以通过数据虚拟化、ETL等各种风格处理 数据仓库/数据中台 数据湖 强调数据的集中 强调数据的集中 强调数据的预加工 强调数据不做预加工 Data Fabric 强调元数据的集中
27. 数据源连接 数据虚拟化 Data Fabric的 典型能力 主动元数据 逻辑数据湖
28. 现代数据分析技术三大主题 统一的基础设施 可支持实时数据更新与消费、 开放、低成本的流式湖仓基 础设施 统一的中间层 统一的数据资产 统一的模型、指标、计算逻 企业全域数据资产的高效整 辑与口径 合与管理 事前事中事后持续治理 兼容各种风格的数据处理技 术
29. 冷技术热思考 THANKS
30.
31.

Home - Wiki
Copyright © 2011-2024 iteam. Current version is 2.139.0. UTC+08:00, 2024-12-23 10:42
浙ICP备14020137号-1 $Map of visitor$