湖仓数据平台的技术核心和价值探索

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 湖仓数据平台的技术核心和价值探索 杨 磊
2. 企业数据平台场景 规模化数据生产 企业经营洞察 数据应用 敏捷数据分析 局部业务智能 (运营) Business Intelligence 科学探索分析 未知业务领域 Operational Intelligence 预测 算法场景应用 (部署/API) BI/报表 数仓建模 数据开发 数据加工处理 Semantic Layer Metric Store 算法全生命周期 模型训练及管理 实时数据分析 数仓 数据中台 数据中台 数据源 业务数据库 文件等 MPP (GP,CK, GaussDB,DorisDB) RDBMS (Oracle,TeraData, MySQL) 数据平台底座 风控 数据消费 数据分析 BI/报表 驾驶舱 推荐 Data Intelligence HTAP (TiDB,xx) 机器学习平台 Hadoop (CDH/CDP,TDH, EMR …) LakeHouse (Databricks,MRS …) 升级 新增 新增 1、数仓迁移的场景(Oracle -> MPP/HTAP; Oracle -> Hadoop;Oracle或TD/GP -> 湖仓); 联邦查询 4、实时数仓 或 实时数据分析 6、半/非结构化数据入湖、结构化 + AI分析 2、数据湖的升级场景(CDH/TDH -> 湖仓;增加实时能力,替代 impala + Kudu ; 点查或实时更新能力取代 HBase ) 5、Cloud云化场景(部分业务已上云) 3、MPP + Hadoop 混合场景升级到湖仓
3. 企业内数据平台的现状 (复杂、低效) Data Warehousing Data Engineering Streaming Data Science & Machine Learning Data Engineers Data Scientists Siloed data teams decrease productivity Data Analysts Data Engineers Disconnected systems and proprietary data formats make integration difficult Amazon Redshift Teradata Hadoop Apache Airflow Apache Kafka Apache Spark Jupyter Amazon SageMaker Azure Synapse Goole BigQuery Amazon EMR Apache Spark Apache Flink Amazon Kinesis Azure ML Studio MatLAB Snowflake IBM Db2 Google Dataproc Cloudera Azure Stream Analytics Google Dataflow Domino Data Labs SAS SAP Oracle Autonomous Tibco Spotfire Confluent TensorFlow PyTorch Data Warehouse Siloed stacks increase data architecture complexity Analytics and Bi Data Science Transform Machine Learning Real-time Database Extract Data marts Load Data prep Data Lake Streaming Data Engine Data Lake Data warehouse Structured data Structured, semi-structured and unstructured data Streaming data sources Structured, semi-structured and unstructured data
4. 目标和挑战 数据特点 技术债务 时效性:T+1,T+10min,T+0 烟囱开发的积累 数据类型:半结构、非结构 临时方案债务(无统一服务…) 数据存量和数据增量大 历史原因导致多技术架构… 平台能力 扩展和演进 满足在线业务和分析SLA 过重的数仓模式 计算能力服务化、多负载 无ACID能力 统一存储、存算分离 无法应对业务对数据体系要求
5. 湖仓数据平台架构 BI/可视化 APP AI/ML 数据可视化 数据故事 画像分析 自助式 AI增强分析 数据预警 描述型探索 关系型探索 预测型探索 算法模型 资产监控 资产服务 元数据管理 统一资产管理 需求管理 维度建模 指标标签 数据质量管理 AI主动治理 数据集成 数据开发 统一调度中心 数据建模 数据测试 数据运维 多租户及项目空间管理 数据服务 数据权限 数据质量验证 协 作 & 共 享 数据标准 数据入湖 流批计算 技术catalog 联邦查询 湖仓管理 SQL仓库 数据安全 统一存储引擎 统一工作台(运维&监控,IAM,数据源管理) 第三方 RDBMS (Oracle,MySQL) MPP (GP,CK,GaussDB) HTAP (TiDB,xx) Hadoop (CDH/CDP,TDH, EMR …) LakeHouse (Databricks,MRS …)
6. FastData实践:批流融合 & 全链路CDC 实时数仓 / 离线数仓 • 实时获取 + 订阅 APP 数据集市 • 湖仓实时 join 支持 • 秒级数据延迟 分析引擎 Trino 数据源 缓存层 可视化 Alluxio 计算引擎 计算引擎 计算引擎 Flink Flink Flink 业务库 APP应用 自助分析 ELT CDC 开发/建模 CDC 汇总计算 统一存储引擎 物联网IoT BI报表 ODS DWD DWS
7. FastData实践:事务ACID一致性 每次写入都会成一个snapshot,每个snapshot包含着一系列的文件列表 基于MVCC(Multi Version Concurrency Control)的机制,默认读取文件会从最新的的 版本,每次写入都会产生一个新的snapshot,读写相互不干扰 Metadata file: 元数据文件(存储某个时间点的表元数据) Manifest list file: Manifest列表文件(文件列表) Manifest file: Manifest文件(数据文件列表,以及关于每个数据文件的详细信息和统计信息 ) Data files: 数据文件(数据文件对象存储)
8. FastData实践:DataOps 沙箱管理 DataOps Process Sandbox Management Integration Data Capture 关键能力 开发 编排调度 Development Orchestration Workflow Data Transform 测试 Test Data Modeling 部署/持续集成 Deployment Continuous CI/CD 监控运维 Monitoring Data Governance Report/BI Data Analytics 数据质量保证 数据监控 自动化测试和部署 工作流 自动化建模 自动补数服务 Schema 一致性 版本管控,CICD 支持workflow程序生成 自动Git部署数据模型 数据测试 Data Freshness 开发、测试协同 支持数据科学任务 自动化生成文档 SQL代码检查 Pipeline 故障检测 自动测试 数据透析和数据血缘
9. FastData实践:统一元数据管理 统一数据标准 数据架构 数据规范 数据安全 数据质量 生命周期管理 任务治理 统一数据源管理 租户隔离 唯一性校验 解析/检验 湖仓一体的底座核心能力: 帐号管理 数据源应用 配置信息 ✓数据存储的类型和格式尽量统一,可以在分散在 不同的物理机房或节点,逻辑统一; 统一元数据 ✓结构、半或非结构化数据的多模态一体化存储; Schema-Mapping 流表MetaData构建 统一物理转换 租户及项目级别Catalog ✓统一各板块数据标准体系; 统一存储 统一存储类型(HDFS/对象) 存储格式(Parquet or ORC) 统一表索引引擎 多模态存储(结构/非结构) 基础数据源 RDBMS (Oracle,MySQL, GoldenDB, OceanBase) MPP (GP,CK, GaussDB,GBase) HTAP (TiDB,xx) ✓统一基础技术元数据; Hadoop (CDH/CDP,TDH,, FI,EMR …) KV & MQ
10. FastData实践:云原生架构
11. FastData湖仓数据平台 Data Source DataSense(Metric Store) DataFacts(DataOps) ERP Data Analytics Data Management ETL批处理 Sandboxes 开发 建模 编排 调度 测试 CI/CD CDC流处理 CRM 数据运维 数据服务 Data Transformation API ODS DWD DWS 需求管理 业务建模 指标标签 算法模型 查询加速 任务管理 资产监控 行业知识库 数据资产服务 D-API 图形/视频/音频 文件 DLink(实时湖仓) 流批一体 联邦查询 数据探索 创作工坊 数据故事 画像分析 增强分析 预置算法 DataSense (分析和可视化) 应用管理 服务管理 集成管理 服务监控 Dashboards Embedded Analytics Augmented Analytics App Frameworks other 统一技术Catalog 三方 BI Tools 集成 统一存储引擎 IOT设备 Data Governance DataSense(增强分析) 语义建模 业务资产地图 Data Delivery 元数据管理 数据资产 数据标准和质量 数据权限和安全 全链路数据血缘 AI主动治理
12. FastData价值实践 数据源 业 务 应 用 数据集成 数 据 服 务 结构化数据 数 据 开 发 半结构化数据 公共组件 业务线应用 IAM 认证/用户管理 数据 API 算 层 业务模型 数据科学 数据开发 数据模型 数据血缘 元数据管理 流/批处理 数据转换 流批一体 LDAP 认证 其他服务与应用 数据服务 实时作业 数据视图 API 作业/数据存取 数据质量 即席查询 SQL 编辑器 数据集 数据安全 DataFacts 数据入湖 ... 机器学习 DataSense JSON XML ... 计 指标管理 统一元数据 监控运维告警 Catalog Manager DLink 联邦查询 多维聚合 物化视图 数据分析 Hive 统一调度服务 DolphinScheduler Spark Yarn Hive Metastore … 数据权限管理 Ranger CDH 湖 数据源 统一管理 仓 存 储 Iceberg 表格式 实时/ACID/行级更新/主键/... 开放数据格式 Parquet/AVRO/ORC/... 层 Cloud OSS & HDFS 半/非结构化数据 CSV/JSON/XML 图片/音视频/文本 统一 服务网关
13. 想一想, 我该如何把这些 技术应用在工作实践中? THANKS 技术交流群 社区公众号

- 위키
Copyright © 2011-2025 iteam. Current version is 2.139.1. UTC+08:00, 2025-01-18 13:57
浙ICP备14020137号-1 $방문자$