金融级数据研发治理一体化平台实践

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 金融级数据研发治理一 体化平台实践 廖晓格
2. 廖晓格 长期大数据平台、AI平台建设经验 • 平安银行数据资产管理及研发中心团队负责人,负责大数据基础平台、 数据中台、BI及AI中台能力的建设 • 曾就职于PPTV、ebay、携程、华为,负责大数据平台应用的研发工作
3. 目录 一、数据治理传统模式痛点 二、数据治理核心目标 三、开发治理一体化解决方案 四、未来展望
4. 金融数据的特点及治理挑战 大数据服务应用数据质量 缺乏必要的监控和告警 各业务的数据存在 孤岛 数据多份存储,加大 数据成本 PB级别大数据海量存储和计算,造成 极高的负载 ,影响系统 稳定性 , 批量时效 难以有效保障 大数据测试数据难造,生产数据脱敏到测试环境又 有安全隐患,敏感数据多,安全管控难 数据流量洪峰不断刷新记录,如何 提升实时化能力 虽然提供了各种线上平台和工具,但 思维 和动作还未全面 数据化 安全 提效 降本
5. 金融数据治理的价值 包袱? 资产! A 降低成本 数据 治理 计算负载极高 存储成本剧增 B 提升数据加工效率 数据安全隐患 C 数据 治理 改善数据质量 不可靠决策 D 控制数据风险 …… 数据 治理 E 赋能管理决策 数 据 治 理 价 值
6. 数据治理传统模式的痛点 • 传统模式下的数据治理工作更多参考DAMA或者DCMM理论体系推行,但公司内部从哪里入手、以什么样的路径推进目前并没有结合自身企业 和行业特点制定数据治理的标准体系,涉及效率、技术、管理、安全等,导致治理效果一直不佳,主要体现在以下几个方面: 1、运动式治理 通过事后治理,在短期内能看到一定成果,但因 为没有融入到日常数据生产流程中,导致治理效 果不可持续,不能长久解决治理痛点 3、数据治理成效不可量化 2、治理措施落地难 治理成效难量化、可视化,治 理推进工作难度会倍数加大 很多企业的数据治理管理规范只 能停留于纸面和规范文字层面, 没有治理工具支撑
7. 目录 一、数据治理传统模式痛点 二、数据治理核心目标 三、开发治理一体化解决方案 四、未来展望
8. 数据治理的目标是什么 • 金融行业数据治理核心目标在于兼顾安全、成本并最大化数据价值,因此数据治理需要解决四个使命: 数据成本 治理线上化 治理标准化 治理智能化 治理DAMA方法论与工具结 全周期治理解决方案,数据 集成规则策略,可以通过自 数据价值最大化,包括通过 合,将治理方法论以及行内 治理涉及多个流程、多个平 动化治理能力识别安全风 数据生命周期、成本/价值 所有规范,通过平台工具结 台、多方不同角色,整合各 险、敏感数据,通过内置规 评估逆向推动成本治理,释 合,提供工具化的治理能 方在平台提供统一治理能 则和策略提升治理效果; 放数据价值、降低数据应用 力,实现治理线上化; 力,实现治理标准流程; 沉淀数据资产 成本 提供高可用的数据服务
9. 数据治理体系建设 治理 目标 治理全景 健康分 SLA 数据质量 资产服务 治理考核 资产目录 资产详情 资产搜索 低价值下线 表资产 标签资产 指标资产 特征资产 一套 治理 一个 平台 一套 标准 质量 检查 运营 数据 开发 更 多 开发前检查 2.数据研发环节 1.数据需求环节 SLA复盘 规范性检查 财务 风险 数据资产成本/ 价值评估 开发后检查 价值 评估 基线预警 长效运营 治理拦截(优化) 标准治理对象 模版 规范 检查 营销 模型资产 治理范畴(规则) 配 置 治 理 检 查 项 SLA管理 高价值补充 数据资产分类(业务视角) 数据资产分类(技术视角) 一套 资产 SLA 资源优化 质量内容检查 低价值/高成本 治理 数据健康运营 3.指标定义环节 4.数据应用 影响分析 元数据治理 血缘治理 规范定义 度量定义 指标服务 数据特征 数据架构评审 质量治理 数据服务 属性定义 业务范围 数据报表 数据服务 方案与规划  制定数据资产治理管控方案,包括资产目录设计、 资产范围、资产治理运营等 流程与规范  制定数据治理相关规范,流程、治理引擎和标 准
10. 目录 一、数据治理传统模式痛点 二、数据治理核心目标 三、开发治理一体化解决方案 四、未来展望
11. 数据开发治理一体化解决方案 • 将数据研发与数据治理方法论结合,提供开发治理一体化解决方案平台,目标实现数据安全可控、高质量,最终驱动数据在业务场景释放更大价 值 开发治理核心能力 数据治理 应用场景 低代码数据API构 建 自助数据分析  DataOps全周期数据研发 将数据研发过程标准化,引入 CI/CD方法融入数据研发流 程; 数据建模 数据报表 数据治理技术工具 元数据管理 数 据 安 全 治 理 数据血缘 数据质量 数据规范设计 数据建模 基于dataops的全数据研发 流批一体研发IDE 指标设计 检查规范设计 数据研发规范检查 数据标准 流批数据研发 流批数据集成 数仓规划 湖仓一体存储层 开发测试一体化 数湖存储格式 (Iceberg) 数据缓存与加速 湖仓一体存储层 (JuiceFS) 数 据 研 发 运 营 分布式文件系统(HDFS) 成 本 价 值 评 估 体 系  数据治理嵌入研发过程 改变以往先产生后治理的 流程逻辑,将治理规范融入数 据研发流程;  先设计再开发服务 以数据服务和数据指标驱动 数据研发过程,遵循先设计再 研发的治理设计理念;  数治理技术工具 面向数据自动校验端,提供 数据质量/数据血缘/元数据管 理/规范检查/开发测试一体/ 能力服务,实现线上数据的自 动检核;
12. 数据研发治理一体化平台全流程 • 数据 资产 平台 研发 流程 统一数据研发全周期流程,标准化数据建模过程,降低模型研发过程中的人为风险同时,提升整个数据研发效率 业务元数据资产 数据 采集 数据 加密 模型 映射 数据同步 配置 数据源 敏感数据 发现 采集频率 设定 敏感数据 加密 数据 开发 数据 测试 指标资产 数据 上线 数仓加工 敏感数据 标准 异构数据 采集 数仓表资产 数仓模型资产 数据 开发 维度/码值 统一 映射 API资产 指标定义 指标服务 指标加工 API加工 OneService 案例 数据 UAT 验证 对象、维度、 度量定义 指标发布 服务 服务配置 语法 校验 执行集 自动 发布 业务/口径 定义 元数据 服务 统一查询 调度与 监控 测试 报告 数据 主题 指标一致性检测 统一存储
13. 数据开发治理一体化解决方案-DataOps全周期开发治理能力 • 将数据治理融入数据研发的全生命周期流程中,在数据开发过程中完成全域数据治理工作,最终实现数据开发过程中自动化治理的管控目标 设计阶段 数据 标准 模型 设计 研发阶段 数据 集成 数据 清洗 发布阶段 数据 研发 技术元数据 架构规范 治理规范 数据标准 元数据规范 维度表 实时表 字段类型映射 敏感自动识别 物理加密 管理元数据 逻辑脱敏 业务元数据 数据清洗 元数据管理 数据 测试 质量规则 运营阶段 数据 发布 质量校验通过 数据 运营 价值评估 成本计算 数据质量 ROI评估
14. 数据开发治理一体化解决方案-元数据治理 • 数据模型设计阶段,元数据治理是核心治理对象,遵循数仓层级、命名规范、数据标准落标等通过开发治理工具执行,开发治理一体化平台针对 事前、事后的自动盘点运营; 元数据 应用 元数据 逻辑层 元数据服务 数据安全 数据权限 资产运营 目录挂载 资产分类 资产管理 资产打标复核 资产生命周期 2 元数据 采集 业务元数据 1 元数据 产生 架构规范 属性管理 数据地图 元数据发布 技术元数据 元数据扫描并自动采集 治理元数据注册 1 数湖MetaStore 开发治理一体化平台 元数据规范 元数据考核 数据码值落标 数据认责 数仓分层 数据命名标准 批流统一存储Iceberg(批流统一schema) 分布式文件系统HDFS
15. 数据开发治理一体化解决方案-元数据治理-强制检查项(举例) • 针对于数据治理中基础元数据管理,基于行内统一数据标准治理规范,在开发过程中实现对于元数据管理的各项自动落标,确保元数据可用、可 管、可控; 检查1 基于数仓建设标准,平台层面强制约束DWD/DWS/ADS分层的数据研发团队,通过平台约束分层落地 检查2 检查3 数据研发过程中明确分配归属部门管理 命名规范自动化,包括表名和字段名 检查4 码值落标线上化,开发过程中实现码值落标
16. 数据开发治理一体化解决方案-血缘治理能力 • 数据研发人员只需关注将自身需求的业务逻辑转换为开发逻辑,由开发治理平台自动进行脚本解析并生成血缘关系,同步实现血缘链路、血缘层 级依赖、数仓分层依赖等治理事项自动化检查,确保数据血缘健康运营; spark 编码阶段 血缘应用阶段 血缘解析阶段 SQL 引擎层 (hive/spark/prest o) Spark hook Lineage SQL kafka Hive hook 血缘治理阶段 开发过程中血缘治理 • • 层级依赖检查:数据研发作业提交之后,依据自动计 算的血缘分析与DWD层血缘层级,层级太深禁止上 线; 分层依赖层面:依据ODS-DWD-ADS分层规范,禁止 进行跨层依赖,同时ADS内私有域集市层禁止互相依 赖; 运营过程中血缘治理 • 运营时效检查:实时分析层级依赖作业的调度运行时 间,根据高保作业的时效要求,线上分析延迟影响; • 运营成本治理:依据作业互相依赖以及访问热度,自动 针对冷作业进行识别并进行下线,降低集群存储和计算 成本;
17. 数据开发治理一体化解决方案-自动调度能力 • 开发治理一体化平台基于研发作业的依赖血缘,同时支持数据研发人员人工添加自定义依赖,实现对于调度的整体自动化平台管控,屏蔽人为控 制影响,提升数据运行的自动性 1.血缘依赖调度 3.自定义条件调度 自定义调度属性 自定义调度属性 2.并发度调度管控 执行调度检查
18. 数据开发治理一体化解决方案-质量治理能力 • 数据质量已经成为银行数据治理的核心组成部分,从治理视角而言,建立完整全流程的数据质量体系,及时发现质量问题->实时预警属主修复-> 事后复盘增强测试发布环节检测、提升银行数据整体质量,提供更精准的决策分析数据; 事前-质量核验规则 事中-质量核验 事后-异常质量问题追踪复盘 实时质量异常阻断(依据血缘依赖阻断下游自动调度) 1) 表粒度规则监控 2) 字段粒度规则监控 3) 自定义规则监控 通过数据血缘关系,实 时呈现数据调度进度 基于过程质量问题,工单追踪异常整改
19. 数据开发治理一体化解决方案-开发测试一体化 • 为解决大数据数据质量测试痛点,在测试环境无法完全复现生产问题,生产数据脱敏到测试环境仍有安全隐患,因此需要构建数据研发测试一体 化平台,完善数据研发流程,满足监控合规的评审需求,数据需求闭环管理,数据开发、测试、变更流程统一管理,并和数据监控规则打通,保 证全流程质量闭环 质量门槛 流程 管理 分级别 流程定制 需求评审 测试验收 效率优化 UAT/业务 验收 测试自动 执行 缺陷标注 对接系统 结果大盘 聚合报告分析 用户&权限 基础数据规则 核心 功能 单/ 双表 、字段级 场景建模 自 定 义 日期型 数值型 枚举型 字符型 类型 类型 类型 类型 资损 模型 监管 模型 风控 模型 场景自适应数据模型(待建) 营销 模型 机器 学习 自适应 算法 场景 模拟 精准 测试 一键UM登录 数据权限自动识别 数据研发平台 脱敏系统 作业调度/用例执行 ROUTER 数据 准备 权限系统 Jira需求管理 信用卡集市 汽融集市 基础集市 风险 消金 私行 … DQM数据监控
20. 数据开发治理一体化解决方案-数据安全治理 • 从事前、事中、事后分别管控数据安全。以“事中数据脱敏”为例,是通过在SQL/作业埋点用户帐号,分析SQL/Job对应的元数据字段,判断用户 权限,返回用户对应的脱敏数据。 事前 事中 事前制度建设:数据安全“制度”先行,为 此我行修改制定了 “平安银行数据安全管理 办法(2.0版,2019年)”; 事中技术管控:采用 “数据加密”、“数据脱 敏”、“敏感客群保护”、”智能阻断”、“数据 外发”等手段构筑强固的数据安全保护伞; 客户端 SAS Adhoc 事后 事后监控审计:基于规则引擎建立数据访 问审计平台——实时的\自动+人工的识别 可能的异常访问; 调度平台 AI算法平台 Jupyter SQL / Job 统一SQL引擎Router 大数据 平台 血缘分析 元数据管理 权限管理 脱敏引擎 安全决策引擎 大数据SQL计算引擎 HIVE Spark SQL Presto Kylin
21. 数据开发治理一体化解决方案-数仓分层加密处理过程 • • • • ODS 贴源层(raw):敏感字段识别,利用 正则+算法+人工,识别出贴源数据表的敏感字段。 ODS 加密层(mid):高敏感字段加密,将银行卡号,手机号,证件号进行加密储存。 数仓、集市等层:利用字段级血缘关系,标识出每张表敏感字段。 数据查询访问:应用端查询数据时,对统一查询中心(router),根据访问的敏感字段及敏感脱敏类型进行脱敏处理。 报表指标 库(BU) 标签 指标 私库 (基本法) 信用卡 DM 消金 DM 汽融 DM 对公DM 信用卡 DW 消金 DW 汽融 DW 对公DW 信用卡 MID 消金 MID 汽融 MID 对公 MID 财务DM 风险DM 接口 (对外服务) 贴源层 RAW 加密层
22. 数据开发治理一体化解决方案-敏感数据发现 • 源生产系统数据集成过程中,无论实时或者离线采集,开发治理一体化平台基于数据规则自动实现敏感数据发现; 采集表A Cert_no 310000199001101234 email name zhangsan@pingan.com.cn 张三 算法识别:利用大规模语料学习标注模型, 可快速识别文本中的实体 数据表A 规则库 身份证规则: ([1- 9]\d{5}(18|19|([23]\d))\d{2}((0[1- 9])|(10|11|12))(([0-2][1- 9])|10|20|30|31)\d{3}[0-9Xx]) 邮箱规则: ^[a-zA-Z0-9_-]+@[a-zA-Z0-9_- ]+(\.[a-zA-Z0-9_-]+)+$ 1 数据自动 识别 3 字段名 安全标识 Cert_noe 身份证 √ Email 邮箱 √ CHILD_C NT 子女数量 √ 数据表B 2 字段血缘分析 字段名 安全标识 字段1 身份证 √ 字段2 邮箱 √ 人工 标识 识别说明 识别环节1,数据识别:依据预定义规则库+命名实体算法服务自动识别敏感信息; 识别环节2,血缘分析:依据上游字段的安全标记,下游字段自动继承; 识别环节3,人工复核:开放白名单数据环境,数据标准由人工进行复核确认; 白名单数据环境 4 人工 复核 数据表A 数据表B …….
23. 数据开发治理一体化解决方案-基于元数据的加密方案 • 通过元数据标记、底层执行过程中即时加密的方式,兼顾数据安全的同时,提升处理效率。 以MapReduce为例 编译阶段 元数据信息 表元数据 1 读取 运行阶段 5 处理 读取 MapWork (包含加密信息) PostExecutionHook阶段 MapOperator1 MapReduceCompiler 2 生成 分区元数据 4 MapOperator2 处理 读取 字段元数据 更新 分区元数据 MapOperator3 3 序列化 判断 是否有写操作 处理 读取 6 更新 加密方式 血缘关系 HDFS Map.xml (配置) InputSplit1 (数据) 6 更新 InputSplit2 (数据) InputSplit3 (数据) …… • 编译阶段,调用元数据 获取加密信息,给 MapWork增加path到加 密信息的映射 • 执行阶段, MapOperator反序列化 map.xml, 获取加密信息, 并初始序列化工具类, 序列化工具根据加密信 息加密数据 • 任务执行完成后,根据 执行计划,计算字段血 缘并更新元数据表分区 加密状态
24. 数据开发治理一体化解决方案-基于元数据的加密方案(举例) MapReduceCompiler 2 根据语法树 客户表 生成执行计划 1 从元数据获取 CUST_NO CUST_TYPE 增加属性:pathToEncInfo,保存表分区的路径对应的字段加密 信息 hdfs://…/hive/xxx/xxxx.db/cust_info/dt=20221001 “tableName”: “cust_info”, “dbName”: “xxxx, “partitionName” : “dt=20221001”, “fields”: [ { “name” : “cust_no”, “encryptor”: “IDX”, “currentEncState”: “PLAN_TEXT” } , { “name” : “cust_last_name”, “encryptor”: “FAKENAME”, “currentEncState”: “PLAN_TEXT” } ] } 加密算法 当前加密状态 分区 CUST_NO IDX PLAN_TEXT 20221001 CUST_LAST_NAME FAKENAME PLAN_TEXT 20221001 …… …… …… …… 客户表字段 加密信息 MapWork IDX加密 { 字段名称 3 序列化保存为HDFS文件 Map.xml Map.xml 4 读取 MapOperator 加密数据 InputSplit hdfs://…/xxx.db/cust_info/dt=20221001/0001+ 0:10240 MapOperator 加密数据 4 处理 InputSplit hdfs://…/xxx.db/cust_info/dt=20221001/0001+ 10240:20480 客户表 5 执行PostExecutionHook 6 PostExecution Hook 更 新 元 数 据 字段名称 加密算法 当前加密状态 分区 CUST_NO IDX IDX 20221001 CUST_LAST_NAME FAKENAME FAKENAME 20221001 CUST_NO IDX PLAN_TEXT 20220930
25. 数据开发治理一体化解决方案-数据沙箱实现数据流通、安全共享 • 基于沙箱数据只进不出和分析应用相互隔离两大原则构建数据沙箱环境,差异化数据融合模式,确保安全可控要求下,提升训练和探索环节效 率,便捷化数据应用通道。 场景 可有效解决类似数据融合、公私联动融合分析等数据类场景 开发分 析平台 批流开发平台 融合 环境 数据生产环境 √ B模型结果 写出资金同业 统 一 脱 敏 业务 数据 数据沙箱环境 x C模型结果 写出消金 校验通过 校验不通过 统 一 权限 权限 最小化申请 校验通过 信用卡 消金 Adhoc即席查询 资金同业 其他 A模型 输出 B模型 输出 C模型 输出 A结果 查看 B结果 查看 C结果 查看 x 统 一 脱 敏 业务 数据 信用卡 消金 无需 权限申请 资金同业 其他 统一SQL语义引擎 基础 资源 生产YARN HDFS/Iceberg NoSql存储 Hbase/MongoDB/ES 沙箱YARN 沙箱HDFS 原则 A模型结果 写出信用卡 Aicloud数据分析 √ 原则
26. 数据开发治理一体化解决方案-沙箱环境数据流程 • 构建支持数据开发全流程的沙箱环境,确保与生产库分离,只进不出, 数据采样。 既满足应用系统的沙箱环境数据探索需求, 同时提升数据研发 使用效率。 跑 批 沙 箱 环 境 分 析 沙 箱 环 境 1、沙箱环境 2、生产环境 1 2 1 用户 用户 沙箱作业 外部沙箱应用 沙箱库 脱敏/抽样/ 保真/单向 生产 数据源 生产作业 无需 申请权限 分析用户 用户 2 沙箱 数据源 沙箱账 号写入 生产库 输出 算法平台 (沙箱环境) 算法平台 生产环境 日志 异步发送 KAFKA 消息队列 报 警 判断 权限管理 脱敏 是否命中 阻断规则 安全决策引擎 脱敏引擎/ 采样引擎 获取 脱敏字段 元数据管理 沙箱库 提供 数据 脱敏/采样/ 保真 判断 权限 外部生产应用 执行 SQL 大数据SQL引擎 数仓层 添加 脱敏字段 血缘分析 原始层 标注 敏感字段 采集团队
27. 数据开发治理一体化解决方案-成本价值管理能力 • 平台层面深化数据价值评估体系探索,实现数据成本与价值的多维度可量化分析,基于成本/价值实现数据资产的ROI分析以及成本治理。 成本量化分析 价值量化分析 基础平台从存储和计算两个维度,计算每一份数据 成本,计算公式如下: 组合标签 拉新关联提升 调用量 资产关联提升 点击率 模型 PV/UV 基础标签 转化率 标签 价值 资源单价 对应资源的使用单价: • 存储使用单价: 0.67(元/TB每天) • 计算使用单价: 0.0000093(元/vcoreseconds) 资源用量范围包括: • 存储用量 • 计算用量 PV/UV 组合调用量 数据 价值 直接调用量 USER职级 报表 明细下载 业务场景 HIVE 资金相关 SAS 重要链路 资源用量 人工 标注 访问 热度 Presto 数据使用成本 存储成本+计算成本; 存储成本=存储用量*存储单价 计算成本=计算用量*计算单价 成本样例数据,仅供参考, 不代表实际情况
28. 数据资产沉淀-全周期数据资产化治理过程 目标 用户 数据加工人员 开发治理一体化平台 平台 工具层 元数据检查 质量检查 数据加工人员 开发治理一体化平台 业务属主定义 血缘链路核验 (1).资产产生 数仓开发加工 数据 治理层 指标加工 API服务加工 (1).生成 :依赖元数据治理规 范工具,检测通过的数据(元 数据),接口推送至数据资产 平台 (2).资产认责 资产认定 定义资产业务属主 (2).认责定义 ;:基于推送的数 据(元数据);定义业务属主和认 责,将数据责任方界定清楚 资产管理人员 资产开发人员 资产运营人员 资产运营人员 资产使用人员 数据资产平台 数据资产平台 数据分类识别 资产目录运营 资产查找服务 数据盘点 资产自动挂载 资产链路地图 (3).资产管理与盘点 资产自动打标 (表类型/是否敏感) 资产信息盘点 资产信息变更 (4).资产编目 数仓目录管理 资产目录挂载 (4).自动挂载 :基于第三步的 自动盘点,完成对于资产目录挂 载(事前治理侧需先完成标准资 产目录维护) 数据资产平台 (5).资产服务 资产全景地图 资产目录导航 资产场景搜索 打通资产场景 资产生命周期运营 (3).自动盘点 :按照事前定义 的业务全景图谱,依赖治理工具 实现资产的自动打标,并最终完 成分类盘点 (5).资产化应用 :数据资产治理之 后,结合数据价值/成本,面向数据 用户,提供资产目录和搜索服务, 并打通资产与使用场景的平台断点
29. 目录 一、数据治理传统模式痛点 二、数据治理核心目标 三、开发治理一体化解决方案 四、未来展望
30. 逻辑数仓- 从用户角度出发,基于数据使用情况自动化构建数据仓库 • 逻辑数仓以用户视角出发,以最大化数据价值和最优成本管控为目标,更敏捷响应用户需求,弱化繁琐的数据流ETL加工链路,让ETL工程师更 专注企业通用模型设计,节约存储成本和管理成本 逻 辑 数 仓 物 理 层 DAG1 T1 信用卡 MID DAG2 x1 TB1 T2 消金 MID DAG3 x2 T TB2 对公 MID 汽融 MID 贴源层 RAW 批处理引擎 x 实时计算引擎 核心能力:  逻辑数仓层 构建面向用户和下游应用消费的逻辑 数仓层,将逻辑表与物理表隔离,将物理 表交给系统层优化  物理层智能调度 透明数据ETL逻辑和物理存储介质,由 逻辑层用户行为和需求触发,实现数据生 产链路的智能编排和调度,针对重复、相 似计算进行自动合并,下线或降权无效、 低频、低价值数据生产  性能自优化 基于用户查询行为实现自适应的查询 性能优化,自动实现物化、缓存或构建 Cube/索引  从被动到主动的数据治理,实现“数据 自动驾驶” 逻辑层基于业务需求快速调整,物理 层自适应上层调整,识别数据核心资产元 数据
31. 逻辑数仓- 整体设计 • 改变数仓开发模式,让数据人员更关注业务开发,解决大数据平台成本暴增问题,让平台做到主动数据治理 用户 行为 逻辑数仓 API查询 1 2 逻辑DWS (数据轻力度 汇总层) ) 查 询 平 台 产 生 报表 D C E T3.A T4.B T2.C2 T1.C1 F D 优 化 E A/B C T1.C1 F T5 物 化 Z T1.C1 T2.C2 B … 映射 T5(物理表) Z T2.C2 Mapping 逻辑 举例 T4(逻辑表) … sql3 物化视图 物理表&Mapping关系 ODS T3(逻辑表) A sql1 sql2 优化后的执行计划DAG 执行计划DAG 逻辑DWD (事实明细层) sql3 sql2 sql3 DAG3 sql1 智能物化引擎 3 特征 DAG2 sql1 sql2 逻辑ADS (数据应用层) 标签 指标 DAG1 …
32.

首页 - Wiki
Copyright © 2011-2024 iteam. Current version is 2.137.1. UTC+08:00, 2024-11-24 17:27
浙ICP备14020137号-1 $访客地图$