金融级数据研发治理一体化平台实践
如果无法正常显示,请先停止浏览器的去广告插件。
1. 金融级数据研发治理一
体化平台实践
廖晓格
2. 廖晓格
长期大数据平台、AI平台建设经验
• 平安银行数据资产管理及研发中心团队负责人,负责大数据基础平台、
数据中台、BI及AI中台能力的建设
• 曾就职于PPTV、ebay、携程、华为,负责大数据平台应用的研发工作
3. 目录
一、数据治理传统模式痛点
二、数据治理核心目标
三、开发治理一体化解决方案
四、未来展望
4. 金融数据的特点及治理挑战
大数据服务应用数据质量 缺乏必要的监控和告警
各业务的数据存在 孤岛
数据多份存储,加大 数据成本
PB级别大数据海量存储和计算,造成 极高的负载 ,影响系统 稳定性 , 批量时效 难以有效保障
大数据测试数据难造,生产数据脱敏到测试环境又 有安全隐患,敏感数据多,安全管控难
数据流量洪峰不断刷新记录,如何 提升实时化能力
虽然提供了各种线上平台和工具,但 思维 和动作还未全面 数据化
安全
提效
降本
5. 金融数据治理的价值
包袱?
资产!
A
降低成本
数据
治理
计算负载极高
存储成本剧增
B
提升数据加工效率
数据安全隐患
C
数据
治理
改善数据质量
不可靠决策
D
控制数据风险
……
数据
治理
E
赋能管理决策
数
据
治
理
价
值
6. 数据治理传统模式的痛点
•
传统模式下的数据治理工作更多参考DAMA或者DCMM理论体系推行,但公司内部从哪里入手、以什么样的路径推进目前并没有结合自身企业
和行业特点制定数据治理的标准体系,涉及效率、技术、管理、安全等,导致治理效果一直不佳,主要体现在以下几个方面:
1、运动式治理
通过事后治理,在短期内能看到一定成果,但因
为没有融入到日常数据生产流程中,导致治理效
果不可持续,不能长久解决治理痛点
3、数据治理成效不可量化 2、治理措施落地难
治理成效难量化、可视化,治
理推进工作难度会倍数加大 很多企业的数据治理管理规范只
能停留于纸面和规范文字层面,
没有治理工具支撑
7. 目录
一、数据治理传统模式痛点
二、数据治理核心目标
三、开发治理一体化解决方案
四、未来展望
8. 数据治理的目标是什么
•
金融行业数据治理核心目标在于兼顾安全、成本并最大化数据价值,因此数据治理需要解决四个使命:
数据成本
治理线上化 治理标准化 治理智能化 治理DAMA方法论与工具结 全周期治理解决方案,数据 集成规则策略,可以通过自 数据价值最大化,包括通过
合,将治理方法论以及行内 治理涉及多个流程、多个平 动化治理能力识别安全风 数据生命周期、成本/价值
所有规范,通过平台工具结 台、多方不同角色,整合各 险、敏感数据,通过内置规 评估逆向推动成本治理,释
合,提供工具化的治理能 方在平台提供统一治理能 则和策略提升治理效果; 放数据价值、降低数据应用
力,实现治理线上化; 力,实现治理标准流程;
沉淀数据资产
成本
提供高可用的数据服务
9. 数据治理体系建设
治理
目标
治理全景
健康分
SLA
数据质量
资产服务
治理考核
资产目录
资产详情
资产搜索
低价值下线
表资产
标签资产
指标资产
特征资产
一套
治理
一个
平台
一套
标准
质量
检查
运营
数据
开发
更
多
开发前检查
2.数据研发环节
1.数据需求环节
SLA复盘
规范性检查
财务
风险
数据资产成本/
价值评估
开发后检查
价值
评估
基线预警
长效运营
治理拦截(优化)
标准治理对象
模版
规范
检查
营销
模型资产
治理范畴(规则)
配
置
治
理
检
查
项
SLA管理
高价值补充
数据资产分类(业务视角)
数据资产分类(技术视角)
一套
资产
SLA
资源优化
质量内容检查
低价值/高成本
治理
数据健康运营
3.指标定义环节
4.数据应用
影响分析 元数据治理 血缘治理 规范定义 度量定义 指标服务 数据特征
数据架构评审 质量治理 数据服务 属性定义 业务范围 数据报表 数据服务
方案与规划
制定数据资产治理管控方案,包括资产目录设计、
资产范围、资产治理运营等
流程与规范
制定数据治理相关规范,流程、治理引擎和标
准
10. 目录
一、数据治理传统模式痛点
二、数据治理核心目标
三、开发治理一体化解决方案
四、未来展望
11. 数据开发治理一体化解决方案
•
将数据研发与数据治理方法论结合,提供开发治理一体化解决方案平台,目标实现数据安全可控、高质量,最终驱动数据在业务场景释放更大价
值
开发治理核心能力
数据治理
应用场景
低代码数据API构
建
自助数据分析
DataOps全周期数据研发
将数据研发过程标准化,引入
CI/CD方法融入数据研发流
程;
数据建模
数据报表
数据治理技术工具
元数据管理
数
据
安
全
治
理
数据血缘
数据质量
数据规范设计
数据建模
基于dataops的全数据研发
流批一体研发IDE
指标设计
检查规范设计 数据研发规范检查
数据标准 流批数据研发
流批数据集成
数仓规划
湖仓一体存储层
开发测试一体化
数湖存储格式
(Iceberg)
数据缓存与加速
湖仓一体存储层
(JuiceFS)
数
据
研
发
运
营
分布式文件系统(HDFS)
成
本
价
值
评
估
体
系
数据治理嵌入研发过程
改变以往先产生后治理的
流程逻辑,将治理规范融入数
据研发流程;
先设计再开发服务
以数据服务和数据指标驱动
数据研发过程,遵循先设计再
研发的治理设计理念;
数治理技术工具
面向数据自动校验端,提供
数据质量/数据血缘/元数据管
理/规范检查/开发测试一体/
能力服务,实现线上数据的自
动检核;
12. 数据研发治理一体化平台全流程
•
数据
资产
平台
研发
流程
统一数据研发全周期流程,标准化数据建模过程,降低模型研发过程中的人为风险同时,提升整个数据研发效率
业务元数据资产
数据
采集
数据
加密
模型
映射
数据同步
配置
数据源
敏感数据
发现
采集频率
设定 敏感数据
加密
数据
开发
数据
测试
指标资产
数据
上线
数仓加工
敏感数据
标准
异构数据
采集
数仓表资产
数仓模型资产
数据
开发
维度/码值
统一
映射
API资产
指标定义
指标服务
指标加工
API加工
OneService
案例
数据 UAT
验证 对象、维度、
度量定义 指标发布
服务 服务配置
语法
校验 执行集 自动
发布 业务/口径
定义 元数据
服务 统一查询
调度与
监控 测试
报告 数据
主题
指标一致性检测
统一存储
13. 数据开发治理一体化解决方案-DataOps全周期开发治理能力
•
将数据治理融入数据研发的全生命周期流程中,在数据开发过程中完成全域数据治理工作,最终实现数据开发过程中自动化治理的管控目标
设计阶段
数据
标准
模型
设计
研发阶段
数据
集成
数据
清洗
发布阶段
数据
研发
技术元数据
架构规范
治理规范
数据标准
元数据规范
维度表
实时表
字段类型映射
敏感自动识别
物理加密 管理元数据
逻辑脱敏 业务元数据
数据清洗
元数据管理
数据
测试
质量规则
运营阶段
数据
发布
质量校验通过
数据
运营
价值评估
成本计算
数据质量
ROI评估
14. 数据开发治理一体化解决方案-元数据治理
•
数据模型设计阶段,元数据治理是核心治理对象,遵循数仓层级、命名规范、数据标准落标等通过开发治理工具执行,开发治理一体化平台针对
事前、事后的自动盘点运营;
元数据
应用
元数据
逻辑层
元数据服务
数据安全
数据权限
资产运营
目录挂载
资产分类
资产管理
资产打标复核
资产生命周期
2
元数据
采集
业务元数据
1
元数据
产生
架构规范
属性管理
数据地图
元数据发布
技术元数据
元数据扫描并自动采集
治理元数据注册
1
数湖MetaStore
开发治理一体化平台
元数据规范
元数据考核
数据码值落标 数据认责
数仓分层 数据命名标准
批流统一存储Iceberg(批流统一schema)
分布式文件系统HDFS
15. 数据开发治理一体化解决方案-元数据治理-强制检查项(举例)
•
针对于数据治理中基础元数据管理,基于行内统一数据标准治理规范,在开发过程中实现对于元数据管理的各项自动落标,确保元数据可用、可
管、可控;
检查1
基于数仓建设标准,平台层面强制约束DWD/DWS/ADS分层的数据研发团队,通过平台约束分层落地
检查2
检查3
数据研发过程中明确分配归属部门管理
命名规范自动化,包括表名和字段名
检查4
码值落标线上化,开发过程中实现码值落标
16. 数据开发治理一体化解决方案-血缘治理能力
•
数据研发人员只需关注将自身需求的业务逻辑转换为开发逻辑,由开发治理平台自动进行脚本解析并生成血缘关系,同步实现血缘链路、血缘层
级依赖、数仓分层依赖等治理事项自动化检查,确保数据血缘健康运营;
spark
编码阶段
血缘应用阶段
血缘解析阶段
SQL
引擎层
(hive/spark/prest
o)
Spark
hook
Lineage
SQL
kafka
Hive
hook
血缘治理阶段
开发过程中血缘治理
•
•
层级依赖检查:数据研发作业提交之后,依据自动计
算的血缘分析与DWD层血缘层级,层级太深禁止上
线;
分层依赖层面:依据ODS-DWD-ADS分层规范,禁止
进行跨层依赖,同时ADS内私有域集市层禁止互相依
赖;
运营过程中血缘治理
• 运营时效检查:实时分析层级依赖作业的调度运行时
间,根据高保作业的时效要求,线上分析延迟影响;
• 运营成本治理:依据作业互相依赖以及访问热度,自动
针对冷作业进行识别并进行下线,降低集群存储和计算
成本;
17. 数据开发治理一体化解决方案-自动调度能力
•
开发治理一体化平台基于研发作业的依赖血缘,同时支持数据研发人员人工添加自定义依赖,实现对于调度的整体自动化平台管控,屏蔽人为控
制影响,提升数据运行的自动性
1.血缘依赖调度
3.自定义条件调度
自定义调度属性
自定义调度属性
2.并发度调度管控
执行调度检查
18. 数据开发治理一体化解决方案-质量治理能力
•
数据质量已经成为银行数据治理的核心组成部分,从治理视角而言,建立完整全流程的数据质量体系,及时发现质量问题->实时预警属主修复->
事后复盘增强测试发布环节检测、提升银行数据整体质量,提供更精准的决策分析数据;
事前-质量核验规则
事中-质量核验
事后-异常质量问题追踪复盘
实时质量异常阻断(依据血缘依赖阻断下游自动调度)
1) 表粒度规则监控
2) 字段粒度规则监控
3) 自定义规则监控
通过数据血缘关系,实
时呈现数据调度进度
基于过程质量问题,工单追踪异常整改
19. 数据开发治理一体化解决方案-开发测试一体化
•
为解决大数据数据质量测试痛点,在测试环境无法完全复现生产问题,生产数据脱敏到测试环境仍有安全隐患,因此需要构建数据研发测试一体
化平台,完善数据研发流程,满足监控合规的评审需求,数据需求闭环管理,数据开发、测试、变更流程统一管理,并和数据监控规则打通,保
证全流程质量闭环
质量门槛
流程
管理
分级别
流程定制
需求评审
测试验收
效率优化
UAT/业务
验收
测试自动
执行
缺陷标注
对接系统
结果大盘
聚合报告分析
用户&权限
基础数据规则
核心
功能
单/
双表
、字段级
场景建模
自
定
义
日期型 数值型 枚举型 字符型
类型
类型
类型
类型
资损
模型
监管
模型
风控
模型
场景自适应数据模型(待建)
营销
模型
机器
学习
自适应
算法
场景
模拟
精准
测试
一键UM登录
数据权限自动识别
数据研发平台
脱敏系统
作业调度/用例执行
ROUTER
数据
准备
权限系统
Jira需求管理
信用卡集市
汽融集市
基础集市
风险
消金
私行
…
DQM数据监控
20. 数据开发治理一体化解决方案-数据安全治理
•
从事前、事中、事后分别管控数据安全。以“事中数据脱敏”为例,是通过在SQL/作业埋点用户帐号,分析SQL/Job对应的元数据字段,判断用户
权限,返回用户对应的脱敏数据。
事前 事中
事前制度建设:数据安全“制度”先行,为
此我行修改制定了 “平安银行数据安全管理
办法(2.0版,2019年)”; 事中技术管控:采用 “数据加密”、“数据脱
敏”、“敏感客群保护”、”智能阻断”、“数据
外发”等手段构筑强固的数据安全保护伞;
客户端
SAS
Adhoc
事后
事后监控审计:基于规则引擎建立数据访
问审计平台——实时的\自动+人工的识别
可能的异常访问;
调度平台
AI算法平台
Jupyter
SQL / Job
统一SQL引擎Router
大数据
平台
血缘分析
元数据管理
权限管理
脱敏引擎
安全决策引擎
大数据SQL计算引擎
HIVE
Spark SQL
Presto
Kylin
21. 数据开发治理一体化解决方案-数仓分层加密处理过程
•
•
•
•
ODS 贴源层(raw):敏感字段识别,利用 正则+算法+人工,识别出贴源数据表的敏感字段。
ODS 加密层(mid):高敏感字段加密,将银行卡号,手机号,证件号进行加密储存。
数仓、集市等层:利用字段级血缘关系,标识出每张表敏感字段。
数据查询访问:应用端查询数据时,对统一查询中心(router),根据访问的敏感字段及敏感脱敏类型进行脱敏处理。
报表指标
库(BU)
标签
指标
私库
(基本法)
信用卡
DM 消金
DM 汽融
DM 对公DM
信用卡
DW 消金
DW 汽融
DW 对公DW
信用卡
MID 消金
MID 汽融
MID 对公
MID
财务DM
风险DM
接口
(对外服务)
贴源层 RAW
加密层
22. 数据开发治理一体化解决方案-敏感数据发现
•
源生产系统数据集成过程中,无论实时或者离线采集,开发治理一体化平台基于数据规则自动实现敏感数据发现;
采集表A
Cert_no
310000199001101234
email
name
zhangsan@pingan.com.cn
张三
算法识别:利用大规模语料学习标注模型,
可快速识别文本中的实体
数据表A
规则库
身份证规则:
([1-
9]\d{5}(18|19|([23]\d))\d{2}((0[1-
9])|(10|11|12))(([0-2][1-
9])|10|20|30|31)\d{3}[0-9Xx])
邮箱规则:
^[a-zA-Z0-9_-]+@[a-zA-Z0-9_-
]+(\.[a-zA-Z0-9_-]+)+$
1
数据自动
识别
3
字段名 安全标识 Cert_noe 身份证 √
Email 邮箱 √
CHILD_C
NT 子女数量 √
数据表B
2
字段血缘分析
字段名 安全标识 字段1 身份证 √
字段2 邮箱 √
人工
标识
识别说明
识别环节1,数据识别:依据预定义规则库+命名实体算法服务自动识别敏感信息;
识别环节2,血缘分析:依据上游字段的安全标记,下游字段自动继承;
识别环节3,人工复核:开放白名单数据环境,数据标准由人工进行复核确认;
白名单数据环境
4
人工
复核
数据表A
数据表B
…….
23. 数据开发治理一体化解决方案-基于元数据的加密方案
•
通过元数据标记、底层执行过程中即时加密的方式,兼顾数据安全的同时,提升处理效率。
以MapReduce为例
编译阶段
元数据信息
表元数据
1 读取
运行阶段
5
处理
读取
MapWork
(包含加密信息)
PostExecutionHook阶段
MapOperator1
MapReduceCompiler
2 生成
分区元数据
4
MapOperator2
处理
读取
字段元数据
更新
分区元数据
MapOperator3
3 序列化
判断
是否有写操作
处理
读取
6 更新
加密方式
血缘关系
HDFS
Map.xml
(配置)
InputSplit1
(数据)
6 更新
InputSplit2
(数据)
InputSplit3
(数据)
……
• 编译阶段,调用元数据
获取加密信息,给
MapWork增加path到加
密信息的映射
• 执行阶段,
MapOperator反序列化
map.xml, 获取加密信息,
并初始序列化工具类,
序列化工具根据加密信
息加密数据
• 任务执行完成后,根据
执行计划,计算字段血
缘并更新元数据表分区
加密状态
24. 数据开发治理一体化解决方案-基于元数据的加密方案(举例)
MapReduceCompiler
2 根据语法树
客户表
生成执行计划
1 从元数据获取
CUST_NO
CUST_TYPE
增加属性:pathToEncInfo,保存表分区的路径对应的字段加密
信息
hdfs://…/hive/xxx/xxxx.db/cust_info/dt=20221001
“tableName”: “cust_info”,
“dbName”: “xxxx,
“partitionName” : “dt=20221001”,
“fields”: [
{
“name” : “cust_no”,
“encryptor”: “IDX”,
“currentEncState”: “PLAN_TEXT”
} ,
{
“name” : “cust_last_name”,
“encryptor”: “FAKENAME”,
“currentEncState”: “PLAN_TEXT”
}
]
}
加密算法 当前加密状态 分区
CUST_NO IDX PLAN_TEXT 20221001
CUST_LAST_NAME FAKENAME PLAN_TEXT 20221001
…… …… …… ……
客户表字段
加密信息
MapWork
IDX加密
{
字段名称
3 序列化保存为HDFS文件
Map.xml
Map.xml
4 读取
MapOperator
加密数据
InputSplit
hdfs://…/xxx.db/cust_info/dt=20221001/0001+
0:10240
MapOperator
加密数据
4 处理
InputSplit
hdfs://…/xxx.db/cust_info/dt=20221001/0001+
10240:20480
客户表
5 执行PostExecutionHook 6
PostExecution
Hook
更
新
元
数
据
字段名称 加密算法 当前加密状态 分区
CUST_NO IDX IDX 20221001
CUST_LAST_NAME FAKENAME FAKENAME 20221001
CUST_NO IDX PLAN_TEXT 20220930
25. 数据开发治理一体化解决方案-数据沙箱实现数据流通、安全共享
•
基于沙箱数据只进不出和分析应用相互隔离两大原则构建数据沙箱环境,差异化数据融合模式,确保安全可控要求下,提升训练和探索环节效
率,便捷化数据应用通道。
场景
可有效解决类似数据融合、公私联动融合分析等数据类场景
开发分
析平台
批流开发平台
融合
环境
数据生产环境
√
B模型结果
写出资金同业
统 一 脱 敏
业务
数据
数据沙箱环境
x
C模型结果
写出消金
校验通过 校验不通过
统 一 权限 权限
最小化申请
校验通过
信用卡
消金
Adhoc即席查询
资金同业
其他
A模型
输出 B模型
输出 C模型
输出
A结果
查看 B结果
查看 C结果
查看
x
统 一 脱 敏
业务
数据
信用卡
消金
无需
权限申请
资金同业
其他
统一SQL语义引擎
基础
资源
生产YARN
HDFS/Iceberg
NoSql存储
Hbase/MongoDB/ES
沙箱YARN
沙箱HDFS
原则
A模型结果
写出信用卡
Aicloud数据分析
√
原则
26. 数据开发治理一体化解决方案-沙箱环境数据流程
•
构建支持数据开发全流程的沙箱环境,确保与生产库分离,只进不出, 数据采样。 既满足应用系统的沙箱环境数据探索需求, 同时提升数据研发
使用效率。
跑
批
沙
箱
环
境
分
析
沙
箱
环
境
1、沙箱环境
2、生产环境
1
2
1
用户
用户
沙箱作业
外部沙箱应用
沙箱库
脱敏/抽样/
保真/单向
生产
数据源
生产作业
无需
申请权限
分析用户
用户
2
沙箱
数据源
沙箱账
号写入
生产库
输出
算法平台
(沙箱环境)
算法平台
生产环境
日志
异步发送
KAFKA
消息队列
报 警
判断
权限管理
脱敏
是否命中
阻断规则
安全决策引擎
脱敏引擎/
采样引擎
获取
脱敏字段
元数据管理
沙箱库
提供
数据
脱敏/采样/
保真
判断
权限
外部生产应用
执行
SQL
大数据SQL引擎
数仓层
添加
脱敏字段
血缘分析
原始层
标注
敏感字段
采集团队
27. 数据开发治理一体化解决方案-成本价值管理能力
•
平台层面深化数据价值评估体系探索,实现数据成本与价值的多维度可量化分析,基于成本/价值实现数据资产的ROI分析以及成本治理。
成本量化分析
价值量化分析
基础平台从存储和计算两个维度,计算每一份数据
成本,计算公式如下:
组合标签
拉新关联提升
调用量
资产关联提升
点击率
模型
PV/UV
基础标签
转化率
标签
价值
资源单价
对应资源的使用单价:
• 存储使用单价:
0.67(元/TB每天)
• 计算使用单价:
0.0000093(元/vcoreseconds)
资源用量范围包括:
• 存储用量
• 计算用量
PV/UV
组合调用量
数据
价值
直接调用量
USER职级
报表
明细下载
业务场景 HIVE
资金相关 SAS
重要链路
资源用量
人工
标注
访问
热度
Presto
数据使用成本
存储成本+计算成本;
存储成本=存储用量*存储单价
计算成本=计算用量*计算单价
成本样例数据,仅供参考,
不代表实际情况
28. 数据资产沉淀-全周期数据资产化治理过程
目标
用户
数据加工人员
开发治理一体化平台
平台
工具层
元数据检查
质量检查
数据加工人员
开发治理一体化平台
业务属主定义
血缘链路核验
(1).资产产生
数仓开发加工
数据
治理层
指标加工
API服务加工
(1).生成 :依赖元数据治理规
范工具,检测通过的数据(元
数据),接口推送至数据资产
平台
(2).资产认责
资产认定
定义资产业务属主
(2).认责定义 ;:基于推送的数
据(元数据);定义业务属主和认
责,将数据责任方界定清楚
资产管理人员
资产开发人员
资产运营人员
资产运营人员
资产使用人员
数据资产平台 数据资产平台 数据分类识别 资产目录运营 资产查找服务
数据盘点 资产自动挂载 资产链路地图
(3).资产管理与盘点
资产自动打标
(表类型/是否敏感)
资产信息盘点
资产信息变更
(4).资产编目
数仓目录管理
资产目录挂载
(4).自动挂载 :基于第三步的
自动盘点,完成对于资产目录挂
载(事前治理侧需先完成标准资
产目录维护)
数据资产平台
(5).资产服务
资产全景地图
资产目录导航
资产场景搜索
打通资产场景
资产生命周期运营
(3).自动盘点 :按照事前定义
的业务全景图谱,依赖治理工具
实现资产的自动打标,并最终完
成分类盘点
(5).资产化应用 :数据资产治理之
后,结合数据价值/成本,面向数据
用户,提供资产目录和搜索服务,
并打通资产与使用场景的平台断点
29. 目录
一、数据治理传统模式痛点
二、数据治理核心目标
三、开发治理一体化解决方案
四、未来展望
30. 逻辑数仓- 从用户角度出发,基于数据使用情况自动化构建数据仓库
•
逻辑数仓以用户视角出发,以最大化数据价值和最优成本管控为目标,更敏捷响应用户需求,弱化繁琐的数据流ETL加工链路,让ETL工程师更
专注企业通用模型设计,节约存储成本和管理成本
逻
辑
数
仓
物
理
层
DAG1
T1
信用卡
MID
DAG2
x1
TB1
T2
消金
MID
DAG3
x2
T
TB2
对公
MID
汽融
MID
贴源层 RAW
批处理引擎
x
实时计算引擎
核心能力:
逻辑数仓层
构建面向用户和下游应用消费的逻辑
数仓层,将逻辑表与物理表隔离,将物理
表交给系统层优化
物理层智能调度
透明数据ETL逻辑和物理存储介质,由
逻辑层用户行为和需求触发,实现数据生
产链路的智能编排和调度,针对重复、相
似计算进行自动合并,下线或降权无效、
低频、低价值数据生产
性能自优化
基于用户查询行为实现自适应的查询
性能优化,自动实现物化、缓存或构建
Cube/索引
从被动到主动的数据治理,实现“数据
自动驾驶”
逻辑层基于业务需求快速调整,物理
层自适应上层调整,识别数据核心资产元
数据
31. 逻辑数仓- 整体设计
•
改变数仓开发模式,让数据人员更关注业务开发,解决大数据平台成本暴增问题,让平台做到主动数据治理
用户
行为
逻辑数仓
API查询
1
2
逻辑DWS
(数据轻力度
汇总层)
)
查
询
平
台
产
生
报表
D
C
E
T3.A
T4.B
T2.C2
T1.C1
F
D
优
化
E
A/B
C
T1.C1
F
T5
物
化
Z
T1.C1
T2.C2
B
…
映射
T5(物理表)
Z
T2.C2
Mapping
逻辑
举例
T4(逻辑表)
…
sql3
物化视图
物理表&Mapping关系
ODS
T3(逻辑表)
A
sql1
sql2
优化后的执行计划DAG
执行计划DAG
逻辑DWD
(事实明细层)
sql3
sql2
sql3
DAG3
sql1
智能物化引擎
3
特征
DAG2
sql1
sql2
逻辑ADS
(数据应用层)
标签
指标
DAG1
…
32.