金融级数据研发治理一体化平台实践

如果无法正常显示，请先停止浏览器的去广告插件。

1. 金融级数据研发治理一体化平台实践廖晓格

2. 廖晓格长期大数据平台、AI平台建设经验 • 平安银行数据资产管理及研发中心团队负责人，负责大数据基础平台、数据中台、BI及AI中台能力的建设 • 曾就职于PPTV、ebay、携程、华为，负责大数据平台应用的研发工作

3. 目录一、数据治理传统模式痛点二、数据治理核心目标三、开发治理一体化解决方案四、未来展望

4. 金融数据的特点及治理挑战大数据服务应用数据质量缺乏必要的监控和告警各业务的数据存在孤岛数据多份存储，加大数据成本 PB级别大数据海量存储和计算，造成极高的负载，影响系统稳定性，批量时效难以有效保障大数据测试数据难造，生产数据脱敏到测试环境又有安全隐患，敏感数据多，安全管控难数据流量洪峰不断刷新记录，如何提升实时化能力虽然提供了各种线上平台和工具，但思维和动作还未全面数据化安全提效降本

5. 金融数据治理的价值包袱？资产！ A 降低成本数据治理计算负载极高存储成本剧增 B 提升数据加工效率数据安全隐患 C 数据治理改善数据质量不可靠决策 D 控制数据风险 …… 数据治理 E 赋能管理决策数据治理价值

6. 数据治理传统模式的痛点 • 传统模式下的数据治理工作更多参考DAMA或者DCMM理论体系推行，但公司内部从哪里入手、以什么样的路径推进目前并没有结合自身企业和行业特点制定数据治理的标准体系，涉及效率、技术、管理、安全等，导致治理效果一直不佳，主要体现在以下几个方面： 1、运动式治理通过事后治理，在短期内能看到一定成果，但因为没有融入到日常数据生产流程中，导致治理效果不可持续，不能长久解决治理痛点 3、数据治理成效不可量化 2、治理措施落地难治理成效难量化、可视化，治理推进工作难度会倍数加大很多企业的数据治理管理规范只能停留于纸面和规范文字层面，没有治理工具支撑

7. 目录一、数据治理传统模式痛点二、数据治理核心目标三、开发治理一体化解决方案四、未来展望

8. 数据治理的目标是什么 • 金融行业数据治理核心目标在于兼顾安全、成本并最大化数据价值，因此数据治理需要解决四个使命：数据成本治理线上化治理标准化治理智能化治理DAMA方法论与工具结全周期治理解决方案，数据集成规则策略，可以通过自数据价值最大化，包括通过合，将治理方法论以及行内治理涉及多个流程、多个平动化治理能力识别安全风数据生命周期、成本/价值所有规范，通过平台工具结台、多方不同角色，整合各险、敏感数据，通过内置规评估逆向推动成本治理，释合，提供工具化的治理能方在平台提供统一治理能则和策略提升治理效果；放数据价值、降低数据应用力，实现治理线上化；力，实现治理标准流程；沉淀数据资产成本提供高可用的数据服务

9. 数据治理体系建设治理目标治理全景健康分 SLA 数据质量资产服务治理考核资产目录资产详情资产搜索低价值下线表资产标签资产指标资产特征资产一套治理一个平台一套标准质量检查运营数据开发更多开发前检查 2.数据研发环节 1.数据需求环节 SLA复盘规范性检查财务风险数据资产成本/ 价值评估开发后检查价值评估基线预警长效运营治理拦截(优化) 标准治理对象模版规范检查营销模型资产治理范畴(规则) 配置治理检查项 SLA管理高价值补充数据资产分类(业务视角) 数据资产分类(技术视角) 一套资产 SLA 资源优化质量内容检查低价值/高成本治理数据健康运营 3.指标定义环节 4.数据应用影响分析元数据治理血缘治理规范定义度量定义指标服务数据特征数据架构评审质量治理数据服务属性定义业务范围数据报表数据服务方案与规划  制定数据资产治理管控方案，包括资产目录设计、资产范围、资产治理运营等流程与规范  制定数据治理相关规范，流程、治理引擎和标准

10. 目录一、数据治理传统模式痛点二、数据治理核心目标三、开发治理一体化解决方案四、未来展望

11. 数据开发治理一体化解决方案 • 将数据研发与数据治理方法论结合，提供开发治理一体化解决方案平台，目标实现数据安全可控、高质量，最终驱动数据在业务场景释放更大价值开发治理核心能力数据治理应用场景低代码数据API构建自助数据分析  DataOps全周期数据研发将数据研发过程标准化，引入 CI/CD方法融入数据研发流程；数据建模数据报表数据治理技术工具元数据管理数据安全治理数据血缘数据质量数据规范设计数据建模基于dataops的全数据研发流批一体研发IDE 指标设计检查规范设计数据研发规范检查数据标准流批数据研发流批数据集成数仓规划湖仓一体存储层开发测试一体化数湖存储格式 (Iceberg) 数据缓存与加速湖仓一体存储层 (JuiceFS) 数据研发运营分布式文件系统(HDFS) 成本价值评估体系  数据治理嵌入研发过程改变以往先产生后治理的流程逻辑，将治理规范融入数据研发流程；  先设计再开发服务以数据服务和数据指标驱动数据研发过程，遵循先设计再研发的治理设计理念；  数治理技术工具面向数据自动校验端，提供数据质量/数据血缘/元数据管理/规范检查/开发测试一体/ 能力服务，实现线上数据的自动检核；

12. 数据研发治理一体化平台全流程 • 数据资产平台研发流程统一数据研发全周期流程，标准化数据建模过程，降低模型研发过程中的人为风险同时，提升整个数据研发效率业务元数据资产数据采集数据加密模型映射数据同步配置数据源敏感数据发现采集频率设定敏感数据加密数据开发数据测试指标资产数据上线数仓加工敏感数据标准异构数据采集数仓表资产数仓模型资产数据开发维度/码值统一映射 API资产指标定义指标服务指标加工 API加工 OneService 案例数据 UAT 验证对象、维度、度量定义指标发布服务服务配置语法校验执行集自动发布业务/口径定义元数据服务统一查询调度与监控测试报告数据主题指标一致性检测统一存储

13. 数据开发治理一体化解决方案-DataOps全周期开发治理能力 • 将数据治理融入数据研发的全生命周期流程中，在数据开发过程中完成全域数据治理工作,最终实现数据开发过程中自动化治理的管控目标设计阶段数据标准模型设计研发阶段数据集成数据清洗发布阶段数据研发技术元数据架构规范治理规范数据标准元数据规范维度表实时表字段类型映射敏感自动识别物理加密管理元数据逻辑脱敏业务元数据数据清洗元数据管理数据测试质量规则运营阶段数据发布质量校验通过数据运营价值评估成本计算数据质量 ROI评估

14. 数据开发治理一体化解决方案-元数据治理 • 数据模型设计阶段，元数据治理是核心治理对象，遵循数仓层级、命名规范、数据标准落标等通过开发治理工具执行，开发治理一体化平台针对事前、事后的自动盘点运营；元数据应用元数据逻辑层元数据服务数据安全数据权限资产运营目录挂载资产分类资产管理资产打标复核资产生命周期 2 元数据采集业务元数据 1 元数据产生架构规范属性管理数据地图元数据发布技术元数据元数据扫描并自动采集治理元数据注册 1 数湖MetaStore 开发治理一体化平台元数据规范元数据考核数据码值落标数据认责数仓分层数据命名标准批流统一存储Iceberg(批流统一schema) 分布式文件系统HDFS

15. 数据开发治理一体化解决方案-元数据治理-强制检查项(举例) • 针对于数据治理中基础元数据管理，基于行内统一数据标准治理规范，在开发过程中实现对于元数据管理的各项自动落标，确保元数据可用、可管、可控；检查1 基于数仓建设标准，平台层面强制约束DWD/DWS/ADS分层的数据研发团队，通过平台约束分层落地检查2 检查3 数据研发过程中明确分配归属部门管理命名规范自动化，包括表名和字段名检查4 码值落标线上化，开发过程中实现码值落标

16. 数据开发治理一体化解决方案-血缘治理能力 • 数据研发人员只需关注将自身需求的业务逻辑转换为开发逻辑，由开发治理平台自动进行脚本解析并生成血缘关系，同步实现血缘链路、血缘层级依赖、数仓分层依赖等治理事项自动化检查，确保数据血缘健康运营； spark 编码阶段血缘应用阶段血缘解析阶段 SQL 引擎层 (hive/spark/prest o) Spark hook Lineage SQL kafka Hive hook 血缘治理阶段开发过程中血缘治理 • • 层级依赖检查：数据研发作业提交之后，依据自动计算的血缘分析与DWD层血缘层级，层级太深禁止上线；分层依赖层面：依据ODS-DWD-ADS分层规范，禁止进行跨层依赖，同时ADS内私有域集市层禁止互相依赖；运营过程中血缘治理 • 运营时效检查：实时分析层级依赖作业的调度运行时间，根据高保作业的时效要求，线上分析延迟影响； • 运营成本治理：依据作业互相依赖以及访问热度，自动针对冷作业进行识别并进行下线，降低集群存储和计算成本；

17. 数据开发治理一体化解决方案-自动调度能力 • 开发治理一体化平台基于研发作业的依赖血缘，同时支持数据研发人员人工添加自定义依赖，实现对于调度的整体自动化平台管控，屏蔽人为控制影响，提升数据运行的自动性 1.血缘依赖调度 3.自定义条件调度自定义调度属性自定义调度属性 2.并发度调度管控执行调度检查

18. 数据开发治理一体化解决方案-质量治理能力 • 数据质量已经成为银行数据治理的核心组成部分，从治理视角而言，建立完整全流程的数据质量体系，及时发现质量问题->实时预警属主修复-> 事后复盘增强测试发布环节检测、提升银行数据整体质量，提供更精准的决策分析数据；事前-质量核验规则事中-质量核验事后-异常质量问题追踪复盘实时质量异常阻断(依据血缘依赖阻断下游自动调度) 1) 表粒度规则监控 2) 字段粒度规则监控 3) 自定义规则监控通过数据血缘关系，实时呈现数据调度进度基于过程质量问题，工单追踪异常整改

19. 数据开发治理一体化解决方案-开发测试一体化 • 为解决大数据数据质量测试痛点，在测试环境无法完全复现生产问题，生产数据脱敏到测试环境仍有安全隐患，因此需要构建数据研发测试一体化平台，完善数据研发流程，满足监控合规的评审需求，数据需求闭环管理，数据开发、测试、变更流程统一管理，并和数据监控规则打通，保证全流程质量闭环质量门槛流程管理分级别流程定制需求评审测试验收效率优化 UAT/业务验收测试自动执行缺陷标注对接系统结果大盘聚合报告分析用户&权限基础数据规则核心功能单/ 双表、字段级场景建模自定义日期型数值型枚举型字符型类型类型类型类型资损模型监管模型风控模型场景自适应数据模型（待建）营销模型机器学习自适应算法场景模拟精准测试一键UM登录数据权限自动识别数据研发平台脱敏系统作业调度/用例执行 ROUTER 数据准备权限系统 Jira需求管理信用卡集市汽融集市基础集市风险消金私行 … DQM数据监控

20. 数据开发治理一体化解决方案-数据安全治理 • 从事前、事中、事后分别管控数据安全。以“事中数据脱敏”为例，是通过在SQL/作业埋点用户帐号，分析SQL/Job对应的元数据字段，判断用户权限，返回用户对应的脱敏数据。事前事中事前制度建设：数据安全“制度”先行，为此我行修改制定了 “平安银行数据安全管理办法（2.0版，2019年）”；事中技术管控：采用 “数据加密”、“数据脱敏”、“敏感客群保护”、”智能阻断”、“数据外发”等手段构筑强固的数据安全保护伞；客户端 SAS Adhoc 事后事后监控审计：基于规则引擎建立数据访问审计平台——实时的\自动+人工的识别可能的异常访问；调度平台 AI算法平台 Jupyter SQL / Job 统一SQL引擎Router 大数据平台血缘分析元数据管理权限管理脱敏引擎安全决策引擎大数据SQL计算引擎 HIVE Spark SQL Presto Kylin

21. 数据开发治理一体化解决方案-数仓分层加密处理过程 • • • • ODS 贴源层(raw)：敏感字段识别，利用正则+算法+人工，识别出贴源数据表的敏感字段。 ODS 加密层(mid)：高敏感字段加密，将银行卡号，手机号，证件号进行加密储存。数仓、集市等层：利用字段级血缘关系，标识出每张表敏感字段。数据查询访问：应用端查询数据时，对统一查询中心(router)，根据访问的敏感字段及敏感脱敏类型进行脱敏处理。报表指标库（BU）标签指标私库（基本法）信用卡 DM 消金 DM 汽融 DM 对公DM 信用卡 DW 消金 DW 汽融 DW 对公DW 信用卡 MID 消金 MID 汽融 MID 对公 MID 财务DM 风险DM 接口（对外服务）贴源层 RAW 加密层

22. 数据开发治理一体化解决方案-敏感数据发现 • 源生产系统数据集成过程中，无论实时或者离线采集，开发治理一体化平台基于数据规则自动实现敏感数据发现；采集表A Cert_no 310000199001101234 email name zhangsan@pingan.com.cn 张三算法识别：利用大规模语料学习标注模型，可快速识别文本中的实体数据表A 规则库身份证规则： ([1- 9]\d{5}(18|19|([23]\d))\d{2}((0[1- 9])|(10|11|12))(([0-2][1- 9])|10|20|30|31)\d{3}[0-9Xx]) 邮箱规则: ^[a-zA-Z0-9_-]+@[a-zA-Z0-9_- ]+(\.[a-zA-Z0-9_-]+)+$ 1 数据自动识别 3 字段名安全标识 Cert_noe 身份证 √ Email 邮箱 √ CHILD_C NT 子女数量 √ 数据表B 2 字段血缘分析字段名安全标识字段1 身份证 √ 字段2 邮箱 √ 人工标识识别说明识别环节1，数据识别：依据预定义规则库+命名实体算法服务自动识别敏感信息；识别环节2，血缘分析：依据上游字段的安全标记，下游字段自动继承；识别环节3，人工复核：开放白名单数据环境，数据标准由人工进行复核确认；白名单数据环境 4 人工复核数据表A 数据表B …….

23. 数据开发治理一体化解决方案-基于元数据的加密方案 • 通过元数据标记、底层执行过程中即时加密的方式，兼顾数据安全的同时，提升处理效率。以MapReduce为例编译阶段元数据信息表元数据 1 读取运行阶段 5 处理读取 MapWork （包含加密信息） PostExecutionHook阶段 MapOperator1 MapReduceCompiler 2 生成分区元数据 4 MapOperator2 处理读取字段元数据更新分区元数据 MapOperator3 3 序列化判断是否有写操作处理读取 6 更新加密方式血缘关系 HDFS Map.xml （配置） InputSplit1 （数据） 6 更新 InputSplit2 （数据） InputSplit3 （数据） …… • 编译阶段，调用元数据获取加密信息，给 MapWork增加path到加密信息的映射 • 执行阶段， MapOperator反序列化 map.xml, 获取加密信息，并初始序列化工具类，序列化工具根据加密信息加密数据 • 任务执行完成后，根据执行计划，计算字段血缘并更新元数据表分区加密状态

24. 数据开发治理一体化解决方案-基于元数据的加密方案（举例） MapReduceCompiler 2 根据语法树客户表生成执行计划 1 从元数据获取 CUST_NO CUST_TYPE 增加属性：pathToEncInfo，保存表分区的路径对应的字段加密信息 hdfs://…/hive/xxx/xxxx.db/cust_info/dt=20221001 “tableName”: “cust_info”, “dbName”: “xxxx, “partitionName” : “dt=20221001”, “fields”: [ { “name” : “cust_no”, “encryptor”: “IDX”, “currentEncState”: “PLAN_TEXT” } , { “name” : “cust_last_name”, “encryptor”: “FAKENAME”, “currentEncState”: “PLAN_TEXT” } ] } 加密算法当前加密状态分区 CUST_NO IDX PLAN_TEXT 20221001 CUST_LAST_NAME FAKENAME PLAN_TEXT 20221001 …… …… …… …… 客户表字段加密信息 MapWork IDX加密 { 字段名称 3 序列化保存为HDFS文件 Map.xml Map.xml 4 读取 MapOperator 加密数据 InputSplit hdfs://…/xxx.db/cust_info/dt=20221001/0001+ 0:10240 MapOperator 加密数据 4 处理 InputSplit hdfs://…/xxx.db/cust_info/dt=20221001/0001+ 10240:20480 客户表 5 执行PostExecutionHook 6 PostExecution Hook 更新元数据字段名称加密算法当前加密状态分区 CUST_NO IDX IDX 20221001 CUST_LAST_NAME FAKENAME FAKENAME 20221001 CUST_NO IDX PLAN_TEXT 20220930

25. 数据开发治理一体化解决方案-数据沙箱实现数据流通、安全共享 • 基于沙箱数据只进不出和分析应用相互隔离两大原则构建数据沙箱环境，差异化数据融合模式，确保安全可控要求下，提升训练和探索环节效率，便捷化数据应用通道。场景可有效解决类似数据融合、公私联动融合分析等数据类场景开发分析平台批流开发平台融合环境数据生产环境 √ B模型结果写出资金同业统一脱敏业务数据数据沙箱环境 x C模型结果写出消金校验通过校验不通过统一权限权限最小化申请校验通过信用卡消金 Adhoc即席查询资金同业其他 A模型输出 B模型输出 C模型输出 A结果查看 B结果查看 C结果查看 x 统一脱敏业务数据信用卡消金无需权限申请资金同业其他统一SQL语义引擎基础资源生产YARN HDFS/Iceberg NoSql存储 Hbase/MongoDB/ES 沙箱YARN 沙箱HDFS 原则 A模型结果写出信用卡 Aicloud数据分析 √ 原则

26. 数据开发治理一体化解决方案-沙箱环境数据流程 • 构建支持数据开发全流程的沙箱环境，确保与生产库分离，只进不出, 数据采样。既满足应用系统的沙箱环境数据探索需求，同时提升数据研发使用效率。跑批沙箱环境分析沙箱环境 1、沙箱环境 2、生产环境 1 2 1 用户用户沙箱作业外部沙箱应用沙箱库脱敏/抽样/ 保真/单向生产数据源生产作业无需申请权限分析用户用户 2 沙箱数据源沙箱账号写入生产库输出算法平台（沙箱环境）算法平台生产环境日志异步发送 KAFKA 消息队列报警判断权限管理脱敏是否命中阻断规则安全决策引擎脱敏引擎/ 采样引擎获取脱敏字段元数据管理沙箱库提供数据脱敏/采样/ 保真判断权限外部生产应用执行 SQL 大数据SQL引擎数仓层添加脱敏字段血缘分析原始层标注敏感字段采集团队

27. 数据开发治理一体化解决方案-成本价值管理能力 • 平台层面深化数据价值评估体系探索，实现数据成本与价值的多维度可量化分析，基于成本/价值实现数据资产的ROI分析以及成本治理。成本量化分析价值量化分析基础平台从存储和计算两个维度，计算每一份数据成本，计算公式如下：组合标签拉新关联提升调用量资产关联提升点击率模型 PV/UV 基础标签转化率标签价值资源单价对应资源的使用单价： • 存储使用单价： 0.67(元/TB每天） • 计算使用单价： 0.0000093（元/vcoreseconds）资源用量范围包括： • 存储用量 • 计算用量 PV/UV 组合调用量数据价值直接调用量 USER职级报表明细下载业务场景 HIVE 资金相关 SAS 重要链路资源用量人工标注访问热度 Presto 数据使用成本存储成本+计算成本；存储成本=存储用量*存储单价计算成本=计算用量*计算单价成本样例数据，仅供参考，不代表实际情况

28. 数据资产沉淀-全周期数据资产化治理过程目标用户数据加工人员开发治理一体化平台平台工具层元数据检查质量检查数据加工人员开发治理一体化平台业务属主定义血缘链路核验 (1).资产产生数仓开发加工数据治理层指标加工 API服务加工 (1).生成：依赖元数据治理规范工具，检测通过的数据(元数据)，接口推送至数据资产平台 (2).资产认责资产认定定义资产业务属主 (2).认责定义 ;：基于推送的数据(元数据)；定义业务属主和认责，将数据责任方界定清楚资产管理人员资产开发人员资产运营人员资产运营人员资产使用人员数据资产平台数据资产平台数据分类识别资产目录运营资产查找服务数据盘点资产自动挂载资产链路地图 (3).资产管理与盘点资产自动打标 (表类型/是否敏感) 资产信息盘点资产信息变更 (4).资产编目数仓目录管理资产目录挂载 (4).自动挂载：基于第三步的自动盘点，完成对于资产目录挂载(事前治理侧需先完成标准资产目录维护) 数据资产平台 (5).资产服务资产全景地图资产目录导航资产场景搜索打通资产场景资产生命周期运营 (3).自动盘点：按照事前定义的业务全景图谱，依赖治理工具实现资产的自动打标，并最终完成分类盘点 (5).资产化应用：数据资产治理之后，结合数据价值/成本，面向数据用户，提供资产目录和搜索服务，并打通资产与使用场景的平台断点

29. 目录一、数据治理传统模式痛点二、数据治理核心目标三、开发治理一体化解决方案四、未来展望

30. 逻辑数仓- 从用户角度出发，基于数据使用情况自动化构建数据仓库 • 逻辑数仓以用户视角出发，以最大化数据价值和最优成本管控为目标，更敏捷响应用户需求，弱化繁琐的数据流ETL加工链路，让ETL工程师更专注企业通用模型设计，节约存储成本和管理成本逻辑数仓物理层 DAG1 T1 信用卡 MID DAG2 x1 TB1 T2 消金 MID DAG3 x2 T TB2 对公 MID 汽融 MID 贴源层 RAW 批处理引擎 x 实时计算引擎核心能力：  逻辑数仓层构建面向用户和下游应用消费的逻辑数仓层，将逻辑表与物理表隔离，将物理表交给系统层优化  物理层智能调度透明数据ETL逻辑和物理存储介质，由逻辑层用户行为和需求触发，实现数据生产链路的智能编排和调度，针对重复、相似计算进行自动合并，下线或降权无效、低频、低价值数据生产  性能自优化基于用户查询行为实现自适应的查询性能优化，自动实现物化、缓存或构建 Cube/索引  从被动到主动的数据治理，实现“数据自动驾驶” 逻辑层基于业务需求快速调整，物理层自适应上层调整，识别数据核心资产元数据

31. 逻辑数仓- 整体设计 • 改变数仓开发模式，让数据人员更关注业务开发，解决大数据平台成本暴增问题，让平台做到主动数据治理用户行为逻辑数仓 API查询 1 2 逻辑DWS （数据轻力度汇总层））查询平台产生报表 D C E T3.A T4.B T2.C2 T1.C1 F D 优化 E A/B C T1.C1 F T5 物化 Z T1.C1 T2.C2 B … 映射 T5（物理表） Z T2.C2 Mapping 逻辑举例 T4（逻辑表） … sql3 物化视图物理表&Mapping关系 ODS T3（逻辑表） A sql1 sql2 优化后的执行计划DAG 执行计划DAG 逻辑DWD （事实明细层) sql3 sql2 sql3 DAG3 sql1 智能物化引擎 3 特征 DAG2 sql1 sql2 逻辑ADS （数据应用层）标签指标 DAG1 …

32.