EB 级数据治理在蚂蚁安全的探索与实践

1. EB级数据治理在蚂蚁安全的探索与实践康树鹏

2.

3. 个人简介康树鹏高级安全数据架构师 ● 14年加入蚂蚁，目前是安全大数据技术团队数据架构和治理负责人 ● 主导过蚂蚁集团特征服务平台离线数据服务能力建设项目 ● 主导过安全数据架构升级及数据治理项目 ● 关注大数据研发、数据架构、数据治理等领域

4. 目录 ◆ 数据治理面临的挑战 ◆ 数据治理的架构设计 ◆ 数据治理在安全的实践 ◆ 数据治理的未来思考

5. 数据治理的范畴 ● 数据技术、模型架构、标准规范等 ● 数据质量问题、⻛险故障的管控与攻防数据架构数据价值数据质量安全合规 ● 成本：计算、存储、运维等 ● 价值：数据资产被使用、数据业务化过程 ● 数据合规存储、共享及使用

6. 行业挑战数据治理面临的挑战金融支付行业顶层架构设计不足担保交易数据规模大加工复杂数据互通难数据孤岛数据复用难重复建设多成本增⻓快安全生产问题突出余额宝花呗借呗保险 APP 从业务来基金 APP APP 业务对数据依赖强、敏感度高、合规要求多大数据处理平台离线计算流式计算 OLAP分析图计算数据深度和广度决定了业务产品的服务质量和边界组织方面到业务去

7. 数据治理面临的挑战 85%-安全水位线 19年4月ODPS离线集群存储使用率组织方面

8. 数据治理思路 • 成立数据架构小组，从架构域维度统筹公司整体架构及治理工作 • 设立数据管理岗位及晋升通道 • 制定跨BU数据研发协作机制和流程业务支撑资产升级组织设计战役拉动规范制定 • 数据架构规范 • 资产研发管理规范平台运营活动规范传播文化建设建设 • 数据治理管控规则 • 数据研发安全生产规范 • 研发侧，落地架构及研发规范，正向提升资产研发质量，管控资产无序增⻓ • 治理侧，搭建平台化治理工具能力，形成一套自动化的治理机制

9. 业务层支付财富保险微贷文化建设业务数据治理大盘应用场景管理应用资源⻛险与自治系统层研发识别发布管控治理感知治理应急 • 简单加工 • 缩容拷⻉ • 重复识别 • 规范校验 • 名单校验 • 成本校验 • 无效标记 • 重复标记 • 异常标记 • 影响评估 • 一键回滚 • 链路重跑重复识别异常识别治理红黑榜(月报) 生产阶段治理识别能力三无识别技术分享&论坛应用全链路治理研发阶段能力层信用发布卡控重复识别资产判优成本预估预下线下线计算成本存储成本组织规划预回收数据治理小组回收安全生产小组资源管控能力成本分摊能力治理管控能力穿透识别资源回收运维成本混部调度链路分摊数据架构小组资源管控制度规范资源监控集市成本大盘数据架构规范统一血缘中心静态引用血缘 (表、字段、调度等) 动态流量血缘(读取、调用等) 元模型（主动采集、被动上报等）预算计算存储访问数据治理集市异常检测大规模图算法机器学习资产研发规范治理管控规则安全生产规范

10. 安全业务场景为上亿用户，每日上千万笔交易提供实时的账户及资金安全保障，支付宝2021年资损率低于千万分之0.098。⻛控业务赌博、欺诈、冒用、内容⻛险等反洗钱可疑交易、赌博、套现、虚拟币等系统安全&数据安全系统入侵、DDos、爬虫攻击等业务特点⻛险防控重度依赖数据⻛险对抗实时要求高、上线要快存储及计算年增⻓率40%

11. 数据治理在安全场景实践节存储治理计算治理任务治理流应用全链路血缘开源专用集群迁移混部混部集群

12. 数据治理在安全场景实践(一)-迁移混部提升资源利用率，动态扩容，保障稳定性杭州专用集群存储计算一体 => 存储计算分离上海，业务同城内可弹 A机房-独立集群混部计算存储主库独占计算存储备库深圳混部深圳，业务同城内可弹 B机房-独立集群混部计算存储主库 A机房-独立集群独占计算混部计算存储备库存储主库独占计算存储备库 B机房-独立集群混部计算存储主库应应应应应应应应用用用用用用用用层层层层层层层层中间层中间层 ODS层 ODS层中间层本地存储中间层本地存储跨城访问依赖中间层减少网络开销中间层中间层 ODS层 ODS层中间层本地存储独占计算存储备库中间层本地存储

13. 迁移混部-四个阶段 1、项目规划 2、迁移改造 3、日常巡检 4、持续优化巡检治理码代迁移评估架构升级理合迁移完成日常巡检 a) 业务项目划分评估 b) 资源使用评估 ➢ 产出评估迁移需要改造任务列表不热表集群缓存发布管控 ➢ 评估最佳迁移方案代码改造 ➢ 部署巡检规则，生成整改 ➢ 不合理任务持续推进治理 ➢ 不合理代码改造 ➢ 进行代码改造和架构升级 ➢ 日常巡检避免大任务对集群冲击 ➢ 架构升级，构建合理中间层及集市层 ➢ 部署发布管控，避免热表 ➢ 持续评估集群是否需要再次迁移 ➢ 根据集群情况适当缓存热表列表及大表跨集群拷⻉

14. 迁移混部-新增管控及存量治理新增管控存量治理

15. 数据治理在安全场景实践节存储治理计算治理任务治理流应用全链路血缘开源专用集群迁移混部混部集群

16. 数据治理在安全场景实践(二)-应用全链路血缘血缘链路深 100+ 1. 数据依赖及影响无法评估分析关联度广 3w 资产维度多 500+ 引发问题 2. 数据效能无法评估，成本及价值讲不清

17. 应用全链路血缘-整体链路离线数据特征平台决策引擎数据产品数据写入 API服务可信名单⻛控决策引擎模型平台关系图内容⻛险决策引擎宽表 velocity 离线数据血缘(表、字段、调用) 反洗钱决策引擎在线应用血缘(静态配置、动态流量) 全链路血缘是数据价值计算及数据治理的核心数据底盘能力！

18. 应用全链路血缘-血缘数据模型数据基础模型计算数据 ■ 两种点 a）数据点：逻辑或物理数据及元信息 b）计算点：配置、资源、计算逻辑 ■ 两种边 a）数据被计算使用 b）计算产生数据记录数据与计算之间的血缘关系，让数据的生产和消费链路白盒化。 API 注册导入

19. 应用全链路血缘-实际样例

20. 应用全链路血缘-成本&价值量化体系应用层成本分摊引用探查价值度量流量层(动态) 调用流量值域分布资源消耗路网层(静态) 元数据表血缘字段血缘

21. 数据治理在安全场景实践节存储治理计算治理任务治理流应用全链路血缘开源专用集群迁移混部混部集群

22. 数据治理在安全场景实践(三)-存储治理 Top100表存储占比55% 模型优化重排压缩存储归档 • 存储周期优化 • 模型重构 • 重排键识别 • 旁路重排 • 数据热度预估 • 自动归档 ➢ 优点：⻅效快 ➢ 缺点：人力成本高，业务有感知 ➢ 优点：压缩比例高，业务无感 ➢ 缺点：额外计算消耗重排收益：30% ➢ 优点：通用 ➢ 缺点：消耗计算，数据恢复慢，影响读取效率归档收益：10%~20%

23. 存储治理-模型优化模型优化，通常应用在数据被高频使用、对读取效率比较敏感的场景仿真场景海量明细数据场景在策略上线前，使用多天离线快照数据对策略效果进行仿真验证如端埋点、RPC流量等海量明细数据，数据记录多、存储占用高明细数据热点数据⻓周期存储冷数据缩短周期增加汇总模型

24. 存储治理-重排压缩重排压缩，通常应用于存在大量字段信息冗余的宽表，通过重排提升压缩算法压缩效果。重排原理重排步骤压缩算法根据数据特征把具有相同列值字段通过排序放在一起，以提高压缩率。 1、重排键识别 2、根据重排键进行重排专家经验主链路重排自动识别旁路重排 ZSTD 策略：Normal / High / Extreme

25. 存储治理-存储归档存储归档，通常用于数据查询频次不高冷数据场景。归档原理采用RAID格式存储（N个数据块，M个校验块的模式）。归档方式存储方式比较存储方式优点不足三备份实现简单、数据恢复快数据冗余、成本高归档（RAID）存储占用少读取性能降低、恢复慢

26. 存储治理-进一步探索基于数据冷热程度，建立起自动化的识别和分级存储方案，从而实现成本分级优化。高频访问热点数据 1 SSD + 3 HDD 热数据访问评率正常 3 HDD 冷备存储数据需⻓期保留访问频次极低归档数据数据需⻓期保留访问频次低 1.375 RAID HDD ① 独立的冷备集群(带宽、读取效率) ② 探索更高压缩比的归档算法

27. 数据治理在安全场景实践节存储治理计算治理任务治理流应用全链路血缘开源专用集群迁移混部混部集群

28. 数据治理在安全场景实践(四)-计算治理-合并计算 1. 两个任务启动时间相近 2. 存在相似的计算逻辑 SQL-1 M1 SQL-2 源表相同统计维度不同放在一个脚本里编译执行 R1 R2 执行计划

29. 计算治理-合并计算元数据解析执行决策任务优化质量保障 SQL解析任务调度合并优化旁路比对 DAG构建相似判断单例优化效果监控研发平台 ODPS 元数据中心

30. 计算治理-进一步探索 1、渐进计算，减少读取IO同时优化计算 2、Dynamic Filter，提前过滤，优化计算引擎算子策略优化新特性挖掘推荐代码引入底层计算引擎新特性，如渐进计算、Dynamic Filter、Hash Cluster等方法，优化读取IO及计算。注：部分示例来自阿里云官网

31. 数据治理思考与展望市场化智能化数字化数据作为生产要素，要被使用、消费并发挥价值！

32.

33.