EB 级数据治理在蚂蚁安全的探索与实践

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. EB级数据治理在蚂蚁安全的探索与实践 康树鹏
2.
3. 个人简介 康树鹏 高级安全数据架构师 ● 14年加入蚂蚁,目前是安全大数据技术团队数据架构和治理负责人 ● 主导过蚂蚁集团特征服务平台离线数据服务能力建设项目 ● 主导过安全数据架构升级及数据治理项目 ● 关注大数据研发、数据架构、数据治理等领域
4. 目录 ◆ 数据治理面临的挑战 ◆ 数据治理的架构设计 ◆ 数据治理在安全的实践 ◆ 数据治理的未来思考
5. 数据治理的范畴 ● 数据技术、模型架 构、标准规范等 ● 数据质量问 题、⻛险故障 的管控与攻防 数据 架构 数据 价值 数据 质量 安全 合规 ● 成本:计算、存 储、运维等 ● 价值:数据资产 被使用、数据业 务化过程 ● 数据合规存 储、共享及使 用
6. 行业挑战 数据治理面临的挑战 金融支付行业 顶层架构设计不足 担保交易 数据规模大 加工复杂 数据互通难 数据孤岛 数据复用难 重复建设多 成本增⻓快 安全生产问题突出 余额宝 花呗 借呗 保险 APP 从 业 务 来 基金 APP APP 业务对数据依赖强、敏感度高、合规要求多 大数据处理平台 离线计算 流式计算 OLAP分析 图计算 数据深度和广度决定了业务产品的服务质量和边界 组织方面 到 业 务 去
7. 数据治理面临的挑战 85%-安全水位线 19年4月ODPS离线集群存储使用率 组织方面
8. 数据治理思路 • 成立数据架构小组,从架构域维度统筹公司整体架构及治理工作 • 设立数据管理岗位及晋升通道 • 制定跨BU数据研发协作机制和流程 业务支撑 资产升级 组织 设计 战役拉动 规范 制定 • 数据架构规范 • 资产研发管理规范 平台 运营活动 规范传播 文化建设 建设 • 数据治理管控规则 • 数据研发安全生产规范 • 研发侧,落地架构及研发规范,正向提升资产研发质量,管 控资产无序增⻓ • 治理侧,搭建平台化治理工具能力,形成一套自动化的治理 机制
9. 业 务 层 支付 财富 保险 微贷 文化建设 业务数据治理大盘 应用场景管理 应用资源⻛险与自治 系 统 层 研发识别 发布管控 治理感知 治理应急 • 简单加工 • 缩容拷⻉ • 重复识别 • 规范校验 • 名单校验 • 成本校验 • 无效标记 • 重复标记 • 异常标记 • 影响评估 • 一键回滚 • 链路重跑 重 复 识 别 异 常 识 别 治理红黑榜(月报) 生产阶段 治理识别能力 三 无 识 别 技术分享&论坛 应用全链路治理 研发阶段 能 力 层 信用 发布卡控 重复识别 资产判优 成本预估 预 下线 下线 计算 成本 存储 成本 组织规划 预 回收 数据治理小组 回收 安全生产小组 资源管控能力 成本分摊能力 治理管控能力 穿 透 识 别 资源回收 运维 成本 混部调度 链路 分摊 数据架构小组 资源管控 制度规范 资源监控集市 成本大盘 数据架构规范 统一血缘中心 静态引用血缘 (表、字段、调度等) 动态流量血缘(读取、调用等) 元模型(主动采集、被动上报等) 预算 计算 存储 访问 数据 治理 集市 异常检测 大规模图 算法 机 器 学 习 资产研发规范 治理管控规则 安全生产规范
10. 安全业务场景 为上亿用户,每日上千万笔交易提供实时的账户及资金安全保障,支付宝2021年资损率低于千万分之0.098。 ⻛控业务 赌博、欺诈、冒用、内容⻛险等 反洗钱 可疑交易、赌博、套现、虚拟币等 系统安全&数据安全 系统入侵、DDos、爬虫攻击等 业务特点 ⻛险防控重度依赖数据 ⻛险对抗实时要求高、上 线要快 存储及计算年增⻓率40%
11. 数据治理在安全场景实践 节 存储 治理 计算 治理 任务 治理 流 应用全链路血缘 开 源 专用集群 迁移混部 混部集群
12. 数据治理在安全场景实践(一)-迁移混部 提升资源利用率,动态扩容,保障稳定性 杭州专用集群 存储计算一体 => 存储计算分离 上海,业务同城内可弹 A机房-独立集群 混部计算 存储主库 独占计算 存储备库 深圳混部 深圳,业务同城内可弹 B机房-独立集群 混部计算 存储主库 A机房-独立集群 独占计算 混部计算 存储备库 存储主库 独占计算 存储备库 B机房-独立集群 混部计算 存储主库 应 应 应 应 应 应 应 应 用 用 用 用 用 用 用 用 层 层 层 层 层 层 层 层 中间层 中间层 ODS层 ODS层 中间层本地存储 中间层本地存储 跨城访问 依赖中间层 减少网络开销 中间层 中间层 ODS层 ODS层 中间层本地存储 独占计算 存储备库 中间层本地存储
13. 迁移混部-四个阶段 1、项目规划 2、迁移改造 3、日常巡检 4、持续优化 巡检治理 码 代 迁移评估 架构升级 理 合 迁移完成 日常巡检 a) 业务项目划分评估 b) 资源使用评估 ➢ 产出评估迁移需要改造任务 列表 不 热 表 集群缓存 发布管控 ➢ 评估最佳迁移方案 代码改造 ➢ 部署巡检规则,生成整改 ➢ 不合理任务持续推进治理 ➢ 不合理代码改造 ➢ 进行代码改造和架构升级 ➢ 日常巡检避免大任务对集群冲击 ➢ 架构升级,构建合理中间层及集市层 ➢ 部署发布管控,避免热表 ➢ 持续评估集群是否需要再次迁移 ➢ 根据集群情况适当缓存热表 列表 及大表跨集群拷⻉
14. 迁移混部-新增管控及存量治理 新增 管控 存量 治理
15. 数据治理在安全场景实践 节 存储 治理 计算 治理 任务 治理 流 应用全链路血缘 开 源 专用集群 迁移混部 混部集群
16. 数据治理在安全场景实践(二)-应用全链路血缘 血缘链路深 100+ 1. 数据依赖及影响无法评估分析 关联度广 3w 资产维度多 500+ 引发问题 2. 数据效能无法评估,成本及价值讲不清
17. 应用全链路血缘-整体链路 离线数据 特征平台 决策引擎 数据产品 数据写入 API服务 可信 名单 ⻛控决策引擎 模型 平台 关系图 内容⻛险决策引擎 宽表 velocity 离线数据血缘(表、字段、调用) 反洗钱决策引擎 在线应用血缘(静态配置、动态流量) 全链路血缘是数据价值计算及数据治理的核心数据底盘能力!
18. 应用全链路血缘-血缘数据模型 数据基础模型 计算 数据 ■ 两种点 a) 数据点:逻辑或物理数据及元信息 b) 计算点:配置、资源、计算逻辑 ■ 两种边 a)数据被计算使用 b)计算产生数据 记录数据与计算之间的血缘关系,让数据的生产和消费链 路白盒化。 API 注册 导入
19. 应用全链路血缘-实际样例
20. 应用全链路血缘-成本&价值量化体系 应用层 成本分摊 引用探查 价值度量 流量层(动态) 调用流量 值域分布 资源消耗 路网层(静态) 元数据 表血缘 字段血缘
21. 数据治理在安全场景实践 节 存储 治理 计算 治理 任务 治理 流 应用全链路血缘 开 源 专用集群 迁移混部 混部集群
22. 数据治理在安全场景实践(三)-存储治理 Top100表存储占比55% 模型优化 重排压缩 存储归档 • 存储周期优 化 • 模型重构 • 重排键识别 • 旁路重排 • 数据热度预 估 • 自动归档 ➢ 优点:⻅效快 ➢ 缺点:人力成本高, 业务有感知 ➢ 优点:压缩比例 高,业务无感 ➢ 缺点:额外计算 消耗 重排收益:30% ➢ 优点:通用 ➢ 缺点:消耗计算,数 据恢复慢,影响读取 效率 归档收益:10%~20%
23. 存储治理-模型优化 模型优化,通常应用在数据被高频使用、对读取效率比较敏感的场景 仿真场景 海量明细 数据场景 在策略上线前,使用多天离线快照 数据对策略效果进行仿真验证 如端埋点、RPC流量等海量明细数 据,数据记录多、存储占用高 明 细 数 据 热点数 据⻓周 期存储 冷数据 缩短周 期 增 加 汇 总 模 型
24. 存储治理-重排压缩 重排压缩,通常应用于存在大量字段信息冗余的宽表,通过重排提升压缩算法压缩效果。 重排原理 重排步骤 压缩算法 根据数据特征把具有相同列值字段通过排序放在一起,以提高压缩率。 1、 重排键识别 2、根据重排键进行重排 专家经验 主链路重排 自动识别 旁路重排 ZSTD 策略:Normal / High / Extreme
25. 存储治理-存储归档 存储归档,通常用于数据查询频次不高冷数据场景。 归档原理 采用RAID格式存储(N个数据块,M个校验块的模式)。 归档方式 存储方式 比较 存储方式 优点 不足 三备份 实现简单、数据恢复快 数据冗余、成本高 归档(RAID) 存储占用少 读取性能降低、恢复慢
26. 存储治理-进一步探索 基于数据冷热程度,建立起自动化的识别和分级存储方案,从而实现成本分级优化。 高频访问 热点数据 1 SSD + 3 HDD 热数据 访问评率正常 3 HDD 冷备存储 数据需⻓期保留 访问频次极低 归档数据 数据需⻓期保留 访问频次低 1.375 RAID HDD ① 独立的冷备集群(带宽、读 取效率) ② 探索更高压缩比的归档算法
27. 数据治理在安全场景实践 节 存储 治理 计算 治理 任务 治理 流 应用全链路血缘 开 源 专用集群 迁移混部 混部集群
28. 数据治理在安全场景实践(四)-计算治理-合并计算 1. 两个任务启动时间相近 2. 存在相似的计算逻辑 SQL-1 M1 SQL-2 源表相同 统计维度不同 放在一个脚本里编译执行 R1 R2 执行计划
29. 计算治理-合并计算 元数据解析 执行决策 任务优化 质量保障 SQL解析 任务调度 合并优化 旁路比对 DAG构建 相似判断 单例优化 效果监控 研发平台 ODPS 元数据中心
30. 计算治理-进一步探索 1、渐进计算,减少读取IO同时优化计算 2、Dynamic Filter,提前过滤,优化计算 引擎 算子 策略 优化 新特性 挖掘 推荐 代码 引入底层计算引擎新特性,如渐进计算、Dynamic Filter、Hash Cluster等方法,优化读取IO及计算。 注:部分示例来自阿里云官网
31. 数据治理思考与展望 市场化 智能化 数字化 数据作为生产要素,要被使用、消费并发挥价值!
32.
33.

首页 - Wiki
Copyright © 2011-2025 iteam. Current version is 2.139.0. UTC+08:00, 2025-01-10 23:50
浙ICP备14020137号-1 $访客地图$