EB 级数据治理在蚂蚁安全的探索与实践
如果无法正常显示,请先停止浏览器的去广告插件。
1. EB级数据治理在蚂蚁安全的探索与实践
康树鹏
2.
3. 个人简介
康树鹏
高级安全数据架构师
● 14年加入蚂蚁,目前是安全大数据技术团队数据架构和治理负责人
● 主导过蚂蚁集团特征服务平台离线数据服务能力建设项目
● 主导过安全数据架构升级及数据治理项目
● 关注大数据研发、数据架构、数据治理等领域
4. 目录
◆ 数据治理面临的挑战
◆ 数据治理的架构设计
◆ 数据治理在安全的实践
◆ 数据治理的未来思考
5. 数据治理的范畴
● 数据技术、模型架
构、标准规范等
●
数据质量问
题、⻛险故障
的管控与攻防
数据
架构 数据
价值
数据
质量 安全
合规
● 成本:计算、存
储、运维等
● 价值:数据资产
被使用、数据业
务化过程
● 数据合规存
储、共享及使
用
6. 行业挑战
数据治理面临的挑战
金融支付行业
顶层架构设计不足
担保交易
数据规模大 加工复杂
数据互通难 数据孤岛
数据复用难
重复建设多
成本增⻓快
安全生产问题突出
余额宝 花呗
借呗 保险
APP
从
业
务
来
基金
APP
APP
业务对数据依赖强、敏感度高、合规要求多
大数据处理平台
离线计算
流式计算
OLAP分析
图计算
数据深度和广度决定了业务产品的服务质量和边界
组织方面
到
业
务
去
7. 数据治理面临的挑战
85%-安全水位线
19年4月ODPS离线集群存储使用率
组织方面
8. 数据治理思路
• 成立数据架构小组,从架构域维度统筹公司整体架构及治理工作
• 设立数据管理岗位及晋升通道
• 制定跨BU数据研发协作机制和流程
业务支撑
资产升级
组织
设计
战役拉动
规范
制定
• 数据架构规范
• 资产研发管理规范
平台
运营活动
规范传播
文化建设
建设
• 数据治理管控规则
• 数据研发安全生产规范
• 研发侧,落地架构及研发规范,正向提升资产研发质量,管
控资产无序增⻓
• 治理侧,搭建平台化治理工具能力,形成一套自动化的治理
机制
9. 业
务
层
支付
财富
保险
微贷
文化建设
业务数据治理大盘
应用场景管理
应用资源⻛险与自治
系
统
层
研发识别 发布管控 治理感知 治理应急
• 简单加工
• 缩容拷⻉
• 重复识别 • 规范校验
• 名单校验
• 成本校验 • 无效标记
• 重复标记
• 异常标记 • 影响评估
• 一键回滚
• 链路重跑
重
复
识
别
异
常
识
别
治理红黑榜(月报)
生产阶段
治理识别能力
三
无
识
别
技术分享&论坛
应用全链路治理
研发阶段
能
力
层
信用
发布卡控 重复识别
资产判优 成本预估
预
下线
下线
计算
成本
存储
成本
组织规划
预
回收
数据治理小组
回收
安全生产小组
资源管控能力
成本分摊能力
治理管控能力
穿
透
识
别
资源回收
运维
成本
混部调度
链路
分摊
数据架构小组
资源管控
制度规范
资源监控集市
成本大盘
数据架构规范
统一血缘中心
静态引用血缘 (表、字段、调度等)
动态流量血缘(读取、调用等)
元模型(主动采集、被动上报等)
预算
计算
存储
访问
数据
治理
集市
异常检测
大规模图
算法
机
器
学
习
资产研发规范
治理管控规则
安全生产规范
10. 安全业务场景
为上亿用户,每日上千万笔交易提供实时的账户及资金安全保障,支付宝2021年资损率低于千万分之0.098。
⻛控业务
赌博、欺诈、冒用、内容⻛险等
反洗钱
可疑交易、赌博、套现、虚拟币等
系统安全&数据安全
系统入侵、DDos、爬虫攻击等
业务特点
⻛险防控重度依赖数据
⻛险对抗实时要求高、上
线要快
存储及计算年增⻓率40%
11. 数据治理在安全场景实践
节
存储
治理
计算
治理
任务
治理
流
应用全链路血缘
开
源
专用集群
迁移混部
混部集群
12. 数据治理在安全场景实践(一)-迁移混部
提升资源利用率,动态扩容,保障稳定性
杭州专用集群
存储计算一体 => 存储计算分离
上海,业务同城内可弹
A机房-独立集群
混部计算
存储主库
独占计算
存储备库
深圳混部
深圳,业务同城内可弹
B机房-独立集群
混部计算
存储主库
A机房-独立集群
独占计算
混部计算
存储备库
存储主库
独占计算
存储备库
B机房-独立集群
混部计算
存储主库
应 应 应 应 应 应 应 应
用 用 用 用 用 用 用 用
层 层 层 层 层 层 层 层
中间层 中间层
ODS层 ODS层
中间层本地存储
中间层本地存储
跨城访问
依赖中间层
减少网络开销
中间层 中间层
ODS层 ODS层
中间层本地存储
独占计算
存储备库
中间层本地存储
13. 迁移混部-四个阶段
1、项目规划
2、迁移改造
3、日常巡检
4、持续优化
巡检治理
码
代
迁移评估
架构升级
理
合
迁移完成
日常巡检
a) 业务项目划分评估
b) 资源使用评估
➢ 产出评估迁移需要改造任务
列表
不
热
表
集群缓存
发布管控
➢ 评估最佳迁移方案
代码改造
➢ 部署巡检规则,生成整改
➢ 不合理任务持续推进治理 ➢ 不合理代码改造
➢ 进行代码改造和架构升级 ➢ 日常巡检避免大任务对集群冲击 ➢ 架构升级,构建合理中间层及集市层
➢ 部署发布管控,避免热表 ➢ 持续评估集群是否需要再次迁移 ➢ 根据集群情况适当缓存热表
列表
及大表跨集群拷⻉
14. 迁移混部-新增管控及存量治理
新增
管控
存量
治理
15. 数据治理在安全场景实践
节
存储
治理
计算
治理
任务
治理
流
应用全链路血缘
开
源
专用集群
迁移混部
混部集群
16. 数据治理在安全场景实践(二)-应用全链路血缘
血缘链路深
100+
1. 数据依赖及影响无法评估分析
关联度广
3w
资产维度多
500+
引发问题
2. 数据效能无法评估,成本及价值讲不清
17. 应用全链路血缘-整体链路
离线数据
特征平台
决策引擎
数据产品
数据写入
API服务
可信
名单
⻛控决策引擎
模型
平台
关系图
内容⻛险决策引擎
宽表
velocity
离线数据血缘(表、字段、调用)
反洗钱决策引擎
在线应用血缘(静态配置、动态流量)
全链路血缘是数据价值计算及数据治理的核心数据底盘能力!
18. 应用全链路血缘-血缘数据模型
数据基础模型
计算
数据
■ 两种点
a) 数据点:逻辑或物理数据及元信息
b) 计算点:配置、资源、计算逻辑
■ 两种边
a)数据被计算使用
b)计算产生数据
记录数据与计算之间的血缘关系,让数据的生产和消费链
路白盒化。
API
注册
导入
19. 应用全链路血缘-实际样例
20. 应用全链路血缘-成本&价值量化体系
应用层
成本分摊
引用探查
价值度量
流量层(动态)
调用流量
值域分布
资源消耗
路网层(静态)
元数据
表血缘
字段血缘
21. 数据治理在安全场景实践
节
存储
治理
计算
治理
任务
治理
流
应用全链路血缘
开
源
专用集群
迁移混部
混部集群
22. 数据治理在安全场景实践(三)-存储治理
Top100表存储占比55%
模型优化 重排压缩 存储归档
• 存储周期优
化
• 模型重构 • 重排键识别
• 旁路重排 • 数据热度预
估
• 自动归档
➢ 优点:⻅效快
➢ 缺点:人力成本高,
业务有感知
➢ 优点:压缩比例
高,业务无感
➢ 缺点:额外计算
消耗
重排收益:30%
➢ 优点:通用
➢ 缺点:消耗计算,数
据恢复慢,影响读取
效率
归档收益:10%~20%
23. 存储治理-模型优化
模型优化,通常应用在数据被高频使用、对读取效率比较敏感的场景
仿真场景
海量明细
数据场景
在策略上线前,使用多天离线快照
数据对策略效果进行仿真验证
如端埋点、RPC流量等海量明细数
据,数据记录多、存储占用高
明
细
数
据
热点数
据⻓周
期存储
冷数据
缩短周
期
增
加
汇
总
模
型
24. 存储治理-重排压缩
重排压缩,通常应用于存在大量字段信息冗余的宽表,通过重排提升压缩算法压缩效果。
重排原理
重排步骤
压缩算法
根据数据特征把具有相同列值字段通过排序放在一起,以提高压缩率。
1、 重排键识别 2、根据重排键进行重排
专家经验 主链路重排
自动识别 旁路重排
ZSTD
策略:Normal / High / Extreme
25. 存储治理-存储归档
存储归档,通常用于数据查询频次不高冷数据场景。
归档原理
采用RAID格式存储(N个数据块,M个校验块的模式)。
归档方式
存储方式
比较
存储方式 优点 不足
三备份 实现简单、数据恢复快 数据冗余、成本高
归档(RAID) 存储占用少 读取性能降低、恢复慢
26. 存储治理-进一步探索
基于数据冷热程度,建立起自动化的识别和分级存储方案,从而实现成本分级优化。
高频访问
热点数据
1 SSD + 3 HDD
热数据
访问评率正常
3 HDD
冷备存储
数据需⻓期保留
访问频次极低
归档数据
数据需⻓期保留
访问频次低
1.375 RAID HDD
①
独立的冷备集群(带宽、读
取效率)
②
探索更高压缩比的归档算法
27. 数据治理在安全场景实践
节
存储
治理
计算
治理
任务
治理
流
应用全链路血缘
开
源
专用集群
迁移混部
混部集群
28. 数据治理在安全场景实践(四)-计算治理-合并计算
1. 两个任务启动时间相近
2. 存在相似的计算逻辑
SQL-1
M1
SQL-2
源表相同
统计维度不同
放在一个脚本里编译执行
R1
R2
执行计划
29. 计算治理-合并计算
元数据解析 执行决策 任务优化 质量保障
SQL解析 任务调度 合并优化 旁路比对
DAG构建 相似判断 单例优化 效果监控
研发平台
ODPS
元数据中心
30. 计算治理-进一步探索
1、渐进计算,减少读取IO同时优化计算
2、Dynamic Filter,提前过滤,优化计算
引擎 算子 策略 优化
新特性 挖掘 推荐 代码
引入底层计算引擎新特性,如渐进计算、Dynamic Filter、Hash Cluster等方法,优化读取IO及计算。
注:部分示例来自阿里云官网
31. 数据治理思考与展望
市场化
智能化
数字化
数据作为生产要素,要被使用、消费并发挥价值!
32.
33.