蚂蚁安全领域智能化数据治理

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 蚂蚁安全领域 智能化数据治理 高级数据技术专家 / 霄元(黄国龙)
2. 个人简介 黄国龙 高级数据技术专家  20年加入蚂蚁,目前是安全大数据团队数据智能资产、内容数据资产负责人  0-1主导建设蚂蚁集团内容安全数据资产专项  关注大数据研发、数据架构、数据治理等领域
3. 目录 数据治理 通用能力 蚂蚁数据治理架构及能力 数据治理 业务案例 安全领域智能化数据治理实践 数据治理 创新探索 数据治理探索与创新
4. 蚂蚁数据治理架构及能力_ 面临挑战 成本增速快 40% + 存储增速 • 存储资源:蚂蚁存储达 EB 级别,年增速40%+; • 计算资源:计算资源 千KCU/日. 业务需求多 45% • 新业务资源需求旺盛; 40% 35% • 人工智能发展快,数据需求呈现爆炸性增长。 30% 25% 20% 15% 成本看不清 10% 5% 0% 2018年 2019年 2020年 2021年 2022年 • 资源使用细节看不清; • 成本很难分摊到业务。
5. 蚂蚁数据治理架构及能力_ 治理思路 能力建设 平台提效 & 技术治理 技术治理:结合引擎能力升级做技术优化 平台提效:将治理能力产品化服务用户 无效资产治理 重复资产治理 TOP 资产治理 存储治理 计算治理 集群治理
6. 蚂蚁数据治理架构及能力_ 治理方案 关键能力建设方案:从事前 -> 事中 -> 事后,构建成本治理全链路能力。 场景 驱动 系统账号开通 (事中)管控与监控 运维管控 查询管控 账号管控 生命周期 补数管理 暴力扫描 并发限制 补数监控 汰换任务 运行监控 数据生产 应用系统 大表限制 汰换数据 数据同步 应用DB DRC 应用日志 SLS AntQ 模块存储触顶 管理员驱动 血缘要求 无效下线 专项运营治理 重复表识别 离职人员资产处置 参数不合理 生命周期长 资产汰换 数据排重 热点任务识别 大表暴力扫描 资产下沉推荐 重复采集 过渡埋点 资源混部 Archive压缩 冷数据归档 …… 数据加工(DataPhin) explorer Blink odps 数据 (ods) 任务大量变慢 管理员驱动 (事后)技术治理 发布管控 暴力扫描 治理 对象 年度资源预算 架构师驱动 项目任务大量变慢 用户加入Project (事前)规划与准入 治理 策略 触发治理场景 触发管控场景 加工任务 …… 加工任务 项目迭代式 运营治理 奖 惩 效 数据应用 数据 (ods) 回流任务 应用DB 应用系统
7. 蚂蚁数据治理架构及能力_ 治理架构 资源监控大盘(DRE) 资源 管理 门户 跨集群 带宽 TOP 任务 排队 暴力 扫描 集群 存储 资产治理工作台(个人/团队/业务单元) 任务 并发 资产 健康分 垃圾 资产 处置 治理 活动 分析 风险 拦截 列表 资源成本管理(管理者/DRE) 一键 治理 工具 资源 分析 预算 管理 资源 调拨 成本 核算 治理 委员会 治理达人 资源治理核心领域(专项方案) 资源 治理 领域 组织文化 集群管理 资源调拨 采集治理 日志治理 消费治理 关键技术 集群资源混部 任务分时调度 数据分级存储 无效埋点下线 一键链路退役 引擎优化 资源预算管理 自动化扩缩容 数据极限存储 重复采集治理 废弃报表下线 模型优化 数据项目规划 单元化隔离 无效采集下线 日志消费管控 无效服务下线 代码优化 业务单元化容灾 调度并发控制 场景化生命周期 业务单元化容灾 消费血缘保鲜 资产管理优化 红黑榜 治理双周 /月报 制度规范 资源预算管理(事前-规划&管理) 基础 平台 能力 统一 资源 元数据 业务 管理 预 算 预算 分配 预算 分析 预算 采购 血 缘 资源调拨中心(事中-分配&监控) 发布 管控 拦截 实时 巡检 访 问 资源 风险 处置 自动化 扩缩容 存 储 资产治理中心(事后-治理) 弹性 分时 调度 健康分 治理 计 算 场景化 生命 周期 调 度 自动化 技术 治理 标准规范 业务单 元治理 活动 资 产 计存军规 考试培训
8. 蚂蚁数据治理架构及能力_ 资源治理领域案例 集群资源混部 推进在离线混合部署,计算算力会提升10%,机器成本降低25%. 迁移混部(四个阶段) 混合部署方案 杭州专用集群 提升资源利用率, 动态扩容,保障稳定性 深圳混部 1.项目规划 存储计算一体 => 存储计算分离 2.迁移改造 3.日常巡检 巡检治理 迁移评估 跨城访问 依赖中间层 减少网络开销 架构升级 发布管控 开源 4.持续优化 代码改造 迁移完成 日常巡检 集群缓存
9. 蚂蚁数据治理架构及能力_ 资源治理领域案例 关键技术 提升治理自动化率,实现自动识别、归因分析、自动清理,形成常态化管控能力。 引擎优化 模型优化 数仓模型 参数优化 • • • • • Split Size 小文件合并 Reducer instantce CPU数 Dynamic parallelism • • • • • 代码设计 调度优化 • • • • • 任务归并 HBO优化 集群混部 错峰运行 冷热分层 业务领域建模 抽象公共层 通用应用层 配置化指标系统 大宽表设计 • • • • • 全量改采样 with替代tmp表 视图化改造 避免数据膨胀 执行顺序优化 代码优化 计存设计 • • • • • • • 渐进计算 累计计算 Zorder Shuffle优化 Bitmap索引 全改增 极限存储 数据格式 • 重排压缩 • Cube预计算 JOIN优化 • • • • Map join Hash join Skew join Dynamic Filter UDF优化 • • • • 内置替换 提前计算 参数调优 本地缓存 节流 资产管理优化 数据倾斜 • Map端 • Reduce端 • 热点值 生命周期 • • • • 聚合优化 • Grouping sets • UDF转UDTF • Count(distinct) Map join Hash join Skew join Dynamic Filter 无效表 • Map端 • Reduce端 • 热点值 计算浪费 • • • • • 临时表 系统表 长周期表 回收站优化 大字段生命周期 重复资产 • • • • 同链路相似表 相似任务节点 分区不更新 缓慢变化维表
10. 蚂蚁数据治理架构及能力_ 资源治理领域案例 关键技术-实例 渐进计算 冷存体系 设置成渐进计算后,每日计算消耗从795CU降到22CU. 推进在离线混合部署,计算算力会提升10%,机器成本降低25%. Hot Tier Warm Tier Archive Tier 固定窗口 dt >= '20220101' and ds <= '${bizdate}' Cold Storage 滑动窗口 dt <= '${bizdate}' and dt >= '{bizdate-60}' 原理:空间换时间,自动生成中间表,避免重复 计算,其中中间表可采用hash cluster, 提升 merge阶段Shuffle效率; Odps支持一键渐进计 da y1 1 SSD + 3 HDD     3 HDD 1.375 RAID HDD da y2 da y3 ... … da yn ODPS 源表 n ODPS 自动生成 中间结果 ½ COST 1 Hot Tier:高频消费的热点数据、优化I/O; Warm Tier:热数据、读取频率正常; Archive Tier:数据需长期保留,访问频次底; Cold Storage:长期保留,超低频访问。 2 3 ... … 第n-1天分区 中间重复 计算部分 第n天分区 最新分区按中间结果进行MERGE 节流 算、设置一个参数即可。
11. 蚂蚁数据治理架构及能力_ 基础平台能力实例 (事前)发布管控 由平台或业务方事先制定发布管控规则,相关任务上线提交时、平台自动检验结果,如有规则未校验通过,此次上线发布失败。 发布管控规则说明 任务发布状态详情
12. 蚂蚁数据治理架构及能力_ 基础平台能力实例 (事中)实时巡检 禁止随意提交超大任务导致整个资源池的堵塞和打满,进而造成高昂的成本消耗,同时也兼顾效率,仅对异常使用进行管治。 异常大任务自动查杀方案 异常大任务自动查杀实例
13. 蚂蚁数据治理架构及能力_ 基础平台能力实例 (事后)成本健康分 基于累计浪费和时间加成,设计成本健康分算法。通过健康分管理数据平台使用权限。 成本健康分算法 健康分产品运营实例
14. 蚂蚁领域数据治理架构及能力_ 治理成果 安全领域治理成果总结 已全部达成年度目标,预估节约数据成本 25%+ 。 治理专项 存储用量(PB) 计算用量(KCU) 表数量(张) 累计治理收益 百PB+ 百KCU+ 百万+
15. 安全领域智能化数据治理实践 数据智能资产建设板块
16. 安全领域智能化数据治理实践 智能化数据治理思路 元数据 ①数据源获取 面临 挑战 数据生产 ②数据集建设 ③数据应用评估 采集标注效率低、 数据各业务自建、 数据链路过长,效 使用频繁 质量差、复用低 果评估难 数据集治理 应对 手段 数据消费 数据管理 ④数据资产管理 权限、合规等 在线链路治理 采标一体 蚂蚁安全域 应用全链路血缘 自动化数据链路 超大规模数据集 成本治理方案 待开展
17. 安全领域智能化数据治理实践 数据集建设阶段,搭建采集标注自动化数据链路降本增效;标准化建设蚂蚁安全域超大规模数据集消除 数据孤岛…… 数据集治理 采标一体自动化数据链路 蚂蚁安全域超大规模数据集 在线运行阶段,搭建元数据之应用全链路血缘,助力在线模型策略成本治理优化…… 在线链路治理 应用全链路血缘 在线模型成本治理方案
18. 安全领域智能化数据治理实践_ 数据集治理 数据集简介 高品质、多样性、大规模的数据集建设是AI技术应用竞争关键要素之一, 在建设大规模数据集过程中,百PB级别的安全数据资产必将带来高昂成本支 出、及各种质量风险隐患 ...... 数据集主要有:采集、标注、大规模数据集、训练数据集、评测数据集。
19. 安全领域智能化数据治理实践_ 数据集治理 数据采集、人工标注是数据集建设关 键环节之一、也是首要事项,相关事项涉 及合作方众多、且时间也不可控,在人工 采 标 一 体 化 链 路 对接中费时费力。 采标一体化自动化数据链路,从关键 词计算、对接采集、转存及通知、对接标 注、数据ETL全链路实现自动化,降本增 效明显、且数据品质也有保障,大大缩减 人力成本、将原来采集标注2周以上时效降 到5天以内。
20. 安全领域智能化数据治理实践_ 数据集治理 智能数据建模设计架构 实例:*数据集数据建模设计 标准数仓建模设计确保数据品质,通过大规模数据集支撑业务。 业务支撑 安全大规模数据集 专项资产 大 规 模 数 据 集 …… 应用层 (ADM) …… …… 汇总中间层 (DWS) 中间层资产建设 明细中间层 (DWD) 中间层资产建设 源数据层 (ODS) 源数据数据资产 质量 & 安全 …… 大规模数据集分类体系 规范数据集分类体系,消除数据孤岛、共享数据集资源。 数据集实例,整合资金各业务特征、标签形成全域样本集。
21. 安全领域智能化数据治理实践_ 在线链路治理 在线链路治理简介 良好的治理离不开对数据资产合理评估,通过对当前安全领域的数据资产 进行了效能评估,产出了数据效能分,量化数据资产在风控系统中发挥的作 用,从而推动无效资产的治理,计算、保障优先级设定,成本优化等。
22. 安全领域智能化数据治理实践_ 在线链路治理 数据资产类型 包括策略、特征、 模型、协议等90+ 种资产类型,种类 全 链 路 血 缘 多、数据资产量巨 大、关系链路复 杂,利用我们的二 部图模型,构造了 一张全局的资产大 图,从连接起各个 信息孤岛,打破平 台间的血缘鸿沟。
23. 安全领域智能化数据治理实践_ 在线链路治理 在线链路治理流程 影响因子定义 影响因子分:血缘静态引用量、 指标数据 基于上述影响因子特征,统计得 线上流量调用量以及决策日志量 到了从不同维度评估数据资产效 三个层次。 能的源数据。 影响因子分层: ① 根据数据血缘,计算出该数据资产与其它 数据资产在静态血缘上的引用量; ② 计算该数据资产线上产生的实际流量,例 如特征的调用量、模型的调用量; ③ 计算关联该数据资产的决策日志的量级, 作为该资产在风控体系中发挥效能的重要特 征。 备注:为了更合理的评估数据资产长短期的效能情 况,分别从天/周/月/季的维度作为特征。 编码器推理 自编码器,对一组特征进行学 习,得到有效表征。 效能分变换 使用回归模型对特征进行回归训练,获各特征 重要度;基于特征重要度优化模型和调权重, 使效能分产出更合理;通过BOX-COX变换对数 据分布进行调整(0~100分正态分布)。
24. 数据治理探索与创新_ ETL AUTOPIPELINE 打造一站式智能研发助手 大模型 Copilot DataOps 智能 研发 智能中心 治理优化 理解能力 开发 探查 测试 监控 部署 链路优化建议 代码优化建议 主动问题识别 对话 推理能力 多轮对话 基础画像 分布占比 主外键 主动 元数据 加工口径 账 号 交易事件 埋点流量 常用口径 关联率 名 单 生 活 号 粉 丝 关联方式 关系类型 内 容 主 播 场景刻画 关系数据 用 户 客 户 处罚事件 同步事件 热点查询 代码能力 通用技能库 权 限 网 关 商 户 异步事件 重复模型 小 程 序 介 质 prompt 员 工 应 用 数 据 实体抽取 关系抽取 属性抽取 网络流量 技能匹配 技能执行 审计日志 API管理 技术元数据 数据模型 数据源 数据血缘 RDBMS 操作元数据 业务元数据 调度依赖 业务归属 业务标签 数据仓库 业务定义 执行日志 查询日志 NoSQL数据库 社交元数据 任务脚本 用户评论 分享行为 OLAP数据源 知识问答 元数据 函数管理 实时数据源
25. 数据治理探索与创新_ 创新案例大模型Copilot 小表D:安全大数据一 站式智能研发助手,结合 安全特色,深度整合其他 数据类大模型,以小表D为 小 表 D 切入口,为用户提供丰富 的大模型功能,贯穿用户 整个数据研发生命周期, 在数据分析、任务研发、 任务运维、风险发现等日 常生产环节提供一站式数 据辅助服务,让数据研发 更加智能高效。
26.

Accueil - Wiki
Copyright © 2011-2024 iteam. Current version is 2.137.1. UTC+08:00, 2024-11-09 10:44
浙ICP备14020137号-1 $Carte des visiteurs$