安全领域数仓内容体系化实践
如果无法正常显示,请先停止浏览器的去广告插件。
1. 安全领域数仓内容体系化实践
美团信息安全部
2. 1 AI时代的安全数仓架构
目录
CONTENTS
面临的挑战、内容框架设计与体系化实践
2 AI赋能安全数仓建设
AI实现数据建模、治理全方位提效
3. 1.1 问题与挑战
4. 痛点-无数据不AI
数据资产数量年均 数据成本年均
增长50%+ 增长20%+
长期存在的数据痛点
• 找数难:需要支付订单表,但检索出
10+张类似的表,辨析很困难
AI时代更尖锐的问题
• 口径乱:某些字段名称、注释类似,
口径却完全不一样 • 可用性低:AI存在幻觉,因此对数据
的精度要求更高,面对冗余、模糊的
数据资产,需要大量人工校准,否则
给出的结论将不可用
• 算不动:难以支撑大规模、长周期的
统计特征计算,已开始制约安全能力
的发展 • 成本失控:AI应用催生出了更多数据
需求,甚至AI开始生产数据,按照过
去的数据建设范式,成本将难以控制
5. 信安数仓面临的挑战
数据规模极大 复杂度极高 效率要求极高
每日数千亿流量
+ 数百亿业务过程数据 全业务线 × 多业务过程 ×
多系统 = 细节爆炸 安全对抗争分夺秒
加剧“烟囱式”开发
美团的本地生活业务
非常复杂
6. 案例:过去 VS 现在
虚构案例:小团需要制作报表,展示外卖“羊毛党”用户近一年的支付统计指标
Now
Before
他检索出“到餐羊毛党支付统计表”、“闪购黄牛支付统计表”……
都无法完全满足需求,因此他直接聚合一年的外卖支付明细,关联羊毛党名单
产出“外卖羊毛党用户一年支付统计表”,美滋滋的完成任务
需求1
需求2
……
待分析实体是“用户”,根据建模范式,他判断用户主题表中包含所需统计指标
太阳底下没有新鲜事,如他所料,他可以直接基于主题表完成报表搭建
同时,他还意外发现了很多其他有价值的标签、特征……
实体主题
需求1
需求2
行
为
统
计
行
为
序
列
实
体
维
度
行为事实
日志 & 事实
虽有数仓分层,但整体逻辑仍然是By需求建设,
抽象程度不足,数据不通用,重复造轮子严重
……
日志
核心数据模型高度抽象,与需求分离
数据客观、可充分复用
7. 过去的数仓架构
数据内容抽象不足,数据模型太多、太杂,找数用数都比较困难
真人能够想方设法克服困难,但目前的AI还不具备这种能力
8. 现行的数仓架构
核心目标:抽象数据内容框架,统一建模范式,保证相同语义对应唯一的数据模型
让真人和AI都用对、用好数据
9. 1.2 数据内容框架
10. 什么是风险?
风险 = 实体(修饰) × 行为(修饰)
风险案例 主语/宾语-实体 谓语-行为
型号是小米、系统是IOS的设备下了一笔订单 设备、订单 下单
携带“羊毛党”标签的用户今天领优惠券1万次 用户、优惠券 领券
曾使用过多个黑IP的用户正在获取敏感数据 用户 获数
用户没有下单,而是直接支付 用户 下单、支付
实体×行为是基本框架,风险体现在修饰信息中
11. 实体×行为的修饰信息
基础属性,直接观测
高阶属性,概率挖掘
实体
画像
强调关联,弱化细节
事实
参数
关系
风险
行为
原子操作,细节丰富
统计
序列
单一行为,维度聚合
多种行为,时序信息
12. 小结:抽象内容框架为何能解决问题?
问题的本质是什么?
无论是真人的数据痛点,还是AI应用的数据障碍
根本原因是数据模型太多、太杂、不好用
引申出的问题是数据建模没有标准答案,个体认知差异大
内容抽象能降低个体认知差异
• 实体和行为定义清晰,个体解读空间不大,可定规范
• 抽象的出发点是语言的语法,人和AI的理解成本都不高
• 实体和行为的数量有限,少量数据模型即可形成完整的
体系,模糊、冗余、成本等问题自然消失
13. 1.3 数仓体系实践
14. 建模核心思想
实体与行为高度抽象,数据模型跨业务线、跨风险域整合,数据做少做精
举例:到餐、外卖、酒店等业务都有支付环节,行为是“支付”,而不是到餐支付、外卖支付……
15. 每层数据模型存什么内容?
将经典数仓分层理论与内容框架结合
明确各层内容
实
体
︑
行
为
稳
定
核
心
模
型
稳
定
实
体
︑
行
为
可
枚
举
核
心
模
型
可
枚
举
16. 内容框架+数仓分层的意义
数百核心数据模型 = 完整的数仓内容体系
单一行为 单一实体
只对应一个事实模型 只对应一个主题模型
少量核心的统计、序列聚合模型 一个参数维表,少量核心的画像、关系维表
17. FACT(DWD)-体系基石
行为跨域整合 实体维度退化
支付行为事实 支付行为事实
到餐
外卖
……
参
数
登注时间
手机号(脱敏)
用户
示例
各类画像 画
像
…… 关
系
……
多业务线
多风险域
利于安全能力覆盖
分区解决性能问题
商户
设备
决定安全能力的边界
没有实体参数等维度信息,风险几乎无法判断
18. AGGR(DWS)-海量计算支撑
模型唯一 分层上卷
相同“行为 × 实体 × 时间”的
聚合模型只建一个 基于细粒度“行为 × 实体 × 时间”
聚合模型,上卷出粗粒度模型
支撑多维度、大规模统计特征计算
示例
19. DIM与TOPIC-实体全面刻画
示例
单一实体只建设一个主题模型,起“特征字典”的作用
用户主题
参数
画像
用户参数维表
关系
行为序列
行为统计
用户画像维表A 多视角
……
用户-商户关系
……
DIM层
退
款
统
计
行
为
序
列
AGGR层
支
付
统
计
唯一性
多组合
20. 实践效果
支撑大量AI应用落地,如风险运营、审核,显著提高运营效率;
成本可控下计算出上千维大规模统计特征,大幅提升对抗能力
新增资产数量减少约60%,数据质量明显改善;
重构部分历史链路,存量数据成本降低约20%
21. 2
AI赋能安全数仓
22. AI能接管数据开发和治理吗
AI应用已在客服、审核、运营、Coding等领域效果显著
数据开发作为一个成熟领域,是否也有很大的提效空间?
数据开发流程(简化)
需求理解
数据模型设计
数据检索 / 探查
代码开发 / 测试 上线 / 交付
落地治理动作 效果评估回收
基于“实体 × 行为”内容框架,理论上AI可以完成数仓建模中模糊度最高的工作
数据治理流程(简化)
资源异常感知
下钻定位问题
设计治理方案
工具链打通后,基座模型+知识库足够完成该部分
23. 智能化数仓理想方案
需求理解
感知监控
模型设计
治理优化
方案规划
AI方案设计
AI评估治理
工具
方案实现
数据检索
技术优化
知识库
数据探查
质量测试
方案迭代
AI数据探查
AI Coding
24. AI数据模型设计能力实践
流程搭建
Prompt工程
方案设计助手
资产知识库
Prompt样例
根据需求,AI能够给出合理的设计方案
25. AI数据探查+Coding能力实践
流程搭建
目标表检索
数据服务
工作流
数据资产Meta
资产知识库
探查工作流样例
Schema读取
代码编写
26. AI数据治理能力实践
流程搭建
资源、流量大盘
资源波动分析
数据服务
工作流
数据资产Meta
资产知识库
治理分析工作流样例
异常任务分析
任务优化建议
27. 下一步演进方向
短期内完善知识库:某些知识只存在于人脑中,如何收
集、管理、供给多领域、多模态的高质量知识
中长期推动Copilot向Agent演进:加强各环节的AI原子
能力;串联出完整的应用,当前工具链路割裂,需要发
展时间;此外,评估、纠错与兜底机制也需要完善
28. Q&A
29. 更多技术干货
欢迎关注“美团技术团队”