图学习在数字金融场景的应用
如果无法正常显示,请先停止浏览器的去广告插件。
1. 图学习在数字金融
场景的应用
张志强 蚂蚁集团图学习技术负责人
2. 2020年吴文俊人工智能科技进步一等奖《金融智能图机器学习系统研发与规模化应用 》
背景介绍
数字生活服务平台 数字金融服务平台
支付 | 营销 | 搜推广 网商 | 消金 | 理财 | 保险
挑战1:客群信息薄
• 小微企业信贷:小微企业信息严重缺失导致授信
与经营状况不符
• 低活跃用户增长:低活跃用户有效行为稀疏导致
其兴趣/需求难建模
挑战2:强时序拓扑属性
• 供应链识别:企业间多种关系的拓扑结构对其是
否存在供应关系有强区分性
• 数据规模:几十种图数据,百亿点近万亿边,典
型场景十亿点百亿边
• 欺诈风险:交易手法的时序拓扑特性能区分正常/
异常交易
• 场景复杂:离线训练+在线推理,离线训练+超大
规模批量推理,在线训练+推理,流式推理…
图学习训练推理框架
法人
老板
品牌商
挑战3:图数据规模巨大,场景复杂
销售
图学习采样框架
财务
经销商
仓储主管
聚合信息,增强薄信息客群表征
物流司机
时序拓扑表征,挖掘复杂结构模式
蚂蚁图学习系统 AGL
应用驱动的算法-系统Co-Design
(图)存储/计算引擎
工业级图学习架构
3. 目录 CONTENT
01
算法简介
03
数字生活应用
• 基于解离化图表征的营销人群定向
• 基于跨域GNN的低活跃人群表征
• 利用知识图谱辅助的基金推荐
02
系统简介
04
数字金融应用
• 基于供应链的小微企业风险分析框架
• 基于路径感知GNN的高精度供应链识别
• 基于图学习的信用风险评估
4. 算法简介
针对工业图结构数据的特性及数字金融场景的特点探索多个有普遍性增益的算法方向 (噪声、异质、知识、动态、结构等)
KGNN框架,ICML 2020 workshop
知识表示+GNN,知识图谱表示学习框架
KCAN,CIKM 21
利用知识图谱辅助推荐
relation
head
广度自适应函数 深度自适应函数
linear attention operator LSTM-like operator
tail
GeniePath, AAAI 19
路径感知图神经网络PaGNN,ECML PKDD 2021
自适应地学习感知域中重要的路径
噪声
2017.12
2018.09
异质
知识
2019.08
首次提出HGNN中普遍使用的层次化注意力机制
2020.06
动态
结构
2020.04
Temporal Neighbors
? " ? #
? $
? "
? #
? $
?
?
Current time:
? " < ? # < ⋯ < ? $ < ?
K
V
Q
Context-
aware
Attention
Layer
Norm
ML
P
ℎ ! (?)
Embedding
Time Encoding
通用属性异质图表征HACUD,AAAI 19
语义异质图表征 IGNN,2019
离散时间:Spatial-Temporal GNN, IJCAI 20 / SDM 21
连续时间及上下文感知的图注意力网络,under review
5. AGL: A Scalable System for Industrial-purpose Graph Machine Learning, in VLDB 2020
Bandit Samplers for Training Graph Neural Networks, in NeurIPS 2020
系统简介
图结构数据的“相互依赖”和“幂律分布”导致传统的基于数据并行+mini-batch分布式机器学习架构面临较大挑战。
图算法框架
网络嵌入NE
节点分类/回归
链接预测
图+推荐
模型训练
图学习训练与
推理框架
图样本解析优化
图对比学习
模型推理
图矩阵运算优化
Embedding
缓存服务
在线流式
训练
批量离线预测
在线推理服务
GraphFeature:统一的图样本规范
图采样框架与
存储引擎
批量预采样
静态子图采样 | 时序子图采样
GraphFlat (基于批处理系统)
在线实时采样
交互式采样(读写)
动态子图采样 | Bandit Sampler | 采样SDK
轻量图缓存
PHStore (高速缓存系统)
在线图学习 | 在线图模型服务
GeaBase (分布式图数据库)
iGraph
• 训练速度x5,计算资源消耗/10,存储资源消耗/3
• 通用图采样器bandit sampler,将图采样形式化为bandit问题,
已证明可逼近最优分布进行采样,从而加速模型收敛
60亿节点&3300亿边,2层GAT模型训练14小时,完成全图推理1.2小时,实现大规模应用
6. Hubble: An Industrial System for Audience Expansion in Mobile Marketing , in KDD 2020
数字生活应用:基于解离化图表征的营销人群定向
营销人群定向(Audience Expansion in Marketing):营销活动投放前需要圈选一定量“最可能达成其运营目标”的用户作为投放人群。
从种子人群扩展(expand)到投放人群
种子人群
人群定向
挑战1:定向任务数量多,且对时效性要求高
支付宝首页“腰封”
展示多个内外部业务的营销活动
•
双十一/双十二
•
出行/外卖/到店/电影/旅行等
•
数字金融服务推广
挑战2:定向任务间差异性大,覆盖多个业务域的营销活动
技术方案1.0:分类器 (原始特征,种子人群为正样本,负采样)
• 单任务数据少+种子人群bias ----> 精度低
• 原始特征维度高 ----> 时效性差
技术方案2.0:深度表征+分类器
•
业务异质性强+种子人群bias
---->
精度低
技术方案3.0:自适应解离化图表征+知识蒸馏分类器
7. Hubble: An Industrial System for Audience Expansion in Mobile Marketing , in KDD 2020
数字生活应用:基于解离化图表征的营销人群定向
离线:自适应的解离化图表征(Adaptive & Disentangled GNN) + 在线:基于知识蒸馏的人群定向(Knowledge Distillation AE)
实时:样本构造 --> 蒸馏学习 --> 人群定向
• 利用历史上相似活动对目标活动的种子人群进行纠偏
离线:构图 --> 图表征学习 --> 表征加载
• 图表征有利于挖掘user-item间高阶协同关系
构造“用户-全域营销活动”
• 解离化表征建模用户在多个业务域上的兴趣偏好
的点击/转化二部图
人群定向对比实验
• 自适应的设计可更精细地利用ui特征建模兴趣偏好
表征学习对比实验
人群定向线上A/B实验
8. Learning Representations of Inactive Users: A Cross Domain Approach with Graph Neural Networks,in CIKM 2021
数字生活应用:基于跨域GNN的低活人群表征
低活跃用户运营(Inactive-user Marketing):低活跃用户是用户增长运营最重要的环节之一,面临着样本/特征严重稀缺的问题
支付宝低活跃用户运营 (仅低活跃用户可见)
跨领域推荐方法setting上的对比
尝试跨域推荐思路:源域=活跃用户,目标域=低活跃用户
源域目标域用户不重合,特征稀疏,标签稀疏
数据分析1:用户行为在social network上呈现明显的趋同性
数据分析2:源/目标域social network分布差异
引入user-user social network
来实现跨域推荐
9. Learning Representations of Inactive Users: A Cross Domain Approach with Graph Neural Networks,in CIKM 2021
数字生活应用:基于跨域GNN的低活人群表征
Cross-domain GNN(CD-GNN):利用social network实现跨域推荐,通过domain invariant layer实现GNN表征对齐。
基于social network 分布差异设计
domain invariant layer进行表征对齐
问题形式化:social network + browsing behaviors
对比实验
CD-GNN模型架构图
线上A/B实验
邻居数量越多,性能(RMSE)越好
10. Conditional Graph Attention Networks for Distilling and Refining Knowledge Graphs in Recommendation,in CIKM 2021
数字生活应用:利用知识图谱蒸馏提纯辅助基金推荐
知识图谱辅助金融推荐:金融业务涉及丰富的专家知识,通过知识图谱结构化金融知识,并应用于搜推广等业务中。
Knowledge Graph + Recommender System
引入基金知识图谱,缓解数据稀疏的
同时更好地结构化表示金融专家知识
基于表征学习的方法(CKE、KGAT等)
• 注重语义关系的建模
• 无法完全捕捉user-item间复杂关联
• 没有对目标user-entity进行约束
基于路径的方法(RippleNet等)
基金推荐板块
基金知识图谱(仅展示一阶信息)
挑战1:在基金场景用户行为稀疏
挑战2:金融服务专家知识丰富
• 通过路径建模user-item间复杂关联
• 定义元路径需要领域知识,通用性差
• 丢失了全局关系信息
KCAN:基于知识图谱精炼提纯的条件图注意力
蒸馏(distilling):全局的、知识依赖的图表征学习
提纯(refining):学习KG中局部entity对目标user/item的影响
11. Conditional Graph Attention Networks for Distilling and Refining Knowledge Graphs in Recommendation,in CIKM 2021
数字生活应用:利用知识图谱蒸馏提纯辅助基金推荐
蒸馏:全局的知识关系依赖的GNN表征,提炼:局部entity对目标user/item的影响
Knowledge Graph Embedding
!+#≈ %
Head
Relation
||
GKGCN
* (()
' (
Tail
LCSAN
* (.)
' (
' )
MLP Prediction
23 /1
Conditional
Attention
* ())
×
* (()
* (,)
Knowledge-Aware Propagation
使用TransH初始化KG表征
Conditional Attention Propagation
* 4 1
* 4 /
' (
' )
MLP
' (
User
Item
User
Target-specific Sampling
Knowledge Graph
蒸馏:知识关系依赖的GNN表征
Top-K推荐对比实验
MLP
(()
(.)
* / ||* /
(()
(.)
* 1 ||* 1
提纯:局部entity对目标的影响
Top-K推荐对比实验
消融实验
12. Financial Risk Analysis for SMEs with Graph-based Supply Chain Mining , in IJCAI 2020
数字金融应用:基于供应链的小微企业金融分析框架
小微企业(SMEs)由于信息缺失难以享受优质金融服务是世界性难题,攻克这一难题关系到实现“共同富裕”这一伟大目标。
服饰行业的供应链示例
SMEs信息缺失问题可被其供应链上下游缓解
RF1-SMEs自身;RF2-引入上游;RF3-引入下游;RF4-引入上下游
基于供应链的小微企业风险分析框架
供应链的上下游(仅数量)对SMEs的信用风险具有强区分性
在复杂的企业关系图中挖掘上下游供应链关系,并基于供应链图进行多维度的风险分析
t =1
t = T
t =1
t = T
13. Financial Risk Analysis for SMEs with Graph-based Supply Chain Mining , in IJCAI 2020
数字金融应用:基于路径感知GNN的高精度供应链识别
供应链识别可被形式化为链路预测问题,高精度的供应链识别需要对企业间复杂的拓扑结构进行建模
传播算子
启发式链路预测
聚合算子
• 均基于先验假设,泛化性差
• 无法利用工业界丰富的属性特征信息
基于网络表征的链路预测
• 无法利用工业界丰富的属性特征信息
双塔结构的GNN
• 无法精确表征两个目标节点间的复杂拓扑关系
路径感知GNN:Propagation-Aggregation结构
Two-Tower GNN
Aggregation
u
Path-Aware GNN GNN
Score Score
FC layer FC layer
Aggregation
网商大雁系统核心技术之一
Propagation - Aggregation
u
v
u
v
v
对比实验
消融实验
14. Regularizing Graph Neural Networks via Consistency-Diversity Graph Augmentations, in AAAI 2022
Temporal-Aware Graph Neural Network for Credit Risk Prediction, in SDM 2021
Loan Default Analysis with Multiplex Graph Learning, in CIKM 2020
A Semi-supervised Graph Attentive Network for Financial Fraud Detection, in ICDM 2019
数字金融应用:基于图学习的信用风险评估
信贷逾期概率预测可形式化为节点分类问题,“依赖图结构进行风险信息传导”是基于图学习的信用风险评估最核心的思想。
2017
Network Embedding
超大规模网络嵌入
• DeepWalk/node2vec
• 超大规模网络嵌入框架,
支持十亿点千亿边,千
亿参数规模
2019
2020
Heterogenous/Multiplex
多重图GNN
Temporal
ST-GNN
• 交易/转账/社交等构成多重图
• 层次化的多重图聚合结构 • 图数据的时序变化对风险具有预测性
• 信贷数据一般以月度快照形式储存(离散时间)
• AUC+2.3%~3.7%,KS+9%~15% • 相比静态图模型(GAT) KS+6%~8%
2021
Unlabeled data
一致性-多样性的图增广
• 无标签样本普遍存在
• 图增广:远端邻居替换
增广表征
• 在部分客群上有增益
• 有标签样本增广表征的Loss
邻居增广表征均值-->锐化的低熵预测
• 无标签样本增广表征与锐化后
的低熵预测间的KL散度
15. Selected Publications
【CIKM 2018】Heterogeneous Graph Neural Networks for Malicious Account Detection
【AAAI 2019】GeniePath: Graph Neural Networks with Adaptive Receptive Paths
【AAAI 2019】Cash-out user detection based on attributed heterogeneous information network with a hierarchical attention mechanism
【SIGIR 2019】Uncovering Insurance Fraud Conspiracy with Network Learning
【VLDB 2019】TitAnt: Online Real-time Transaction Fraud Detection in Ant Financial
【CIKM 2019】Graph Representation Learning for Merchant Incentive Optimization in Mobile Payment Marketing
【ICDM 2019】A Semi-supervised Graph Attentive Network for Financial Fraud Detection
【IJCAI 2020】Financial Risk Analysis for SMEs with Graph-based Supply Chain Mining
【SIGIR 2020】ATBRG: Adaptive Target-Behavior Relational Graph Network for Effective Recommendation
【SIGKDD 2020】Hubble: An Industrial System for Audience Expansion in Mobile Marketing
【VLDB 2020】AGL: A Scalable System for Industrial-purpose Graph Machine Learning
【ICML 2020 workshop】KGNN: Distributed Framework for Graph Neural Knowledge Representation
【CIKM 2020】Loan Default Analysis with Multiplex Graph Learning
【CIKM 2020】EasyGML: A Fully-functional and Easy-to-use Platform for Industrial Graph Machine Learning
【NeurIPS 2020】Bandit Samplers for Training Graph Neural Networks
【AAAI 2021】Joint Incentive Optimization of Customer and Merchant in Mobile Payment Marketing
【SDM 2021】Temporal-Aware Graph Neural Network for Credit Risk Prediction
【DASFAA 2021】LinkLouvain: Link-Aware A/B Testing and Its Application on Online Marketing Campaign
【ECML PKDD 2021】Inductive Link Prediction with Interactive Relation Learning on Attributed Graph
【CIKM 2021】Learning Representations of Inactive Users: A Cross Domain Approach with Graph Neural Networks
【CIKM 2021】Conditional Graph Attention Networks for Distilling and Refining Knowledge Graphs in Recommendation
【NeurIPS 2022】MixSeq: Connecting Macroscopic Time Series Forecasting with Microscopic Time Series Data
【WSDM 2022】Scope-aware Re-ranking with Gated Attention in Feed
【AAAI 2022】Regularizing Graph Neural Networks via Consistency-Diversity Graph Augmentations
【AAAI 2022】Robust Heterogeneous Graph Neural Networks against Adversarial Attacks
16. 非常感谢您的观看