欢迎大家来到【风控基建实战】
风控团队与黑灰产的对抗是动态且激烈的,技术也在不断迭代升级。我们希望通过一系列硬核技术分享,与风控岗位的小伙伴们加深交流,共同夯实业务基石。
随着互联网的蓬勃发展,平台商业模式日益多样化的同时也给黑灰产创造了牟利空间。如今的黑灰产多以组织化的团伙形式存在,在各路平台不断试探,试图挑出“有缝的蛋”,用最短的时间和最少的资源获取最大的利益,而黑产搞钱第一步,往往是先注册账户。
注册作为用户在平台活动生命周期的起点,在此阶段尽早识别欺诈团伙意义重大。从前期的账号注册开始,到后期用户的行为和资产类型越丰富,平台面临的风险也越多。刷单、洗钱往往需要批量账号协同,如果平台能在早期有效识别并管控有风险的账号,相当于把后期潜在的风险扼杀在摇篮里,提前规避平台的资金损失。因此,垃圾注册作为早期欺诈风险的重要表现形式之一,成为了风控的关键战场。
然而,传统防控方法应对早期欺诈风险存在诸多不足,难以应对黑灰产复杂多变的欺诈手段。鉴于此,本文提出应用图算法来弥补短板,助力平台在注册阶段更精准、高效地识别欺诈团伙,提升整体风控水平,下面将围绕垃圾注册风险与图算法应用展开详细探讨。
一、垃圾注册风险及图算法优势简述
垃圾注册风险概述
垃圾注册是黑产利用虚假或非法所得的身份信息绕过平台风控批量注册账号用于违法活动的行为,像小号接码、注册机等方式注册的账号会被黑产团伙控制,用于诈骗、洗钱等欺诈行为。垃圾注册的黑灰产产业链如下图所示,其有着明确分工,分上游(提供注册资源)、中游(获取批量账号)、下游(提供作案账号)三个环节,这种规模化 “团伙作战” 欺诈波及范围广、社会危害大,还呈现智能化、攻击迅速且隐蔽等特征,给平台及社会秩序带来了极大的挑战。
尤其在账号注册这一用户准入阶段,由于用户尚未产生平台交互行为数据,又无明显欺诈痕迹,平台为优化用户体验会弱化核身校验。传统基于规则策略的防控依赖黑名单和介质聚集,黑名单只能拦截已知不良账号,介质聚集方式片面,难以全面覆盖风险。风险缺口一旦撕开,后期各种风险将“遍地开花”难以把控。
图算法应对风险的优势
相较于传统方法孤立地看待各个数据点,图算法基于其独特的数据结构能够挖掘出隐藏在复杂关系中的信息,从而更容易发现垃圾注册账号,在应对欺诈行为方面具备诸多优势:
1、可提前感知风险
在欺诈行为早期,单个欺诈点可能没有明显的异常特征,难以被传统方法检测到。但通过分析关系网络中的稠密子图,可以发现一些隐藏的异常模式。例如,在信用卡交易网络中,一些欺诈者可能会通过看似正常的小额交易逐步构建关系网络,形成稠密子图。这些小额交易单看可能没问题,但从整体关系网络来看,它们的聚集可能预示着潜在的欺诈风险,从而实现提前预警。
2、可提升风险覆盖
当某个节点的单点欺诈痕迹明显时,基于图的风险传播机制可以快速扩展到其关联节点。例如,在一个洗钱网络中,如果发现了一个参与洗钱的账号,通过分析其资金往来关系,可以追溯到与之相关的其他账号,这些账号可能具有相似的属性或行为特征,如频繁的资金进出、与多个高风险账号有交易等,从而将整个团伙一网打尽,大大提高了欺诈检测的覆盖范围。
3、可解释性强
图的拓扑结构直观地展示了节点之间的连接关系,使得分析结果具有很强的可解释性。在社交网络欺诈分析里,以用户为节点、社交互动为边构图,用 Louvain 算法划分社区。若某用户处于与欺诈用户相连的子图中,通过图的拓扑结构,可从团伙角度解释其异常,判断是受欺诈环境影响还是团伙一员,便于防控策略制定。此外,诸如置信传播这类概率图模型,以节点表示随机变量,边表示变量之间的依赖关系,通过在图的节点之间传递消息来计算每个节点的边缘概率分布或后验概率分布,可以为风险评估提供量化依据。
二、图算法在垃圾注册识别中的应用方案
现有的欺诈账号检测方法有许多局限性。一方面,很多方法依赖注册后产生的内容和行为等信息来进行判断,这就导致了检测存在滞后性,无法在风险刚刚萌芽的初期及时察觉异常。另一方面,众多有监督方法对标注数据有着很强的依赖性,而人工打标签不仅费时费力,还可能因标注的主观性和工作量大等问题影响最终效果。而且,有监督方法基于已知的风险样本进行检测,无法感知到未知的异常。
鉴于这些不足,在注册阶段利用无监督图算法及时识别垃圾账号就显得尤为关键,它能够弥补传统方法的短板,在早期就对可能存在的垃圾注册行为进行有效识别,从而提前防控欺诈风险。
基于无监督图算法在垃圾注册识别的应用方案整体流程如上图所示,分为四个部分:特征提取、无监督权重学习、注册账号图构建、欺诈账号检测。
1、特征抽取
针对在注册阶段可采集到的信息构建用户注册时特征,分析特征分布和历史已知的黑样本在这些特征上的数据表现,将这些特征提取出来并归类,用于后续的建模构图。
实证发现,比起正常用户,垃圾注册用户趋向于在某些有限资源的介质上有聚集性或有着不同于大多数人的行为。
2、无监督权重学习
基于无监督方法设计权重来量化账号异常程度,权重越大,账号异常概率越大。
主要分三步:二部图构建、节点权重初始化、权重更新。
①二部图构建:基于账号-账号特征值构建二部图
②节点权重初始化:先基于无监督统计方法得到账号特征值初始权重,再根据账号所有的特征节点初始权重计算得到账号初始权重。
特征归为两类:公有特征和私有特征Priv。公有特征被大多数好人共享,而私有特征相反。暗含一个前提假设:好人总是占大多数,坏人会复用有限的资源,坏人与大多数人的特征表现相背离。自然地想到:公有特征的特征值人数占比越大,这个特征值越正常,节点的异常权重越小,私有特征相反。然而不同特征的占比算出来的权重不可以直接用于比较,可能数值上的占比相同,但实际差异巨大。所以上面直观的想法通过一种特征耦合方法改进为如下的风险权重初始化方法。
对于任意的特征节点x,初始权重计算如下:
其中:
其中Comm和Priv分别表示公有特征和私有特征,ratio(x)表示该特征节点值的在其所属特征中的频率,pre(x)表示该特征节点所属的特征;mode(pre(x))表示该特征节点所属特征中频率最高的特征节点。
账号节点权重就是账号所有特征值节点权重均值。
③权重更新:
用线性置信传播算法更新账号节点权重。
3、注册账号图构建:
基于账号节点相似度将前面的(用户-特征)二部图构建成一个加权的(用户账号)同构图。
这里账号节点相似度定义为两个账号节点共享账号特征值的最终权重之和。背后的假设是:如果两个账号共享许多特征值,并且这些特征值高概率异常,那么两个账号也可能很相似且更可能是欺诈账号。换句话说就是“近墨者黑”,“人以群分”。
构图流程:先给有共享特征值的两个账号连接一条加权边,设账号节点相似度为两个账号节点的边权重,然后根据人工设定的阈值给账号图剪去较小权重的边,最终得到一张账号加权同构图。
4、欺诈账号检测
可以注意到前面构建的用户-用户同构图中,稠密连接的账号大概率是坏人,稀疏连接的账号大概率是好人。这时候欺诈账号检测问题就转换为密集子图挖掘问题了,也可以叫社区检测任务,此处可以用Louvain算法,将不同节点划分到不同的社区中,将其中大于某个社区规模阈值的社区认定为欺诈账号团伙。这一步以及上一步的阈值设计使得算法有手动调整召准的空间。
后续工作就是将数据处理及图计算做到尽可能的实时化,实现整个风险图谱的动态更新并对于平台的新注册用户进行及时的风险监测。
目前,无监督图算法在旅游、社交等互联网平台的账号注册环节中均有实际应用,在国内某主流社交软件的真实数据集上实验可以实现在约80%召回率下精度达到约94%,相当于有监督方法需要60w人工标注样本才可以实现的效果,并且已工业化部署一年以上,每天识别50w个垃圾注册账号,平均精度约达93%。由此证明图算法在注册阶段识别欺诈团伙方面具有切实可行的应用价值,能够为各类平台应对早期欺诈风险提供有力的解决方案。
三、结语
图算法在早期欺诈风险识别上优势明显、效果显著,能提前感知风险、扩大欺诈覆盖范围且解释性强,弥补了传统方法的不足,有效识别垃圾注册账号与欺诈团伙。尽管图算法在当前的风控领域已经取得了不错的成绩,但随着互联网技术的持续发展以及黑灰产欺诈手段的不断演变,风控工作依然面临着诸多挑战和机遇。
未来,一方面要优化图算法,如提升图计算效率、融合图深度学习技术,更准更快地识别欺诈行为;另一方面,也要理解算法始终只是一种解决特定问题的技术手段,而风控是一个在不断的对抗博弈之中权衡风险与收益的复杂系统工程,要实现业务健康长期发展,不可能单靠算法一板斧实现,还需对内联动各部门,将风控融入业务关键环节,对外与政府部门、司法机关、行业组织等多方合作,构建全方位立体防控体系,在与风险的长期博弈中达成制衡。
扫码关注得物风控,获得最新鲜的购物反诈提醒!
也可在“得物App”关注“得物风控安全助手”哦~