cover_image

风控基建实战:因果推断作为商业决策“第一性原理”的应用实践

得物风控 得物风控
2025年03月05日 10:30

欢迎大家来到【风控基建实战】

风控团队与黑灰产的对抗是动态且激烈的,技术也在不断迭代升级。我们希望通过一系列硬核技术分享,与风控岗位的小伙伴们加深交流,共同夯实业务基石。

引言:从大禹治水到AI时代的因果革命

大禹治水:从“堵天意”到“疏因果”的工程革命
约公元前2000年,黄河流域洪水肆虐,鲧采用“堵水法”筑堤防洪,却因忽视水流规律导致灾情恶化。其子大禹受命治水后,彻底颠覆了传统思维:他通过实地考察掌握地形水文,将中国划分为九州,根据地势开凿河道、疏通水系,最终引导洪水归海。这种“疏导为主、堵疏结合”的方法,不仅让洪水退去,更将荒地变为良田,直接推动夏朝的建立。从被动祭祀到主动干预,大禹用因果思维改写了文明进程。

衡地动仪:从“神怒”到“物理因果”的科学觉醒

16世纪,地震仍被视作“神灵震怒”,缺乏科学解释。东汉张衡发明的地动仪,通过铜铸龙口吐球的机械联动,首次实现了地震方向的实时监测。其核心原理是利用惯性原理感知震动,触发对应方位的铜球坠落,精准预测了千里之外的陇西地震。从神秘主义到实证科学,张衡的因果模型为地震学奠定基础。现代复原实验表明,该装置对4级以上地震的方位判断准确率达82%,其原理至今启发着地震预警系统的设计。

DeepSeek R1:AI开启因果推断新纪元  

GPT-4虽能生成流畅文本,却无法回答“删除神经元如何影响输出”这类因果问题——这暴露了传统大模型依赖统计相关性的局限。DeepSeek R1的突破在于引入因果推理模块:通过GRPO算法(群组相对优势优化)构建“思考-验证”双阶段模型,显示建模干预效应。例如在洪水预测中,R1不仅能分析历史数据相关性,还能模拟“若某区域堤坝加高1米,淹没风险如何变化”。这相当于在AI大脑中植入“因果透镜”,使模型能区分“点击广告”与“真实购买意愿”的混淆因素。

从大禹“因势利导”的治水智慧,到张衡机械装置揭示的地震因果,再到AI通过算法逼近复杂因果关系,人类始终在探索“现象-规律-干预”的闭环。这种思维范式的迭代,本质是“从被动适应到主动干预,从经验总结到理论验证”的进化。在如今的商业决策领域,人们也遇到了各类问题,例如在金融场景,给哪些用户进行短信触达才能在不明显影响体验同时提升获客转化?如何识别那些只有发权益才来申请产品而不发权益则不会申请的用户?给哪些用户提额不会带来风险逾期率的弹跳同时能增加GMV?基于因果关系的推断决策是解决这类问题的有效途径之一。

1、因果关系:超越统计相关的深层关系

图片

因果关系的本质在于事件A直接引发事件B,而非仅存在统计关联。早在古希腊时期,亚里士多德提出“四因说”,试图用质料因、形式因、动力因和目的因解释万物起源。18世纪休谟进一步提出因果是“经验间的习惯性联想”,强调时间顺序与恒常连结性。但直到现代数学工具的发展,人类才真正将因果关系从哲学思辨转化为可量化的科学模型。

经典的正反案例如下:

伪相关案例:冰激凌销量与溺水率在夏季同步上升,看似强相关,实则由高温这一共同原因驱动——高温促使更多人游泳(增加溺水风险)和购买冰激凌。类似地,巧克力消费量与诺贝尔奖得主数量的正相关,实则是国家经济水平同时影响两者。

真实因果案例:吸烟与肺癌的因果关系通过随机对照实验验证。研究发现,吸烟者患肺癌风险比非吸烟者高80%,且存在剂量反应关系(吸烟量越大风险越高)。

其中因果关系与相关性的本区别为:相关性仅描述变量间的统计关联(如巧克力消费与诺贝尔奖数量的正相关),而因果性需通过实验验证内在机制(如随机对照试验证明吸烟致癌)。

因果关系相较于其他关系有如下关键特征:

必然性:因果关系的存在不依赖观察者意志,遵循“无因不成果,有果必有因”的规律。

时序性:原因必先于结果,但时序关联未必蕴含因果(如昼夜交替与天体运动的关系)。

复杂性:表现为多因一果(如地震由地壳运动、板块应力共同作用)、因果链嵌套(如经济周期影响企业决策)等。

工业界中因果关系的应用存在于三个层面:

1)关联层面:基于历史数据总结的一种关系,两件事情总是相伴发生;

2)干预层面:面向未来预测的一种关系,如果做了某件事,会发生什么样的结果;

3)反事实层面:面向过去复盘的一种关系,如果当初做了不一样的行动,会发生什么样的结果。

经典的机器学习算法和大模型早期的版本,大多处于第一层的关联层面,即基于历史数据找到强关联的关系,例如通过冰激凌销量来预测溺水率。这种解法存在多方面问题:

i)解释性差,无法给出符合常识的逻辑关系;

ii)泛化性差,给未来的预测带来较大不确定性。而因果推断技术则会从第二、三层面出发,给出更合理的解释和更稳定的预测结果。DeepSeek R1也是通过在第二、三层面的突破,显示呈现思考链路,给用户带来惊喜。

2、因果推断:操控未来变量的锦囊妙计

图片
因果推断解决两类问题:1)因果关系发现:识别关系中的因和果;2)因果效应评估:评估对一个变量作出改变后对另一个变量的变化。本文将面向商业决策领域,聚焦于第二类问题 - “对哪些个体施加干预能最大化收益并最小化风险?”
2.1 问题定义
因果推断是预估采取动作对结果带来的差异,其中采取的动作叫Treatment,而带来的差异就是因果效应。理想情况下,在平行世界中我们同时给对象采取和不采取动作,然后对比两个结果的差异。但现实情况下,不存在平行世界,无法同时对一个对象独立地采取不同动作。一种可行的办法是,采用对照实验形式,尽量保证实验组和对照组人群一致,并分别采取不同的动作,最后预估两组的结果差异。
2.2 理论框架
常见的理论支撑框架有潜在结果框架(Potential Outcomes Framework,POF)和结构因果模型(Structural Causal Models,SCM):
2.2.1 潜在结果框架(Potential Outcomes Framework, POF)
2.2.1.1 定义
潜在结果框架的核心思想是:每个个体在干预(T=1)和未干预(T=0)两种状态下存在对应的潜在结果。对于个体i,因果效应($$\tau_i$$)定义为:

图片

其中,图片图片分别表示接受干预与未接受干预时的结果。例如,在电商弹窗曝光场景中,图片是给用户曝光弹窗后的转化情况图片是未给用户曝光弹窗后的转化情况。
2.2.1.2 假设
1)稳定性假设(SUTVA):
个体间无相互干扰:给某个用户是否曝光弹窗不影响其他用户的转化结果。
干预唯一性:干预形式一致(如弹窗的时间、弹窗的内容)。
2)可忽略性假设(Ignorability):所有混淆变量$$X$$已被观测,满足图片即干预分配$$T$$仅依赖于可观测变量(如年龄、生命周期)。
3)一致性假设(Consistency):实际观测结果等于潜在结果,即图片
2.2.1.3 优劣势分析  
优势:
直观易用:直接对比实验组与对照组的差异,适合随机对照试验。
数学简洁:ATE(平均处理效应)计算简单,图片
劣势:
无法处理未观测混杂:若存在未记录的变量(如用户在其他平台弹窗的经历),估计结果将偏误。
反事实不可观测:个体无法同时处于干预与未干预状态,需依赖统计推断。
2.2.2 结构因果模型(Structural Causal Models, SCM)
2.2.2.1 定义
SCM通过有向无环图和结构方程建模变量间的因果关系。其核心是“do算子”,用于计算干预效应:

图片

例如,计算“若强制对所有用户进行弹窗曝光$$do(T=1)$$,转化情况如何变化”时,需阻断所有指向$$T$$的因果路径(如用户偏好对$$T$$的影响)。
2.2.2.2 假设  
1)模块性假设:干预仅改变目标变量(如$$T$$)的生成机制,不影响其他变量关系。
2)因果马尔可夫条件:变量独立于其非后代节点(给定父节点)。
3)因果充分性:DAG中包含所有共同原因变量(无未观测混杂)。
2.2.2.3 优劣势分析  
优势:
显式因果路径:可视化变量间作用机制(如用户收入→信用额度→违约率)。
处理复杂关系:支持中介效应、混杂效应、碰撞因子分析。
劣势:
假设严格:需准确构建有向无环图,依赖领域知识。
计算复杂:高维场景下反事实推理计算成本高。
2.2.3 两大框架的异同与结合点

维度

潜在结果框架(POF)结构因果模型(SCM)
理论基础基于反事实潜在结果,强调个体效应估计基于结构方程与DAG,强调系统因果机制建模
数学工具统计推断(均值差异、回归调整) 图论与do算子演算
核心假设SUTVA、可忽略性、一致性模块性、因果马尔可夫条件、因果充分性
优势场景随机实验、个体效应估计观察性研究、复杂因果路径分析
局限性依赖可忽略性假设,无法处理未观测混杂需准确因果图,高维计算复杂 

应用建议:

1)以POF为主,SCM为辅:在随机实验中用POF计算ATE,同时用SCM解释作用路径。
2)混杂控制互补:当POF因未观测混杂失效时,SCM可通过工具变量(IV)或中介分析部分解决问题。
2.3 应用方法
2.3.1 常见应用方法
2.3.1.1 随机实验法
定义:通过随机分配干预组和对照组,消除混杂变量对因果效应$$\hat{\tau}$$的影响。
原理:利用随机化使干预变量$$T$$与潜在混杂变量独立,确保组间差异仅由干预引起。数学表达:

图片

适配场景:
可实施随机分组且伦理允许的场景(如产品功能测试、营销策略验证)。
局限性:
成本高昂:需牺牲部分用户体验或资源;
外部效度低:实验结果可能无法泛化至全量用户。
2.3.1.2 观察性研究法
定义:倾向得分匹配(Propensity Score Matching, PSM),通过建模预测干预概率,匹配实验组与对照组相似个体以消除混杂偏差。
原理:
1)估计倾向得分:图片
2)匹配实验组(T)与对照组(C)得分相近的个体;
3)计算平均处理效应(ATE):

图片

其中,N表示 实验组(处理组)匹配成功的个体总数,即经过倾向得分匹配后,实验组中能够找到合适对照的样本数量。例如,若实验组原有100个样本,但仅80个成功匹配到对照组个体,则 N=80 。M表示 每个实验组个体匹配的对照组个体数量。若采用 1:1 匹配(即每个实验组个体仅匹配1个对照组个体),则 M=1,此时公式简化为对每个实验组个体的单对照比较。若采用 1:K 匹配(如1:4),则 M=K,需对多个对照个体的结果取均值以减少抽样误差。
适配场景:
实验不可行但存在历史观测数据;
混杂变量可观测且维度适中(避免高维匹配失效)。
局限性:
依赖可观测变量:未观测混杂仍会导致偏差;
匹配质量敏感:倾向得分模型精度直接影响结果可靠性。
2.3.1.3 双重差分法(Difference-in-Differences, DID)
定义:通过对比干预组(T)与对照组(C)在干预前后的差异,估计因果效应$$\tau$$。
原理:

图片

适配场景:
面板数据且存在自然实验(如政策实施、突发事件);
满足平行趋势假设(干预前组间趋势一致)。
局限性:
平行趋势假设严格:若干预前趋势不一致,结果失效;
动态效应难捕捉:长期效应可能受其他因素干扰。
2.3.1.4 合成控制法(Synthetic Control Method, SCM)
定义:通过加权$$w_i$$组合未受干预的对照组$$Y_i^C$$,构建“虚拟实验组”$$Y_{syn}^T$$进行反事实推断。
原理:
选择对照组并拟合干预前实验组指标;
构建合成控制组:图片
计算效应:图片
适配场景:
群体或地区级干预评估(如政策、自然灾害);
对照组数量有限但时间序列数据丰富。
局限性:
过拟合风险:高维权重需正则化约束;
外部有效性低:结果难以推广至其他场景。
2.3.2 应用方法对比与选型

方法 

 

核心假设数据需求适用场景优势局限
随机实验随机分配无混杂实验数据可控的小规模测试无偏估计、结果可靠成本高、泛化性差
PSM可观测混杂充分横截面观测数据非实验场景的个体级效果评估灵活易用依赖可观测变量 
DID    平行趋势面板数据政策或策略的群体级效果评估控制时间不变混杂  动态效应难捕捉
合成控制法对照组可合成时间序列数据地区/群体干预效果评估适用于少量实验组过拟合风险 
应用建议: 
1)优先随机实验:若资源允许且伦理可行;
2)个体级观测数据:选择PSM(可观测混杂充分);
3)群体/政策评估:DID(面板数据)或SCM(时间序列数据)。

3、应用实践:增益模型在因果推断框架下的落地路径

图片
3.1 增益模型的定义
增益模型本质是异质因果效应的机器学习实现,其目标是通过数据驱动方式,回答第二部分提出的核心问题:“对哪些个体施加干预能最大化收益并最小化风险?”
增益模型与POF和SCM的理论框架联系如下:
潜在结果框架(POF)的延伸:增益模型的数学基础是估计个体处理效应图片,需依赖POF的三大假设(SUTVA、可忽略性、一致性)。

结构因果模型(SCM)的补充:当存在复杂因果路径时,增益模型可通过特征工程引入中介变量,部分实现SCM的机制解释。
3.2 增益模型的算法框架
根据建模策略差异,增益模型可分为间接建模与直接建模两类方法,间接建模包括单模型法(S-Learner)、双模型法(T-Learner)、双阶段修正法(X-Learner),直接建模包括类别转换法(Class Transformation)、因果森林,其技术对比如下:
3.2.1 单模型法(S-Learner)  
技术原理:将干预变量$$T$$作为特征输入模型,联合建模实验组与对照组数据,得到模型$$\hat{\mu}(x,T)$$。通过预测时切换T的取值(0/1)计算增益分。
公式表达:图片
工程要点:
特征重要性检验:需确保T的特征重要性排名前5%,否则可能因干预信号过弱导致增益分区分度不足。
多Treatment扩展:支持连续型或多值干预(如不同优惠券面额),通过特征交叉捕捉干预强度与用户特征的交互效应。
适用场景:样本量充足且需处理多值干预的场景。
3.2.2 双模型法(T-Learner)  
技术原理:分别训练实验组模型$$\hat{\mu}_1(x)$$ 与对照组模型$$ \hat{\mu}_0(x)$$ ,通过差值计算增益分$$ \tau(x)$$。
公式表达:图片
工程要点:
误差累积防控:采用共享特征编码层(如深度学习中的Embedding层)减少双模型参数差异。
样本平衡策略:当实验组占比低于10%时,需对对照组进行降采样或SMOTE过采样。
适用场景:组间样本量均衡的场景。
3.2.3 双阶段修正法(X-Learner)  
技术原理:
第一阶段同T-Learner训练双模型;
第二阶段利用反事实预测残差图片修正增益估计。
公式表达:图片
工程要点:
残差加权机制:对高置信度样本赋予更大权重,缓解反事实预测噪声。
计算成本优化:采用增量训练复用第一阶段模型参数。
适用场景:实验组占比极低(如<5%)的场景。
3.2.4 类别转换法(Class Transformation)  
技术原理:构造新标签$$Z = Y \cdot T + (1-Y)(1-T)$$,将增益建模转化为单分类问题,直接优化目标为$$P(Z=1|X)$$。
其中, T为二值干预变量(如是否给予曝光,T∈{0,1}),Y为二值结果变量(如是否转化,Y∈{0,1}),Z为构造的新标签,用于将因果效应问题转化为分类问题。
工程要点:
样本比例约束:需通过倾向得分匹配(PSM)强制实验组与对照组比例接近1:1。
非平衡数据修正:引入Focal Loss或加权采样缓解类别不平衡。
适用场景:二值干预与结果的场景。
3.2.5 因果森林(Causal Forest)  
技术原理:改进决策树分裂准则,最大化节点内实验组与对照组的响应差异(如KL散度)。
公式表达:基于KL散度分裂节点:图片
Δ为子节点间处理效应差异的平方和,c为子节点,L、R为分裂后的左右子节点。
工程要点:
动态分裂阈值:根据特征分布自适应调整信息增益阈值,防止过拟合。
连续Treatment扩展:通过局部线性回归估计处理效应曲线斜率。
适用场景:高维特征与复杂因果路径的场景。
3.3 增益模型的算法选择与评估体系
3.3.1 算法对比与选型 

维度 

  

单模型法 双模型法双阶段修正法类别转换法果森林
建模效率高(单模型) 中(双模型) 低(四阶段) 高(单模型) (树集成)
数据需求全量数据组间均衡  组间非均衡 组间1:1高维特征
可解释性高(直接输出增益) 高(特征重要性)
工业落地优先级多Treatment场景 小规模AB测试非对称样二值干预复杂因果路径

3.3.2 模型效果评估  
离线评估:
技术指标:Qini系数(排序能力)、AUUC(增益曲线下面积)。
业务指标:头部10%用户的增益准召率。
在线验证:
三组AB测试:对照组(无干预)、规则组(人工策略)、模型组(增益模型),对比增量收益与成本效率。
动态监控:实时追踪高增益用户的长期行为。
3.4 增益模型的行业案例
以金融场景为例,在营销增长和风控策略中常根据用户对于触达、权益或提额等干预促动后的不同反应,把人群划分为四类,用四象限表示为:干预敏感型、自然转化型、无动于衷型、反感型。
1、干预敏感型:用户被干预促动后产生了正向变化,从不转化变为转化,干预后转化率得以提升,此部分是我们真正想要进行促动的干预敏感用户。
2、自然转化型用户以及3、无动于衷型用户无论是否促动均不会改变其原本的购买行为,对这部分用户进行触达或发放权益或提额都会造成资源浪费。
4、反感型用户对促动可能相对反感,干预会产生反效果,这类用户我们尽量避免打扰。
图片
下面以实际业务中的3个场景为示例:
3.4.1 场景一:短信触达的敏感用户筛选  
问题拆解:需区分“自然转化用户”(无需短信触达)与“敏感用户”(需要短信触达才会转化),避免打扰前者导致体验下降。
解法路径:
数据构建:通过A/B测试随机曝光弹窗,收集实验组(触达)与对照组(未触达)的转化数据。
模型选择:采用双阶段修正法处理非对称样本(实验组占比10%),以用户的画像、曝光/点击/浏览/交易行为等为基础特征。
效果估算:模型筛选的高敏感用户触达转化率提升15%,自然转化用户打扰率下降24%。
3.4.2 场景二:获客权益的差异化分配
问题拆解:识别“仅因权益转化”的用户,避免向“自然活跃用户”过度发放资源。
解法路径:
数据构建:对历史权益发放数据应用DID,验证权益对活跃度的因果效应。
模型选择:采用单模型法的方案,以用户的画像、曝光/点击/浏览/交易行为、社区互动、历史权益领取核销等为基础特征,并以权益发放与否作为Treatment变量。
效果估算:权益ROI提升31%。
3.4.3 场景三:存量用户提额的风险收益平衡  
问题拆解:找到“提额带来GMV增长但逾期率可控”的用户群体。
解法路径:
数据构建:通过PSM匹配实验组和对照组的人群,构建建模人群。
模型选择:采用单模型法的方案,以用户的画像、交易、平台行为等为基础特征,并以提额与否作为Treatment变量。
效果估算:目标用户GMV提升19%,逾期率仅上升0.25%。

参考文献

1 Pearl, J. (2009),Causality: Models, Reasoning, and Inference,Cambridge University Press。

2 Athey, S., Imbens, G. (2015),Causal Inference for Statistics,Social, and Biomedical Sciences。

3 Wager, S., Athey, S. (2018), Estimation and Inference of Heterogeneous Treatment Effects using Random Forests,Journal of the American Statistical Association。

4 DeepSeek-AI etc. (2025),DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning。

图片
图片
图片
图片

扫码关注得物风控,获得最新鲜的购物反诈提醒!

也可在“得物App”关注“得物风控安全助手”哦~

图片
图片

继续滑动看下一个
得物风控
向上滑动看下一个