cover_image

基于树模型的 uplift 模型在金融场景的实践

王心怡 DataFunSummit
2025年04月03日 10:04
图片

导读 在金融行业竞争激烈的当下,传统营销模式存在资源浪费、客户体验不佳、市场竞争加剧等问题,精准营销能够提升营销效果和客户满意度,成为企业突破困境的关键。因果推断特别是增益模型提供了解决思路,其中树型增益模型表现突出。今天将围绕金融背景下的营销需求,分享树型增益模型的原理、节点分裂算法,展示其在电话营销时机场景的应用,最后总结成果并探讨未来发展方向,助力大家深入理解该模型在金融营销领域的价值与潜力。

主要内容包括以下几大部分:

1. 背景介绍

2. Tree-Base 增益模型介绍

3. Tree-Base 营销时机挖掘

4. 总结与未来方向

分享嘉宾|王心怡马上消费算法工程师

编辑整理|高怡杰

内容校对|李瑶

出品社区|DataFun


01
背景介绍
图片
目前金融的场景下,存在营销上的一些痛点问题,比如由于传统营销模式无法准确积极响应的客户,导致整体资源的浪费,造成客户体验的下降。因此,我们需要一种个性化的营销策略去优化整体的资源分配,从而提升客户满意度。
图片
经研究发现,因果推断方法可以比较好地应用于精准营销领域。
因果机器学习与传统机器学习的区别在于:
  • 传统机器学习更加专注于预测,也就是回答“是什么”的问题。

  • 因果机器学习则重点关注数据中的因果关系,也就是去回答“如果...会怎么样”的问题,并输出整体或子群体的因果效应估计。

增益模型是因果机器学习的一个分支,用于衡量不同的干预或者营销手段对最终的结果 y 造成的影响,也就是回答“对哪些人进行处理会带来最大的效果增益”。增益模型最终输出的是每个个体的增益,也就是处理组与控制组预期的差值。
02

Tree-Base 增益模型介绍

本次主要分享的是基于树的增益模型。
图片
基于树的增益模型通常基于二叉树结构,利用各种不同的增益分裂标准来分裂节点,每个叶节点的个体具有类似的增益值。我们可以具此构建决策树或森林模型,以估计个体级别的因果效应差异的模型结果。
常见模型包括基于 KL 散度、欧几里得距离和卡方统计量,基于上下文处理选择等。

1. 分裂标准 1:基于 KL 散度、欧几里得距离和卡方统计量

图片
实验组和控制组作为两个关于 outcome 的概率分布,用 D 表示这两个概率分布上的差异。如果每次分裂前后的 D 增大,就可以说明此次分裂能够体现干预对于结果的影响,所以每次分裂都会选择使分裂前后 D 的增益最大的特征及相应的阈值。
增益计算的公式为分裂前后节点计算的差值,每个节点都会计算 P和 PC,即处理组和控制组的概率分布。
图片
KL 散度:能够更好地衡量信息量差异,而缺点是会存在对零值敏感或者存在非对称性的情况。
公式中的 p指的是在 k 节点(左子节点或者右子节点)处的一个整体的 treatment 组的样本均值,而 q代表的是在控制组的样本均值。
图片
除此以外,我们还可以选择欧几里得距离或者卡方散度去计算概率分布的差异。
欧几里得距离:主要优势在于通俗易懂并可度量直接差异,缺点是易受到量纲影响,对异常值敏感。
卡方散度:主要优势在于对零值相对不敏感,但会建立在假设独立性之上,并且具有一定的正则化需求。

2. 分裂标准 2:基于上下文处理选择(CTS Tree)

图片
算法核心:
  • 通过多棵因果树的组合来预测,每棵树基于不同的自助法去训练数据集而生成。通过这种方式可以增加模型的稳健性和泛化能力。

  • 通过随机特征选择策略,只需要考虑特征空间中的一个随机子集的某一策略,因此有助于减少模型的方差,并防止模型过度依赖某些特征。

  • 最终的预测结果为所有树的预测平均值,这样可以很好地捕捉数据中的模式,提供更稳健的预测。

图片
CTS Tree 的增益表示和分类标准为一个多 treatment 的组合,并且可以灵活选择各种干预模式,可以提高总体的响应情况。
图片
通过候选特征分裂点将整个特征空间 X 分为左右两个子空间,并分别计算 X 落入到左右子空间的概率,得到最大化处理特征空间结果的一个期望值。将左右子空间两项相加之后,再减去整体选择最大 treatment 方式的期望值。期望值的计算过程中,首先计算 0/1 指示函数,同时也考虑了正则化项用于优化样本均值可能会带来的一些偏差。

3. 分裂标准 3:基于 delta-delta-P(ΔΔP)标准

图片
同时考虑了左右两个子空间,即 a和 a1。y 表示所选择的类别,通常是目标变量中的某个值。ΔΔP 主要用于处理二元干预模型,以及二元响应变量。
分别计算的是一个左右子节点 treatment 组和 control 组的响应概率差值,然后再计算左右两个节点的绝对值的差值(即 ΔΔP 值)。

4. 分裂标准 4:基于 IDDP 标准

图片
IDDP 是在 ΔΔP 基础上的进一步优化,通过最大化分子中的调整后的响应率差异,和分母中的信息增益的比值,选择最佳的分裂点。
图片
分裂标准 4 中,分母的计算主要分为三个模块,第一部分计算父节点中干预组和控制组样本的不平衡性,第二部分计算左右叶子节点中干预组样本的不平衡性,类似的,第三部分是计算控制组的不平衡性。
通过加入信息增益,可以使模型整体的稳健性更好,也可以有效处理小样本问题。而缺点则是模型的泛化能力比较有限,适用场景也更有限,主要针对二元处理变量和二元响应变量。

5. 分裂标准 5:正交双重机器学习因果森林

图片
主要包括三个步骤:
  • 步骤 1:正交化处理

    首先拟合一个辅助模型,分别对因变量 Y 和处理变量 T 进行一个建模;

    对于建模拟合得到的 Y 估计和 T 估计,再重新会计算 Y 和 T 的残差值;

    利用残差值以及原始我们的用户的特征 X 去构建正交森林。

  • 步骤 2:构建正交森林

    正交森林的节点分裂中可以采用先前提到的分裂标准(最大化子节点中的处理效应来选择最大的分裂点);

    增加额外的调整参数,可以根据样本量进行实时地调整。

  • 步骤 3:双重机器学习估计

    对每个叶子节点中使用加权最小二乘回归对残差进行回归,以估计每个个体营销处理效果,也就是每个个体的增益值;

    通过这个局部模型,再结合所有树的估计,最后得到每一个用户的增益值情况。

6. 五种树型增益模型对比

图片
前文介绍的五种树型增益模型的优劣势和主要适用场景如上表所示。
03

Tree-Base 营销时机挖掘

接下来分享在树型增益模型在营销时机场景上的应用。
图片
在一些需要主动触达客户的场景,我们需要通过去给客户打电话或者发短信的形式给客户分享介绍我们的一些产品或提供一些金融服务。
通过研究发现在不同的时间点给客户打电话时,客户整体的接通率存在较大的偏差。例如年老用户可能偏向于上午接听,而上班族则在晚上更方便。针对响应率的差异,如果我们能够比较精准地把握营销时机,就可以去提高金融产品的推广率,并减少无效干预的成本。
图片
营销时机场景下的 uplift 模型设计:
  • 干预时机:在 9 点到 17 点,整体上对每个客户都进行时机干预。

  • 结果:用户是否响应营销,也就是最后用户是否能接通电话,或者是能够接收到我们发送的短信。

  • 客户特征:主要选用用户画像特征。

  • treatment & control:treatment 组是选用某一个时机作为干预组,control 则是选择其他干预时机为控制组。

图片
  • 变量 cur_hh 代表当前实际的干预时间点。
  • 变量 treat_hh 是每个用户所有可能干预的时机。
  • 干预 treatment 是指是否能在 treat_hh 时刻进行干预。这其实是对 cur_hh 的一个转化,是将 cur_hh 转化为 treat_hh 和 treat_flg 的加和而形成的一组干预。这样的好处是可以让原来多元的 treatment 形式改进成一个二元的 treatment 模型。
因为在不同的时间点进行干预,给用户客户带来的结果是不同的,所以我们对 treat_hh 进行独热编码,以更好地识别不同时刻对于响应率的影响。
图片
  • 营销时机数据集:对一个用户的样本,从实际干预的时间点扩展至所有可能干预的营销的时机点,同时考虑到整体样本会存在 treatment 标签失衡的情况,因此进行随机降采样,最终整体样本量达到 300 万。
  • 特征工程:去除无用的特征,筛选一些缺失值,同时考虑计算特征重要性,并且对于离散无序的特征采用独热编码。最后会构造一些非当前时刻点的特征,以加强整体用户在不同时间点的特征属性。
  • 模型训练:采用生成器读取大文件的形式进行滚动训练,并且采用以 CTS tree 为代表的二元因果森林,后续还会采用多元因果森林去进行模型训练。
  • 模型输出:一个用户所有时刻的增益值。增益值越大,表明在该时间点干预会比在其他时间点干预用户的响应率更高,也就意味着在这个时间点会更适合去做营销推广。模型结果会进行评测以便于后续用户具体时间点的分配。
图片
  • 由多 treatment 和一个 control 组成的模型方案:

    方案一:采用各时间段作为干预组,随机选择一部分时间点作为控制组。

    方案二:选择一个固定接通率较低的时间段为控制组。

    方案三:考虑用户特征分层,选择每一个分层中表现较为中性的时段作为控制组。

  • 在多 treatment 情况下,采用多 treatment 的 CTS 树模型,分裂标准为将相似的用户分为分配到相同的节点(即图中显示的 T1 T2 到 T0), T1,T2 是不同的干预组,T0 就是这就是控制组。这种分裂的好处是它可以满足节点间的异质性,最终会输出每一个节点的整体的增益情况,以及最适合进行哪一种干预手段。
04

总结与未来方向

图片
本次分享介绍了营销时机在金融场景里的重要作用,uplift 模型的一些基本原理,以及基于树模型的多种增益模型的分裂算法,并展示了营销时机场景下的建模方法。
决策树和 uplift 树模型的区别在于其分裂标准:
  • 决策树通过信息增益去进行分裂,目标是使节点信息熵达到最小。这种做法的好处是类别确定性比较高,达到分类的目的。

  • uplift 树模型使节点分布差异最大,不同时机响应率分布差异大,从而实现提升增益的目的。

未来工作方向主要包括:
  • 增加一些对实时增益模型的应用,去实时分析用户的行为数据和反馈。

  • 进行多源数据的融合与模型的优化,以获得类型更加丰富的用户特征。

  • 增强模型的透明性与解释性。

  • 考虑与深度学习的模型做融合。

以上就是本次分享的内容,谢谢大家。

图片

图片

分享嘉宾

INTRODUCTION


图片

王心怡

图片

马上消费

图片

算法工程师

图片

王心怡,现就职于马上消费的算法工程师一职,本科毕业于天津大学信息管理与信息系统专业,硕士清华大学物流工程,目前主要研究兴趣在因果推断、运筹优化领域

图片

往期推荐


国际时尚电商巨头Data+AI场景降本增效探索!

Flink CDC 3.3 版本解读

用户情感陪伴大模型的自研之路和应用拓展

DeepSeek 如何重塑大数据:数势科技 SwiftAgent 的创新分享

Shopee AI训练加速实战应用探索

基于大语言模型与多模态的 RLHF 技术和挑战

腾讯海外游戏大数据平台建设助力游戏增长实践

Shopee突破IO瓶颈,加速AI训练实战探索

漫谈MFU(一):解锁高效算力的关键密码

大模型和知识图谱双轮驱动的汽车制造业知识服务

图片

点个在看你最好看

SPRING HAS ARRIVED

图片

原创精选 · 目录
上一篇Flink CDC 3.3 版本解读下一篇数据编织的应用场景
继续滑动看下一个
DataFunSummit
向上滑动看下一个