因果推断在营销科学的应用
如果无法正常显示,请先停止浏览器的去广告插件。
1. 因果推断在营销科学
的应用
张磊 阿里巴巴集团 阿里妈妈 数据技术专家
2. 目录 CONTENT
01 因果科学
02 因果推断与机器学习
03 因果推断与营销科学
3. 01
因果科学
4. 辛普森悖论
相关性不等于因果性
Ø 相关性不等于因果性
Ø 相关关系可以完全的被第三个变量扭曲(混淆
变量、内生性),而我们往往一无所知
5. 因果之梯
因果推断在统计与机器学习领域炙手可热
•
因果之梯:科学研究需要从观察,到干预,最终到反事
实推理
Ø
Ø
Ø
首先是底层,指的是对于事物现象的一般性观察,并根据观
察的现象,发现其中的关联性。
中间一层则是干预,即通过对变量的改变,研究这一变量对
结果的影响,包括是否改变结果的性质,以及改变的强度。
最后则是反事实,即通过模拟控制其他变量,仅翻转被研究
的变量,探讨可能的发展。
p 11年图灵奖获得者Judea Pearl认为:当前统计机器学习主要关
注对表征的拟合,寻找的是变量之间的相关性,而非潜在的因
果性。这样的认识会使科学研究停留在较浅的关联层面,导致
模型的鲁棒性和可解释性丧失,阻断了进一步探究干预变量,
以及反事实推断的能力
p 19年图灵奖得主Yoshua Bengio认为:深度学习已经走到了瓶
颈期,将因果关系整合到AI当中已经成为目前的头等大事
6. 如何计算因果关系
PO与SCM两大派系
P ?=??=?
Ø
Condition一个变量,不会改变其分布,目
标是判断或预测(即观察自然发生的x并推
断y的可能值),监督学习领域有出色表现
P ? = ? ?? ? = ?
Ø
Intervene一个变量,改变其分布,引起其
他变量的改变,目标是根据估计的条件控制
或选择x
P ? ! ? " , ?′
Ø
Counterfactual, 假如希望Y变化,需要对x
做出什么样的改变
两大派系
p
实验
Ø
Ø
控制实验(controlled experiment),难点是同一
个体不可能同时进入实验组和对照组
随机实验(randomized controlled experiment)
,A/B Test
p
以Donald Rubin为代表的Potential Outcome(PO),
在经济学和社会科学中有大量的应用实例
以Judea Pearl为代表的Structural Causal Model(SCM)
,以DAG表示因果关系,深受计算机学者喜爱
7. PO框架
Potential Outcome理论
•
同质人群对比
Ø
Ø
•
将因果识别问题简化
Ø
Ø
Ø
Ø
Ø
•
如何评估广告投放对转化的真实效果
广告触达的转化率-未触达的转化率?广告触达的人群相比
未触达的更活跃,而这波人本身更容易转化
干预 Treatment T: T ! ?0,1 表示广告触达与否的二值干预
潜在结果Potential outcome: Y " ? , Y # ?
混淆变量Confounder
对于单个用户,我们希望得到Individual Treatment Effect
(ITE),也就是ITE= Y " ? − Y # ?
对于整体,通常为Average Treatment Effect (ATE),
ATE=E(Y " ? − Y # ? )
成熟的估计方法
Ø
Ø
Ø
Ø
Ø
Regression
Matching
Weighting
Stratification
IV(Instrumental Variable)
Potential Outcomes
Group
Treatment
group
(D = 1)
Control
group
(D = 0)
Y 1 Y 0
Observable
E[Y 1 | D = 1] Counterfactual
E[Y 0 | D = 1]
Counterfactual
E[Y 1 | D = 0] Observable
E[Y 0 | D = 0]
ATE(Average Treatment Effect)为:
E[δ] = E[Y 1 – Y 0 ]
= E[Y 1 ] – E[Y 0 ]
= {πE[Y 1 | D = 1] + (1 – π) E[Y 1 | D = 0]}
– {πE[Y 0 | D = 1] + (1 – π) E[Y 0 | D = 0]}
= π{E[Y 1 | D = 1] – E[Y 0 | D = 1] } +
(1 – π) {E[Y 1 | D = 0] – E[Y 0 | D = 0] }
8. 因果图SCM框架
Structural Causal Model理论 学校的经费( X ), 平均成绩( Y ), 年度录取率( Z )
• U = ? % , ? ' , ? ( , , ? = ?, ?, ? , ? = ? % , ? ' , ? (
?
?
? % : ? = ? %
? ( : ? =
+ ? (
? ' : ? = + ? '
16
3
因果图表示
Ø
Ø
Ø
•
chains, forks, colliders
Ø
Ø
Ø
Ø
•
外生变量U: exogenous variables
内生变量V: endogenous variables
函数集合F: A variable X is a direct cause of a
variable Y if X appears in the function that assigns
Y's value
chains:condition on Y,X和Z是独立的
forks : condition on X,Y和Z是独立的
colliders : X和Y是相互独立的;如果condition on Z,
那么X和Y就是非独立了
d-separation: Z 阻断了X 到 Y 的所有路径,那么
称 Z d分离 X 和 Y,记为 (X ⊥ Y|Z) $ 用于确定X与Y
之间独立,需要控制哪些变量
因果关系识别
Ø
Ø
后门准则(backdoor criterion)
前门准则(frontdoor criterion)
? ? = ?, ? = ?, ? = ? =
? ? = ? ? ? = ? ? = ? ?(? = ?|? = ?)
9. 因果图SCM框架
Structural Causal Model理论
•
SCM与PO
Ø
Ø
Ø
Ø
•
SCM的构造
Ø
Ø
•
通过后门准则找到干预的变量集z,adjust for z
Regression、Matching和Weighting等方法,也适用于
SCM
SCM基于图表征因果关系,对于计算机非常友好,而PO框
架提供了丰富的因果效应求解方法
微软因果推断工具DoWhy:使用SCM表征因果关系,PO求
解因果效应
基于经验知识
基于data自动构造,计算机领域的热门方向
相关书籍
Ø
Ø
The Book of Why: The New Science of Cause and Effect
Casual inference in Statistics, A Primer
P ? = ? ?? ? = ?
= ? ! ? = ? ? = ?
= * ? ! ? = ? ? = ?, ? = ? ? ! ? = ? ? = ?
"
= * ? ! ? = ? ? = ?, ? = ? ? ! (? = ?)
"
adjust for z
= * ? ? = ? ? = ?, ? = ? ?(? = ?)
"
∑ " ? ? = ? ? = ?, ? = ? ?(? = ?|? = ?)?(? = ?)
=
?(? = ?|? = ?)
?(? = ?, ? = ?, ? = ?)
=*
?(? = ?|? = ?)
"
倾向分,IPTW
10. 因果科学
CSD与CEI
•
•
SCM表征因果关系,PO计算因果效应
因果科学
Ø
Ø
因果结构发现(Causal Structural Discovery, CSD)
因果效应推断(Causal Effect Inference,CEI)
11. 02
因果推断与
机器学习
12. Causal Structural Discovery
Constraint-based Algorithms
•
方法概述
Ø
Ø
Ø
•
通过chains, forks, colliders三种结构条件独立的检验,最终
构造SCM
优点:方法思路清晰,可解释性强
缺点:算法复杂度非常高,并且对数据质量要求高,不能有
unobserved confounder,对chain和fork结构,只能得到
马尔可夫等价类
相关研究
Ø
Ø
Ø
IC algorithm:《Causality: models, reasoning, and
inference》[Judea_Pearl], p60
PC algorithm: Causation, Prediction, and Search, 2000
Fast Causal Inference(FCI): Spirtes et al., 2001
13. Causal Structural Discovery
Score-based Algorithms and Machine Learning
•
方法概述
Ø
Ø
Ø
•
相关研究
Ø
Ø
Ø
Ø
Ø
•
通过最优化给图打分的函数来找到最优的图
优点:定义打分函数,优化目标明确,非常容易和机器学习
模型结合
缺点:算法复杂度非常高,需要搜索所有的图,NP-hard问
题,容易局部最优
打分函数:BDe(u) (Heckerman et al., 1995), BGe
(Kuipers et al., 2014), BIC (Chickering and Heckerman,
1997), and MDL (Bouckaert, 1993)
GES: Greedy Equivalence Search , 2003
CGNN: Generative Neural Networks, 2017
Continuous Optimization for Structure Learning: 2018
CAUSAL DISCOVERY WITH REINFORCEMENT
LEARNING: 2020
其他方法
Ø
Ø
Functional Causal Models: ANM, LiNGAM, CAM
Hybrid methods
14. Causal Effect Inference
CEI and Machine Learning
•
ATE
Ø
Ø
Ø
Ø
Ø
•
ITE
Ø
Ø
•
Average Treatment Effect,宏观overall的因果效应估计
Regression、Matching、Weighting、Stratification
LR回归、Nearest Neighbor 、遗传算法等应用于matching
Covariate Balancing Method对样本重新赋权,与LR、DNN
结合:IPTW、EB、ARB、CBPS
IV:两阶段回归、deepIV等
Individual Treatment Effect,估计个体因果效应
典型的uplift model
CATE
Ø
Ø
Conditional Average Treatment Effect,异质性群体的因果
效应评估
Meta-learner、Tree-based algorithms、Deep Learning
Method(CEVAE、Balancing Neural Network、TARNet、
BART)
15. Neural Causal Models
NCM与因果推断的应用场景
•
因果推断应用场景
Ø
Ø
Ø
•
典型的因果问题:uplift model,同质人群对比,A/B Test,反事实推断
分类、推荐等场景,结合因果推断,结合matching、weighting消除数据偏差,或者将因果机制作为约束条件,
解决长尾问题
模型的可解释性:贡献分配、关键因素洞察、运营序列分析
神经因果模型
Ø
Ø
Ø
Ø
2019年提出,使用神经网络建模结构因果
模型SCM
神经网络与因果科学的结合:主流MLP、
GNN、AutoEncoder等网络与CSD、CEI
的结合
NCM for Causal Inference:完成因果识
别、估计任务
NCM for Machine Learning:解决机器
学习问题提出的融合因果约束、因果机制
16. 03
因果推断与
营销科学
17. 因果推断与营销科学
因果推断在数字营销的应用
•
评测实验
Ø
•
•
同质人群对比
用户增长
Ø
Ø
•
Ø
贡献分配、结合matching、weighting消除数据偏差,反应渠道
的真实价值
建立干预、反事实模型,评估预算分配的全面影响
异常分析、可解释性
Ø
Ø
•
典型的uplift model
留存的关键因素洞察,可解释,运营序列抓手
多渠道归因、预算分配
Ø
•
结合因果推断对历史数据洞察,辅助选择实验组、对照组
波动、异常归因与解释
优质视频关键因素挖掘,优化创意素材
推荐、lookalike、CTR/CVR预估、优惠券等典型算法应用
Ø
Ø
结合因果推断,消除数据偏差
将因果机制作为约束条件,解决长尾问题
18. 因果推断与用户增长
因果推断在用户增长的应用
如何助力增长
Ø
Ø
Ø
提供特色的投放功能,为客户提供有价值的工具
合理的引导体系,帮助客户循序渐进了解营销工具的使用
了解客户的核心诉求,指导广告投放,取到满意的效果
核心诉求
Ø
Ø
需要解决的问题
Ø
Ø
Ø
Ø
哪些投放功能对于留存具有非常大的价值?
如何判断流失预警的客户?
流失的原因是什么?如果避免这些原因,对于整体留存率
有多少提升?
定位原因后,如何指导客户去完成目标?
确立北极星指标,即洞察对于用户留存的关键
因素
依据北极星指标,进行运营序列拆解
模型该怎么做
Ø
Ø
Ø
对于新开通的客户,建立预测模型,预测30天
之后的留存状态
以留存果,挖掘影响留存的因,基于SCM表征
因果关系,求解其因果效应
干预因,计算留存的提升率
19. Neural Causal Models
Learning Sparse Nonparametric DAGs
? ) ~ ?
? " = ? " (? " )
? * = ? * (? " , ? * )
? + = ? + (? " , ? + )
? , = ? , (? * , ? + , ? , )
? - = ? - (? , , ? - )
SEM方程表示:
对于i.i.d特征 X = (? " , … , ? . )
与DAG图G=(V, E), V=X,存在函数 ? / 与g /
如果 ? 0 ∉ ??(?) 那么 ? / (? " , … , ? . ) 与 ? 1 相互独立
g / 对应non-additive errors
找到DAG G(X),得到 ? = (? " , … , ? . )
最优化损失 ℓ(?, ? 2 )
20. Neural Causal Models
Learning Sparse Nonparametric DAGs
? / 与 ? 1 在Sobolev Spaces相互独立的条件
如何满足 ?(?) ∈ ???
如何定义 ?
如何保证 ?(?) 稀疏
如何定义损失,L-BFGS-B算法
21. 因果推断与用户增长
NCM模型应用于用户增长的结论
建模过程
Ø
Ø
Ø
将留存作为outcome,各类潜在因素
作为treatment,使用NCM建立二分
类模型
训练NCM,导出SCM以及各条边的
权重(因果效应)
通过NCM完成干预/反事实任务
结论
Ø
Ø
Ø
Ø
留存预测模型的AUC达到0.84
SCM因果关系图,整体符合预期,细
节需要微调,引入knowledge
与相关性分析相比,模型得到的结论
更符合认知
A/B实验表明,留存率、活跃度提升
明显
22. 非常感谢您的观看
阿里妈妈广告技术-SDS
zl165646@alibaba-inc.com