因果推断在营销科学的应用

如果无法正常显示，请先停止浏览器的去广告插件。

1. 因果推断在营销科学的应用张磊阿里巴巴集团阿里妈妈数据技术专家

2. 目录 CONTENT 01 因果科学 02 因果推断与机器学习 03 因果推断与营销科学

3. 01 因果科学

4. 辛普森悖论相关性不等于因果性 Ø 相关性不等于因果性 Ø 相关关系可以完全的被第三个变量扭曲（混淆变量、内生性），而我们往往一无所知

5. 因果之梯因果推断在统计与机器学习领域炙手可热 • 因果之梯：科学研究需要从观察，到干预，最终到反事实推理 Ø Ø Ø 首先是底层，指的是对于事物现象的一般性观察，并根据观察的现象，发现其中的关联性。中间一层则是干预，即通过对变量的改变，研究这一变量对结果的影响，包括是否改变结果的性质，以及改变的强度。最后则是反事实，即通过模拟控制其他变量，仅翻转被研究的变量，探讨可能的发展。 p 11年图灵奖获得者Judea Pearl认为：当前统计机器学习主要关注对表征的拟合，寻找的是变量之间的相关性，而非潜在的因果性。这样的认识会使科学研究停留在较浅的关联层面，导致模型的鲁棒性和可解释性丧失，阻断了进一步探究干预变量，以及反事实推断的能力 p 19年图灵奖得主Yoshua Bengio认为：深度学习已经走到了瓶颈期，将因果关系整合到AI当中已经成为目前的头等大事

6. 如何计算因果关系 PO与SCM两大派系 P ?=??=? Ø Condition一个变量，不会改变其分布，目标是判断或预测（即观察自然发生的x并推断y的可能值），监督学习领域有出色表现 P ? = ? ?? ? = ? Ø Intervene一个变量，改变其分布，引起其他变量的改变，目标是根据估计的条件控制或选择x P ? ! ? " , ?′ Ø Counterfactual, 假如希望Y变化，需要对x 做出什么样的改变两大派系 p 实验 Ø Ø 控制实验(controlled experiment)，难点是同一个体不可能同时进入实验组和对照组随机实验(randomized controlled experiment) ，A/B Test p 以Donald Rubin为代表的Potential Outcome（PO），在经济学和社会科学中有大量的应用实例以Judea Pearl为代表的Structural Causal Model(SCM) ，以DAG表示因果关系，深受计算机学者喜爱

7. PO框架 Potential Outcome理论 • 同质人群对比 Ø Ø • 将因果识别问题简化 Ø Ø Ø Ø Ø • 如何评估广告投放对转化的真实效果广告触达的转化率-未触达的转化率？广告触达的人群相比未触达的更活跃，而这波人本身更容易转化干预 Treatment T： T ! ?0,1 表示广告触达与否的二值干预潜在结果Potential outcome： Y " ? , Y # ? 混淆变量Confounder 对于单个用户，我们希望得到Individual Treatment Effect (ITE）,也就是ITE= Y " ? − Y # ? 对于整体，通常为Average Treatment Effect (ATE)， ATE=E(Y " ? − Y # ? ) 成熟的估计方法 Ø Ø Ø Ø Ø Regression Matching Weighting Stratification IV(Instrumental Variable) Potential Outcomes Group Treatment group (D = 1) Control group (D = 0) Y 1 Y 0 Observable E[Y 1 | D = 1] Counterfactual E[Y 0 | D = 1] Counterfactual E[Y 1 | D = 0] Observable E[Y 0 | D = 0] ATE（Average Treatment Effect）为： E[δ] = E[Y 1 – Y 0 ] = E[Y 1 ] – E[Y 0 ] = {πE[Y 1 | D = 1] + (1 – π) E[Y 1 | D = 0]} – {πE[Y 0 | D = 1] + (1 – π) E[Y 0 | D = 0]} = π{E[Y 1 | D = 1] – E[Y 0 | D = 1] } + (1 – π) {E[Y 1 | D = 0] – E[Y 0 | D = 0] }

8. 因果图SCM框架 Structural Causal Model理论学校的经费( X ), 平均成绩( Y ), 年度录取率( Z ) • U = ? % , ? ' , ? ( , , ? = ?, ?, ? , ? = ? % , ? ' , ? ( ? ? ? % : ? = ? % ? ( : ? = + ? ( ? ' : ? = + ? ' 16 3 因果图表示 Ø Ø Ø • chains, forks, colliders Ø Ø Ø Ø • 外生变量U: exogenous variables 内生变量V: endogenous variables 函数集合F: A variable X is a direct cause of a variable Y if X appears in the function that assigns Y's value chains：condition on Y，X和Z是独立的 forks : condition on X，Y和Z是独立的 colliders : X和Y是相互独立的；如果condition on Z，那么X和Y就是非独立了 d-separation： Z 阻断了X 到 Y 的所有路径，那么称 Z d分离 X 和 Y，记为（X ⊥ Y|Z） $ 用于确定X与Y 之间独立，需要控制哪些变量因果关系识别 Ø Ø 后门准则（backdoor criterion）前门准则（frontdoor criterion） ? ? = ?, ? = ?, ? = ? = ? ? = ? ? ? = ? ? = ? ?(? = ?|? = ?)

9. 因果图SCM框架 Structural Causal Model理论 • SCM与PO Ø Ø Ø Ø • SCM的构造 Ø Ø • 通过后门准则找到干预的变量集z，adjust for z Regression、Matching和Weighting等方法，也适用于 SCM SCM基于图表征因果关系，对于计算机非常友好，而PO框架提供了丰富的因果效应求解方法微软因果推断工具DoWhy：使用SCM表征因果关系，PO求解因果效应基于经验知识基于data自动构造，计算机领域的热门方向相关书籍 Ø Ø The Book of Why: The New Science of Cause and Effect Casual inference in Statistics, A Primer P ? = ? ?? ? = ? = ? ! ? = ? ? = ? = * ? ! ? = ? ? = ?, ? = ? ? ! ? = ? ? = ? " = * ? ! ? = ? ? = ?, ? = ? ? ! (? = ?) " adjust for z = * ? ? = ? ? = ?, ? = ? ?(? = ?) " ∑ " ? ? = ? ? = ?, ? = ? ?(? = ?|? = ?)?(? = ?) = ?(? = ?|? = ?) ?(? = ?, ? = ?, ? = ?) =* ?(? = ?|? = ?) " 倾向分，IPTW

10. 因果科学 CSD与CEI • • SCM表征因果关系，PO计算因果效应因果科学 Ø Ø 因果结构发现（Causal Structural Discovery， CSD）因果效应推断（Causal Effect Inference，CEI）

11. 02 因果推断与机器学习

12. Causal Structural Discovery Constraint-based Algorithms • 方法概述 Ø Ø Ø • 通过chains, forks, colliders三种结构条件独立的检验，最终构造SCM 优点：方法思路清晰，可解释性强缺点：算法复杂度非常高，并且对数据质量要求高，不能有 unobserved confounder，对chain和fork结构，只能得到马尔可夫等价类相关研究 Ø Ø Ø IC algorithm:《Causality: models, reasoning, and inference》[Judea_Pearl], p60 PC algorithm: Causation, Prediction, and Search, 2000 Fast Causal Inference(FCI): Spirtes et al., 2001

13. Causal Structural Discovery Score-based Algorithms and Machine Learning • 方法概述 Ø Ø Ø • 相关研究 Ø Ø Ø Ø Ø • 通过最优化给图打分的函数来找到最优的图优点：定义打分函数，优化目标明确，非常容易和机器学习模型结合缺点：算法复杂度非常高，需要搜索所有的图，NP-hard问题，容易局部最优打分函数：BDe(u) (Heckerman et al., 1995), BGe (Kuipers et al., 2014), BIC (Chickering and Heckerman, 1997), and MDL (Bouckaert, 1993) GES: Greedy Equivalence Search , 2003 CGNN: Generative Neural Networks, 2017 Continuous Optimization for Structure Learning: 2018 CAUSAL DISCOVERY WITH REINFORCEMENT LEARNING: 2020 其他方法 Ø Ø Functional Causal Models: ANM, LiNGAM, CAM Hybrid methods

14. Causal Effect Inference CEI and Machine Learning • ATE Ø Ø Ø Ø Ø • ITE Ø Ø • Average Treatment Effect，宏观overall的因果效应估计 Regression、Matching、Weighting、Stratification LR回归、Nearest Neighbor 、遗传算法等应用于matching Covariate Balancing Method对样本重新赋权，与LR、DNN 结合：IPTW、EB、ARB、CBPS IV：两阶段回归、deepIV等 Individual Treatment Effect，估计个体因果效应典型的uplift model CATE Ø Ø Conditional Average Treatment Effect，异质性群体的因果效应评估 Meta-learner、Tree-based algorithms、Deep Learning Method（CEVAE、Balancing Neural Network、TARNet、 BART）

15. Neural Causal Models NCM与因果推断的应用场景 • 因果推断应用场景 Ø Ø Ø • 典型的因果问题：uplift model，同质人群对比，A/B Test，反事实推断分类、推荐等场景，结合因果推断，结合matching、weighting消除数据偏差，或者将因果机制作为约束条件，解决长尾问题模型的可解释性：贡献分配、关键因素洞察、运营序列分析神经因果模型 Ø Ø Ø Ø 2019年提出，使用神经网络建模结构因果模型SCM 神经网络与因果科学的结合：主流MLP、 GNN、AutoEncoder等网络与CSD、CEI 的结合 NCM for Causal Inference：完成因果识别、估计任务 NCM for Machine Learning：解决机器学习问题提出的融合因果约束、因果机制

16. 03 因果推断与营销科学

17. 因果推断与营销科学因果推断在数字营销的应用 • 评测实验 Ø • • 同质人群对比用户增长 Ø Ø • Ø 贡献分配、结合matching、weighting消除数据偏差，反应渠道的真实价值建立干预、反事实模型，评估预算分配的全面影响异常分析、可解释性 Ø Ø • 典型的uplift model 留存的关键因素洞察，可解释，运营序列抓手多渠道归因、预算分配 Ø • 结合因果推断对历史数据洞察，辅助选择实验组、对照组波动、异常归因与解释优质视频关键因素挖掘，优化创意素材推荐、lookalike、CTR/CVR预估、优惠券等典型算法应用 Ø Ø 结合因果推断，消除数据偏差将因果机制作为约束条件，解决长尾问题

18. 因果推断与用户增长因果推断在用户增长的应用如何助力增长 Ø Ø Ø 提供特色的投放功能，为客户提供有价值的工具合理的引导体系，帮助客户循序渐进了解营销工具的使用了解客户的核心诉求，指导广告投放，取到满意的效果核心诉求 Ø Ø 需要解决的问题 Ø Ø Ø Ø 哪些投放功能对于留存具有非常大的价值？如何判断流失预警的客户？流失的原因是什么？如果避免这些原因，对于整体留存率有多少提升？定位原因后，如何指导客户去完成目标？确立北极星指标，即洞察对于用户留存的关键因素依据北极星指标，进行运营序列拆解模型该怎么做 Ø Ø Ø 对于新开通的客户，建立预测模型，预测30天之后的留存状态以留存果，挖掘影响留存的因，基于SCM表征因果关系，求解其因果效应干预因，计算留存的提升率

19. Neural Causal Models Learning Sparse Nonparametric DAGs ? ) ~ ? ? " = ? " (? " ) ? * = ? * (? " , ? * ) ? + = ? + (? " , ? + ) ? , = ? , (? * , ? + , ? , ) ? - = ? - (? , , ? - ) SEM方程表示：对于i.i.d特征 X = (? " , … , ? . ) 与DAG图G=(V, E)， V=X，存在函数 ? / 与g / 如果 ? 0 ∉ ??(?) 那么 ? / (? " , … , ? . ) 与 ? 1 相互独立 g / 对应non-additive errors 找到DAG G(X)，得到 ? = (? " , … , ? . ) 最优化损失 ℓ(?, ? 2 )

20. Neural Causal Models Learning Sparse Nonparametric DAGs ? / 与 ? 1 在Sobolev Spaces相互独立的条件如何满足 ?(?) ∈ ??? 如何定义 ? 如何保证 ?(?) 稀疏如何定义损失，L-BFGS-B算法

21. 因果推断与用户增长 NCM模型应用于用户增长的结论建模过程 Ø Ø Ø 将留存作为outcome，各类潜在因素作为treatment，使用NCM建立二分类模型训练NCM，导出SCM以及各条边的权重（因果效应）通过NCM完成干预/反事实任务结论 Ø Ø Ø Ø 留存预测模型的AUC达到0.84 SCM因果关系图，整体符合预期，细节需要微调，引入knowledge 与相关性分析相比，模型得到的结论更符合认知 A/B实验表明，留存率、活跃度提升明显

22. 非常感谢您的观看阿里妈妈广告技术-SDS zl165646@alibaba-inc.com