因果推断在营销科学的应用

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 因果推断在营销科学 的应用 张磊 阿里巴巴集团 阿里妈妈 数据技术专家
2. 目录 CONTENT 01 因果科学 02 因果推断与机器学习 03 因果推断与营销科学
3. 01 因果科学
4. 辛普森悖论 相关性不等于因果性 Ø 相关性不等于因果性 Ø 相关关系可以完全的被第三个变量扭曲(混淆 变量、内生性),而我们往往一无所知
5. 因果之梯 因果推断在统计与机器学习领域炙手可热 • 因果之梯:科学研究需要从观察,到干预,最终到反事 实推理 Ø Ø Ø 首先是底层,指的是对于事物现象的一般性观察,并根据观 察的现象,发现其中的关联性。 中间一层则是干预,即通过对变量的改变,研究这一变量对 结果的影响,包括是否改变结果的性质,以及改变的强度。 最后则是反事实,即通过模拟控制其他变量,仅翻转被研究 的变量,探讨可能的发展。 p 11年图灵奖获得者Judea Pearl认为:当前统计机器学习主要关 注对表征的拟合,寻找的是变量之间的相关性,而非潜在的因 果性。这样的认识会使科学研究停留在较浅的关联层面,导致 模型的鲁棒性和可解释性丧失,阻断了进一步探究干预变量, 以及反事实推断的能力 p 19年图灵奖得主Yoshua Bengio认为:深度学习已经走到了瓶 颈期,将因果关系整合到AI当中已经成为目前的头等大事
6. 如何计算因果关系 PO与SCM两大派系 P ?=??=? Ø Condition一个变量,不会改变其分布,目 标是判断或预测(即观察自然发生的x并推 断y的可能值),监督学习领域有出色表现 P ? = ? ?? ? = ? Ø Intervene一个变量,改变其分布,引起其 他变量的改变,目标是根据估计的条件控制 或选择x P ? ! ? " , ?′ Ø Counterfactual, 假如希望Y变化,需要对x 做出什么样的改变 两大派系 p 实验 Ø Ø 控制实验(controlled experiment),难点是同一 个体不可能同时进入实验组和对照组 随机实验(randomized controlled experiment) ,A/B Test p 以Donald Rubin为代表的Potential Outcome(PO), 在经济学和社会科学中有大量的应用实例 以Judea Pearl为代表的Structural Causal Model(SCM) ,以DAG表示因果关系,深受计算机学者喜爱
7. PO框架 Potential Outcome理论 • 同质人群对比 Ø Ø • 将因果识别问题简化 Ø Ø Ø Ø Ø • 如何评估广告投放对转化的真实效果 广告触达的转化率-未触达的转化率?广告触达的人群相比 未触达的更活跃,而这波人本身更容易转化 干预 Treatment T: T ! ?0,1 表示广告触达与否的二值干预 潜在结果Potential outcome: Y " ? , Y # ? 混淆变量Confounder 对于单个用户,我们希望得到Individual Treatment Effect (ITE),也就是ITE= Y " ? − Y # ? 对于整体,通常为Average Treatment Effect (ATE), ATE=E(Y " ? − Y # ? ) 成熟的估计方法 Ø Ø Ø Ø Ø Regression Matching Weighting Stratification IV(Instrumental Variable) Potential Outcomes Group Treatment group (D = 1) Control group (D = 0) Y 1 Y 0 Observable E[Y 1 | D = 1] Counterfactual E[Y 0 | D = 1] Counterfactual E[Y 1 | D = 0] Observable E[Y 0 | D = 0] ATE(Average Treatment Effect)为: E[δ] = E[Y 1 – Y 0 ] = E[Y 1 ] – E[Y 0 ] = {πE[Y 1 | D = 1] + (1 – π) E[Y 1 | D = 0]} – {πE[Y 0 | D = 1] + (1 – π) E[Y 0 | D = 0]} = π{E[Y 1 | D = 1] – E[Y 0 | D = 1] } + (1 – π) {E[Y 1 | D = 0] – E[Y 0 | D = 0] }
8. 因果图SCM框架 Structural Causal Model理论 学校的经费( X ), 平均成绩( Y ), 年度录取率( Z ) • U = ? % , ? ' , ? ( , , ? = ?, ?, ? , ? = ? % , ? ' , ? ( ? ? ? % : ? = ? % ? ( : ? = + ? ( ? ' : ? = + ? ' 16 3 因果图表示 Ø Ø Ø • chains, forks, colliders Ø Ø Ø Ø • 外生变量U: exogenous variables 内生变量V: endogenous variables 函数集合F: A variable X is a direct cause of a variable Y if X appears in the function that assigns Y's value chains:condition on Y,X和Z是独立的 forks : condition on X,Y和Z是独立的 colliders : X和Y是相互独立的;如果condition on Z, 那么X和Y就是非独立了 d-separation: Z 阻断了X 到 Y 的所有路径,那么 称 Z d分离 X 和 Y,记为 (X ⊥ Y|Z) $ 用于确定X与Y 之间独立,需要控制哪些变量 因果关系识别 Ø Ø 后门准则(backdoor criterion) 前门准则(frontdoor criterion) ? ? = ?, ? = ?, ? = ? = ? ? = ? ? ? = ? ? = ? ?(? = ?|? = ?)
9. 因果图SCM框架 Structural Causal Model理论 • SCM与PO Ø Ø Ø Ø • SCM的构造 Ø Ø • 通过后门准则找到干预的变量集z,adjust for z Regression、Matching和Weighting等方法,也适用于 SCM SCM基于图表征因果关系,对于计算机非常友好,而PO框 架提供了丰富的因果效应求解方法 微软因果推断工具DoWhy:使用SCM表征因果关系,PO求 解因果效应 基于经验知识 基于data自动构造,计算机领域的热门方向 相关书籍 Ø Ø The Book of Why: The New Science of Cause and Effect Casual inference in Statistics, A Primer P ? = ? ?? ? = ? = ? ! ? = ? ? = ? = * ? ! ? = ? ? = ?, ? = ? ? ! ? = ? ? = ? " = * ? ! ? = ? ? = ?, ? = ? ? ! (? = ?) " adjust for z = * ? ? = ? ? = ?, ? = ? ?(? = ?) " ∑ " ? ? = ? ? = ?, ? = ? ?(? = ?|? = ?)?(? = ?) = ?(? = ?|? = ?) ?(? = ?, ? = ?, ? = ?) =* ?(? = ?|? = ?) " 倾向分,IPTW
10. 因果科学 CSD与CEI • • SCM表征因果关系,PO计算因果效应 因果科学 Ø Ø 因果结构发现(Causal Structural Discovery, CSD) 因果效应推断(Causal Effect Inference,CEI)
11. 02 因果推断与 机器学习
12. Causal Structural Discovery Constraint-based Algorithms • 方法概述 Ø Ø Ø • 通过chains, forks, colliders三种结构条件独立的检验,最终 构造SCM 优点:方法思路清晰,可解释性强 缺点:算法复杂度非常高,并且对数据质量要求高,不能有 unobserved confounder,对chain和fork结构,只能得到 马尔可夫等价类 相关研究 Ø Ø Ø IC algorithm:《Causality: models, reasoning, and inference》[Judea_Pearl], p60 PC algorithm: Causation, Prediction, and Search, 2000 Fast Causal Inference(FCI): Spirtes et al., 2001
13. Causal Structural Discovery Score-based Algorithms and Machine Learning • 方法概述 Ø Ø Ø • 相关研究 Ø Ø Ø Ø Ø • 通过最优化给图打分的函数来找到最优的图 优点:定义打分函数,优化目标明确,非常容易和机器学习 模型结合 缺点:算法复杂度非常高,需要搜索所有的图,NP-hard问 题,容易局部最优 打分函数:BDe(u) (Heckerman et al., 1995), BGe (Kuipers et al., 2014), BIC (Chickering and Heckerman, 1997), and MDL (Bouckaert, 1993) GES: Greedy Equivalence Search , 2003 CGNN: Generative Neural Networks, 2017 Continuous Optimization for Structure Learning: 2018 CAUSAL DISCOVERY WITH REINFORCEMENT LEARNING: 2020 其他方法 Ø Ø Functional Causal Models: ANM, LiNGAM, CAM Hybrid methods
14. Causal Effect Inference CEI and Machine Learning • ATE Ø Ø Ø Ø Ø • ITE Ø Ø • Average Treatment Effect,宏观overall的因果效应估计 Regression、Matching、Weighting、Stratification LR回归、Nearest Neighbor 、遗传算法等应用于matching Covariate Balancing Method对样本重新赋权,与LR、DNN 结合:IPTW、EB、ARB、CBPS IV:两阶段回归、deepIV等 Individual Treatment Effect,估计个体因果效应 典型的uplift model CATE Ø Ø Conditional Average Treatment Effect,异质性群体的因果 效应评估 Meta-learner、Tree-based algorithms、Deep Learning Method(CEVAE、Balancing Neural Network、TARNet、 BART)
15. Neural Causal Models NCM与因果推断的应用场景 • 因果推断应用场景 Ø Ø Ø • 典型的因果问题:uplift model,同质人群对比,A/B Test,反事实推断 分类、推荐等场景,结合因果推断,结合matching、weighting消除数据偏差,或者将因果机制作为约束条件, 解决长尾问题 模型的可解释性:贡献分配、关键因素洞察、运营序列分析 神经因果模型 Ø Ø Ø Ø 2019年提出,使用神经网络建模结构因果 模型SCM 神经网络与因果科学的结合:主流MLP、 GNN、AutoEncoder等网络与CSD、CEI 的结合 NCM for Causal Inference:完成因果识 别、估计任务 NCM for Machine Learning:解决机器 学习问题提出的融合因果约束、因果机制
16. 03 因果推断与 营销科学
17. 因果推断与营销科学 因果推断在数字营销的应用 • 评测实验 Ø • • 同质人群对比 用户增长 Ø Ø • Ø 贡献分配、结合matching、weighting消除数据偏差,反应渠道 的真实价值 建立干预、反事实模型,评估预算分配的全面影响 异常分析、可解释性 Ø Ø • 典型的uplift model 留存的关键因素洞察,可解释,运营序列抓手 多渠道归因、预算分配 Ø • 结合因果推断对历史数据洞察,辅助选择实验组、对照组 波动、异常归因与解释 优质视频关键因素挖掘,优化创意素材 推荐、lookalike、CTR/CVR预估、优惠券等典型算法应用 Ø Ø 结合因果推断,消除数据偏差 将因果机制作为约束条件,解决长尾问题
18. 因果推断与用户增长 因果推断在用户增长的应用 如何助力增长 Ø Ø Ø 提供特色的投放功能,为客户提供有价值的工具 合理的引导体系,帮助客户循序渐进了解营销工具的使用 了解客户的核心诉求,指导广告投放,取到满意的效果 核心诉求 Ø Ø 需要解决的问题 Ø Ø Ø Ø 哪些投放功能对于留存具有非常大的价值? 如何判断流失预警的客户? 流失的原因是什么?如果避免这些原因,对于整体留存率 有多少提升? 定位原因后,如何指导客户去完成目标? 确立北极星指标,即洞察对于用户留存的关键 因素 依据北极星指标,进行运营序列拆解 模型该怎么做 Ø Ø Ø 对于新开通的客户,建立预测模型,预测30天 之后的留存状态 以留存果,挖掘影响留存的因,基于SCM表征 因果关系,求解其因果效应 干预因,计算留存的提升率
19. Neural Causal Models Learning Sparse Nonparametric DAGs ? ) ~ ? ? " = ? " (? " ) ? * = ? * (? " , ? * ) ? + = ? + (? " , ? + ) ? , = ? , (? * , ? + , ? , ) ? - = ? - (? , , ? - ) SEM方程表示: 对于i.i.d特征 X = (? " , … , ? . ) 与DAG图G=(V, E), V=X,存在函数 ? / 与g / 如果 ? 0 ∉ ??(?) 那么 ? / (? " , … , ? . ) 与 ? 1 相互独立 g / 对应non-additive errors 找到DAG G(X),得到 ? = (? " , … , ? . ) 最优化损失 ℓ(?, ? 2 )
20. Neural Causal Models Learning Sparse Nonparametric DAGs ? / 与 ? 1 在Sobolev Spaces相互独立的条件 如何满足 ?(?) ∈ ??? 如何定义 ? 如何保证 ?(?) 稀疏 如何定义损失,L-BFGS-B算法
21. 因果推断与用户增长 NCM模型应用于用户增长的结论 建模过程 Ø Ø Ø 将留存作为outcome,各类潜在因素 作为treatment,使用NCM建立二分 类模型 训练NCM,导出SCM以及各条边的 权重(因果效应) 通过NCM完成干预/反事实任务 结论 Ø Ø Ø Ø 留存预测模型的AUC达到0.84 SCM因果关系图,整体符合预期,细 节需要微调,引入knowledge 与相关性分析相比,模型得到的结论 更符合认知 A/B实验表明,留存率、活跃度提升 明显
22. 非常感谢您的观看 阿里妈妈广告技术-SDS zl165646@alibaba-inc.com

首页 - Wiki
Copyright © 2011-2024 iteam. Current version is 2.137.3. UTC+08:00, 2024-11-25 07:17
浙ICP备14020137号-1 $访客地图$