1.1 为什么做AB实验
我们希望基于数据驱动,以较小的风险来对新的feature(版本改动、运营活动等)进行评估,快速地试错并得到定量的结果反馈,最常用的便是小流量随机实验,即AB Testing。
完整的AB实验流程:
分析师/业务方设计实验
研发、产品/运营、数据分析师在AB实验平台创建实验
分析师评估及分析实验。业务方验收实验
研发在AB实验平台上线实验
1.2 AB实验的统计学原理
1.2.1 双样本假设检验
AB实验的原理是双样本假设检验,按实际的业务场景,又可以分为双样本均值检验和双样本比率检验,双样本均值适用在时长、活跃数等数值类指标,而双样本比率检验则适合在转化率指标,即对用户「是」和「否」的两类结果计算,比如留存。
假设检验是做出拒绝的理论,在实际应用上,我们应该明确这个结论(比如某个预计能提升购买转化率的策略)不置信,即当前样本量和实验条件下无法做出判断,而不是该策略无法提升购买转化率
统计原理
在数据的角度,我们面对的永远是充满概率的问题,每个假设检验都会面临随机误差,统计原理知识只是帮我们降低/消除误差,但不能100%确定结果。
简单来说,实验者在假设检验的过程中可能会做出两种错误判断,也就是我们熟悉的第一类错误(弃真)和第二类错误(取伪),可以通过下图来了解其定义
对比上图,第一类错误指原假设正确但是我们做出了拒绝原假设的的结论,这个错误在现实中常常表现为“我作出了统计显著的结论但是我的改动/策略实际上没用”;相应地,第二类错误指原假设错误但是我们接受了原假设,这个错误在现实中常常表现为“我的改动。策略有效,但实验没能检测出来”,举个具体的例子来说,把假设检验类比为去医院做身体检查,第一种错误对应了误诊,第二类错误则对应了漏诊。
第一类错误:这个实验策略没有效果,但我们认为有效果
第二类错误:这个实验策略有效果,但被我们忽略了
在统计学上,消除第一类错误误诊用的是显著性水平α,消除第二类错误漏诊用的是统计功效β。通过这两者,就能够确定满足统计指标所需要的最小集。
不论α还是β,量化误差的根基在于中心极限定理,也就是当样本量足够大的时候,我们从中多次抽样计算均值,均值会近似满足正态分布。这个分布以总体的期望真值为中心,越靠近真值出现的概率越大,反之越偏离真值出现的概率就越小。
从分析师的角度看,我们从得物社区的DAU中抽取样本计算用户的时长均值,虽然可能有部分用户的时长异常高,比如刷到喜爱的穿搭风格小姐姐刷了3小时,但是只要抽样次数足够多,那么样本均值还是会落在普通用户的合理区间内,而不是两极分化。
以某短视频App为例,新上了一个实验策略,比如取消掉了青少年保护模式,可以无限刷抖音了。我们再一次观测样本,如果实验策略没有效果,那么用户均值应该继续落在60min左右的深蓝色区域里,我们是没有信心说「取消掉青少年保护模式」产生了作用。如果样本在60min~70min,那么可能只是波动,比如遇到了节假日,它依旧属于没信心。如果发现时长在70min~2h之间,我们有更大的信心说实验策略有影响。如果发现时长超过了2h,那就是有信心,因为只有2.1%+0.1% = 2.2%的概率说明实验没有生效,在统计计算中,我们已经可以认为实验策略产生作用是置信的。
上面的案例,说的是降低第一类错误α的置信水平(这个实验策略没有效果,但我们认为有效果),上面提到的第二类错误β,也叫做统计功效power,记为1-β。表示我们的改动是有效果的,但我们却漏了。
继续以青少年保护模式为例,去掉青少年保护,我们假设认为用户的时长会上升,那么会上升多少呢?这个取决于大家对我国孩童们的自控力以及家长的控制力了,如果自控力差,那么时长会提升很多。在实验上容易观测到,但如果效果一般呢(虽然我也不相信我外甥和侄女的控制力)?假定取消青少年保护模式,时长会上升1%,但因为它效果太有限,很容易被认为是正常的波动忽略掉,于是犯了第二类错误。
上图是第二列错误β的范例,左边的正态分布代表正常用户/对照组,右边的正态分布代表观测用户/实验组。其中深灰色区域代表的是置信水平,即用户时长因为概率波动落在这个区间里的概率太低了,当观测到实验中的用户时长在这个区域内,可以有信心相信实验是有效果的。
浅灰色区域代表的是第二类错误的概率,即实验策略是有效果的,用户时长也有一定的提升,但是观测到的用户时长依旧落在了正常用户的概率区间中。通俗说,实验的效果有限,对用户时长有些微提升,但因为不够敏感,我们只能认为是正常的概率波动。
检验效力(power),被定义为1-β。它比显著性复杂的点在于要额外考虑灵敏度的参数。即「假设我的改动确实有效」这一段假设里,你的改动到底“多有效”——是提高1%,10%还是100%?
改动效果越大,越容易被检测出来。但在实验和分析中,这种效果可遇不可求。
样本量足够大,检测能力越强。但在整体实验中,流量是有限的。
从图里可以看出,第二类错误的大小取决于原假设和备择假设下两条概率密度曲线的交叠关系,即对照组的用户时长分布和实验组的用户时长分布。下面三张图能直观地展示三者对第二类错误概率的影响。不难理解:
a.检验效力随置信水平的上升而下降
b.检验效力随样本方差的下降而上升
c.检验效力随备择假设参数差异值的上升而上升
总结来说:
降低置信度,能提高统计功效,但置信度我们往往是固定的,一般不考虑。
降低样本方差,减少波动,能提高统计功效。即如果用户的时长指标的方差降低,那么轻微的时长提升我们更容易观测到。它取决于:
更大的样本意味着方差降低
观测样本本身的方差降低
提高灵敏度,能提高统计功效。即我们认为提高20%才是有效的,用更严苛的阈值来做出判断。
1. 2. 2 置信度
在统计学中,一个概率样本的置信区间(Confidence interval)是对这个样本的某个总体参数的区间估计。置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度。置信区间给出的是被测量参数的测量值的可信程度。即前面所要求的“一定概率”。这个概率就是置信水平。
1. 2. 3 灵敏度
Minimum Detectable Effect (MDE),最小可检测单位,即检验灵敏度,是在实验当前条件下能有效检测的指标diff程度。
当前条件:指当前的样本量,指标值和指标分布情况,并假设样本方差与总体指标方差足够接近。
有效检测:指检出概率>=80%(第二类错误<=20%)
【MDE可以用来做什么】
通过比较指标MDE与指标的目标提升率,来判断不显著的指标结论是否solid,可以避免实验在灵敏度不足的情况下被过早作出非显著结论而结束,错失有潜力的feature。
【MDE怎么看】
MDE是基于多天累计数据计算所得,仅「多天累计」的指标可以查看MDE,得物AB实验平台也已经在做了。
【知道了MDE,我需要做什么】
对于显著指标,无需关注MDE。因此,系统仅对「非显著」(即不置信)的指标提供MDE;
对于非显著指标,比较MDE和指标的目标提升率:
如果当前MDE尚大于目标提升,则灵敏度不足,推荐继续实验收集更多样本,避免错失有效feature。
如果当前MDE已经小于目标提升时,可以直接得出结论:该指标不显著(即不置信)。
二、怎样科学做AA分析
在进⾏⼀个经济学实证研究项⽬之前(实践中的数据分析项⽬也⼀样),我们通常关⼼以下四个问题:
• 我们关注的研究对象间的因果关系是什么?
• 我们如何设计⼀个⽤于捕捉研究对象间因果效应的理想条件下的实验?
• 我们的识别策略是怎样的?
• 我们进⾏统计推断的模式是什么?
⸺基本⽆害的计量经济学
借鉴政策评估中常用的计量经济学方法,通过了解策略的基本理念和实例来学习下如何找到AA评估相对有效的方法 。
2. 1 断点回归设计
起源:断点回归设计的⽅法由Thistlethwaite、Campbell于1960年研究奖学⾦对于未来学业的影响时⾸次提出。由于奖学⾦是由学习成绩决定的,⽽成绩刚好达到获奖标准与差⼀点达到的学⽣除了是否获奖之外本质上没有其他差异。通过观测这两组学⽣后续的学业表现,他们发现了奖学⾦对学⽣的激励作⽤。
理念:断点回归(RegressionDiscontinuityDesign)被认为是最接近于随机试验的检验⽅法。它基于如下的思想:在⾼度依赖规则⽽运⾏的世界中,有些规则的制订⼗分随意,这种随意性为我们提供了⾃然实验的良好契机。在“⼀⼑切”的策略条件下,处理变量在某⼀连续的维度上会形成⼀个断点,⽽位于断点附近两侧的样本可以认为是随机分配到处理组和对照组的。因此,我们可以利⽤靠近这⼀断点附近的样本来有效估计处理效应。断点回归带宽的选取应兼顾相似性和识别效率。
实例:情感垂类补贴与新作者补贴复盘
背景:2020年4⽉15⽇〜2020年6⽉2⽇对情感垂类万粉作者发放1〜5倍补贴;2020年5⽉14⽇〜2020年7⽉1⽇对4⽉1⽇以后注册的新作者发放3〜20倍补贴;
识别:对于情感垂类,可以假定粉丝量在6K〜9K之间的作者与粉丝量在10K〜13K之间的作者没有本质差别,只是由于⼈为设定的规则,使粉丝量在6K〜9K之间的作者被排除在补贴范围之外,由此构成了⼀个准⾃然实验。(粉丝量在9K〜10K的作者在补贴期间可能通过增加发⽂来涨粉,以达到万粉的补贴条件,因此被排除在分析外)
⽽在新作者补贴中,4⽉1⽇当天注册头条号的作者享受该补贴,⽽3⽉31⽇注册的作者则构成了⼀个相对完美的对照组。
2. 2 双重差分法(DID)
起源:双重差分思想的起源或许来⾃19世纪中期JohnSnow对当时伦敦霍乱传染问题的研究。与当时流⾏的“空⽓传播”观点不同,Snow认为霍乱是由受污染的⽔传染⽽来的。为了证明⾃⼰的观点,他⽐较了两个⽔⼚A、B周围地区霍乱死亡率的变化。在1849年,两个⽔⼚都从卫⽣条件较差的泰晤⼠区汲取供给家庭的⽤⽔,直到1952年,B⽔⼚将⽔源迁到了上游较少受到下⽔道污染的⽔域。相⽐A⽔⼚供⽔的地区,Snow观测到1952年后B⽔⼚供⽔区域霍乱死亡率的⼤幅度下降。
理念:双重差分法(DifferenceinDifference)是⼀种常⽤的⾃然实验设计⽅法,通过⽐较处理组(受策略影响)结果指标随时间的平均变化与对照组(不受策略影响)结果指标随时间的变化,计算策略对结果指标的因果效应。处理组和对照组在策略前应保持相对⼀致的时间趋势。
实例:分成接⼊PR后百粉以下作者发⽂变化
背景:分成接⼊PR进⾏质量定价,并于2021年1⽉底平滑完成后,百粉以下作者单价有明显上涨。我们好奇单价上涨会对这部分尾部作者的发⽂带来怎样的影响。
识别:接⼊PR前的策略对评级未覆盖作者*0.4的质量系数,接⼊PR后这⼀系数趋近于1.因此,这⼀策略变化实际上提升的是图⽂评级未覆盖作者的单价,只是这部分作者在尾部作者中最多。⽽图⽂评级为⼀般的百粉以下作者在pr接⼊前后单价基本持平,作为对照组。
三、总结
AB实验和AA评估都是互联网公司产品/运营活动的因果分析中最常用评估手段,本文主要介绍了AB实验的统计学原理和常用的AA评估方法原理。因为能够快速的试错并得到定量的结果反馈,AB实验被广泛的应用到基于数据驱动的互联网公司,在更好的进行AB实验的实操和分析之前,非常有必要理解清楚AB实验背后的统计学原理。
AB实验本质上是双样本假设检验,本文依次着重介绍了假设检验的第一类错误(弃真)和第二类错误(取伪)的定义,以及消除第一类错误的显著性水平α、消除第二类错误的统计功效β的统计学原理和实际应用,置信度和置信区间的定义,检验灵敏度(MDE)的概念和应用。同时,对于一些无法做AB实验(如影响用户体验等)只能通过AA方法进行评估的活动,补充介绍了断点回归设计和双重差分法两种AA评估方法的原理和具体案例。之后可以深入分析AB实验的实操和结论报告,并对更多的AA评估方法进行补充。
*文/陈龙
要是觉得文章对你有帮助的话,欢迎评论转发点赞~