编辑导语:
用数据分析来指导业务问题,非常容易出现各种问题。比如数据分析指出某个早就存在的问题,却没有办法给出一个具体的解决方法,或者业务人员尝试解决无果之后,就会觉得数据分析是不可靠的。那么,怎样才能用数据分析来诊断业务问题呢?当大量运营活动都堆在一起时,我们要如何从这些运营活动中分析需求?这就要求运营人员早做打算,进行合理安排,搭建运营策略分析体系。
每年4季度,很多企业都会密集地上线运营活动,相关的分析需求也大量增加。这就带来了新问题:当一堆运营活动重叠的时候,到底该咋分析?今天系统讲解一下。
如果只做一个活动的分析,估计很多同学都没问题。
因为我们有活动分析四步法:
第一步:定目标;
第二步:找差距;
第三步:看过程;
第四步:写建议。
搞掂!(如下图)
但是!当要分析的是一个策略组合的时候,麻烦就来了。因为一个策略组合下有多个活动,经常出现活动相互抢用户的问题。比如用户运营,同时对新用户、复购用户、沉睡用户有奖励。用户很有可能被优惠力度最大的吸引过去,导致其他的策略统统失效。
而且,策略之间也会相互重叠。比如用户运营的活动,与商品运营的活动相互重叠。如果设置成完全不可叠加,则用户又会奔着最优惠的去,其他的策略失效。如果设置可以叠加,很有可能堆叠出超级优惠,额外增加被薅羊毛的风险。
两下组合,经常出现上了一堆活动,还是问题遍地的情况:
用户留存、流失等指标不见改善;
单个活动参与率始终不高,又找不到合理解释;
不管,羊毛党横行;一管,各种指标又开始跌;
单个活动评估出的效益,加总起来,比总业绩还高。
综上,运营策略分析,核心要解决的就是:排兵布阵的问题。为了避免各个部门各自为战,需要围绕同一目标,把能投入的资源梳理清楚,再统一评估效果。
而想达成这个目标,就不能等到几十上百个活动做完以后,再试图拆解出每个活动的影响。而是要在活动立项的时候,就开始着手工作。
进行策略分析第一步,是在整体策略上,得有个清晰的目标。这是避免各自为战的先决条件。
一般运营上,会选择商品/用户作为主目标。
如果选商品做主目标,可以从四大品类布局着手(如下图)。
如果选用户做主目标,则先定整体策略,再定每一层目标(如下图)。
这一步看似简单,可对很多公司来说,非常难实现。因为很多公司,特别是大公司,讲究“政策延续性”,相当多的项目都是“因为要做,所以要做”或者“因为去年做了,所以今年继续做”,没有清晰的方向和整体规划。这种时候,自然也无法进行策略上分析。
要收集同一个时间内的以下信息:
有多少活动在进行?
每个活动归属哪个部门?
每个活动服务哪些目标?
每个活动针对哪些群体?
每个活动配置了何种奖励?
总之,目标-部门-对象-商品-奖励,五大要素要对齐,这样才构成真正意义上的,围绕一个目标的:策略组合。并且,如果策略之间会相互有重叠,优惠可以相互叠加,或者活动相互争抢用户,在这个阶段就能发现。避免被薅了羊毛以后,才当事后诸葛亮(如下图)。
这个看似简单,可在很多公司,又是不可能完成的任务。大公司有大公司病,部门之间深沟高垒,信息不通很常见。小公司经常是有机会就上,缺少人员收集信息,还是不知道别人干了啥。这种时候,又自然无法进行策略上分析。
当活动实际开始以后,每个活动的策划,都会盯紧自己的活动,输出单个活动的分析结果。因此在策略分析层面,就不需要在单个活动评估上浪费太多时间,而是紧盯整体目标。
先算清楚几个大数:
每个活动,对目标人群覆盖有多少;
按单人实际获得奖励汇总,每个活动在各目标上实际消耗多少;
在当前活动组下,是否能达成整体目标;
哪一目标达成的好,哪一目标差。
(如下图)
输出建议的时候,优先看大盘。这样才会体现出策略的感觉,而非陷在一两个具体活动力出不来。从整体上看,可以有如下布局:
总之,效益好,资源丰富,就多做投入;效益差,就专项解决。这样避免了只见树木,不见森林的问题。
而且这样做,能很好地回答领导们:“为啥单个活动都很好,大盘不涨”的问题。如果若干个活动叠加,影响的用户实际上是同一类,那就没有起到多活动相互补充效果。一个活动很容易单点见效,比如找个爆款打折,肯定销量,收入都涨了。但是覆盖不到某些弱势群体,则也不会对大局产生影响。总之,要把活动摆在一起看,才能看出效果。
除了看整体结果,围绕子目标,也能有很多有趣的发现(如下图):
试想,如果出现:
唤醒用户的专项活动,还没季度末清仓吸引的沉睡用户多;
新用户刺激首单的券,还没单品爆款吸引的新用户消费多;
VIP专属优惠没人用,都跑去买新品特卖了
则说明:这些针对用户的专项活动没有达成目标。要么是奖励力度不够,要么是根本没抓住用户需求,用一些毫无感觉的抵用券敷衍了事。发现了这些问题以后,就能对具体活动设置进行优化。
并且,如果一个用户重复的参与活动,则说明用户是明显的优惠爱好者。如果一个用户对活动不感冒,则说明可能是需求驱动/品牌驱动。这样分组做标签以后,也能推动精细化策略制定,优惠整个策略方向(如下图)。
漏斗将如何进行分析、漏斗中的流失人群是否真正流失等进行介绍。
对于主动性触发行为,漏斗分析应利用分组查看功能,通过对商品的种类、价格、是否参与活动,配合用户的相关属性如性别、年龄段、所在区域进行分组查看,找出转化率低的分组,进行产品内容上的策略改进。同时,提升漏斗转化的方法还有查看流失人群的用户路径,及时进行引流动作,提醒用户回到购物车进行购买。
对于被动性触发的行为,漏斗分析应分析被动触发事件的失败原因,检查是否有产品性的问题,其次检查被动触发事件与前项事件的触发次数,核查产品可用性问题。
而漏斗中的流失人群是否真正流失,答案是否定的。由于漏斗建立时诸多的限制条件如前项触发动作必须在后一项触发动作之前,从第一步至最后一步的时间范围必须在给定范围内等。最终漏斗呈现出的转化率其实是基于建立漏斗者本人的视角下的转化率,而非真实的行为轨迹,其名义的流失也并非真正流失。下面将对上面的结论一一进行说明。
在一个漏斗流程中,若存在多种触发行为,则不同触发机制下的漏斗转化分析思路与技巧是完全不同的。主动性的触发机制应更多地利用产品本身的一些属性进行细化分析,同时应对流失人群的用户行为进行回顾性总结,而被动型的触发机制应围绕在系统稳定性上进行分析。
使用用户 2 的行为轨迹作为分析的样本:
用户涉及的主动性触发行为主要包括“点击加入购物车”、“立即购买”、“点击立即支付”,对于点击加入购物车处的漏斗转化,我们应利用分组查看功能,通过对商品的种类、价格、是否参与活动,配合用户的相关属性如性别、年龄段、所在区域进行分组查看,找出转化率低的分组,进行产品内容上的策略改进,其他主动性触发行为同理。
运营小王在分析时发现整体的转化率很低,于是决定分析提升子流程的转化率,并对加入购物车→立即购买这一步进行分组查看。在按照商品的二级分类进行查看后,小王发现相机类别下的转化率是高于整体水平的,而运动鞋类别下的转化率则与平均水平持平,则计划对运动鞋类别下的商品采取相应的购物车提醒策略,以提升整体转化率。
除对漏斗进行商品维度、用户维度的分组查看外,提升漏斗转化的方法还有查看流失人群的用户路径,及时进行引流动作,提醒用户回到购物车进行购买。
同样是运营小王还希望进一步提升漏斗转化率,于是对加入购物车→立即购买处流失的用户群体进行用户路径分析,小王发现该用户群体加入购物车后,大多数用户都不再有任何动作(退出 App),还有其他一部分人群回到了首页,点击运营位的商品,再次浏览商品。
于是,小王增加对退出 App 的人群的运营提醒策略,如 Push、弹窗等,而点击运营位商品进行浏览的人群,增加用户进入新的商品详情页后,在广告位上提醒用户加入的购物车商品。
小结
对于主动性触发行为,漏斗分析应利用分组查看功能,通过对商品的种类、价格、是否参与活动,配合用户的相关属性如性别、年龄段、所在区域进行分组查看,找出转化率低的分组,进行产品内容上的策略改进。
同时,提升漏斗转化的方法还有查看流失人群的用户路径,及时进行召回动作,提醒用户回到产品进行购买。
对于被动性触发机制下的漏斗转化,使用用户 1 的路径进行举例分析:
被动性触发的行为,更多的看中系统的稳定性,因而对于点击获取验证码按钮→成功获取验证码这样的转化一定要求接近 100% 的转化,若该步骤出现问题,往往产品的可用性将会极低。
对于被动性行为,分析失败原因应是首要思考的。
某运营通过事件分析发现,获取验证码失败的主要原因是收集输入错误,其次是网络原因,这都是用户侧的原因,不可避免,此时应核查点击获取验证码按钮→获取验证码结果这两个事件的触发次数,若相差较大,则会出现产品可用性风险。
小结
对于被动性触发的行为,漏斗分析应分析被动触发事件的失败原因,检查是否有产品性的问题,其次检查被动触发事件与前项事件的触发次数,核查产品可用性问题。
答案是否定的,由于漏斗建立时诸多的限制条件如前项触发动作必须在后一项触发动作之前,从第一步至最后一步的时间范围必须在给定范围内等,最终漏斗呈现出的转化率其实是基于建立漏斗者本人的视角下的转化率,而非真实的行为轨迹,其名义的流失也并非真正流失,下面举例说明:
用户 3 的行为路径:浏览商品详情页→点击试看→点击立即购买→点击支付按钮→支付成功
用户 4 的行为路径:点击分享的内容→点击立即购买→点击支付按钮→支付成功→回到首页→浏览商品详情页→点击试看
若此时建立的漏斗为用户 3 路径下的漏斗,用户 4 自然而然就被流失了,但是用户 4 是通过他人分享的内容立即购买的商品,只不过后面又自主地去试看了商品,从业务意义上并不能算做流失。
在拿到数据后,不能着急立刻开始清洗数据或者模型训练,而是先了解数据(除建模分析外,其他的数据开发也要做这一步),这样才能避免后期的踩坑,否则十有八九是要复工的。
那“了解数据”这一环节,具体要了解哪些东西呢?
了解各个特征的业务含义和计算逻辑
各个特征的分布是否符合预期
特征之间的相关性如何,是否符合基本逻辑
特征和目标值的相关性如何,是否符合基本逻辑
在相关性分析这里,数值型变量之间可通过计算相关系数或者画图呈现;数值型变量和分类变量可通过箱线图呈现关系。
在初步了解数据后,需要做一些数据预处理的行为。
第一步就是对缺失值处理,一般根据样本量多少以及缺失比例,来判断是“宁缺毋滥”的删除,还是缺失值填充。
具体处理的思路可以是这样的:
统计计算样本量n,各个特征数据缺失率y,各样本数据特征缺失率x;
特征缺失率x比较高的样本一般都建议删除;因为多个特征都缺失,填补也比较困难,即使填补信息偏差也会比较大。
如果某特征缺失率y比较大,则删除此特征;如果特征缺失率低且样本量比较大的话,可删除特征缺失的样本;如果样本量少不可删除,则对缺失值做填充。
缺失值填充的方法有:
根据特征的众数、中位数或者平均值来填充;也可以对样本做分类,根据所在类的平均值众数等填充;
通过回归法来做样本填充,缺失值作为因变量,其他特征做自变量去预测;
还可通过比较复杂的方法,如多重插补法。
处理完缺失值后,需要做异常数据处理。
之前介绍过一篇异常数据处理的方法,数据分析-异常数据识别;这篇介绍了多种适应不同场景下的异常数据识别方法。
对于很多模型,如线性回归、逻辑回归、Kmeans聚类等,需要计算不同特征的系数,或者计算样本距离。
这种情况下,如果不同特征的数值量级差的特别大,会严重影响系数和距离的计算,甚至这种计算都会失去意义;所以在建模前必须要做的就是要去量纲,做标准化处理。
当然有些模型是不需要做数据标准化处理的,如决策树、随机森林、朴素贝叶斯等。
当前最常用的数据标准化处理方法有:
1)最小—最大规范化
(x-min)/(max-min),将其规范到[0,1]之间
2)z值规范化
(x-均值)/标准差,将其规范为均值为0,标准差为1;
如果这种情况,受离群点影响比较大的话,可以用中位数代替均值,用绝对标准差代替标准差。
还需要注意的是,如果样本分布非常有偏的话,可以先做box-cox变换,将其往正态分布变换后再标准化。
在做完基本的数据清洗以及特征变换后,需要做的是特征选择,一般做特征选择的原因是:
某些特征存在多重共线性,这种情况对线性回归和逻辑回归影响比较大;
特征太多,有些特征增加了模型复杂性却与模型无关,不能全部入模,需要筛选出价值更高的特征。
是什么:模型的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。
影响:
1)影响模型的稳定性,而且影响模型的解释。
举个例子,假设消费支出=0.3*收入,这样可能的模型输出的是:
消费支出+收入1.3*收入1.6*收入-消费支出
同样的数值输出,不同的公式计算,会非常模型解释和稳定性的。
2)线性回归模型,会导致最小二乘估计无法计算系数,即使可计算系数方差也很大,即1)中提到的不稳定。
怎么识别:
计算特征之间的相关系数,对于相关性特别高的特征,根据业务需要保留有代表性的特征;
方差膨胀因子(VIF)。
计算每个特征被其他特征拟合的情况,如特征j,被其他特征线性拟合的决定系数为R2;通常拟合越好,决定系数就越大且最大可达到1。
所以,当方差膨胀因子过大,说明此特征存在多重共线性。一般大于10会认为有比较强的多重共线性问题。
怎么解决:
删除共线性强的特征;
线性回归模型的话,可采用岭回归的估算方式解决。
不同的模型和应用场景下特征筛选方式不同:
对于二分类问题来说,筛选逻辑是:筛选出对二分类结果区分度比较高的特征;可以通过计算IV(information value)值的大小来筛选,一般IV值越大,此特征对二分类结果更有区分度。
对于回归预测问题,主要针对多元线性回归。筛选特征的方法有:特征子集选择法、正则化法以及降维法。
1)特征子集选择法
特征子集选择法有向前逐步选择法和向后逐步选择法:
a)向前逐步选择
具体方法就是从0个特征开始,一个一个逐步从剩余特征中添加使得模型拟合误差最小的特征,在添加过程中得到模型拟合最优的特征组合。
b)向后逐步选择
和向前逐步选择类似,只是反过来了,让所有特征入模,再一步一步剔除效果不好的特征,从而达到最优。
2)正则化压缩无意义特征的系数
比较好用的方法是lasso。
一般的线形回归我们只会希望它的误差平方和最小,但是lasso的目标函数在原有目标函数后面加了一项系数惩罚项。这样让目标函数最小,可以实现无意义特征的系数为0,从而实现特征选择。
3)PCA降维
这个是将原有有一定线性关系的特征线形组合成新的相互独立的特征,所以不适合原有特征已经相互独立的情况。
以上就是数据建模的前期准备流程,做完这些内容就可以开始模型训练,对模型结果进行预测分析啦,而这部分则是不同模型会有不同的具体处理方法。
总之,模型训练前的数据分析、数据清洗以及特征选择非常重要,甚至他们是决定建模是否成功的关键因素,所以这部分工作一定要做细做准确。
本文通过分析主动性触发行为和被动性触发行为的用户行为路径,构建出各自类型下的漏斗步骤与应附带的属性,并针对性地介绍了问题排查和业务分析思路,最终提出相应的建议,在文章的最后,还说明了漏斗流失人群并不能说是完全意义上的人群流失。只有想明白用户行为是什么类型的,漏斗应该附带的属性有哪些,各自漏斗的分析思路,以及漏斗流失人群背后的含义,漏斗分析模型才能真正帮助到大家。
综上可见:想要实现真正的运营策略分析,首先得把运营工作,从一个个孤立的、单点式活动中解放出来,站在二层楼看问题。把各种主动动作拉通,看清楚围绕一个目标的策略组合是什么,才能做到策略层面的分析。
但遗憾的是,无论大小企业,都有很多业务方面的因素,制约了策略分析体系的建立。各扫门前雪的办公室政治,干就完了奥力给的粗暴运营,都会导致信息的不通畅。
数据分析师连发生了什么都是后知后觉,数据没有做标记,活动规则之间相互重叠毫无策略可言,又能做什么分析呢?
那做数据的同学能做哪些改善呢?首先可以做的是第二步:收集信息。之后自己试着围绕一个目标,看各种活动的影响。这样即使业务方管理混乱,做数据的同学也能自己积累经验,增强分析能力。
所以强烈建议做数据的同学们把收集工作做起来,毕竟长的本事是自己的,无论走到哪里都好用,与大家共勉。