基于因果推断的业务洞察与评估方法
如果无法正常显示,请先停止浏览器的去广告插件。
1. 基于因果推断的
业务洞察与评估方法
王一迪 | 技术运营中心/算法组/分析挖掘
2. 2019年毕业于北京邮电大学,入职去哪儿网市场营
销算法组,后跟随部门调整至酒店搜索与市场组,
现在技术运营中心算法组的分析挖掘方向。
3. 2019年毕业于北京邮电大学,入职去哪儿网市场营
销算法组,后跟随部门调整至酒店搜索与市场组,
现在技术运营中心算法组的分析挖掘方向。
感谢哲昊对项目的贡献!
4. 写在前面
2021年诺贝尔经济学奖分别授予劳动经济学和因果关系分析的三位经济学家。
因果关系 -- 原因对结果部分负责,而结果部分取决于原因
因果推断 -- 根据某一结果发生的原因对因果关系作出刻画的过程
例子1
- 冰激凌销量与溺水死亡率
例子2
- 价格与销量
存在因果关系的决策才真正有价值!
5. 目 录
CONTENTS
A 业务需求与问题
B 业务洞察方法
C 业务评估方法
D 总结和展望
6. 01
业务需求与问题
7. 项目背景
酒店业务线希望通过在供应商指导价基础上的价格调整,
实现大盘整体收益和间夜的双提升。
收益 = 价格 * 间夜
间
夜
价格与间夜可以看作跷跷板的两头,如右图曲线所示,
上调价格,间夜下降;下调价格,间夜上升。
收
益
价格
8. 项目背景
酒店业务线希望通过在供应商指导价基础上的价格调整,
实现大盘整体收益和间夜的双提升。
收益 = 价格 * 间夜
间
夜
价格与间夜可以看作跷跷板的两头,如右图曲线所示,
上调价格,间夜下降;下调价格,间夜上升。
为了达到双提升的目标,
只能通过“不涨价”保证“间夜不下降”,
但实验证明大盘的降价又会导致整体收益下降
收
益
价格
9. 项目背景
酒店业务线希望通过在供应商指导价基础上的价格调整,
实现大盘整体收益和间夜的双提升。
收益 = 价格 * 间夜
间
夜
价格与间夜可以看作跷跷板的两头,如右图曲线所示,
上调价格,间夜下降;下调价格,间夜上升。
为了达到双提升的目标,
只能通过“不涨价”保证“间夜不下降”,
但实验证明大盘的降价又会导致整体收益下降
一个无法实现的目标?
收
益
价格
10. 酒店场景化定价
品
质
稳
定,
适
合
提
升
价
格
这家酒店品质
好,涨点价也
合理,买! 这家酒店这么
烂还涨价,不
买了!
本来打算买,
赶上降价,正
好买! 降价了,正好
省钱,买!
价
格
敏
感,
适
合
提
升
间
夜
11. 酒店场景化定价
不同场景下,
间
夜
场景A
相同的降价,间夜增长多
更适合降价!
酒店特性和用户特性都会有所不同,
对应的价格弹性曲线也不同,如右图。
价格
间
夜
场景B
相同的降价,间夜增长少
相同的涨价,间夜损失少
更适合涨价!
∆
价格
12. 酒店场景化定价
不同场景下,
间
夜
场景A
相同的降价,间夜增长多
更适合降价!
酒店特性和用户特性都会有所不同,
对应的价格弹性曲线也不同,如右图。
针对不同的场景进行精细化定价策略,
价格
间
夜
场景B
相同的降价,间夜增长少
相同的涨价,间夜损失少
可以达到大盘整体收益和间夜的双提升,
更适合涨价!
也就是, 酒店场景化定价
相同的降价
价格
13. 酒店场景化定价 – 如何寻找场景
场景通过酒店特征或者订单特征划分得到。
两个不同的场景,
可能代表两批具有不同属性的酒店,也可能代表具有不同订单属性的同一批酒店。
不同的酒店 相同的酒店
场景1:高星酒店 场景3:周末入住
场景2:低星酒店 场景4:周中入住
对于同场景下的同一家酒店,不同用户看到的价格无差别,规避大数据杀熟风险!
14. 酒店场景化定价 – 解决方案
明确业务目标 研究问题建模 基础数据分析 策略论证
酒店收益间夜双提升 场景化定价策略 价格实验 因果推断
数据验证
评估策略效果
15. 酒店场景化定价 – 数据
探究场景
通过实验得到酒店价格曲线,结合业务认知制定场景定价策略。
圈定30%流量,设置7天随机AB实验,包括两个AA对照桶和三个实验桶。
基于实验数据,可以观测任意场景下的价格弹性。
A B C D E
无策略 无策略 加价策略1 降价策略2 降价策略3
实验桶 实验桶 实验桶
对照桶,AA对照
16. 酒店场景化定价 – 尺子
效率 =
收益增量
,效率高作收益向,效率低作间夜向
间夜增量
收
益
向
加价
间夜损失少,收益上升明显
适合用间夜换收益
间
夜
向
降价
收益损失少,间夜上升明显,
适合用收益换间夜
场景 策略 间夜增量 收益增量 效率
高星酒店 降价 +2000 -50000 25
低星酒店 降价 +3500 -35000 10
17. 酒店场景化定价
有了数据和尺子,如何挖掘场景?
传统方法
- 用人工统计的方式对收集到的数据从各种维度进行指标计算,从中挖掘业务增长点。
传统方法的痛点 :
- 维度单一,如酒店星级
- 数仓问题
- 特征维度众多,选择困难
- 多特征交叉,导致场景数量的指数爆炸,如酒店星级和城市等级
- 连续型特征的阈值设置问题,如价格、天数等
- 严重依赖业务经验,分析效率低,效果有限
18. 02
业务洞察方法
19. 酒店场景化定价
分类决策树
-
一种基本的分类回归方法
算法原理
‐ 如右图所示,不同颜色的点代表不同的分类目标。
‐ 递归地选择最优特征,并选出该特征的最佳阈值作为切分
点,将数据进行分割,理想情况下,每个叶子结点内的样
本集合只包含同一类别。
输出形式
-
分类规则。可以按照分类目标,最大化的区分样本
优势
- 无需人工进行特征选择和处理
- 非常易于理解,可视化输出,不需要算法背景
20. 酒店场景化定价
决策树可视化工具
‐
以各策略桶的订单样本为目标进行分类,推导各个场景下的订单特点
分析发现
‐ 在某一类酒店的决策树模型当中,根节点的分裂条件是特征“评分”是否小于等于阈值 4.8
‐ “评分”> 4.8 右节点各个策略的效率值都较高,都在40以上,说明此场景下酒店换取单间夜
的代价较高,不适合降价换间夜,而是适合用间夜换收益
策略输出
‐
特征“评分”大于阈值 4.8 这个场景下的酒店进行收益向的加价实验
21. 酒店场景化定价 – 因果性
经过决策树可视化工具对AB实验数据的分析,我们得到了一个收益向定价策略的
场景,并得到定价策略对应的效率值。
至此,我们仅得到的是策略与结果的相关性。
只有存在因果性的策略才是有效的策略
得到的策略 ?冰激凌销量
统计的结果 ?溺水死亡率
22. 03
业务评估方法
23. 评估结果
酒店定价策略1
收益向定价
酒店定价策略2
间夜向定价
日收益
日间夜
+7.32w -2000
日收益 日间夜
-3.4w +4000
合计:日收益增加3.92w,间夜增加2000
24. 实验设置
评估因果推断的最有效的方式就是随机AB对照实验,但可能无法避免大数据杀熟
只能圈定一批实验城市,设置非AB干预实验
- 变量增加:干预条件不同,酒店场景也不同
组别 场景条件 干预条件 可观测性
策略组 高分酒店 加价 F
对照组 非高分酒店 不加价 F
反事实对照组 高分酒店 不加价 CF
思考:如果不考虑实验设置的问题,直接用策略组减去对照组,会发生什么呢?
25. 辛普森悖论
新治疗方案
的治愈率是
否更高?
治愈率 新方案A 旧方案B
年轻人 234/270=87% 81/87=92%
老年人 55/80=69% 192/263=73%
总体 289/350=83% 273/350=78%
因果推断的目标就是消除混杂,
从非AB实验的观测数据推导提取因果效应
26. 双重差分法 DID
通过两次差分,消除策略组与对照组原生的差异,得到干预带来的净效应
27. 双重差分法 DID
高分酒店加价
高分酒店加价
非高分酒店不加价
高分酒店不加价
非高分酒店不加价
通过两次差分,消除策略组与对照组原生的差异,得到干预带来的净效应
28. 双重差分法
如何估计
反事实间夜
以间夜比变化率为基准
用对照组推算
间夜增量 = ? 1 − ? 0
? = 实验中基准间夜
? = 实验前实验组未做干预的间夜比
?? = 对照组间夜比的自然变化率
? 0 = ? × (? × (1 + ??))
实验中实验组无干预的反事实间夜比
如何估计
反事实收益
以收益率变化率为基准
用对照组推算
收益增量 = ? 1 − ? 0
????? = 实验中实验组真实单间夜支付价
?? 1 = 实验前实验组未做干预的收益率
?? = 对照组收益率的变化率
? 0 = ? 0 × (????? × (?? 1 × (1 + ??)))
实验中实验组无干预的反事实收益率
29. 双重差分法
间夜比
收益比
实验前
实验中
间夜比变化率
实验前
收益比变化率
实验中
高分酒店 O o o o o o
非高分酒店 O o o o o o
间夜
支付价
单间夜收益
收益率
前一周支付
价 前一周单间
夜收益 前一周收益
率 收益率变化
率
o
高分加价 o o o o 非高分不加价 o o o o o o o
高分不加价 ? ? ? ? o o o
实验城市内高分酒店在全量城市内高分酒店的间夜量占比
?
30. 实验结论
间夜比
收益比
实验前
实验中
间夜比变化率
实验前
收益比变化率
实验中
高分酒店 O o o o o o
非高分酒店 O o o o o o
间夜
支付价
单间夜收益
收益率
前一周支付
价 前一周单间
夜收益 前一周收益
率 收益率变化
率
o
高分加价 o o o o 非高分不加价 o o o o o o o
高分加价 CF CF CF CF o o o
整体
收益增量 Δ?
间夜增量 ΔR
日均 大盘
Δ?
7
ΔR
7 ??
= ?. ???
?×?
??
= −????
?×?
31. 实验总结
以酒店场景化定价为例,设计了一套通用的业务洞察与评估方法。
① 利用决策树可视化工具挖掘潜在业务提升点
② 基于非AB实验的观测数据利用DID进行了因果性评估
③ 达到精细化运营,实现酒店业务的收益间夜双增长。
32. 实验总结
以酒店场景化定价为例,设计了一套通用的业务洞察与评估方法。
① 利用决策树可视化工具挖掘潜在业务提升点
② 基于非AB实验的观测数据利用DID进行了因果性评估
③ 达到精细化运营效果,实现酒店业务的收益与间夜双增长。
如果只有非AB实验数据呢?
33. 非AB实验的因果效应评估
一个案例:
一个旅游网站想知道加入会员计划(T)是否会使用户更加活跃,
比如花更多的时间浏览网站和购买更多的产品(Y)
34. 非AB实验的因果效应评估
一个案例:
一个旅游网站想知道加入会员计划(T)是否会使用户更加活跃,
比如花更多的时间浏览网站和购买更多的产品(Y)
? ? ? = 1 − ?[?|? = 0] ?
35. 非AB实验的因果效应评估
一个案例:
一个旅游网站想知道加入会员计划(T)是否会使用户更加活跃,
比如花更多的时间浏览网站和购买更多的产品(Y)
? ? ? = 1 − ?[?|? = 0]
➢ 成为会员的用户可能已经比其他用户更加活跃!
36. 非AB实验的因果效应评估
一个案例:
一个旅游网站想知道加入会员计划(T)是否会使用户更加活跃,
比如花更多的时间浏览网站和购买更多的产品(Y)
? ? ? = 1 − ?[?|? = 0]
➢ 成为会员的用户可能已经比其他用户更加活跃!
➢ 无法开展AB实验,因为网站不能强迫用户成为会员
37. 因果图
用户意愿
用户习惯、
消费需求、
产品特点
X
等等
W’
T Y
是否注册会员 活跃程度
X:协变量中的非混杂变量
W:协变量中能观测到的混杂变量
W’ :协变量中观测不到的混杂变量
T:干预/策略
Y:结果变量
38. 非AB实验的因果效应评估
解决方案:
该公司在早些时间进行了一项实验来测试一种新的、更快的注册流
程的价值。
可以利用这种实验性的成员身份,作为产生成员身份可能性随机变
化的工具(Z)
Z=1
一键注册
自愿注册
Z=0
自愿注册
39. 工具变量法IV
用户意愿
用户习惯、
消费需求、
产品特点
等等
快速注册
通道
X
Z
W’
T
Y
X:协变量中的非混杂变量
W:协变量中能观测到的混杂变量
W’ :协变量中观测不到的混杂变量
T:干预/策略
Y:结果变量
Z:工具变量
是否注册会员
活跃程度
? ? ? = 1 − ?[?|? = 0]
? ? ? = 1 − ?[?|? = 0] =
? ? ? = 1 − ?[?|? = 0]
(Z) 类似一个过滤器,把策略 (T) 和混杂扰动 (W’) 相关的部分过滤掉,
排除掉内生性问题。
40. 工具变量法IV
用户意愿
用户习惯、
消费需求、
产品特点
等等
快速注册
通道
X
W’
Z
T
Y
X:协变量中的非混杂变量
W:协变量中能观测到的混杂变量
W’ :协变量中观测不到的混杂变量
T:干预/策略
Y:结果变量
Z:工具变量
是否注册会员
活跃程度
? ? ? = 1 − ?[?|? = 0]
? ? ? = 1 − ?[?|? = 0] =
? ? ? = 1 − ?[?|? = 0]
只受注册影响带来的活跃增益=
一键注册用户的活跃程度-自愿注册用户的活跃程度
一键注册用户的注册结果-自愿注册用户的注册结果
41. 航司引流实验
航司引流实验
东航江苏营业部针对南京周边城市投放了引流红包
产品,现上半年投放已结束,航司要求对效果进行
分析。
舱位1:30/60
舱位2:50/100
04
03
02
01
1 适用航班时间:2022.01-2022.06
2 适用航班:南京进出港的东航航班
3 适用人群:南京周边指定城市的旅客或者居民
4 限制非共享/指定出票方/指定舱位/限制单往返程
42. 航司引流实验
样本集合:2022.01-2022.06 南京进出港所有航班
提出问题:引流对于东航市场份额的提升效果有多大?
指标量化: “东航在所有航司航票中的占比”(Y)
引流人群 (T=1) 非引流人群 (T=0)
南京周边的旅客或居民
and
非共享航班
and
指定出票方
and
指定舱位
and
限制单程或往返程 非南京周边的旅客或居民
or
共享航班
or
非指定出票方
or
非指定舱位
or
非单程或往返程
43. 因果图
用户习惯、
消费需求、
产品特点
X
等等
W
T
是否属于
引流人群
W’
Y
是否购买
东航航票
X:协变量中的非混杂变量
W:协变量中能观测到的混杂变量
W’ :协变量中观测不到的混杂变量
T:干预/策略
Y:结果变量
? ? ? = 1 − ?[?|? = 0] ?
44. 业务洞察
? ? ? = 1 − ?[?|? = 0] = 79%
出票方与航司存在很强的对应关系,
指定出票方 ≈ 排除了非东航的航票 ≈ 东航占比高
右图可得,指定出票方的航票超过94%都是东航航票,
但是东航航票中只有43%的出票方符合引流策略
➢ 东航占比受指定出票方影响的程度,远大于引流红包
指定出票方但非东航航票
指定出票方且为东航航票
非指定出票方但为东航航票
45. 因果图
出票方限制
用户习惯、
消费需求、
产品特点
X
等等
W
T
是否属于
引流人群
Y
是否购买
东航航票
X:协变量中的非混杂变量
W:协变量中能观测到的混杂变量
W’ :协变量中观测不到的混杂变量
T:干预/策略
Y:结果变量
46. 业务洞察
样本调整:
1、引流政策条件放宽出票方限制
2、去掉样本中属于东航但不是指定出票方的航票。
得到:仅包括非东航航票及发放引流红包的东航航票
引流人群 (T=1)
南京周边的旅客或居民
and
非共享航班
and
指定舱位
and
限制单程或往返程
T=1 Y=1 发红包的东航
T=1 Y=0 满足红包条件但未乘坐东航
T=0 Y=1 不满足红包条件仍乘坐东航
T=0 Y=0 不满足红包条件未乘坐东航
非引流人群 (T=0)
非南京周边的旅客或居民
or
共享航班
or
非指定舱位
or
非单程或往返程
47. 因果图
用户习惯、
购买力、
消费需求
X
等等
W’
T
是否属于
引流人群
Y
是否购买
东航航票
X:协变量中的非混杂变量
W:协变量中能观测到的混杂变量
W’ :协变量中观测不到的混杂变量
T:干预/策略
Y:结果变量
48. 业务洞察
? ? ? = 1 − ?[?|? = 0] = 4%
2019~2021年三家头部航空公司各自航段的TOP3热门省份:
航空公司 TOP1 TOP2 TOP3
东航 云南 广东 江苏
国航 四川 北京 广东
海航 广东 海南 北京
不同的航空公司天然存在地域上主营范围的差别,
加上南京周边的乘客需要组合出行(火车/自驾+飞机),可能对红包价格更加敏感,
➢ “地域/价格敏感度”可能也会对结论产生混杂影响。
49. 因果图
地域/价格敏感度
用户习惯、
购买力、
消费需求
X
等等
W’
T
是否属于
引流人群
Y
是否购买
东航航票
X:协变量中的非混杂变量
W:协变量中能观测到的混杂变量
W’ :协变量中观测不到的混杂变量
T:干预/策略
Y:结果变量
50. 工具变量法IV
地域/价格敏感度
用户习惯、
购买力、
X
消费需求
等等
乘机人
坐标
W’
Z
T
X:协变量中的非混杂变量
W:协变量中能观测到的混杂变量
W’ :协变量中观测不到的混杂变量
T:干预/策略
Y:结果变量
Y
Z:工具变量
是否属于
引流人群
? ? ? = 1 − ?[?|? = 0] =
只受引流影响带来的占比增益=
是否购买
东航航票
?[?|?=1]−?[?|?=0]
=
?[?|?=1] −?[?|?=0]
3%
价格敏感用户的东航占比-非价格敏感用户的东航占比
价格敏感用户的引流比例-非价格敏感用户的引流比例
51. 航司引流效果评估
实验总结:
引流红包的发放,有利于提升东航航司在
南京进出港航段的市场占有率,观测提升效果
79%,实际存在因果效应的提升效果为3%。
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
当心数据陷阱,欢迎来交流~~
0
直接观测
因果效应
52. 04
总结与展望
53. 总结与展望
当前业
务现状
实验和 分析与
评估 洞察
54. 酒店场景化定价
收益间夜
双提升
实验和评 决策树/双
估 重差分法
55. 航司引流实验
非AB的引
流实验
评估引流 消除混杂
效果 影响
56. Q&A
57. 分享完毕,谢谢观看!