基于因果推断的业务洞察与评估方法

1. 基于因果推断的业务洞察与评估方法王一迪 | 技术运营中心/算法组/分析挖掘

2. 2019年毕业于北京邮电大学，入职去哪儿网市场营销算法组，后跟随部门调整至酒店搜索与市场组，现在技术运营中心算法组的分析挖掘方向。

3. 2019年毕业于北京邮电大学，入职去哪儿网市场营销算法组，后跟随部门调整至酒店搜索与市场组，现在技术运营中心算法组的分析挖掘方向。感谢哲昊对项目的贡献！

4. 写在前面 2021年诺贝尔经济学奖分别授予劳动经济学和因果关系分析的三位经济学家。因果关系 -- 原因对结果部分负责，而结果部分取决于原因因果推断 -- 根据某一结果发生的原因对因果关系作出刻画的过程例子1 - 冰激凌销量与溺水死亡率例子2 - 价格与销量存在因果关系的决策才真正有价值！

5. 目录 CONTENTS A 业务需求与问题 B 业务洞察方法 C 业务评估方法 D 总结和展望

6. 01 业务需求与问题

7. 项目背景酒店业务线希望通过在供应商指导价基础上的价格调整，实现大盘整体收益和间夜的双提升。收益 = 价格 * 间夜间夜价格与间夜可以看作跷跷板的两头，如右图曲线所示，上调价格，间夜下降；下调价格，间夜上升。收益价格

8. 项目背景酒店业务线希望通过在供应商指导价基础上的价格调整，实现大盘整体收益和间夜的双提升。收益 = 价格 * 间夜间夜价格与间夜可以看作跷跷板的两头，如右图曲线所示，上调价格，间夜下降；下调价格，间夜上升。为了达到双提升的目标，只能通过“不涨价”保证“间夜不下降”，但实验证明大盘的降价又会导致整体收益下降收益价格

9. 项目背景酒店业务线希望通过在供应商指导价基础上的价格调整，实现大盘整体收益和间夜的双提升。收益 = 价格 * 间夜间夜价格与间夜可以看作跷跷板的两头，如右图曲线所示，上调价格，间夜下降；下调价格，间夜上升。为了达到双提升的目标，只能通过“不涨价”保证“间夜不下降”，但实验证明大盘的降价又会导致整体收益下降一个无法实现的目标？收益价格

10. 酒店场景化定价品质稳定，适合提升价格这家酒店品质好，涨点价也合理，买！这家酒店这么烂还涨价，不买了！本来打算买，赶上降价，正好买！降价了，正好省钱，买！价格敏感，适合提升间夜

11. 酒店场景化定价不同场景下，间夜场景A 相同的降价，间夜增长多更适合降价! 酒店特性和用户特性都会有所不同，对应的价格弹性曲线也不同，如右图。价格间夜场景B 相同的降价，间夜增长少相同的涨价，间夜损失少更适合涨价！ ∆ 价格

12. 酒店场景化定价不同场景下，间夜场景A 相同的降价，间夜增长多更适合降价! 酒店特性和用户特性都会有所不同，对应的价格弹性曲线也不同，如右图。针对不同的场景进行精细化定价策略，价格间夜场景B 相同的降价，间夜增长少相同的涨价，间夜损失少可以达到大盘整体收益和间夜的双提升，更适合涨价！也就是，酒店场景化定价相同的降价价格

13. 酒店场景化定价 – 如何寻找场景场景通过酒店特征或者订单特征划分得到。两个不同的场景，可能代表两批具有不同属性的酒店，也可能代表具有不同订单属性的同一批酒店。不同的酒店相同的酒店场景1：高星酒店场景3：周末入住场景2：低星酒店场景4：周中入住对于同场景下的同一家酒店，不同用户看到的价格无差别，规避大数据杀熟风险！

14. 酒店场景化定价 – 解决方案明确业务目标研究问题建模基础数据分析策略论证酒店收益间夜双提升场景化定价策略价格实验因果推断数据验证评估策略效果

15. 酒店场景化定价 – 数据探究场景通过实验得到酒店价格曲线，结合业务认知制定场景定价策略。圈定30%流量，设置7天随机AB实验，包括两个AA对照桶和三个实验桶。基于实验数据，可以观测任意场景下的价格弹性。 A B C D E 无策略无策略加价策略1 降价策略2 降价策略3 实验桶实验桶实验桶对照桶，AA对照

16. 酒店场景化定价 – 尺子效率 = 收益增量，效率高作收益向，效率低作间夜向间夜增量收益向加价间夜损失少，收益上升明显适合用间夜换收益间夜向降价收益损失少，间夜上升明显，适合用收益换间夜场景策略间夜增量收益增量效率高星酒店降价 +2000 -50000 25 低星酒店降价 +3500 -35000 10

17. 酒店场景化定价有了数据和尺子，如何挖掘场景？传统方法 - 用人工统计的方式对收集到的数据从各种维度进行指标计算，从中挖掘业务增长点。传统方法的痛点： - 维度单一，如酒店星级 - 数仓问题 - 特征维度众多，选择困难 - 多特征交叉，导致场景数量的指数爆炸，如酒店星级和城市等级 - 连续型特征的阈值设置问题，如价格、天数等 - 严重依赖业务经验，分析效率低，效果有限

18. 02 业务洞察方法

19. 酒店场景化定价分类决策树 - 一种基本的分类回归方法算法原理 ‐ 如右图所示，不同颜色的点代表不同的分类目标。 ‐ 递归地选择最优特征，并选出该特征的最佳阈值作为切分点，将数据进行分割，理想情况下，每个叶子结点内的样本集合只包含同一类别。输出形式 - 分类规则。可以按照分类目标，最大化的区分样本优势 - 无需人工进行特征选择和处理 - 非常易于理解，可视化输出，不需要算法背景

20. 酒店场景化定价决策树可视化工具 ‐ 以各策略桶的订单样本为目标进行分类，推导各个场景下的订单特点分析发现 ‐ 在某一类酒店的决策树模型当中，根节点的分裂条件是特征“评分”是否小于等于阈值 4.8 ‐ “评分”> 4.8 右节点各个策略的效率值都较高，都在40以上，说明此场景下酒店换取单间夜的代价较高，不适合降价换间夜，而是适合用间夜换收益策略输出 ‐ 特征“评分”大于阈值 4.8 这个场景下的酒店进行收益向的加价实验

21. 酒店场景化定价 – 因果性经过决策树可视化工具对AB实验数据的分析，我们得到了一个收益向定价策略的场景，并得到定价策略对应的效率值。至此，我们仅得到的是策略与结果的相关性。只有存在因果性的策略才是有效的策略得到的策略？冰激凌销量统计的结果？溺水死亡率

22. 03 业务评估方法

23. 评估结果酒店定价策略1 收益向定价酒店定价策略2 间夜向定价日收益日间夜 +7.32w -2000 日收益日间夜 -3.4w +4000 合计：日收益增加3.92w，间夜增加2000

24. 实验设置评估因果推断的最有效的方式就是随机AB对照实验，但可能无法避免大数据杀熟只能圈定一批实验城市，设置非AB干预实验 - 变量增加：干预条件不同，酒店场景也不同组别场景条件干预条件可观测性策略组高分酒店加价 F 对照组非高分酒店不加价 F 反事实对照组高分酒店不加价 CF 思考：如果不考虑实验设置的问题，直接用策略组减去对照组，会发生什么呢？

25. 辛普森悖论新治疗方案的治愈率是否更高？治愈率新方案A 旧方案B 年轻人 234/270=87% 81/87=92% 老年人 55/80=69% 192/263=73% 总体 289/350=83% 273/350=78% 因果推断的目标就是消除混杂，从非AB实验的观测数据推导提取因果效应

26. 双重差分法 DID 通过两次差分，消除策略组与对照组原生的差异，得到干预带来的净效应

27. 双重差分法 DID 高分酒店加价高分酒店加价非高分酒店不加价高分酒店不加价非高分酒店不加价通过两次差分，消除策略组与对照组原生的差异，得到干预带来的净效应

28. 双重差分法如何估计反事实间夜以间夜比变化率为基准用对照组推算间夜增量 = ? 1 − ? 0 ? = 实验中基准间夜 ? = 实验前实验组未做干预的间夜比 ?? = 对照组间夜比的自然变化率 ? 0 = ? × (? × (1 + ??)) 实验中实验组无干预的反事实间夜比如何估计反事实收益以收益率变化率为基准用对照组推算收益增量 = ? 1 − ? 0 ????? = 实验中实验组真实单间夜支付价 ?? 1 = 实验前实验组未做干预的收益率 ?? = 对照组收益率的变化率 ? 0 = ? 0 × (????? × (?? 1 × (1 + ??))) 实验中实验组无干预的反事实收益率

29. 双重差分法间夜比收益比实验前实验中间夜比变化率实验前收益比变化率实验中高分酒店 O o o o o o 非高分酒店 O o o o o o 间夜支付价单间夜收益收益率前一周支付价前一周单间夜收益前一周收益率收益率变化率 o 高分加价 o o o o 非高分不加价 o o o o o o o 高分不加价？？？？ o o o 实验城市内高分酒店在全量城市内高分酒店的间夜量占比 ?

30. 实验结论间夜比收益比实验前实验中间夜比变化率实验前收益比变化率实验中高分酒店 O o o o o o 非高分酒店 O o o o o o 间夜支付价单间夜收益收益率前一周支付价前一周单间夜收益前一周收益率收益率变化率 o 高分加价 o o o o 非高分不加价 o o o o o o o 高分加价 CF CF CF CF o o o 整体收益增量 Δ? 间夜增量 ΔR 日均大盘 Δ? 7 ΔR 7 ?? = ?. ??? ?×? ?? = −???? ?×?

31. 实验总结以酒店场景化定价为例，设计了一套通用的业务洞察与评估方法。 ① 利用决策树可视化工具挖掘潜在业务提升点 ② 基于非AB实验的观测数据利用DID进行了因果性评估 ③ 达到精细化运营，实现酒店业务的收益间夜双增长。

32. 实验总结以酒店场景化定价为例，设计了一套通用的业务洞察与评估方法。 ① 利用决策树可视化工具挖掘潜在业务提升点 ② 基于非AB实验的观测数据利用DID进行了因果性评估 ③ 达到精细化运营效果，实现酒店业务的收益与间夜双增长。如果只有非AB实验数据呢？

33. 非AB实验的因果效应评估一个案例：一个旅游网站想知道加入会员计划（T）是否会使用户更加活跃，比如花更多的时间浏览网站和购买更多的产品（Y）

34. 非AB实验的因果效应评估一个案例：一个旅游网站想知道加入会员计划（T）是否会使用户更加活跃，比如花更多的时间浏览网站和购买更多的产品（Y） ? ? ? = 1 − ?[?|? = 0] ？

35. 非AB实验的因果效应评估一个案例：一个旅游网站想知道加入会员计划（T）是否会使用户更加活跃，比如花更多的时间浏览网站和购买更多的产品（Y） ? ? ? = 1 − ?[?|? = 0] ➢ 成为会员的用户可能已经比其他用户更加活跃！

36. 非AB实验的因果效应评估一个案例：一个旅游网站想知道加入会员计划（T）是否会使用户更加活跃，比如花更多的时间浏览网站和购买更多的产品（Y） ? ? ? = 1 − ?[?|? = 0] ➢ 成为会员的用户可能已经比其他用户更加活跃！ ➢ 无法开展AB实验，因为网站不能强迫用户成为会员

37. 因果图用户意愿用户习惯、消费需求、产品特点 X 等等 W’ T Y 是否注册会员活跃程度 X：协变量中的非混杂变量 W：协变量中能观测到的混杂变量 W’ ：协变量中观测不到的混杂变量 T：干预/策略 Y：结果变量

38. 非AB实验的因果效应评估解决方案：该公司在早些时间进行了一项实验来测试一种新的、更快的注册流程的价值。可以利用这种实验性的成员身份，作为产生成员身份可能性随机变化的工具（Z） Z=1 一键注册自愿注册 Z=0 自愿注册

39. 工具变量法IV 用户意愿用户习惯、消费需求、产品特点等等快速注册通道 X Z W’ T Y X：协变量中的非混杂变量 W：协变量中能观测到的混杂变量 W’ ：协变量中观测不到的混杂变量 T：干预/策略 Y：结果变量 Z：工具变量是否注册会员活跃程度 ? ? ? = 1 − ?[?|? = 0] ? ? ? = 1 − ?[?|? = 0] = ? ? ? = 1 − ?[?|? = 0] (Z) 类似一个过滤器，把策略 (T) 和混杂扰动 (W’) 相关的部分过滤掉，排除掉内生性问题。

40. 工具变量法IV 用户意愿用户习惯、消费需求、产品特点等等快速注册通道 X W’ Z T Y X：协变量中的非混杂变量 W：协变量中能观测到的混杂变量 W’ ：协变量中观测不到的混杂变量 T：干预/策略 Y：结果变量 Z：工具变量是否注册会员活跃程度 ? ? ? = 1 − ?[?|? = 0] ? ? ? = 1 − ?[?|? = 0] = ? ? ? = 1 − ?[?|? = 0] 只受注册影响带来的活跃增益= 一键注册用户的活跃程度-自愿注册用户的活跃程度一键注册用户的注册结果-自愿注册用户的注册结果

41. 航司引流实验航司引流实验东航江苏营业部针对南京周边城市投放了引流红包产品，现上半年投放已结束，航司要求对效果进行分析。舱位1：30/60 舱位2：50/100 04 03 02 01 1 适用航班时间：2022.01-2022.06 2 适用航班：南京进出港的东航航班 3 适用人群：南京周边指定城市的旅客或者居民 4 限制非共享/指定出票方/指定舱位/限制单往返程

42. 航司引流实验样本集合：2022.01-2022.06 南京进出港所有航班提出问题：引流对于东航市场份额的提升效果有多大？指标量化： “东航在所有航司航票中的占比”（Y）引流人群（T=1）非引流人群（T=0）南京周边的旅客或居民 and 非共享航班 and 指定出票方 and 指定舱位 and 限制单程或往返程非南京周边的旅客或居民 or 共享航班 or 非指定出票方 or 非指定舱位 or 非单程或往返程

43. 因果图用户习惯、消费需求、产品特点 X 等等 W T 是否属于引流人群 W’ Y 是否购买东航航票 X：协变量中的非混杂变量 W：协变量中能观测到的混杂变量 W’ ：协变量中观测不到的混杂变量 T：干预/策略 Y：结果变量 ? ? ? = 1 − ?[?|? = 0] ？

44. 业务洞察 ? ? ? = 1 − ?[?|? = 0] = 79% 出票方与航司存在很强的对应关系，指定出票方 ≈ 排除了非东航的航票 ≈ 东航占比高右图可得，指定出票方的航票超过94%都是东航航票，但是东航航票中只有43%的出票方符合引流策略 ➢ 东航占比受指定出票方影响的程度，远大于引流红包指定出票方但非东航航票指定出票方且为东航航票非指定出票方但为东航航票

45. 因果图出票方限制用户习惯、消费需求、产品特点 X 等等 W T 是否属于引流人群 Y 是否购买东航航票 X：协变量中的非混杂变量 W：协变量中能观测到的混杂变量 W’ ：协变量中观测不到的混杂变量 T：干预/策略 Y：结果变量

46. 业务洞察样本调整： 1、引流政策条件放宽出票方限制 2、去掉样本中属于东航但不是指定出票方的航票。得到：仅包括非东航航票及发放引流红包的东航航票引流人群（T=1）南京周边的旅客或居民 and 非共享航班 and 指定舱位 and 限制单程或往返程 T=1 Y=1 发红包的东航 T=1 Y=0 满足红包条件但未乘坐东航 T=0 Y=1 不满足红包条件仍乘坐东航 T=0 Y=0 不满足红包条件未乘坐东航非引流人群（T=0）非南京周边的旅客或居民 or 共享航班 or 非指定舱位 or 非单程或往返程

47. 因果图用户习惯、购买力、消费需求 X 等等 W’ T 是否属于引流人群 Y 是否购买东航航票 X：协变量中的非混杂变量 W：协变量中能观测到的混杂变量 W’ ：协变量中观测不到的混杂变量 T：干预/策略 Y：结果变量

48. 业务洞察 ? ? ? = 1 − ?[?|? = 0] = 4% 2019~2021年三家头部航空公司各自航段的TOP3热门省份：航空公司 TOP1 TOP2 TOP3 东航云南广东江苏国航四川北京广东海航广东海南北京不同的航空公司天然存在地域上主营范围的差别，加上南京周边的乘客需要组合出行（火车/自驾+飞机），可能对红包价格更加敏感， ➢ “地域/价格敏感度”可能也会对结论产生混杂影响。

49. 因果图地域/价格敏感度用户习惯、购买力、消费需求 X 等等 W’ T 是否属于引流人群 Y 是否购买东航航票 X：协变量中的非混杂变量 W：协变量中能观测到的混杂变量 W’ ：协变量中观测不到的混杂变量 T：干预/策略 Y：结果变量

50. 工具变量法IV 地域/价格敏感度用户习惯、购买力、 X 消费需求等等乘机人坐标 W’ Z T X：协变量中的非混杂变量 W：协变量中能观测到的混杂变量 W’ ：协变量中观测不到的混杂变量 T：干预/策略 Y：结果变量 Y Z：工具变量是否属于引流人群 ? ? ? = 1 − ?[?|? = 0] = 只受引流影响带来的占比增益= 是否购买东航航票 ?[?|?=1]−?[?|?=0] = ?[?|?=1] −?[?|?=0] 3% 价格敏感用户的东航占比-非价格敏感用户的东航占比价格敏感用户的引流比例-非价格敏感用户的引流比例

51. 航司引流效果评估实验总结：引流红包的发放，有利于提升东航航司在南京进出港航段的市场占有率，观测提升效果 79%，实际存在因果效应的提升效果为3%。 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 当心数据陷阱，欢迎来交流~~ 0 直接观测因果效应

52. 04 总结与展望

53. 总结与展望当前业务现状实验和分析与评估洞察

54. 酒店场景化定价收益间夜双提升实验和评决策树/双估重差分法

55. 航司引流实验非AB的引流实验评估引流消除混杂效果影响

56. Q&A

57. 分享完毕，谢谢观看！