商业化双边市场下的实验评估方法

1. 商业化双边市场下的实验评估方法邓德添数据科学家

2. 目录 CONTENT 01 信息流广告中的评估需求 03 客户实验方法 02 流量实验方法 04 总结 & 讨论

3. 01 信息流广告中的评估需求

4. 信息流广告简介召回排序竞价混排预算控制成本控制价出创意告向广定标算目预化优请求曝光互动转化

5. 信息流广告简介 ✔ ✔ ✔ ✔ ✔ ✔ ✔

6. 信息流广告的实验评估需求 • 核心 • • 收入是否增长及涨幅难点 • 收入增长的可持续性 • 双边环境的复杂性收入

7. 信息流广告的实验评估需求

8. 02 流量实验方法

9. 流量实验简介 ✔ ✔ ✔ ✔ ✔ ✔ 实验组 ✔ 对照组

10. 主要使用场景

11. 短期收入变化评估中的难点短期收入变化 = 客户 + 用户因素控制不变的情况下，仅由平台因素迭代带来的实时收入变化召回排序竞价混排预算控制成本控制价出创意向告定广标算目预化优请求曝光互动转在实验流量上做预算控制和成本控制的开发成本，使用成本均较高，且资源一定是稀缺的化

12. 没有预算和调价隔离带来的偏差 ✔ ✔ 实验组 ✔ ✔ ✔ 对照组 ✔ ✔ • 实验流量分桶，但预算不隔离，通过预算挤占带来的消耗涨幅不能完全带入推全之后。 • 同一个投放单位，在各实验组中使用同一系统出价，导致各实验组的成本率不一致。低成本率的组别消耗被低估，高成本率的组别会被高估。

13. 如何修正实验偏差 1. 2. 3. 4. 定义哪些投放单位在实验中存在预算挤占核算挤占带来的消耗涨幅有多大比例可以保留到推全以后定义成本率变化的衡量方法： MH-ConversionValue/Cost 量化成本率变化对消耗的影响系数 ( 成本弹性 ) 修正后收入变化 = （未挤占部分的收入变化 + 成本弹性×成本变化率） + （挤占部分的收入变化 + 成本弹性×成本变化率） x 挤占收入的保留比例

14. 用户体验评估的难点在于如何折现 • 用户体验指标很多很多，如何综合得到用户体验折合的长期收入影响？ • Hohnhold, H., O'Brien, D., & Tang, D. (2015, August). Focusing on the Long-term: It's Good for Users and Business. In Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (pp. 1849-1858). • 短期体验指标拟合长期收入变化： Cookie-Cookie-Day (CCD) Experiment

15. CCD实验评估长期影响 Cookie Experiment • 在实验开始时，对Cookie ID (Visitor ID) 做随机化，决定实验分组 Post-Period Experiment • Cookie Experiment 进行一段时间后，将Exp组的策略改回与Base组一致 • 长期(通过影响用户习惯产生的)效果 = Post-Period AA Diff Cookie-Cookie-Day Experiment • 增加Cookie-Day实验组(Exp2): 每天对Base和Exp1之外的Cookie ID (Visitor ID)重新进行随机化，选择同样百分比的流量进入Exp2组。 • Diff1 = Exp1 vs. Base = 短期效果 + 长期效果 • Diff2 = Exp2 vs. Base = 短期效果 • 长期效果 = Diff1 - Diff2

16. 短期指标拟合到长期影响 Hohnhold, H., O'Brien, D., & Tang, D. (2015, August). Focusing on the Long-term: It's Good for Users and Business. In Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (pp. 1849-1858).

17. 03 客户实验方法

18. 主要使用场景

19. 客户实验≠把客户当做流量的实验 ✔ ✔ 实验组 ✔ ✔ ✔ ✔ ✔ • 不同客户会在同一个请求下竞价，产生相互挤压： SUTVA Viola9on 对照组

20. 客户侧实验方法概览 • Split-Tes*ng • Counter-Factual Simula*on + Merged Ranking • Cluster Randomiza*on + (Two-sided Diversion) + Synthe*c Diﬀerence in Diﬀerences

21. Split-Testing • 对照组指标是无偏的 • 实验组仍然存在队列挤压 • 若真实生效范围不大，可近似认为无偏 • 更适合“明测”

22. Counter-Factual Simulation + Merged Ranking • Ha-Thuc, V., Dutta, A., Mao, R., Wood, M., & Liu, Y. (2020, July). A counterfactual framework for seller-side a/b testing on marketplaces. In Proceedings of the 43rd International ACM SIGIR Conference on Research and Development in Information Retrieval (pp. 2288-2296).

23. Cluster Randomization

24. Two-Sided Diversion

25. Synthetic Difference in Differences pre-period 0 • pre-period 1 treatment-period Arkhangelsky, D., Athey, S., Hirshberg, D. A., Imbens, G. W., & Wager, S. (2019). Synthe_c diﬀerence in diﬀerences (No. w25532). Na_onal Bureau of Economic Research.

26. 04 总结 & 讨论

27. 实验方法总结

28. 非常感谢您的观看