商业化双边市场下的实验评估方法
如果无法正常显示,请先停止浏览器的去广告插件。
1. 商业化双边市场下的
实验评估方法
邓德添 数据科学家
2. 目录 CONTENT
01 信息流广告中
的评估需求 03 客户实验方法
02 流量实验方法 04 总结 & 讨论
3. 01
信息流广告中的评
估需求
4. 信息流广告简介
召回 排序 竞价 混排
预算控制 成本控制
价
出 创意
告
向
广
定
标
算
目
预
化
优
请
求
曝
光
互
动
转
化
5. 信息流广告简介
✔
✔
✔
✔
✔
✔
✔
6. 信息流广告的实验评估需求
•
核心
•
•
收入是否增长及涨幅
难点
• 收入增长的可持续性
• 双边环境的复杂性
收入
7. 信息流广告的实验评估需求
8. 02
流量实验方法
9. 流量实验简介
✔
✔
✔
✔
✔
✔
实验组
✔
对照组
10. 主要使用场景
11. 短期收入变化评估中的难点
短期收入变化 = 客户 + 用户因素控制不变的情况下,仅由平台因素迭代带来的实时收入变化
召回 排序 竞价 混排
预算控制 成本控制
价
出 创意
向
告
定
广
标
算
目
预
化
优
请
求
曝
光
互
动
转
在实验流量上做预算控制和成本控制的开发成本,使用成本均较高,且资源一定是稀缺的
化
12. 没有预算和调价隔离带来的偏差
✔
✔
实验组
✔
✔
✔
对照组
✔
✔
• 实验流量分桶,但预算不隔离,通过预算挤占带来的消耗涨幅不能完全带入推全之后。
• 同一个投放单位 , 在各实验组中使用同一系统出价,导致各实验组的成本率不一致。低成
本率的组别消耗被低估,高成本率的组别会被高估。
13. 如何修正实验偏差
1.
2.
3.
4.
定义哪些投放单位在实验中存在预算挤占
核算挤占带来的消耗涨幅有多大比例可以保留到推全以后
定义成本率变化的衡量方法: MH-ConversionValue/Cost
量化成本率变化对消耗的影响系数 ( 成本弹性 )
修正后收入变化 =
(未挤占部分的收入变化 + 成本弹性×成本变化率) +
(挤占部分的收入变化 + 成本弹性×成本变化率) x 挤占收入的保留比例
14. 用户体验评估的难点在于如何折现
• 用户体验指标很多很多,如何综合得到用户体验折合的长期收入影响?
• Hohnhold, H., O'Brien, D., & Tang, D. (2015, August). Focusing on the Long-term: It's Good for
Users and Business. In Proceedings of the 21th ACM SIGKDD International Conference on
Knowledge Discovery and Data Mining (pp. 1849-1858).
•
短期体验指标拟合长期收入变化: Cookie-Cookie-Day (CCD) Experiment
15. CCD实验
评估长期
影响
Cookie Experiment
• 在实验开始时,对Cookie ID (Visitor
ID) 做随机化,决定实验分组
Post-Period Experiment
• Cookie Experiment 进行一段时间后,
将Exp组的策略改回与Base组一致
• 长期(通过影响用户习惯产生的)效
果 = Post-Period AA Diff
Cookie-Cookie-Day Experiment
• 增加Cookie-Day实验组(Exp2): 每天
对Base和Exp1之外的Cookie ID
(Visitor ID)重新进行随机化,选择同
样百分比的流量进入Exp2组。
• Diff1 = Exp1 vs. Base
= 短期效果 + 长期效果
• Diff2 = Exp2 vs. Base = 短期效果
• 长期效果 = Diff1 - Diff2
16. 短期指标拟合到长期影响
Hohnhold, H., O'Brien, D., & Tang, D. (2015, August). Focusing on the Long-term: It's Good for
Users and Business. In Proceedings of the 21th ACM SIGKDD International Conference on
Knowledge Discovery and Data Mining (pp. 1849-1858).
17. 03
客户实验方法
18. 主要使用场景
19. 客户实验≠把客户当做流量的实验
✔
✔
实验组
✔
✔
✔
✔
✔
•
不同客户会在同一个请求下竞价,产生相互挤压: SUTVA Viola9on
对照组
20. 客户侧实验方法概览
• Split-Tes*ng
• Counter-Factual Simula*on + Merged Ranking
• Cluster Randomiza*on + (Two-sided Diversion) + Synthe*c
Difference in Differences
21. Split-Testing
• 对照组指标是无偏的
• 实验组仍然存在队列挤压
•
若真实生效范围不大,
可近似认为无偏
•
更适合“明测”
22. Counter-Factual Simulation + Merged Ranking
•
Ha-Thuc, V., Dutta, A., Mao, R., Wood, M., & Liu, Y. (2020, July). A counterfactual framework for
seller-side a/b testing on marketplaces. In Proceedings of the 43rd International ACM SIGIR
Conference on Research and Development in Information Retrieval (pp. 2288-2296).
23. Cluster Randomization
24. Two-Sided Diversion
25. Synthetic Difference in Differences
pre-period 0
•
pre-period 1
treatment-period
Arkhangelsky, D., Athey, S., Hirshberg, D. A., Imbens, G. W., & Wager, S. (2019). Synthe_c difference
in differences (No. w25532). Na_onal Bureau of Economic Research.
26. 04
总结 & 讨论
27. 实验方法总结
28. 非常感谢您的观看