商业化双边市场下的实验评估方法

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 商业化双边市场下的 实验评估方法 邓德添 数据科学家
2. 目录 CONTENT 01 信息流广告中 的评估需求 03 客户实验方法 02 流量实验方法 04 总结 & 讨论
3. 01 信息流广告中的评 估需求
4. 信息流广告简介 召回 排序 竞价 混排 预算控制 成本控制 价 出 创意 告 向 广 定 标 算 目 预 化 优 请 求 曝 光 互 动 转 化
5. 信息流广告简介 ✔ ✔ ✔ ✔ ✔ ✔ ✔
6. 信息流广告的实验评估需求 • 核心 • • 收入是否增长及涨幅 难点 • 收入增长的可持续性 • 双边环境的复杂性 收入
7. 信息流广告的实验评估需求
8. 02 流量实验方法
9. 流量实验简介 ✔ ✔ ✔ ✔ ✔ ✔ 实验组 ✔ 对照组
10. 主要使用场景
11. 短期收入变化评估中的难点 短期收入变化 = 客户 + 用户因素控制不变的情况下,仅由平台因素迭代带来的实时收入变化 召回 排序 竞价 混排 预算控制 成本控制 价 出 创意 向 告 定 广 标 算 目 预 化 优 请 求 曝 光 互 动 转 在实验流量上做预算控制和成本控制的开发成本,使用成本均较高,且资源一定是稀缺的 化
12. 没有预算和调价隔离带来的偏差 ✔ ✔ 实验组 ✔ ✔ ✔ 对照组 ✔ ✔ • 实验流量分桶,但预算不隔离,通过预算挤占带来的消耗涨幅不能完全带入推全之后。 • 同一个投放单位 , 在各实验组中使用同一系统出价,导致各实验组的成本率不一致。低成 本率的组别消耗被低估,高成本率的组别会被高估。
13. 如何修正实验偏差 1. 2. 3. 4. 定义哪些投放单位在实验中存在预算挤占 核算挤占带来的消耗涨幅有多大比例可以保留到推全以后 定义成本率变化的衡量方法: MH-ConversionValue/Cost 量化成本率变化对消耗的影响系数 ( 成本弹性 ) 修正后收入变化 = (未挤占部分的收入变化 + 成本弹性×成本变化率) + (挤占部分的收入变化 + 成本弹性×成本变化率) x 挤占收入的保留比例
14. 用户体验评估的难点在于如何折现 • 用户体验指标很多很多,如何综合得到用户体验折合的长期收入影响? • Hohnhold, H., O'Brien, D., & Tang, D. (2015, August). Focusing on the Long-term: It's Good for Users and Business. In Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (pp. 1849-1858). • 短期体验指标拟合长期收入变化: Cookie-Cookie-Day (CCD) Experiment
15. CCD实验 评估长期 影响 Cookie Experiment • 在实验开始时,对Cookie ID (Visitor ID) 做随机化,决定实验分组 Post-Period Experiment • Cookie Experiment 进行一段时间后, 将Exp组的策略改回与Base组一致 • 长期(通过影响用户习惯产生的)效 果 = Post-Period AA Diff Cookie-Cookie-Day Experiment • 增加Cookie-Day实验组(Exp2): 每天 对Base和Exp1之外的Cookie ID (Visitor ID)重新进行随机化,选择同 样百分比的流量进入Exp2组。 • Diff1 = Exp1 vs. Base = 短期效果 + 长期效果 • Diff2 = Exp2 vs. Base = 短期效果 • 长期效果 = Diff1 - Diff2
16. 短期指标拟合到长期影响 Hohnhold, H., O'Brien, D., & Tang, D. (2015, August). Focusing on the Long-term: It's Good for Users and Business. In Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (pp. 1849-1858).
17. 03 客户实验方法
18. 主要使用场景
19. 客户实验≠把客户当做流量的实验 ✔ ✔ 实验组 ✔ ✔ ✔ ✔ ✔ • 不同客户会在同一个请求下竞价,产生相互挤压: SUTVA Viola9on 对照组
20. 客户侧实验方法概览 • Split-Tes*ng • Counter-Factual Simula*on + Merged Ranking • Cluster Randomiza*on + (Two-sided Diversion) + Synthe*c Difference in Differences
21. Split-Testing • 对照组指标是无偏的 • 实验组仍然存在队列挤压 • 若真实生效范围不大, 可近似认为无偏 • 更适合“明测”
22. Counter-Factual Simulation + Merged Ranking • Ha-Thuc, V., Dutta, A., Mao, R., Wood, M., & Liu, Y. (2020, July). A counterfactual framework for seller-side a/b testing on marketplaces. In Proceedings of the 43rd International ACM SIGIR Conference on Research and Development in Information Retrieval (pp. 2288-2296).
23. Cluster Randomization
24. Two-Sided Diversion
25. Synthetic Difference in Differences pre-period 0 • pre-period 1 treatment-period Arkhangelsky, D., Athey, S., Hirshberg, D. A., Imbens, G. W., & Wager, S. (2019). Synthe_c difference in differences (No. w25532). Na_onal Bureau of Economic Research.
26. 04 总结 & 讨论
27. 实验方法总结
28. 非常感谢您的观看

inicio - Wiki
Copyright © 2011-2025 iteam. Current version is 2.139.1. UTC+08:00, 2025-01-13 07:40
浙ICP备14020137号-1 $mapa de visitantes$