在线优化技术在快手联盟上的实践和产品化

如果无法正常显示，请先停止浏览器的去广告插件。

1. 在线优化技术在快手联盟上的实践和产品化谢淼博士, 副研究员快手高级算法专家

3. 目录在线多臂赌博机技术简介及落地时的大坑快手广告联盟内循环的起量建模过程如何为深度模型插上探索的翅膀快手Online Bandits 算法栈及其产品化

4. 灵魂拷问面临选择的时候如何思考呢? 利用探索基于自己的人跳出自己的经生经验对当前验认知，勇于选择进行预尝试新选项，判，选择自己对经验进行刷 “认为”的能新与积累，力使得自己最有图全局最优利的选项如果存在一种技术，能够帮助大家来做选择，并能在人生的长河中，使得累计收益最大化辅佐整个过程

5. Online Multi-armed Bandit 技术 Arm1 Arm2 Arm3 Arm4 小章鱼：玩了一段时间，并计算了一下收益一段时间小章鱼的心声：今天翘班来赌场，一下午就泡在这里了，我有个选择障碍：在赌场里有那么多的赌博机，哪个好？选哪个？我应该如何玩，才能赚更多的钱？有N个候选项每次选K个神：先随机玩一段时间看看吧。期待达到一个目标 E&E是一种为了达到长期收益所采取的有效手段这经验靠谱吗？神：给你2个选择（Dilemma）（1）相信它---Exploitation，选第一个，求稳求稳。（2）不相信它---Exploration，选个其他的，机会与风险共存。

6. N个离散选项的在线E&E问题建模的通用形式 Input: 给定N个候选项(Arm)，从中选择K个; 如果有多组独立的问题实例，则称为不同的machine。分成T轮的序列决策问题（t=1,…,T）： 1.每个时间步，算法可从N中选择K个Actions。 2.环境每次会依赖算法的选项，给出一个反馈reward, 。, 每个候选项背后都是一个与reward相关的未知分布（分布形态与参数都可能未知）。 3. 算法获得了反馈向量，作为下一轮选择的依据。算法的优化目标：最小化累计后悔度regret

7. 在线赌博机技术的适用范围冷启场景冷用户冷商品冷系统策略选择大促场景候选好坏与平时不符调参 E&E问题运营策略产品策略离散参数连续参数需要探索思考：如果经验已经足够准，那么还需要这个技术吗？

8. 素材优选素材优选（Feeds，猜你喜欢，搜索）店铺/菜品的首图/视频/广告词等推荐理由

9. 新品推荐浏览只有246 新商品优选文章冷启动二手商品

10. 运营&产品文案个性化：文案是脑拍的，不同行业差别大，不同时间投放差异也大；选文案更是脑拍的智能UI：控件，内容，版式的组合爆炸问题。咋选？还是脑拍

11. Stochastic Multi-armed Bandit 的问题定义&假设 1、Arm与Reward直接相关，不同的arm， reward的分布不同 2、对于一个arm每次reward采样是iid的。 3、不同arm之间同样是独立的。

12. UCB1 \epsilon-greedy Thompson Sampling 选择经验均值最大的那个候选随机选一个 Regret Bound：与分布无关与分布有关 ��log T 1 � ⋅ log 2 Δ Δ>0

13. MAB 的 E&E 为什么很重要，与机器学习中模型技术形成良好互补数据集（1）无数据/孤品/在线参数--存在机器学习模型无法构建的情况（2）实时性--天级别训练模型不实时？（3）冷启动--新商品？新用户？（4）动态性--用户兴趣发生显著变化？在线打分&排序

14. 将Bandit模型应用于业务时所面临的大坑问题建模依赖对实际业务问题的建模与抽象需要先确定什么是 Machine，什么是Arm，收益如何计算等算法假设 Bandit算法在提出时，一般都有些特殊假设，需要确定业务中实际情况满足所用算法的假设超参数离线与在线长链路 Bandit算法中存在一些超参数与累计收益相关，存在调优空间，上线所需搭建链路较长，一步错步步错，计算过程与现有系统如何融合。

15. 快手广告联盟内循环起量建模过程业题问心核务法算 t i d n a B 代迭与模建

16. 快手广告联盟内循环起量核心问题有约束的冷启问题通过ecpm竞价，进行双侧匹配在不影响已起量广告的基础上，如何帮助内循环广告外投快速起量？难点众多APP流量池激励视频信息流插屏 Draw流开屏全屏众多广告场景 1. 现有联盟消耗日均已达千万量级 2. 流量位每日变化程度非常大 3. 内循环广告是新行业，缺乏靠谱的相似行业 4. 虽然有快手站内数据、模型可用，但是用户在外部APP场景中表现的转化率与站内差异巨大唤端

17. 问题建模建模1：填充率探索建模解双侧冷启：pos优胜劣汰对于媒体pos而言，快手小店的订单广告消耗很低对于订单广告为例 Ecpm = bid*cvr*ctr cvr和ctr依赖预估模型打分决定广告竞争力模型训练实际投放样本对于快手小店而言，不确定哪些pos适合订单广告跑量其他行业广告：别影响我的自然量，你最好跑增量 Bandit：我来为小店订单整体寻找高潜质媒体模型不准 -> 预估低->出不去->没正样本->持续低模型不准 -> 预估高->超成本->bid压价->持续低模型的本质是对已有样本分布的抽象，是“利用”过程那么如何帮助一个冷启场景从冷启过渡到成熟？ Top1:pos3 Arm1:pos1 Arm2:pos2 依赖样本学习 machine 生效集合 machine Arm3:pos3 . . . Top2:pos5 每隔T时间动态变化 ArmN:posN Top3:pos1 . threshold . . 淘汰集合离线过程思考：在联盟场景下，随着数据的增多，能期待模型非常准吗？多样性的订单广告集合中的 Top1 当所有候选广告的ecpm均低于媒体门槛时，直接提价到媒体预期门槛之上在线过程

18. 建模2：媒体探索机制建模解单侧冷启：为每个媒体粒度探寻合适的广告预期效果（预期花费）媒体粒度：App, 媒体行业,媒体场景，Pos等显著正向波动广告粒度：Author, Unit, Account，Product等 Machine1: APP1 Machine M: APP M Arm1:author1 Arm1:author1 … Arm2:author2 … Arm2:author2 … ArmN: authorN ArmN: authorN 逐渐衰减按照bandit排序，作用于实时Ecpm上，达到广告粒度的优选在线计算&更新 Machine K: APP K 坑：能直接用千万量级的创意id粒度嘛？推全之后 Arm1:author3 Arm2:author1 … ArmN: authorN 思考：1、能直接取代模型预估分吗？ 2、如果不能替代，如何融合到Ecpm？正样本逐渐增多收益上升模型预估准确度上升环境变化 Bandit的排序作用于ecpm 上的程度应该下降

19. 内循环起量算法迭代 Contextual Bandit 将arm换成创意维度，针对单个候选广告，构建上下文特征： 1. 广告侧维度特征 2. 媒体侧维度特征 3. 双侧特征 4. 统计特征进化流量侧 X 预算侧可以构建多个侧面的Bandit实例这些维度的重要性如何考量？ Regret Bound:� ��log T

20. − greedy Based Cascading Bandit With Time Decay 能否引入E&E机制，搭出一条业务指标正向且起量概率大增的绿通链吗？ Machine1: account1 Machine M: account M Arm1:cid1 Arm1:cid1 Arm2:cid2 … 定向召回粗排绿色通道保送精排后处理 Why: 为了公平起量防止挤兑绿通机制的缺陷： 1.配置量大，会导致挤兑，谁也出不去 2.会挤占其他广告，对于大盘指标，通常是跌的 3.运营配置，政治任务，分不出好坏 Why: 为了提升单日内累计指标 … ArmN:cidN Arm2:cid2 … ArmN:cidN Top K Top K 归并排序 cid1 cid2 … cidN 归并排序：基于∈—greedy 算法思路：以∈ 的概率用bandit score来归并排序否则以1-∈的概率用后验分数排序

21. 上述建模问题之间的关系，随着数据量的积累的转化关系媒体探索策略能够过渡吗？填充率探索策略？ Pos探索策略 … 媒体行业策略维度探索策略 Model 粒度越来越粗双侧冷启问题 Pos单侧冷启问题媒体行业单侧冷启问题样本数据量越来越多该Pos：出现在pos探索的machine表中，每日消耗为c2 且c2 > c1 t 证实了优化策略的动态演化过程优化不是孤立的累计提升内循环外投预期花费数十倍存在Pos：不在pos探索的machine表中，但是在填充率探索策略的覆盖范围，每日消耗为c1

22. 目录随着数据量的积累，模型能力也越来越强，如何为深度模型插上探索的翅膀将探索能力融合到模型能力中，同时依据模型能力，将探索做的更好？

23. Interconnected Neural-Linear UCB 研究动机：（1）打破线性假设：现有Contextual Bandit算法通常有线性假设，导致与实际情况不符，最终质量存在上限。（2）支持超大特征向量：现有Contextual Bandit，由于需要在线矩阵求逆操作，无法适用于大规模特征下的实际问题。 Idea：设计了一种全新的在线离线混合迭代的训练框架，通过迭代进行离线与在线学习过程，离线负责学习非线性映射，在线负责学习在该非线性映射下的最佳线性函数，相互依赖地进行学习演化，逐渐逼近最优解。 Regret Analysis [1] Chen Y, Xie M, Liu J, et al. Interconnected Neural Linear Contextual Bandits with UCB Exploration[C]//Pacific-Asia Conference on Knowledge Discovery and Data Mining. Springer, Cham, 2022: 169-181.

24. 目录快手Online Bandits 算法栈及其产品化

25. Online Multi-armed Bandit 算法栈 Bandit技术方向上包含非常多种类，解决各种环境下的E&E问题，近年来是研究和工业界的热门方向。 • 解决的问题种类越来越多，应用范围扩展地越来越广。 • 理论较强，需要证明regret，因此存在为了regret漂亮而在算法里做特定设置的，但这些特定设置的一般效果未必最优。 Reward分布假设上的改进 Arm假设上的改进

26. Online Multi-armed Bandit 算法栈 Policy上的改进训练数据上的改进目标上的改进架构上的改进

27. Online Multi-armed Bandit 产品系统架构远程服务模式 Library SDK模式 Offline Algorithm Library

28. Online Multi-armed Bandit 产品能力打磨完备，多元化场景支持，使用门槛低，应用范围广门槛打磨算法先验导入算法断点续存算法&参数自动调优应用环境和算法假设自动审查仿真模拟环境热迁移学习应用问题层活动类商品/广告推荐新品推荐算子层交互类场景大促场景冷启动问题 UCB1 TS E-greedy LinUCB 素材个性化 LinTS Calibration TS 个性化UI 在线调参广告词，直播 TSC Neural Linear bandit Many-armed TS GNN Bandit 在线系统调参流量调控内容、权益、红包分发 SPUCB Non-Stationary Bandit

29. 门槛能力构建：自动寻优bandit算法，用bandit寻优bandit 研究动机：给定一个应用场景，如何从众多候选的Bandit算法中寻找最优算法？如何对算法中所涉及的超参数动态寻优呢？挑战：（1）【假设难于评估】每种算法都有其假设，假设在实际场景是否满足及满足的程度本身就很难评估（2）【没有一种算法可以一统天下】由于每种算法的收敛速度不同，并且随着数据量积累，效果变化的规律也不一致，因此没有一种算法可以一直都取得比其他算法好的结果。因此是否存在一种算法可以自动地在多个候选算法及其超参数组合中自动寻优？每时都保持最佳效果？ idea：（1）【动态寻优】对算法和超参数自动优选的过程，刻画成级联在线E&E优化算法，前向过程为决策过程，反向过程为学习过程。（2）【学习效率高】反向过程中，一次决策产生的结果，可以用于并行地对多候选超参数和算法进行学习。 [1] 效果：所提出方法的累计后悔度几乎与单最优算法方案持平，但能持续找到最优方案。 Miao Xie, Wotao Yin, Huan Xu, AutoBandit: A Meta Bandit Online Learning System, IJCAI 2021

30. 提炼打磨技术（Bandit）趟坑实际业务问题应用门槛低的产品批量赋能

31.