在线优化技术在快手联盟上的实践和产品化

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 在线优化技术在快手联盟上的实践和产品化 谢淼 博士, 副研究员 快手高级算法专家
2.
3. 目录 在线多臂赌博机技术简介及落地时的大坑 快手广告联盟内循环的起量建模过程 如何为深度模型插上探索的翅膀 快手Online Bandits 算法栈及其产品化
4. 灵魂拷问 面临选择的时候如何思考呢? 利用 探索 基于自己的人 跳出自己的经 生经验对当前 验认知,勇于 选择进行预 尝试新选项, 判,选择自己 对经验进行刷 “认为”的能 新与积累,力 使得自己最有 图全局最优 利的选项 如果存在一种技术,能够帮助大家来做选择,并能在人生 的长河中,使得累计收益最大化 辅佐整个过程
5. Online Multi-armed Bandit 技术 Arm1 Arm2 Arm3 Arm4 小章鱼:玩了一 段时间,并计算 了一下收益 一段时间 小章鱼的心声: 今天翘班来赌场,一下午就泡在这里了, 我有个选择障碍:在赌场里有那么多的赌 博机,哪个好?选哪个? 我应该如何玩,才能赚更多的钱? 有N个候选项 每次选K个 神:先随机玩一段时间看看吧。 期待达到一个目标 E&E是一种为了达到长期收益所采取的有效手段 这经验靠谱吗? 神:给你2个选择(Dilemma) (1)相信它---Exploitation,选第一个,求稳求稳。 (2)不相信它---Exploration,选个其他的,机会与风 险共存。
6. N个离散选项的在线E&E问题建模的通用形式 Input: 给定N个候选项(Arm),从中选择K个; 如果有多组独立的问题实例,则称为 不同的machine。 分成T轮的序列决策问题(t=1,…,T): 1.每个时间步,算法可从N中选择K个Actions。 2.环境每次会依赖算法的选项,给出一个反馈reward, 。, 每个候选项背后都是一个与reward相关的未知分布(分布形态与参数都可能未知 )。 3. 算法获得了反馈向量 ,作为下一轮选择的依据。 算法的优化目标:最小化累计后悔度regret
7. 在线赌博机技术的适用范围 冷启场景 冷用户 冷商品 冷系统 策略选择 大促场景 候选好坏与平时不符 调参 E&E问题 运营策略 产品策略 离散参数 连续参数 需要探索 思考:如果经验已经足够准,那么还需要这个技术吗?
8. 素材优选 素材优选 (Feeds,猜你喜欢,搜索) 店铺/菜品 的首图/视频/广告词等 推荐理由
9. 新品推荐 浏览只有246 新商品优选 文章冷启动 二手商品
10. 运营&产品 文案个性化: 文案是脑拍的 ,不同行业差 别大,不同时 间投放差异也 大; 选文案更是脑 拍的 智能UI: 控件,内容,版 式的组合爆炸问 题。 咋选?还是脑拍
11. Stochastic Multi-armed Bandit 的问题定义&假设 1、Arm与Reward直接相关,不同的arm, reward的分布不同 2、对于一个arm每次reward采样是iid的。 3、不同arm之间同样是独立的。
12. UCB1 \epsilon-greedy Thompson Sampling 选择经验均值最大的那个候选 随机选一个 Regret Bound: 与分布无关 与分布有关 ��log T 1 � ⋅ log 2 Δ Δ>0
13. MAB 的 E&E 为什么很重要,与机器学习中模型技术形成良好互补 数据集 (1)无数据/孤品/在线参数--存在机器学习模型无法构建的情况 (2)实时性--天级别训练模型不实时? (3)冷启动--新商品?新用户? (4)动态性--用户兴趣发生显著变化? 在线打分&排序
14. 将Bandit模型应用于业务时所面临的大坑 问题建模 依赖对实际业务问题的建 模与抽象 需要先确定什么是 Machine,什么是Arm,收 益如何计算等 算法假设 Bandit算法在提出时,一般 都有些特殊假设,需要确定 业务中实际情况满足所用算 法的假设 超参数 离线与在线长链路 Bandit算法中存在一些超参数 与累计收益相关,存在调优空 间,上线所需搭建链路较长, 一步错步步错,计算过程与现 有系统如何融合。
15. 快手广告联盟内循环起量建模过程 业 题 问 心 核 务 法 算 t i d n a B 代 迭 与 模 建
16. 快手广告联盟内循环起量核心问题 有约束的冷启问题 通过ecpm竞价,进行双侧匹配 在不影响已起量广告的基础上, 如何帮助内循环广告外投快速起量? 难点 众多APP流量池 激励视频 信息流 插屏 Draw流 开屏 全屏 众多广告场景 1. 现有联盟消耗日均已达千万量级 2. 流量位每日变化程度非常大 3. 内循环广告是新行业,缺乏靠谱的相似行业 4. 虽然有快手站内数据、模型可用,但是用户 在外部APP场景中表现的转化率与站内差异巨 大 唤端
17. 问题建模 建模1:填充率探索建模 解双侧冷启:pos优胜劣汰 对于媒体pos而言,快手小店的订单广告消耗很低 对于订单广告为例 Ecpm = bid*cvr*ctr cvr和ctr依赖预估模型打分 决定广告竞争力 模型训练 实际投放样本 对于快手小店而言,不确定哪些pos适合订单广告跑量 其他行业广告:别影响我的自然量,你最好跑增量 Bandit:我来为小店订单整体寻找高潜质媒体 模型不准 -> 预估低->出不去->没正样本->持续低 模型不准 -> 预估高->超成本->bid压价->持续低 模型的本质是对已有样本分布的抽象,是“利用”过程 那么如何帮助一个冷启场景从冷启过渡到成熟? Top1:pos3 Arm1:pos1 Arm2:pos2 依赖样本学习 machine 生效集合 machine Arm3:pos3 . . . Top2:pos5 每隔T时间 动态变化 ArmN:posN Top3:pos1 . threshold . . 淘汰集合 离线过程 思考:在联盟场景下,随着数据的增多,能期待模型非常准吗? 多样性的 订单广告 集合中的 Top1 当所有候选广 告的ecpm均低 于媒体门槛 时,直接提价 到媒体预期门 槛之上 在线过程
18. 建模2:媒体探索机制建模 解单侧冷启:为每个媒体粒度探寻合适的广告 预期效果(预期花费) 媒体粒度:App, 媒体行业,媒体场景,Pos等 显著正向波动 广告粒度:Author, Unit, Account,Product等 Machine1: APP1 Machine M: APP M Arm1:author1 Arm1:author1 … Arm2:author2 … Arm2:author2 … ArmN: authorN ArmN: authorN 逐渐衰减 按照bandit排序,作 用于实时Ecpm上, 达到广告粒度的优选 在线计算&更新 Machine K: APP K 坑:能直接用 千万量级的创 意id粒度嘛? 推全之后 Arm1:author3 Arm2:author1 … ArmN: authorN 思考:1、能直接取 代模型预估分吗? 2、如果不能替代, 如何融合到Ecpm? 正样本逐渐增多 收益上升 模型预估准确度上升 环境变化 Bandit的排序作用于ecpm 上的程度应该下降
19. 内循环起量算法迭代 Contextual Bandit 将arm换成创意维度,针对单个候 选广告,构建上下文特征: 1. 广告侧维度特征 2. 媒体侧维度特征 3. 双侧特征 4. 统计特征 进化 流量侧 X 预算侧可以构建多个侧面的Bandit实例 这些维度的重要性如何考量? Regret Bound:� ��log T
20. − greedy Based Cascading Bandit With Time Decay 能否引入E&E机制,搭出一条业务指 标正向且起量概率大增的绿通链吗? Machine1: account1 Machine M: account M Arm1:cid1 Arm1:cid1 Arm2:cid2 … 定向 召回 粗排 绿色通道 保送 精排 后处理 Why: 为了公平 起量防止挤兑 绿通机制的缺陷: 1.配置量大,会导致挤兑,谁也出不去 2.会挤占其他广告,对于大盘指标,通常是跌的 3.运营配置,政治任务,分不出好坏 Why: 为了提升 单日内累计指标 … ArmN:cidN Arm2:cid2 … ArmN:cidN Top K Top K 归并排序 cid1 cid2 … cidN 归并排序:基于∈—greedy 算法思路: 以∈ 的概率用bandit score来归并排序 否则以1-∈的概率用后验分数排序
21. 上述建模问题之间的关系,随着数据量的积累的转化关系 媒体探索策略 能够过渡吗? 填充率探索策略 ? Pos探索策略 … 媒体行业策略 维度探索策略 Model 粒度越来越粗 双侧冷启问题 Pos单侧冷启问题 媒体行业单侧冷启问题 样本数据量越来越多 该Pos:出现在pos探索的machine表 中,每日消耗为c2 且c2 > c1 t 证实了优化策略的动态演化过程 优化不是孤立的 累计提升内循环外投预期花费数十倍 存在Pos:不在pos探索的machine表 中,但是在填充率探索策略的覆盖范 围,每日消耗为c1
22. 目录 随着数据量的积累,模型能力也越来越强, 如何为深度模型插上探索的翅膀 将探索能力融合到模型能力中,同时依据模型能力,将探索做的更好?
23. Interconnected Neural-Linear UCB 研究动机: (1)打破线性假设:现有Contextual Bandit算法通常 有线性假设,导致与实际情况不符,最终质量存在 上限。 (2)支持超大特征向量:现有Contextual Bandit,由 于需要在线矩阵求逆操作,无法适用于大规模特征 下的实际问题。 Idea: 设计了一种全新的在线离线混合迭代的训练框架, 通过迭代进行离线与在线学习过程,离线负责学习非线 性映射,在线负责学习在该非线性映射下的最佳线性函 数,相互依赖地进行学习演化,逐渐逼近最优解。 Regret Analysis [1] Chen Y, Xie M, Liu J, et al. Interconnected Neural Linear Contextual Bandits with UCB Exploration[C]//Pacific-Asia Conference on Knowledge Discovery and Data Mining. Springer, Cham, 2022: 169-181.
24. 目录 快手Online Bandits 算法栈及其产品化
25. Online Multi-armed Bandit 算法栈 Bandit技术方向上包含非常多种类,解决各种环境下的E&E问题,近年来是研究和工业界的热门方向。 • 解决的问题种类越来越多,应用范围扩展地越来越广。 • 理论较强,需要证明regret,因此存在为了regret漂亮而在算法里做特定设置的,但这些特定设置的一般效 果未必最优。 Reward分布假设上 的改进 Arm假设上的改进
26. Online Multi-armed Bandit 算法栈 Policy上的改进 训练数据上的改进 目标上的改进 架构上的改进
27. Online Multi-armed Bandit 产品系统架构 远程服务模式 Library SDK模式 Offline Algorithm Library
28. Online Multi-armed Bandit 产品能力 打磨完备,多元化场景支持,使用门槛低,应用范围广 门槛打磨 算法先验 导入 算法断点 续存 算法&参数自动调优 应用环境和算法假 设自动审查 仿真模拟环境 热迁移学习 应用问题层 活动类商品/广 告推荐 新品推荐 算子层 交互类场景 大促场景 冷启动问题 UCB1 TS E-greedy LinUCB 素材个性化 LinTS Calibration TS 个性化UI 在线调参 广告词,直播 TSC Neural Linear bandit Many-armed TS GNN Bandit 在线系统调参 流量调控 内容、权益、红 包分发 SPUCB Non-Stationary Bandit
29. 门槛能力构建:自动寻优bandit算法,用bandit寻优bandit 研究动机:给定一个应用场景,如何从众多候选的Bandit算法中寻找最优算法?如何对算法中所涉及的超参 数动态寻优呢? 挑战: (1)【假设难于评估】每种算法都有其假设,假设在实际场景是 否满足及满足的程度本身就很难评估 (2)【没有一种算法可以一统天下】由于每种算法的收敛速度不 同,并且随着数据量积累,效果变化的规律也不一致,因此没有一 种算法可以一直都取得比其他算法好的结果。 因此是否存在一种算法可以自动地在多个候选算法及其超参数组合 中自动寻优?每时都保持最佳效果? idea: (1)【动态寻优】对算法和超参数自动优选的过程,刻画成级联 在线E&E优化算法,前向过程为决策过程,反向过程为学习过程。 (2)【学习效率高】反向过程中,一次决策产生的结果,可以用 于并行地对多候选超参数和算法进行学习。 [1] 效果: 所提出方法的累计后悔度几乎与单最优算法 方案持平,但能持续找到最优方案。 Miao Xie, Wotao Yin, Huan Xu, AutoBandit: A Meta Bandit Online Learning System, IJCAI 2021
30. 提炼 打磨 技术(Bandit) 趟坑 实际业务问题 应用门槛低的产品 批量赋能
31.

首页 - Wiki
Copyright © 2011-2024 iteam. Current version is 2.137.1. UTC+08:00, 2024-11-22 18:37
浙ICP备14020137号-1 $访客地图$