AI工程:RL
京东电商搜索:深度强化学习的探索与落地
该论文提出一个多目标深度强化学习框架,通过集成多目标Q学习、基于交叉熵方法的决策融合算法和渐进数据增强系统,优化电商平台上的流量分配。
Transforming Location Retrieval at Airbnb: A Journey from Heuristics to Reinforcement Learning
How Airbnb leverages machine learning and reinforcement learning techniques to solve a unique information retrieval task in order to…
基于强化学习的动态定价策略研究
动态定价策略并没有一个严格的定义,但是它提现了一个经济学中的核心概念就是:供需平衡。动态定价策略的一个简单定义是:在一定的市场环境中,供需双方为达到平衡点而做出的价格调整。动态定价在我们日常生活中的使用非常广泛。举一个很简单的例子,过年的时候,蔬菜普遍贵了,原因就是供应少了,所以蔬菜的价格上升,只是在互联网情况下,这种变动会更加快,更加敏捷。动态定价并不是一个新的概念,它和算法、智能、大数据相结合,能够在配送服务中实现更为智能化的管理和优化,降低配送成本并提高配送效率和用户体验。
Lyft’s Reinforcement Learning Platform
Tackling decision making problems with a platform for developing & serving Reinforcement Learning models with a focus on Contextual Bandits
强化学习在推荐系统的应用
转转作为绿色循环经济的先行者,致力于二手商品交易平台的建设,需要有充足的货品保障,才能增加平台可逛性和用户粘性。省和好同步构建进行的过程中,“多”字方针也势在必行。首页推荐是“多”字方针承接场景,接下来从系统面临的挑战及解法来介绍首推场景。
用强化学习构建个性化的二维码
AIGC 在图像生成领域如火如荼,StableDiffusion 加各种 LORA,ControlNet,大家玩得不亦乐乎。但是基于扩散模型的方式,仍然存在很多问题,比如抽卡成功率过低,生成图像的细节仍需优化。具体到二维码生成,目前 hugging face 上的几个 ControlNet 确实可以生成不错的二维码和语义融合的图像,但是往往需要大量尝试,并且加上后续的一些迭代修改,才能保证生成的图像能被正确地识别为想要地二维码。我们通过强化学习加课程学习的方式,在保证出图效果的基础上,将二维码识别率从 20%提高至 80%。
百度工程师浅析强化学习
本文主要介绍了强化学习(Reinforcement Learning,RL)的基本概念以及什么是RL。
强化学习应用:强化学习在NLP领域的应用综述
自AlphaGO击败围棋高手之后,不管在学术界还是工业界,强化学习的热度一直居高不下。而随着深度学习的发展,NLP的传统难题也得到一定的解决。如今强化学习的发展,也进一步推进了NLP各个方向的研究。
强化学习在之家图像理解中的应用
本文首先介绍了强化学习的基本概念,并着重梳理了一类模型无关的强化学习,即策略梯度算法。随后本文对其中的两种算法,进行了重点地分析和比较。最后,本文展示了基本策略梯度在之家业务中的一些应用,并讨论了该方法这些场景下的鲁棒性。
强化学习在黄页商家智能聊天助手中的探索实践
本地服务(黄页)微聊代运营模式是指人工客服代替58平台上的商家与C端用户IM沟通聊天以获取商机(如用户联系方式、细粒度需求信息等),再将商机转交给商家,促进商家成单。我们基于58AI Lab自研的灵犀智能语音语义平台构建了智能客服商家版,将其应用在微聊代运营场景下,通过人机协作模式提高商机获取效率,打造了黄页商家智能聊天助手。这里的人机协作模式先后经历了三个阶段:在早期机器人效果较一般时,机器人和人工客服分时工作,即人工客服不上班时才由机器人接待用户咨询。在经过优化机器人效果较优时,先机器人再人工,即当用户来咨询商家时,白天先由机器人接待,若机器人能够聊出商机则结束会话,若不能再转接人工客服,晚上使用纯机器人接待。在机器人效果和人工很接近甚至超过人工时,使用纯机器人接待,人工客服去从事其他更复杂的工作。2021年年初,黄页商家智能聊天助手被商业化,以“微聊管家”命名随会员套餐一起打包售卖给商家,全年共计服务了数万个商家,为公司创造收入超过五千万元。当前,机器人的商机转化率(聊出商机的会话数/总会话数)已达到了人工客服的98%水平,我们实现了纯机器人接待,节省了数十名客服人力。
黄页商家智能聊天助手属于留资机器人,与以回答用户提问为主的QA问答机器人不同,留资机器人的主要任务是引导用户留下资料信息,不仅要做自动问答,还需要做多轮引导,技术挑战更大,对话策略更为复杂。我们在部分黄页类目下实践了基于强化学习的对话策略,商机转化率绝对提升了10%,本文主要分享我们基于强化学习的对话策略实践。
微信看一看强化学习推荐模型的知识蒸馏探索之路
本文基于论文《Explore, Filter and Distill: Distilled Reinforcement Learning in Recommendation》,发表于CIKM 2021,论文作者来自微信看一看团队。
深度强化学习在滴滴路径规划中的探索实践
滴滴的路线引擎每天要处理超过400亿次的路线规划请求,路径规划是滴滴地图输出的核心服务之一。不同于传统的路径规划算法,本文主要介绍的是一次深度强化学习在路径规划业务场景下的探索,目标是为用户规划出最符合司乘双方习惯的路线,降低偏航率。
强化学习在小桔车服用户运营中的实践
小桔车服为滴滴旗下品牌,围绕车主及汽车生命周期,整合运营多项汽车服务,更加智能更加用心地为车主提供适合的一站式用车服务,致力于让每一个人拥有轻松车生活。
本次分享的主题为强化学习在小桔车服用户运营中的实践。在互联网场景下,面向用户的营销是每个业务所对的共同问题,而如何帮助小桔车服运营提升营销的 ROI 是我们算法同学的工作重点之一。在本文,我们将向大家介绍如何将车服的营销问题建模为一个强化学习过程,并且如何精细化地对每个人做出个性化的营销动作,在实际业务中又取得了怎样的效果。