AI工程:RL
Reinforcement Learning for Modeling Marketplace Balance
Uber利用强化学习优化司机与乘客的匹配算法,通过马尔可夫决策过程(MDP)框架建模,采用深度Q网络(DQN)方法学习价值函数,提升长期效率。系统通过离线训练和在线反馈循环,调整匹配策略,减少乘客等待时间并增加司机收入。该技术已在全球400多个城市部署,显著提高了市场平衡和用户体验。
Kimi-Researcher End-to-End RL Training for Emerging Agentic Capabilities
Kimi研究员展现两大亮点:面对信息冲突时,能通过假设迭代实现自我纠偏,如在《聊斋·绿衣女》中精准核验书生对话次数;回答看似简单的问题也保持严谨,通过多轮交叉验证确认委内瑞拉球星胡安·阿朗戈的德甲经历。这波操作秀出了AI的深度检索与逻辑校验能力!
一堂「强化学习」大师课
强化学习(RL)是机器学习中的一类多步决策问题,与传统的分类问题不同,RL没有标准答案,而是通过反馈机制评估决策效果。RL与大型语言模型(LLM)结合后,解决了LLM的指令遵从问题,衍生出RLHF(基于人类反馈的强化学习)技术,使模型更智能。RL的决策能力与LLM的理解能力相辅相成,共同推动人工智能的发展,尤其在Agent范式和多轮交互中展现出巨大潜力。
多智能体强化学习的算力调度创新,让每一份算力都创造广告价值
基于多智能体强化学习的全链路算力调度方案(MaRCA)通过用户价值、算力、动作价值预估及负载感知决策模块,解决流量波动大、算力资源受限下的商业价值最大化问题。MaRCA采用集中式训练与分布式执行,显著提升广告收入并降低系统风险,推动算力调度向智能化演进,为搜广推行业提供了高动态场景下的算力优化新范式。
Teaching Language Models to Solve Sudoku Through Reinforcement Learning
探索如何通过强化学习教语言模型解决数独谜题,发现模型需遵循严格规则、逻辑推理及空间关系。实验使用400万数据集,分为四个难度级别,设计多组件奖励系统评估格式、答案准确性和规则遵守。7B模型表现稳定,3B模型则出现严重不稳定性。未来计划增加难度、扩展计算资源及改进奖励函数,提升模型复杂推理能力。
使用A10单卡24G复现DeepSeek R1强化学习过程
DeepSeek模型训练过程展示了其核心强化学习算法DeepSeek-R1-Zero的应用。通过监督微调和强化学习相结合,模型逐步提升了推理能力,解决了语言混合和可读性问题。训练中使用了多种奖励函数,确保输出格式和内容的准确性。实验表明,微调后模型在格式和答案上均表现优异,验证了强化学习在模型优化中的有效性。
From Weak to Strong——OpenAI和DeepSeek基于强化学习的大模型训练微调技术解析
基于强化学习的大模型训练微调技术正推动AI推理能力的显著提升。OpenAI和DeepSeek通过模仿人类慢思考过程,结合RLHF、DPO等方法,优化模型策略与奖励设计,增强复杂问题解决能力。未来,自我训练、高级推理与安全性的结合将进一步突破技术边界,推动AI向AGI迈进。
京东电商搜索:深度强化学习的探索与落地
该论文提出一个多目标深度强化学习框架,通过集成多目标Q学习、基于交叉熵方法的决策融合算法和渐进数据增强系统,优化电商平台上的流量分配。
Transforming Location Retrieval at Airbnb: A Journey from Heuristics to Reinforcement Learning
How Airbnb leverages machine learning and reinforcement learning techniques to solve a unique information retrieval task in order to…
基于强化学习的动态定价策略研究
动态定价策略并没有一个严格的定义,但是它提现了一个经济学中的核心概念就是:供需平衡。动态定价策略的一个简单定义是:在一定的市场环境中,供需双方为达到平衡点而做出的价格调整。动态定价在我们日常生活中的使用非常广泛。举一个很简单的例子,过年的时候,蔬菜普遍贵了,原因就是供应少了,所以蔬菜的价格上升,只是在互联网情况下,这种变动会更加快,更加敏捷。动态定价并不是一个新的概念,它和算法、智能、大数据相结合,能够在配送服务中实现更为智能化的管理和优化,降低配送成本并提高配送效率和用户体验。
Lyft’s Reinforcement Learning Platform
Tackling decision making problems with a platform for developing & serving Reinforcement Learning models with a focus on Contextual Bandits
强化学习在推荐系统的应用
转转作为绿色循环经济的先行者,致力于二手商品交易平台的建设,需要有充足的货品保障,才能增加平台可逛性和用户粘性。省和好同步构建进行的过程中,“多”字方针也势在必行。首页推荐是“多”字方针承接场景,接下来从系统面临的挑战及解法来介绍首推场景。
用强化学习构建个性化的二维码
AIGC 在图像生成领域如火如荼,StableDiffusion 加各种 LORA,ControlNet,大家玩得不亦乐乎。但是基于扩散模型的方式,仍然存在很多问题,比如抽卡成功率过低,生成图像的细节仍需优化。具体到二维码生成,目前 hugging face 上的几个 ControlNet 确实可以生成不错的二维码和语义融合的图像,但是往往需要大量尝试,并且加上后续的一些迭代修改,才能保证生成的图像能被正确地识别为想要地二维码。我们通过强化学习加课程学习的方式,在保证出图效果的基础上,将二维码识别率从 20%提高至 80%。
百度工程师浅析强化学习
本文主要介绍了强化学习(Reinforcement Learning,RL)的基本概念以及什么是RL。
强化学习应用:强化学习在NLP领域的应用综述
自AlphaGO击败围棋高手之后,不管在学术界还是工业界,强化学习的热度一直居高不下。而随着深度学习的发展,NLP的传统难题也得到一定的解决。如今强化学习的发展,也进一步推进了NLP各个方向的研究。
强化学习在之家图像理解中的应用
本文首先介绍了强化学习的基本概念,并着重梳理了一类模型无关的强化学习,即策略梯度算法。随后本文对其中的两种算法,进行了重点地分析和比较。最后,本文展示了基本策略梯度在之家业务中的一些应用,并讨论了该方法这些场景下的鲁棒性。