话题AI工程 › RL

AI工程:RL

关联话题: Reinforcement Learning、强化学习

Training AI Agents to Write and Self-correct SQL with Reinforcement Learning

本文展示了如何构建和训练一个自校正的SQL代理,利用Agent Lightning和LangGraph实现强化学习训练。通过状态机设计,代理能够循环检查和重写SQL查询,直至准确或达到最大尝试次数。训练采用分布式客户端-服务器架构,提升模型性能。实验表明,更长上下文和更多尝试次数能提高准确性,但需权衡效率。

RIVAL:面向机器翻译的迭代对抗强化学习

RIVAL框架通过对抗式迭代优化解决机器翻译中的分布偏移问题,将奖励模型与翻译模型建模为最小化-最大化博弈,结合双奖励机制提升训练稳定性。实验表明,RIVAL在口语字幕和WMT任务上显著优于监督微调和专用翻译模型,同时展现出跨语言泛化能力,为机器翻译提供了兼具理论与实用价值的新范式。

从反馈中学习:强化学习如何提升百晓生问答精准度

智能问答系统"百晓生"基于RAG与外挂知识库,专为上门工程师提供质检答疑,日服务超3000人,准确率超90%。其技术从简单问答升级为多轮对话、主动追问、图文混排的复杂智能体。强化学习技术如PPO、DPO、GRPO深度融入系统优化,提升答案稳定性、复杂知识理解及问答速度。通过强化微调(RFT),系统在生成质量、推理效率及稳定性上均显著提升,展现出广阔应用前景。

FCA-RL框架——基于强化学习的出行服务商动态市场环境效率保障方法

本文提出FCA-RL框架,帮助网约车服务商动态优化投资策略。该方法结合快速竞争适应机制和强化学习,实时调整预算分配,确保资金高效利用。实验表明,FCA-RL在多种竞争场景下均优于传统静态方案,显著降低预算误差并提升订单完成率。此外,开发的RideGym仿真系统为策略评估提供了安全可靠的测试环境。

三重Reward驱动的运维智能体进化:多智能体、上下文工程与强化学习的融合实践

AI原生时代下,技术风险领域的智能体系统(DeRisk)通过多智能体协同、上下文工程和强化学习三大核心技术,逐步实现从基础智能到高阶智能的演进。系统架构涵盖知识引擎、工具资产和推理引擎,支持复杂任务的智能诊断与处理。实践案例包括深度告警分析和SQL风险诊断,展示了多智能体在技术风险领域的应用潜力。未来,AI原生技术将成为解决技术风险问题的关键。

强化学习新视角:从贝尔曼方程到TD方法的深度解析

强化学习的核心在于贝尔曼方程,它揭示了价值函数的递归特性。动态规划(DP)和蒙特卡洛(MC)是两种经典求解方法,DP依赖完整环境模型,MC则通过采样直接估计。时序差分(TD)方法融合了DP和MC的优点,无需等待回合结束即可更新价值函数,具有更高的样本效率。TD衍生出SARSA和Q-learning两种控制算法,分别代表同策略和异策略学习。理解TD是掌握现代强化学习技术的关键。

ROLL:面向大规模语言模型的高效强化学习框架

ROLL框架专为大规模语言模型优化设计,通过灵活的奖励与环境系统、智能样本-奖励路由等核心特性,显著提升模型性能。其模块化设计与高效资源管理,支持从单卡到大规模GPU集群的训练,适用于人类偏好对齐、复杂推理等多场景,为用户提供了高效且易用的强化学习开发体验。

DispatchGym: Grab’s reinforcement learning research framework

DispatchGym是一个强化学习研究框架,专为调度系统设计,帮助数据科学家快速开发和测试调度算法。它集成了强化学习算法、调度模拟和Gymnasium API接口,支持高效、低成本的研究。框架强调模拟环境的可靠性和方向准确性,采用模块化设计和Python语言,便于用户灵活调整和实验。通过优化奖励函数和操作杠杆,DispatchGym助力解决调度系统中的实际问题,提升业务效率。

LangGraph Rollout: Evolving VeRL's Multi-Turn Capabilities for Agent RL

VeRL通过多轮对话和掩码重构,解决了Agent RL研究中的瓶颈,实现了LangGraph的快速集成。初始方案虽高效,但存在工具定义冗余和一致性挑战。通过自动工具封装,简化了工作流程,解决了生产与训练环境的差距。最终采用LangGraph集成,实现了训练与部署环境的完美对齐,支持复杂代理系统的演进。

Reinforcement Learning for Modeling Marketplace Balance

Uber利用强化学习优化司机与乘客的匹配算法,通过马尔可夫决策过程(MDP)框架建模,采用深度Q网络(DQN)方法学习价值函数,提升长期效率。系统通过离线训练和在线反馈循环,调整匹配策略,减少乘客等待时间并增加司机收入。该技术已在全球400多个城市部署,显著提高了市场平衡和用户体验。

Kimi-Researcher End-to-End RL Training for Emerging Agentic Capabilities

Kimi研究员展现两大亮点:面对信息冲突时,能通过假设迭代实现自我纠偏,如在《聊斋·绿衣女》中精准核验书生对话次数;回答看似简单的问题也保持严谨,通过多轮交叉验证确认委内瑞拉球星胡安·阿朗戈的德甲经历。这波操作秀出了AI的深度检索与逻辑校验能力!

一堂「强化学习」大师课

强化学习(RL)是机器学习中的一类多步决策问题,与传统的分类问题不同,RL没有标准答案,而是通过反馈机制评估决策效果。RL与大型语言模型(LLM)结合后,解决了LLM的指令遵从问题,衍生出RLHF(基于人类反馈的强化学习)技术,使模型更智能。RL的决策能力与LLM的理解能力相辅相成,共同推动人工智能的发展,尤其在Agent范式和多轮交互中展现出巨大潜力。

多智能体强化学习的算力调度创新,让每一份算力都创造广告价值

基于多智能体强化学习的全链路算力调度方案(MaRCA)通过用户价值、算力、动作价值预估及负载感知决策模块,解决流量波动大、算力资源受限下的商业价值最大化问题。MaRCA采用集中式训练与分布式执行,显著提升广告收入并降低系统风险,推动算力调度向智能化演进,为搜广推行业提供了高动态场景下的算力优化新范式。

Teaching Language Models to Solve Sudoku Through Reinforcement Learning

探索如何通过强化学习教语言模型解决数独谜题,发现模型需遵循严格规则、逻辑推理及空间关系。实验使用400万数据集,分为四个难度级别,设计多组件奖励系统评估格式、答案准确性和规则遵守。7B模型表现稳定,3B模型则出现严重不稳定性。未来计划增加难度、扩展计算资源及改进奖励函数,提升模型复杂推理能力。

使用A10单卡24G复现DeepSeek R1强化学习过程

DeepSeek模型训练过程展示了其核心强化学习算法DeepSeek-R1-Zero的应用。通过监督微调和强化学习相结合,模型逐步提升了推理能力,解决了语言混合和可读性问题。训练中使用了多种奖励函数,确保输出格式和内容的准确性。实验表明,微调后模型在格式和答案上均表现优异,验证了强化学习在模型优化中的有效性。

From Weak to Strong——OpenAI和DeepSeek基于强化学习的大模型训练微调技术解析

基于强化学习的大模型训练微调技术正推动AI推理能力的显著提升。OpenAI和DeepSeek通过模仿人类慢思考过程,结合RLHF、DPO等方法,优化模型策略与奖励设计,增强复杂问题解决能力。未来,自我训练、高级推理与安全性的结合将进一步突破技术边界,推动AI向AGI迈进。

Главная - Вики-сайт
Copyright © 2011-2025 iteam. Current version is 2.147.1. UTC+08:00, 2025-11-05 20:28
浙ICP备14020137号-1 $Гость$