AI工程:RL
多模态大模型结合强化学习的模式探讨
多模态大模型与强化学习的融合正掀起AI新浪潮!从视觉推理到复杂数学计算,通过规则奖励微调、分阶段训练等创新方法,模型在精准定位、逻辑推理等任务上表现惊艳。GRPO等策略让模型学会"思考",而自适应推理、分层评估等方向将推动技术更智能、更可靠。这场"看懂世界+做出决策"的智能革命,正在重新定义AI的边界。
大模型训练的高效内存解决方案:流水线感知的细粒度激活卸载,实现显存开销与吞吐性能的联合最优
大语言模型训练中,激活值显存开销随序列长度二次方增长,成为核心瓶颈。细粒度激活卸载方案通过模块级卸载、计算-卸载重叠、全场景兼容设计,优化内存与性能平衡。实验显示,该方案在DeepSeek-V3等模型上以1%-2%吞吐损失换取10%-35%内存收益,或保证极致内存收益同时提升7%-10%吞吐性能,为千亿级模型、长序列训练提供高效内存解决方案。
淘宝搜索算法:推理范式下生成式检索应用
大语言模型在电商领域的应用展现了显著优势,通过构建个性化生成式推理模型,深入分析用户属性、搜索词和行为序列,精准推断用户意图并生成商品推荐。优化方案从语义ID、PreSFT和SFT三阶段入手,提升模型表现。实验结果显示,成交笔数和金额均有增长,验证了生成式召回范式的潜力。未来将探索双LLM架构和RL技术,进一步提升模型能力。
百度慧播星数字人技术演进
百度慧播星作为全链路AI直播平台,通过检索增强和强化学习生成高转化脚本,利用智能中控优化直播策略,实现语音与形象克隆的“小时级”效率。平台覆盖电商、教育等多行业,日均服务2万+直播间,罗永浩数字人直播GMV突破5500万。未来,慧播星将持续迭代,提升智能化与拟真度,优化直播体验。
从CoT到AGI:深扒大模型LLM“深度思考”的技术演进
大模型通过深度思考展现复杂推理能力,其核心在于Transformer架构的自回归预测和足够大的参数规模。深度思考减少幻觉,提升模型推理准确性。CoT等技术通过外部引导释放模型潜力,RLHF则进一步对齐人类偏好。未来探索聚焦原子性思考、垂类结构和In-Context Learning新范式,推动AI向AGI迈进。
AICoding实践:从Prd到代码生成
AI编程系统CodeFuse正推动软件工程向"需求驱动型"变革,实现从自然语言需求到代码的端到端自动生成。面对复杂代码资产和业务理解难题,通过构建标准化Workflow、RAG检索和知识图谱增强上下文理解,结合分层生码与自动Review确保代码质量。目前安全域AI生成代码占比已达43%,在审理平台等场景实现单需求2万行代码生成,未来将持续强化技术风险防控与数据沉淀能力。
Training AI Agents to Write and Self-correct SQL with Reinforcement Learning
本文展示了如何构建和训练一个自校正的SQL代理,利用Agent Lightning和LangGraph实现强化学习训练。通过状态机设计,代理能够循环检查和重写SQL查询,直至准确或达到最大尝试次数。训练采用分布式客户端-服务器架构,提升模型性能。实验表明,更长上下文和更多尝试次数能提高准确性,但需权衡效率。
RIVAL:面向机器翻译的迭代对抗强化学习
RIVAL框架通过对抗式迭代优化解决机器翻译中的分布偏移问题,将奖励模型与翻译模型建模为最小化-最大化博弈,结合双奖励机制提升训练稳定性。实验表明,RIVAL在口语字幕和WMT任务上显著优于监督微调和专用翻译模型,同时展现出跨语言泛化能力,为机器翻译提供了兼具理论与实用价值的新范式。
从反馈中学习:强化学习如何提升百晓生问答精准度
智能问答系统"百晓生"基于RAG与外挂知识库,专为上门工程师提供质检答疑,日服务超3000人,准确率超90%。其技术从简单问答升级为多轮对话、主动追问、图文混排的复杂智能体。强化学习技术如PPO、DPO、GRPO深度融入系统优化,提升答案稳定性、复杂知识理解及问答速度。通过强化微调(RFT),系统在生成质量、推理效率及稳定性上均显著提升,展现出广阔应用前景。
FCA-RL框架——基于强化学习的出行服务商动态市场环境效率保障方法
本文提出FCA-RL框架,帮助网约车服务商动态优化投资策略。该方法结合快速竞争适应机制和强化学习,实时调整预算分配,确保资金高效利用。实验表明,FCA-RL在多种竞争场景下均优于传统静态方案,显著降低预算误差并提升订单完成率。此外,开发的RideGym仿真系统为策略评估提供了安全可靠的测试环境。
三重Reward驱动的运维智能体进化:多智能体、上下文工程与强化学习的融合实践
AI原生时代下,技术风险领域的智能体系统(DeRisk)通过多智能体协同、上下文工程和强化学习三大核心技术,逐步实现从基础智能到高阶智能的演进。系统架构涵盖知识引擎、工具资产和推理引擎,支持复杂任务的智能诊断与处理。实践案例包括深度告警分析和SQL风险诊断,展示了多智能体在技术风险领域的应用潜力。未来,AI原生技术将成为解决技术风险问题的关键。
强化学习新视角:从贝尔曼方程到TD方法的深度解析
强化学习的核心在于贝尔曼方程,它揭示了价值函数的递归特性。动态规划(DP)和蒙特卡洛(MC)是两种经典求解方法,DP依赖完整环境模型,MC则通过采样直接估计。时序差分(TD)方法融合了DP和MC的优点,无需等待回合结束即可更新价值函数,具有更高的样本效率。TD衍生出SARSA和Q-learning两种控制算法,分别代表同策略和异策略学习。理解TD是掌握现代强化学习技术的关键。
ROLL:面向大规模语言模型的高效强化学习框架
ROLL框架专为大规模语言模型优化设计,通过灵活的奖励与环境系统、智能样本-奖励路由等核心特性,显著提升模型性能。其模块化设计与高效资源管理,支持从单卡到大规模GPU集群的训练,适用于人类偏好对齐、复杂推理等多场景,为用户提供了高效且易用的强化学习开发体验。
DispatchGym: Grab’s reinforcement learning research framework
DispatchGym是一个强化学习研究框架,专为调度系统设计,帮助数据科学家快速开发和测试调度算法。它集成了强化学习算法、调度模拟和Gymnasium API接口,支持高效、低成本的研究。框架强调模拟环境的可靠性和方向准确性,采用模块化设计和Python语言,便于用户灵活调整和实验。通过优化奖励函数和操作杠杆,DispatchGym助力解决调度系统中的实际问题,提升业务效率。
LangGraph Rollout: Evolving VeRL's Multi-Turn Capabilities for Agent RL
VeRL通过多轮对话和掩码重构,解决了Agent RL研究中的瓶颈,实现了LangGraph的快速集成。初始方案虽高效,但存在工具定义冗余和一致性挑战。通过自动工具封装,简化了工作流程,解决了生产与训练环境的差距。最终采用LangGraph集成,实现了训练与部署环境的完美对齐,支持复杂代理系统的演进。
Reinforcement Learning for Modeling Marketplace Balance
Uber利用强化学习优化司机与乘客的匹配算法,通过马尔可夫决策过程(MDP)框架建模,采用深度Q网络(DQN)方法学习价值函数,提升长期效率。系统通过离线训练和在线反馈循环,调整匹配策略,减少乘客等待时间并增加司机收入。该技术已在全球400多个城市部署,显著提高了市场平衡和用户体验。