AI工程:RL
Oxygen 9N-LLM生成式推荐训练框架
生成式推荐作为新范式,突破了传统推荐的瓶颈,但也带来训练挑战。京东零售九数团队推出9N-LLM训练引擎,深度整合TensorFlow与PyTorch,统一适配GPU与NPU,解决了框架与硬件的兼容性问题,内置大规模稀疏Embedding训练引擎、定制化UniAttention加速库等核心组件,加速生成式推荐在工业场景的落地。
【淘宝直播数字人互动LLM】告别AI感:基于真人ASR数据的拟人化探索
本文提出了一种基于真人直播ASR数据的拟人化训练方法,通过构建高质量〈AI回复, 拟人化回复〉数据对,训练拟人化改写模型,并结合GRPO强化学习,使生成模型直接输出自然、口语化、有帮助的回复。实验证明,该方法在保持准确性和帮助性的同时,显著提升了语音交互的真实感与用户体验。
模型训练篇|多阶段ToolRL打造更可靠的AI导购助手
阿里芝麻租赁团队推出AI导购助手"租赁小不懂",通过架构革新与强化学习突破传统电商导购模式。针对租赁场景的复杂决策链,团队将多Agent架构升级为统一模型动态调用原子工具,响应速度提升4倍;创新两阶段RL训练法,使工具调用准确率提升3.23%。结合MoE模型优化,最终实现推荐成功率提升14.93%,推理显存降低40.6%,打造出更精准可靠的租赁顾问体验。
高德发布STAgent:专为复杂时空规划而生的智能体
高德推出STAgent智能体,专注复杂时空推理任务。该模型在多重约束下优化行程规划,集成10种专业工具,结合SFT-Guided RL训练策略提升性能。实验显示,STAgent在TravelBench上表现优异,30B参数规模媲美235B级模型,兼具专业性与通用能力,为智能体规划领域提供了高效解决方案。
Fancy Video Generation:百万量级高优质视频量产实践总结
高德扫街榜通过AI技术生成Fancy视频,提升POI信息的动态表现力。从美食、景点到酒店,视频遵循物理逻辑,增强视觉审美。采用SFT、RL和DMD蒸馏等技术优化模型,确保高效、高质量的视频生成。自动化筛选和上线流程简化操作,扩大覆盖范围,让技术服务于生活,缩短用户与目的地的感知距离。
广告多目标排序机制升级
腾讯广告升级排序机制,从短期收入导向转向兼顾用户体验。新机制引入强化学习优化多目标排序,通过DDPG算法动态调整参数,平衡核心指标与护栏指标。在公众号和腾讯新闻试点中,内容相关性提升14%,点击率增长0.65%。未来计划采用Multi-Critic实现帕累托最优,并探索端到端排序模型,持续提升广告的"推荐感"。
拥抱大模型:深入剖析ReAct的核心原理、技术架构及其对AI领域的深远影响
ReAct范式通过“推理-行动-观察”闭环,将语言模型与外部工具深度结合,解决了传统AI的“事实幻觉”和“策略僵化”问题。其核心在于显式推理、环境锚定和模块解耦,使AI具备可解释性和动态任务处理能力。ReAct架构包含逻辑层、循环层和交互层,支持复杂任务的高效执行,适用于多场景适配,显著提升了AI系统的实用性和灵活性。
Agent全面爆发!一文搞懂背后的核心范式ReAct!
ReAct范式通过"推理-行动-观察"闭环,让大模型像人类一样拆解复杂任务。它要求模型先思考再行动,用外部工具获取实时数据,避免"一本正经胡说八道"。这种架构既能处理航班查询等实际问题,又让决策过程透明可追溯。相比传统方法,ReAct在事实核查、智能规划等场景表现更优,是迈向实用AI的关键一步。
多模态大模型结合强化学习的模式探讨
多模态大模型与强化学习的融合正掀起AI新浪潮!从视觉推理到复杂数学计算,通过规则奖励微调、分阶段训练等创新方法,模型在精准定位、逻辑推理等任务上表现惊艳。GRPO等策略让模型学会"思考",而自适应推理、分层评估等方向将推动技术更智能、更可靠。这场"看懂世界+做出决策"的智能革命,正在重新定义AI的边界。
大模型训练的高效内存解决方案:流水线感知的细粒度激活卸载,实现显存开销与吞吐性能的联合最优
大语言模型训练中,激活值显存开销随序列长度二次方增长,成为核心瓶颈。细粒度激活卸载方案通过模块级卸载、计算-卸载重叠、全场景兼容设计,优化内存与性能平衡。实验显示,该方案在DeepSeek-V3等模型上以1%-2%吞吐损失换取10%-35%内存收益,或保证极致内存收益同时提升7%-10%吞吐性能,为千亿级模型、长序列训练提供高效内存解决方案。
淘宝搜索算法:推理范式下生成式检索应用
大语言模型在电商领域的应用展现了显著优势,通过构建个性化生成式推理模型,深入分析用户属性、搜索词和行为序列,精准推断用户意图并生成商品推荐。优化方案从语义ID、PreSFT和SFT三阶段入手,提升模型表现。实验结果显示,成交笔数和金额均有增长,验证了生成式召回范式的潜力。未来将探索双LLM架构和RL技术,进一步提升模型能力。
百度慧播星数字人技术演进
百度慧播星作为全链路AI直播平台,通过检索增强和强化学习生成高转化脚本,利用智能中控优化直播策略,实现语音与形象克隆的“小时级”效率。平台覆盖电商、教育等多行业,日均服务2万+直播间,罗永浩数字人直播GMV突破5500万。未来,慧播星将持续迭代,提升智能化与拟真度,优化直播体验。
从CoT到AGI:深扒大模型LLM“深度思考”的技术演进
大模型通过深度思考展现复杂推理能力,其核心在于Transformer架构的自回归预测和足够大的参数规模。深度思考减少幻觉,提升模型推理准确性。CoT等技术通过外部引导释放模型潜力,RLHF则进一步对齐人类偏好。未来探索聚焦原子性思考、垂类结构和In-Context Learning新范式,推动AI向AGI迈进。
AICoding实践:从Prd到代码生成
AI编程系统CodeFuse正推动软件工程向"需求驱动型"变革,实现从自然语言需求到代码的端到端自动生成。面对复杂代码资产和业务理解难题,通过构建标准化Workflow、RAG检索和知识图谱增强上下文理解,结合分层生码与自动Review确保代码质量。目前安全域AI生成代码占比已达43%,在审理平台等场景实现单需求2万行代码生成,未来将持续强化技术风险防控与数据沉淀能力。
Training AI Agents to Write and Self-correct SQL with Reinforcement Learning
本文展示了如何构建和训练一个自校正的SQL代理,利用Agent Lightning和LangGraph实现强化学习训练。通过状态机设计,代理能够循环检查和重写SQL查询,直至准确或达到最大尝试次数。训练采用分布式客户端-服务器架构,提升模型性能。实验表明,更长上下文和更多尝试次数能提高准确性,但需权衡效率。
RIVAL:面向机器翻译的迭代对抗强化学习
RIVAL框架通过对抗式迭代优化解决机器翻译中的分布偏移问题,将奖励模型与翻译模型建模为最小化-最大化博弈,结合双奖励机制提升训练稳定性。实验表明,RIVAL在口语字幕和WMT任务上显著优于监督微调和专用翻译模型,同时展现出跨语言泛化能力,为机器翻译提供了兼具理论与实用价值的新范式。