话题AI工程 › RL

AI工程:RL

关联话题: Reinforcement Learning、强化学习

You Don't Know LLM Training: Principles, Pipelines, and New Practices

2026年,大模型的能力差距不再仅依赖预训练,而是更多地体现在后训练阶段。预训练奠定基础,后训练通过指令微调、奖励设计、评估优化等环节,显著提升用户体验。数据配方、系统约束和训练管道设计是关键,模型的能力增强源于整个训练栈的协同优化,而非单一因素。

大模型如何重塑电商选品?

淘宝AI选品系统通过大模型技术,优化了传统低效的选品流程。系统能解析自然语言需求,结合行业趋势,生成高相关性选品集。采用DeepSearch和WideSearch算法提升信息检索广度,通过强化学习优化搜索词生成,确保选品质量。系统支持多轮对话调整,大幅缩短选品周期,提升品效。未来将探索直接优化选品集的Agentic RL方法。

「纯干货」几万字都讲不明白的Memory架构与思考

Memory是Agent长期交互中积累的知识库,核心在于将历史转化为决策依据。其本质包括Raw Ledger、Views和Policy三部分,形成一个闭环系统。非参数化Memory更易落地,但需逼近参数化方案的效果上限。时序记忆、技能固化与潜层融合是关键,确保记忆的可执行性、可治理性与可观测性,提升Agent的个性化与长程任务表现。

你不知道的大模型训练:原理、路径与新实践

大模型训练远不止预训练,后训练、评测、奖励等环节才是拉开差距的关键。从数据配方到系统架构,再到指令微调和强化学习,每一步都在塑造模型的实际表现。Agent训练更将优化目标扩展到工具使用和任务连贯性。最终上线版本是整条训练链路的快照,而持续迭代的反馈回路才是产品核心。

How Kimi, Cursor, and Chroma Train Agentic Models with RL

Moonshot AI的Kimi K2.5通过强化学习实现任务并行分解,优化多代理协作;Cursor的Composer 2采用自总结和实时RL提升长代码任务处理能力;Chroma的Context-1则专注于自编辑上下文,动态剪枝无关文档以提升搜索效率。三者在RL应用上均注重基础模型、生产环境训练、结果导向奖励和大规模并行扩展,展示了垂直领域模型的高效性与实用性。

GLM-OCR:0.9B 参数如何在文档解析上打败 235B 的 Qwen3-VL

智谱AI推出的GLM-OCR是一款0.9B参数的文档理解多模态模型,凭借布局感知的两阶段流水线和MTP解码技术,在OmniDocBench v1.5上以94.62分领先。其PDF处理速度达1.86页/秒,远超同类产品。GLM-OCR通过GRPO强化学习优化结构化输出,尤其在印章识别上表现突出,展现了小模型在特定任务上的高效与精准。

Scaling LLM Post-Training at Netflix

Netflix构建了LLM后训练框架,专注于解决大规模训练中的工程挑战。框架涵盖数据、模型、计算和工作流四大模块,支持SFT、RL等多种训练范式,优化了分布式训练流程。通过灵活架构和高效工具,开发者能专注于模型创新,而非底层系统复杂性,推动Netflix在推荐、个性化等领域的AI应用。

用大规模 Agentic RL 训练 AI 自动生成高性能 CUDA Kernel

ByteDance Seed提出的CUDA Agent通过三阶段强化学习训练LLM,使其像顶级GPU性能工程师一样工作,自主优化CUDA kernel。在KernelBench测试中,CUDA Agent整体比torch.compile快2.11倍,尤其在算子融合任务上表现突出。该方法突破了传统编译器的局限,展示了AI在系统优化中的潜力。

FireRed-OCR 开源发布:端到端方案新SOTA!小红书提出低成本文档识别训练范式

FireRed-OCR重磅开源!这款基于Qwen3-VL的工业级OCR模型首创"三阶段渐进优化"策略,专治文档解析中的"结构性幻觉"难题。在OmniDocBench v1.5评测中以92.94%综合准确率登顶,表格和公式解析能力尤为突出,手写体和复杂版式也不在话下。现已开放GitHub和HuggingFace资源,一键解锁文档智能处理新姿势~

社区推荐重排技术:双阶段框架的实践与演进

推荐系统重排环节通过生成式模型优化序列推荐效果。非自回归模型实现快速并行推理,自回归模型增强上下文依赖,结合MTP技术提升推理效率。工程上采用GPU加速和KV缓存优化性能。未来规划构建端到端生成架构,融合强化学习实现全局优化,突破质量-延迟-多样性瓶颈,推动AIGC与推荐系统深度结合。

从传统编程转向大模型编程

AI编程时代,开发者角色从“代码生产者”转向“文档定义者”,核心产出变为需求文档和架构设计。AI负责将文档编译为代码,人力集中于需求澄清、架构设计和文档验收。文档成为代码源,修改文档即可自动生成代码,确保模型无关性和知识资产化。开发者需掌握大模型编程技能,将AI融入日常工作流程,提升效率和质量。

Oxygen 9N-LLM生成式推荐训练框架

生成式推荐作为新范式,突破了传统推荐的瓶颈,但也带来训练挑战。京东零售九数团队推出9N-LLM训练引擎,深度整合TensorFlow与PyTorch,统一适配GPU与NPU,解决了框架与硬件的兼容性问题,内置大规模稀疏Embedding训练引擎、定制化UniAttention加速库等核心组件,加速生成式推荐在工业场景的落地。

【淘宝直播数字人互动LLM】告别AI感:基于真人ASR数据的拟人化探索

本文提出了一种基于真人直播ASR数据的拟人化训练方法,通过构建高质量〈AI回复, 拟人化回复〉数据对,训练拟人化改写模型,并结合GRPO强化学习,使生成模型直接输出自然、口语化、有帮助的回复。实验证明,该方法在保持准确性和帮助性的同时,显著提升了语音交互的真实感与用户体验。

模型训练篇|多阶段ToolRL打造更可靠的AI导购助手

阿里芝麻租赁团队推出AI导购助手"租赁小不懂",通过架构革新与强化学习突破传统电商导购模式。针对租赁场景的复杂决策链,团队将多Agent架构升级为统一模型动态调用原子工具,响应速度提升4倍;创新两阶段RL训练法,使工具调用准确率提升3.23%。结合MoE模型优化,最终实现推荐成功率提升14.93%,推理显存降低40.6%,打造出更精准可靠的租赁顾问体验。

高德发布STAgent:专为复杂时空规划而生的智能体

高德推出STAgent智能体,专注复杂时空推理任务。该模型在多重约束下优化行程规划,集成10种专业工具,结合SFT-Guided RL训练策略提升性能。实验显示,STAgent在TravelBench上表现优异,30B参数规模媲美235B级模型,兼具专业性与通用能力,为智能体规划领域提供了高效解决方案。

Fancy Video Generation:百万量级高优质视频量产实践总结

高德扫街榜通过AI技术生成Fancy视频,提升POI信息的动态表现力。从美食、景点到酒店,视频遵循物理逻辑,增强视觉审美。采用SFT、RL和DMD蒸馏等技术优化模型,确保高效、高质量的视频生成。自动化筛选和上线流程简化操作,扩大覆盖范围,让技术服务于生活,缩短用户与目的地的感知距离。

inicio - Wiki
Copyright © 2011-2026 iteam. Current version is 2.155.1. UTC+08:00, 2026-04-13 18:37
浙ICP备14020137号-1 $mapa de visitantes$