AI工程：RL的相关资料

You Don't Know LLM Training: Principles, Pipelines, and New Practices

2026年，大模型的能力差距不再仅依赖预训练，而是更多地体现在后训练阶段。预训练奠定基础，后训练通过指令微调、奖励设计、评估优化等环节，显著提升用户体验。数据配方、系统约束和训练管道设计是关键，模型的能力增强源于整个训练栈的协同优化，而非单一因素。

大模型如何重塑电商选品？

淘宝AI选品系统通过大模型技术，优化了传统低效的选品流程。系统能解析自然语言需求，结合行业趋势，生成高相关性选品集。采用DeepSearch和WideSearch算法提升信息检索广度，通过强化学习优化搜索词生成，确保选品质量。系统支持多轮对话调整，大幅缩短选品周期，提升品效。未来将探索直接优化选品集的Agentic RL方法。

「纯干货」几万字都讲不明白的Memory架构与思考

Memory是Agent长期交互中积累的知识库，核心在于将历史转化为决策依据。其本质包括Raw Ledger、Views和Policy三部分，形成一个闭环系统。非参数化Memory更易落地，但需逼近参数化方案的效果上限。时序记忆、技能固化与潜层融合是关键，确保记忆的可执行性、可治理性与可观测性，提升Agent的个性化与长程任务表现。

你不知道的大模型训练：原理、路径与新实践

大模型训练远不止预训练，后训练、评测、奖励等环节才是拉开差距的关键。从数据配方到系统架构，再到指令微调和强化学习，每一步都在塑造模型的实际表现。Agent训练更将优化目标扩展到工具使用和任务连贯性。最终上线版本是整条训练链路的快照，而持续迭代的反馈回路才是产品核心。

How Kimi, Cursor, and Chroma Train Agentic Models with RL

Moonshot AI的Kimi K2.5通过强化学习实现任务并行分解，优化多代理协作；Cursor的Composer 2采用自总结和实时RL提升长代码任务处理能力；Chroma的Context-1则专注于自编辑上下文，动态剪枝无关文档以提升搜索效率。三者在RL应用上均注重基础模型、生产环境训练、结果导向奖励和大规模并行扩展，展示了垂直领域模型的高效性与实用性。

GLM-OCR：0.9B 参数如何在文档解析上打败 235B 的 Qwen3-VL

智谱AI推出的GLM-OCR是一款0.9B参数的文档理解多模态模型，凭借布局感知的两阶段流水线和MTP解码技术，在OmniDocBench v1.5上以94.62分领先。其PDF处理速度达1.86页/秒，远超同类产品。GLM-OCR通过GRPO强化学习优化结构化输出，尤其在印章识别上表现突出，展现了小模型在特定任务上的高效与精准。

Scaling LLM Post-Training at Netflix

Netflix构建了LLM后训练框架，专注于解决大规模训练中的工程挑战。框架涵盖数据、模型、计算和工作流四大模块，支持SFT、RL等多种训练范式，优化了分布式训练流程。通过灵活架构和高效工具，开发者能专注于模型创新，而非底层系统复杂性，推动Netflix在推荐、个性化等领域的AI应用。

netflix技术

用大规模 Agentic RL 训练 AI 自动生成高性能 CUDA Kernel

ByteDance Seed提出的CUDA Agent通过三阶段强化学习训练LLM，使其像顶级GPU性能工程师一样工作，自主优化CUDA kernel。在KernelBench测试中，CUDA Agent整体比torch.compile快2.11倍，尤其在算子融合任务上表现突出。该方法突破了传统编译器的局限，展示了AI在系统优化中的潜力。

网易技术

FireRed-OCR 开源发布：端到端方案新SOTA！小红书提出低成本文档识别训练范式

FireRed-OCR重磅开源！这款基于Qwen3-VL的工业级OCR模型首创"三阶段渐进优化"策略，专治文档解析中的"结构性幻觉"难题。在OmniDocBench v1.5评测中以92.94%综合准确率登顶，表格和公式解析能力尤为突出，手写体和复杂版式也不在话下。现已开放GitHub和HuggingFace资源，一键解锁文档智能处理新姿势~

小红书技术

社区推荐重排技术：双阶段框架的实践与演进

推荐系统重排环节通过生成式模型优化序列推荐效果。非自回归模型实现快速并行推理，自回归模型增强上下文依赖，结合MTP技术提升推理效率。工程上采用GPU加速和KV缓存优化性能。未来规划构建端到端生成架构，融合强化学习实现全局优化，突破质量-延迟-多样性瓶颈，推动AIGC与推荐系统深度结合。

得物技术

从传统编程转向大模型编程

AI编程时代，开发者角色从“代码生产者”转向“文档定义者”，核心产出变为需求文档和架构设计。AI负责将文档编译为代码，人力集中于需求澄清、架构设计和文档验收。文档成为代码源，修改文档即可自动生成代码，确保模型无关性和知识资产化。开发者需掌握大模型编程技能，将AI融入日常工作流程，提升效率和质量。

阿里巴巴技术

Oxygen 9N-LLM生成式推荐训练框架

生成式推荐作为新范式，突破了传统推荐的瓶颈，但也带来训练挑战。京东零售九数团队推出9N-LLM训练引擎，深度整合TensorFlow与PyTorch，统一适配GPU与NPU，解决了框架与硬件的兼容性问题，内置大规模稀疏Embedding训练引擎、定制化UniAttention加速库等核心组件，加速生成式推荐在工业场景的落地。

京东技术

【淘宝直播数字人互动LLM】告别AI感：基于真人ASR数据的拟人化探索

本文提出了一种基于真人直播ASR数据的拟人化训练方法，通过构建高质量〈AI回复, 拟人化回复〉数据对，训练拟人化改写模型，并结合GRPO强化学习，使生成模型直接输出自然、口语化、有帮助的回复。实验证明，该方法在保持准确性和帮助性的同时，显著提升了语音交互的真实感与用户体验。

阿里巴巴技术

模型训练篇｜多阶段ToolRL打造更可靠的AI导购助手

阿里芝麻租赁团队推出AI导购助手"租赁小不懂"，通过架构革新与强化学习突破传统电商导购模式。针对租赁场景的复杂决策链，团队将多Agent架构升级为统一模型动态调用原子工具，响应速度提升4倍；创新两阶段RL训练法，使工具调用准确率提升3.23%。结合MoE模型优化，最终实现推荐成功率提升14.93%，推理显存降低40.6%，打造出更精准可靠的租赁顾问体验。

阿里巴巴技术

高德发布STAgent：专为复杂时空规划而生的智能体

高德推出STAgent智能体，专注复杂时空推理任务。该模型在多重约束下优化行程规划，集成10种专业工具，结合SFT-Guided RL训练策略提升性能。实验显示，STAgent在TravelBench上表现优异，30B参数规模媲美235B级模型，兼具专业性与通用能力，为智能体规划领域提供了高效解决方案。

高德技术

Fancy Video Generation：百万量级高优质视频量产实践总结

高德扫街榜通过AI技术生成Fancy视频，提升POI信息的动态表现力。从美食、景点到酒店，视频遵循物理逻辑，增强视觉审美。采用SFT、RL和DMD蒸馏等技术优化模型，确保高效、高质量的视频生成。自动化筛选和上线流程简化操作，扩大覆盖范围，让技术服务于生活，缩短用户与目的地的感知距离。

高德技术