模型训练篇|多阶段 ToolRL 打造更可靠的 AI 导购助手

摘要

阿里芝麻租赁团队推出AI导购助手"租赁小不懂",通过架构革新与强化学习突破传统电商导购模式。针对租赁场景的复杂决策链,团队将多Agent架构升级为统一模型动态调用原子工具,响应速度提升4倍;创新两阶段RL训练法,使工具调用准确率提升3.23%。结合MoE模型优化,最终实现推荐成功率提升14.93%,推理显存降低40.6%,打造出更精准可靠的租赁顾问体验。

欢迎在评论区写下你对这篇文章的看法。

评论

trang chủ - Wiki
Copyright © 2011-2026 iteam. Current version is 2.148.4. UTC+08:00, 2026-01-28 19:16
浙ICP备14020137号-1 $bản đồ khách truy cập$