Post-Training Generative Recommenders with Advantage-Weighted Supervised Finetuning

摘要

生成式推荐系统面临模仿用户行为可能导致推荐质量不佳的挑战。用户反馈虽丰富,但难以获取反事实数据,且奖励模型噪声较大。为此,提出优势加权监督微调(A-SFT)算法,结合监督学习和优势函数,有效应对奖励模型高方差问题。实验表明,A-SFT在推荐质量和奖励得分上均优于其他方法,为生成式推荐系统的后训练提供了新思路。

欢迎在评论区写下你对这篇文章的看法。

评论

- 위키
Copyright © 2011-2025 iteam. Current version is 2.147.0. UTC+08:00, 2025-10-28 13:00
浙ICP备14020137号-1 $방문자$