Post-Training Generative Recommenders with Advantage-Weighted Supervised Finetuning

在线工具

在线工具

反馈

在线工具

首页话题

文库我的

Post-Training Generative Recommenders with Advantage-Weighted Supervised Finetuning

出处：netflixtechblog.com

存档：存档

译文：中文

摘要

生成式推荐系统面临模仿用户行为可能导致推荐质量不佳的挑战。用户反馈虽丰富，但难以获取反事实数据，且奖励模型噪声较大。为此，提出优势加权监督微调（A-SFT）算法，结合监督学习和优势函数，有效应对奖励模型高方差问题。实验表明，A-SFT在推荐质量和奖励得分上均优于其他方法，为生成式推荐系统的后训练提供了新思路。

阅读原文

xiaozi 于 2025-10-28 分享

关联话题： #Netflix

欢迎在评论区写下你对这篇文章的看法。

据说喜欢分享的,后来都成了大神

知鸦日报

每日精选

提交句子

低头吧，你根本就没有皇冠。