京东联盟广告生成式推荐探索与实践-DPO 多目标优化

摘要

生成式推荐大模型在京东联盟广告业务中优化UCTR与UCVR指标,通过DPO对齐范式实现多目标优化。商品离散化和行为序列建模简化了推荐流程,提升了模型泛化能力。Softmax-DPO和β-DPO方法分别处理多负例和参数敏感问题,线上实验显示转化率显著提升。未来探索方向包括多目标优化和多场景建模。

欢迎在评论区写下你对这篇文章的看法。

评论

Home - Wiki
Copyright © 2011-2025 iteam. Current version is 2.142.0. UTC+08:00, 2025-02-21 03:12
浙ICP备14020137号-1 $Map of visitor$