RIVAL:面向机器翻译的迭代对抗强化学习

摘要

RIVAL框架通过对抗式迭代优化解决机器翻译中的分布偏移问题,将奖励模型与翻译模型建模为最小化-最大化博弈,结合双奖励机制提升训练稳定性。实验表明,RIVAL在口语字幕和WMT任务上显著优于监督微调和专用翻译模型,同时展现出跨语言泛化能力,为机器翻译提供了兼具理论与实用价值的新范式。

欢迎在评论区写下你对这篇文章的看法。

评论

trang chủ - Wiki
Copyright © 2011-2025 iteam. Current version is 2.147.1. UTC+08:00, 2025-10-31 21:57
浙ICP备14020137号-1 $bản đồ khách truy cập$