使用 A10 单卡 24G 复现 DeepSeek R1 强化学习过程

摘要

DeepSeek模型训练过程展示了其核心强化学习算法DeepSeek-R1-Zero的应用。通过监督微调和强化学习相结合,模型逐步提升了推理能力,解决了语言混合和可读性问题。训练中使用了多种奖励函数,确保输出格式和内容的准确性。实验表明,微调后模型在格式和答案上均表现优异,验证了强化学习在模型优化中的有效性。

欢迎在评论区写下你对这篇文章的看法。

评论

首页 - Wiki
Copyright © 2011-2025 iteam. Current version is 2.142.0. UTC+08:00, 2025-02-28 20:26
浙ICP备14020137号-1 $访客地图$