从0到1构建RLHF系统——小红书大模型团队的探索与实践

文章
文稿
书库
图册

从 0 到 1 构建 RLHF 系统——小红书大模型团队的探索与实践

出处：mp.weixin.qq.com

摘要

在QCon上海2024大会上，小红书大模型团队分享了自研RLHF系统的设计和优化。本文将介绍，随着LLM的发展，超长文本、多模态、PPO（Proximal Policy Optimization）训练本身的复杂度等带来了巨大的技术挑战，AGI团队通过异构、同构组网架构以及一系列训推一体优化方案，全面超越开源框架，并展示了RLHF之后模型的效果提升。

阅读原文

xiaozi 于 2025-01-02 分享

694

关联话题： #小红书

欢迎在评论区写下你对这篇文章的看法。

从0到1构建RLHF系统——小红书大模型团队的探索与实践

从 0 到 1 构建 RLHF 系统——小红书大模型团队的探索与实践

摘要

评论

文库