从0到1构建RLHF系统——小红书大模型团队的探索与实践

Online Tools

Online Tools

Ranking List

反馈

Online Tools

Home Topic

Library Mine

从 0 到 1 构建 RLHF 系统——小红书大模型团队的探索与实践

出处：mp.weixin.qq.com

摘要

在QCon上海2024大会上，小红书大模型团队分享了自研RLHF系统的设计和优化。本文将介绍，随着LLM的发展，超长文本、多模态、PPO（Proximal Policy Optimization）训练本身的复杂度等带来了巨大的技术挑战，AGI团队通过异构、同构组网架构以及一系列训推一体优化方案，全面超越开源框架，并展示了RLHF之后模型的效果提升。

阅读原文

xiaozi 于 2025-01-02 分享

关联话题： #小红书

欢迎在评论区写下你对这篇文章的看法。

据说喜欢分享的,后来都成了大神

知鸦日报

每日精选

提交句子

Had I not seen the Sun ------- by Emily Dickinson 　　 Had I not seen the Sun I could have borne the shade But Light a newer Wilderness My Wilderness has made —

从0到1构建RLHF系统——小红书大模型团队的探索与实践

从 0 到 1 构建 RLHF 系统——小红书大模型团队的探索与实践

摘要

评论

文库