动手训练一个迷你语言模型

摘要

在消费级设备上,基于GeForce RTX4090 24G显存GPU和8核CPU/15G内存云服务器,使用pytorch训练了一个约25.8M的迷你LLM。通过分词器训练、无监督和有监督训练,耗时不到3小时生成模型。测试结果理想,旨在通过实践熟悉语言模型训练过程,为LLM应用打下基础。

欢迎在评论区写下你对这篇文章的看法。

评论

首页 - Wiki
Copyright © 2011-2025 iteam. Current version is 2.143.0. UTC+08:00, 2025-05-10 07:24
浙ICP备14020137号-1 $访客地图$