大模型时代的异构计算平台

摘要

GPT-3 有 1750 亿参数,文心大模型有 2600 亿参数。以使用 NVIDIA GPU A100 对 GPT-3 进行训练为例,理论上单卡需要耗费 32 年的时间,千卡规模的分布式集群,经过各种优化,仍然需要 34 天才能完成训练。

欢迎在评论区写下你对这篇文章的看法。

评论

Home - Wiki
Copyright © 2011-2024 iteam. Current version is 2.139.0. UTC+08:00, 2024-12-23 05:25
浙ICP备14020137号-1 $Map of visitor$