主流大语言模型的技术原理细节

在线工具

在线工具

排行榜

反馈

在线工具

首页话题

文库我的

主流大语言模型的技术原理细节

出处：mp.weixin.qq.com

摘要

比较 LLaMA、ChatGLM、Falcon 等大语言模型的细节：tokenizer、位置编码、Layer Normalization、激活函数等。

大语言模型的分布式训练技术：数据并行、张量模型并行、流水线并行、3D 并行、零冗余优化器 ZeRO、CPU 卸载技术 ZeRo-offload、混合精度训练、激活重计算技术、Flash Attention、Paged Attention。

大语言模型的参数高效微调技术：prompt tuning、prefix tuning、adapter、LLaMA-adapter、 LoRA。

阅读原文

绍小丁于 2023-09-12 分享

2541

关联话题： #腾讯

欢迎在评论区写下你对这篇文章的看法。

据说喜欢分享的,后来都成了大神

知鸦日报

每日精选

提交句子

从年初的一无所有，到年终的身无分文，不一样的烟火，我就是我，看着就窝火，一年白忙了。