主流大语言模型的技术原理细节

công cụ trực tuyến

công cụ trực tuyến

反馈

công cụ trực tuyến

trang chủ chủ đề

thư viện mã nguồn cửa hàng

thêm

主流大语言模型的技术原理细节

出处：mp.weixin.qq.com

摘要

比较 LLaMA、ChatGLM、Falcon 等大语言模型的细节：tokenizer、位置编码、Layer Normalization、激活函数等。

大语言模型的分布式训练技术：数据并行、张量模型并行、流水线并行、3D 并行、零冗余优化器 ZeRO、CPU 卸载技术 ZeRo-offload、混合精度训练、激活重计算技术、Flash Attention、Paged Attention。

大语言模型的参数高效微调技术：prompt tuning、prefix tuning、adapter、LLaMA-adapter、 LoRA。

阅读原文

绍小丁于 2023-09-12 分享

3807

关联话题： #腾讯

欢迎在评论区写下你对这篇文章的看法。