如何定量分析 Llama 3,大模型系统工程师视角的 Transformer 架构
摘要
主要从工程师的视角来剖析 Transformer 的整体架构,主要分 4 个部分:
- 第 1 部分会介绍一些基础知识,帮助大家对后面讨论的内容做个铺垫。
- 第 2 部分是对 Transformer 架构的定量分析,也是今天分享的重点。在这个部分我会把 Transformer 架构打开,告诉大家它内部做了什么事情,并针对该模型做了一些定量分析,进而形成一些量化的结论。
- 第 3 部分我们会展示一些目前比较热门的 Transformer 架构变种,并从架构的视角来分析各个变种的效果和优化点。
- 第 4 部分是对一些实际案例进行分析,通过实战更好地让大家对大模型的性能和相关问题有更深入的理解。
欢迎在评论区写下你对这篇文章的看法。