话题AI模型架构 › Transformer

AI模型架构:Transformer

MiniMax开源报告精读:规模化验证替代传统Transformer的新架构

线性注意力机制的Scaling Law。

Triton-Lang在Transformer优化加速中的实践

Triton是OpenAI 推出的以python为编程语言基础,专门为深度学习研发和高性能计算而设计的编程语言和编译器,旨在简化和优化GPU编程的复杂操作,降低高性能优化的门槛。

Airbnb’s AI-powered photo tour using Vision Transformer

Boosting computer vision accuracy and performance at Airbnb.

如何定量分析 Llama 3,大模型系统工程师视角的 Transformer 架构

主要从工程师的视角来剖析 Transformer 的整体架构,主要分 4 个部分:

  • 第 1 部分会介绍一些基础知识,帮助大家对后面讨论的内容做个铺垫。
  • 第 2 部分是对 Transformer 架构的定量分析,也是今天分享的重点。在这个部分我会把 Transformer 架构打开,告诉大家它内部做了什么事情,并针对该模型做了一些定量分析,进而形成一些量化的结论。
  • 第 3 部分我们会展示一些目前比较热门的 Transformer 架构变种,并从架构的视角来分析各个变种的效果和优化点。
  • 第 4 部分是对一些实际案例进行分析,通过实战更好地让大家对大模型的性能和相关问题有更深入的理解。

深入理解Transformer技术原理

谷歌在2007年发布Transformer架构的论文时,论文的标题是:Attention Is All You Need。重点说明了这个架构是基于注意力机制的。那么一起跟着笔者的脚步来深入理解Transformer的技术原理吧!

信我!这里有普通人也能理解的 Transformer

点击关注公众号,精美礼品免费领!!

Under the Hood at Grammarly: Leveraging Transformer Language Models for Grammatical Error Correction

The Random Transformer

Understand how transformers work by demystifying all the math behind them.

基于BEV+Transformer的地面要素感知+建模技术在高德的应用

为提高地图制作效率,降低制作成本提供了坚实保证。

Transformer 一起动手编码学原理

学习Transformer,快来跟着作者动手写一个。

Transformer Math 101

We present basic math related to computation and memory usage for transformers.

Transformer介绍

Transformer是一种基于encoder-decoder结构的模型,其编码器和解码器均是由注意力模块和前项神经网络构成,是第一个用纯attention搭建的模型,不仅计算速度更快,在翻译任务上获得了更好的结果。

Transformer技术在好大夫在线的落地探索

众所周知,好大夫在线拥有数十亿条医患交流和数亿张医疗相关照片。它们占有着大量的存储空间,且由于标记成本过高,而没办法被利用。Transformer技术给了我们一个将它们利用起来的机会,从而给医患群体提供更可靠的帮助。

让物体在视频中消失的魔法-基于Transformer的视频修复技术

视频修复是一个旨在通过视频中已知内容来推断并填补缺失内容的经典任务,它在视频编辑中有着广泛应用,然而高质量的视频修复仍然面临巨大挑战。本文将介绍一种时空联合Transformer结构,来解决视频修复中产生的时间伪影、时序不一致等问题。

  • «
  • 1
  • »

首页 - Wiki
Copyright © 2011-2025 iteam. Current version is 2.141.2. UTC+08:00, 2025-02-12 08:37
浙ICP备14020137号-1 $访客地图$