话题AI模型架构 › Transformer

AI模型架构:Transformer

大模型训练的高效内存解决方案:流水线感知的细粒度激活卸载,实现显存开销与吞吐性能的联合最优

大语言模型训练中,激活值显存开销随序列长度二次方增长,成为核心瓶颈。细粒度激活卸载方案通过模块级卸载、计算-卸载重叠、全场景兼容设计,优化内存与性能平衡。实验显示,该方案在DeepSeek-V3等模型上以1%-2%吞吐损失换取10%-35%内存收益,或保证极致内存收益同时提升7%-10%吞吐性能,为千亿级模型、长序列训练提供高效内存解决方案。

阿里云 Tair 联手 SGLang 共建 HiCache,构建面向“智能体式推理”的缓存新范式

大型语言模型推理中,KVCache机制通过缓存历史Key-Value对提升效率,但在智能体推理场景下面临状态膨胀、跨轮次持久化缺失和多任务缓存孤立等挑战。阿里云Tair KVCache团队与合作伙伴构建了多级KVCache Offloading和全局共享方案,显著提升了缓存命中率和推理性能。SGLang HiCache技术通过分层缓存管理,突破了显存容量限制,实现了高效的KVCache卸载与预取,为长上下文和高并发推理提供了坚实基础。

去哪儿网端智能架构设计和实践

去哪儿网通过端智能技术将AI模型部署到手机端,实现毫秒级实时决策。该方案具备四大优势:本地计算保障极致响应、行为特征强化个性化、降低云端成本及保护用户隐私。架构分为引擎层(支持多模型推理)、基建层(实时特征管理)和应用层(业务场景落地)。以用户流失预测为例,端侧模型精准捕捉瞬时行为,挽留成功率提升12%。未来将持续优化平台能力并探索端云协同新范式。

非专业也能看懂的AI大模型工作原理!

大语言模型将用户提问转换为矩阵,通过分词和嵌入将文本转为数字。Transformer架构中的自注意力机制让模型理解上下文,多头注意力则多角度捕捉信息。输出时,模型通过线性层和Softmax将隐藏状态转换为词汇概率,自回归生成完整回答。位置编码确保模型理解词序,长文本外推则扩展模型处理能力。实践中,优化上下文长度和多Agent协同可提升效率。

万字长文讲透LLM核心:Transformer架构原理解析

Transformer架构是大型语言模型(LLM)的核心,通过自注意力机制和多头注意力捕捉序列依赖关系。文章深入解析了Transformer的工作原理,包括分词、词嵌入、位置编码等关键步骤,并探讨了其在翻译任务中的应用。同时,介绍了当前开源LLM的架构创新,如MoE混合架构,提升了模型效率与性能。理解这些机制有助于更好地构建和应用LLM。

从CoT到AGI:深扒大模型LLM“深度思考”的技术演进

大模型通过深度思考展现复杂推理能力,其核心在于Transformer架构的自回归预测和足够大的参数规模。深度思考减少幻觉,提升模型推理准确性。CoT等技术通过外部引导释放模型潜力,RLHF则进一步对齐人类偏好。未来探索聚焦原子性思考、垂类结构和In-Context Learning新范式,推动AI向AGI迈进。

基于大模型增强的少样本学习在用户投诉意图感知中的应用

5G时代网络投诉处理面临少样本识别难题,传统小模型泛化能力不足,大模型又缺乏领域知识。创新方案来了!通过大模型生成高质量模拟样本,结合小模型反馈迭代优化,成功提升少样本投诉识别准确率21%,整体提升9%。实验证明,这种大小模型协同的增强学习框架既实用又高效,为通信领域智能化运维提供了新思路。

Evolution and Scale of Uber’s Delivery Search Platform

Uber Eats通过语义搜索提升用户体验,采用双塔模型和Qwen大语言模型,实现跨语言、跨领域的精准匹配。系统利用MRL技术优化嵌入维度,结合ANN索引和量化策略,平衡检索质量与计算成本。通过蓝绿部署和自动化验证,确保模型更新不中断服务,每两周刷新索引保持数据实时性,最终实现高效、低延迟的全球搜索系统。

零基础解码Transformer与大模型核心原理

Transformer是现代AI语言模型的核心,通过自注意力和多头注意力机制高效处理序列数据。它由编码器和解码器组成,编码器提取输入序列特征,解码器生成目标序列。位置编码补充序列位置信息,增强模型理解能力。Transformer能并行计算,捕捉长距离依赖,广泛应用于翻译、生成等任务,是AI领域的重要基石。

从模型原理到代码实践,深入浅出上手Transformer,叩开大模型世界的大门

Transformer架构通过编码器和解码器实现翻译任务,编码器提取源文特征,解码器结合上下文预测下一个词。输入包括源文和目标译文,输出为逐词生成的翻译结果。模型通过嵌入将词转化为向量,利用自注意力机制捕捉词间关系,多头注意力提升模型表现。前向传播结合残差和归一化,反向传播更新参数优化模型。

Transformer到底解决什么问题?

Transformer是NLP领域的重要突破,解决了长距离依赖和并行处理难题。它通过自注意力机制动态捕捉序列信息,结合多头注意力从多角度分析语义关系。相比RNN,Transformer摒弃了顺序计算,引入位置编码保留序列信息,实现了高效并行训练。其核心在于自注意力、多头注意力和前馈网络等模块的协同,为NLP任务提供了强大的建模能力。

MiniMax开源报告精读:规模化验证替代传统Transformer的新架构

线性注意力机制的Scaling Law。

Triton-Lang在Transformer优化加速中的实践

Triton是OpenAI 推出的以python为编程语言基础,专门为深度学习研发和高性能计算而设计的编程语言和编译器,旨在简化和优化GPU编程的复杂操作,降低高性能优化的门槛。

Airbnb’s AI-powered photo tour using Vision Transformer

Boosting computer vision accuracy and performance at Airbnb.

白话文讲解大模型| Attention is all you need

本文档旨在详细阐述当前主流的大模型技术架构如Transformer架构。我们将从技术概述、架构介绍到具体模型实现等多个角度进行讲解。

如何定量分析 Llama 3,大模型系统工程师视角的 Transformer 架构

主要从工程师的视角来剖析 Transformer 的整体架构,主要分 4 个部分:

  • 第 1 部分会介绍一些基础知识,帮助大家对后面讨论的内容做个铺垫。
  • 第 2 部分是对 Transformer 架构的定量分析,也是今天分享的重点。在这个部分我会把 Transformer 架构打开,告诉大家它内部做了什么事情,并针对该模型做了一些定量分析,进而形成一些量化的结论。
  • 第 3 部分我们会展示一些目前比较热门的 Transformer 架构变种,并从架构的视角来分析各个变种的效果和优化点。
  • 第 4 部分是对一些实际案例进行分析,通过实战更好地让大家对大模型的性能和相关问题有更深入的理解。

trang chủ - Wiki
Copyright © 2011-2025 iteam. Current version is 2.148.2. UTC+08:00, 2025-12-12 18:02
浙ICP备14020137号-1 $bản đồ khách truy cập$