话题AI模型架构 › Transformer

AI模型架构:Transformer

视频生成推理加速实践:基于全局时间索引的序列并行 3D 位置编码优化

Wan2.1是一款基于扩散Transformer架构的视频生成模型,采用全时空并行建模,生成质量领先。然而,全局扩散模型在长视频推理中面临显存和计算复杂度膨胀、固定长度假设及流式推理难题。Self-Forcing引入因果自回归生成,通过逐块生成和KV缓存机制,显著降低首帧延迟,支持实时生成,为长视频和流式推理提供新路径。

马斯克说到做到:开源X平台核心推荐算法

X开源了内容推荐的召回和精排模型代码,展示了其Feed推荐系统的透明性。召回模型采用双塔结构,用户塔使用Transformer处理用户特征和行为序列,内容塔则用MLP处理帖子信息。精排模型同样基于Transformer,引入候选隔离机制,确保候选间互不影响。两阶段模型分别负责海量候选的初步筛选和精细排序,最终选出用户最感兴趣的帖子。

社区推荐重排技术:双阶段框架的实践与演进

推荐系统重排环节通过生成式模型优化序列推荐效果。非自回归模型实现快速并行推理,自回归模型增强上下文依赖,结合MTP技术提升推理效率。工程上采用GPU加速和KV缓存优化性能。未来规划构建端到端生成架构,融合强化学习实现全局优化,突破质量-延迟-多样性瓶颈,推动AIGC与推荐系统深度结合。

喜马大模型推荐算法优化(一):生成式推荐的落地实践之路

喜马拉雅采用生成式推荐技术优化音频内容分发,解决了长音频反馈密度低、冷启动难等痛点。通过Transformer架构捕捉用户行为序列,显著提升内容分发效率和用户留存。生成式推荐模型在首页和播放页场景中全量上线,验证了其在音频推荐场景中的技术价值与业务潜力。

当我们谈论 AI 推理的 KV Cache,我们在说什么?

Transformer架构以注意力机制为核心,突破了RNN的串行计算局限,实现了高效的并行训练。通过向量表示和注意力矩阵,Transformer能捕捉丰富的上下文信息,优化模型性能。KV Cache技术的引入进一步提升了推理效率,减少了重复计算。未来,Transformer可能迈向Post-Transformer时代,结合物理世界体验,推动AGI的发展。

这大概是我读过关于AI大模型最全面、好读又易懂的文章了

神经网络是AI的核心,通过模拟大脑神经元进行学习和预测。大模型基于神经网络,处理自然语言时需分词、向量化,并通过Transformer等架构融合上下文信息。训练过程中,模型通过损失函数更新参数,利用自监督学习优化性能。AI浪潮下,GPU并行计算成为基础设施,推动大模型发展。RAG等技术的应用,增强了模型的实时数据处理能力。

1篇搞懂AI通识:大白话拆解核心点

AI技术正从实验室走向生活,涵盖机器学习、深度学习和大模型等核心概念。Transformer架构成为现代大模型基石,通过注意力机制高效处理文本。优化技术如MOE、量化和微调让AI更轻量实用。从基础理论到落地应用,AI已融入聊天、办公、编程等场景,理解其底层逻辑能让复杂概念更清晰。掌握这些知识,轻松看透AI技术的核心价值。

从零开始的大模型之旅|解码大模型:开篇&技术篇1.1—基础架构概念

探索大模型技术之旅:从Transformer架构到预训练微调,再到参数规模与模型能力的关系,揭示了现代AI的核心原理。涌现能力的突现性、不可预测性和临界性,展示了AI系统的复杂动力学。MoE架构通过稀疏激活实现效率与性能的平衡,稀疏模型则代表了未来超大规模模型的发展方向。这些技术共同推动了大模型的广泛应用与创新。

阿里云Tair KVCache仿真分析:高精度的计算和缓存模拟设计与实现

KVCache在大模型推理中逐渐升级为系统级基础设施,面临高维配置空间的优化挑战。阿里云推出Tair-KVCache-HiSim,首个分布式多级KVCache管理仿真工具,通过全链路建模实现高精度性能预测,支持计算选型、存储规划与调度策略协同优化,显著降低推理性能评估成本,助力智能化推理系统设计与部署。

阿里云Tair KVCache Manager:企业级全局 KVCache 管理服务的架构设计与实现

阿里云即将开源企业级全局KVCache管理服务Tair KVCache Manager,专为Agentic AI设计。该服务通过高性能网络解耦算力与存储,支持PB级KVCache池化,具备动态伸缩、多租户隔离等能力,兼容主流推理引擎。架构上采用中心化元数据管理,抽象LLM语义接口,并集成多种存储后端,显著提升大模型推理性能与资源利用率。

淘宝推出ReaSeq:基于世界知识推理的序列建模

推荐系统面临日志驱动范式的瓶颈,ReaSeq框架引入大语言模型,突破两大局限:丰富外部知识、捕捉日志外兴趣。通过推理增强表征与生成式行为推理,ReaSeq提升商品表征质量和用户兴趣感知能力,显著优化CTR模型性能,实现电商场景点击与转化指标的全面提升。

Hybrid Model Support:阿里云 Tair 联合 SGLang对 Mamba-Transformer 等混合架构模型的支持方案

阿里云Tair KVCache团队与SGLang社区合作,针对大模型推理中的显存与计算瓶颈,提出了混合架构模型支持方案。通过双内存池设计、状态快照技术及推测解码适配,解决了Transformer与Mamba模型的内存管理冲突,显著提升了推理效率。实测Qwen3-Next等混合模型在SGLang上表现出色,为大规模推理提供了高效、可靠的技术支持。

LLM 系列(十八):注意力机制 Attention

NLP领域的核心在于构建理解语言序列与上下文依赖的模型。RNN及其变体虽一度主导,但序列递归处理存在不可并行化与长距离依赖丢失问题。Transformer以注意力机制实现全局并行,突破递归限制,依赖Q、K、V捕捉词间关系,多头设计提升表达力。随着模型规模扩大,MHA、MQA、GQA、MLA等变体在性能与资源间寻求平衡,FlashAttention等工程优化则释放了计算潜力。

转转大数据与AI——数据治理安全打标实践

转转利用AI大模型技术实现大数据治理中的自动安全打标,通过优化提示词、分批次处理、重计算等手段提升准确率。AI打标支持表和字段粒度,自动化流程降低成本,提高效率。未来规划包括覆盖全业务数据源、优化响应速度及自适应多数据源表优化服务,推动数据治理智能化发展。

转转大数据与AI——数据治理安全打标实践

转转利用AI大模型技术实现数据安全自动打标,解决了人工打标效率低、主观性强的问题。通过统一元数据管理、优化Prompt提示词和分批次处理,准确率显著提升。技术方案包含架构设计、工作流优化和二阶计算逻辑,支持表和字段级打标,并自动捕获元数据变更。未来将扩展多数据源兼容,持续优化响应速度,推动数据治理智能化升级。

大模型训练的高效内存解决方案:流水线感知的细粒度激活卸载,实现显存开销与吞吐性能的联合最优

大语言模型训练中,激活值显存开销随序列长度二次方增长,成为核心瓶颈。细粒度激活卸载方案通过模块级卸载、计算-卸载重叠、全场景兼容设计,优化内存与性能平衡。实验显示,该方案在DeepSeek-V3等模型上以1%-2%吞吐损失换取10%-35%内存收益,或保证极致内存收益同时提升7%-10%吞吐性能,为千亿级模型、长序列训练提供高效内存解决方案。

首页 - Wiki
Copyright © 2011-2026 iteam. Current version is 2.154.0. UTC+08:00, 2026-02-21 01:05
浙ICP备14020137号-1 $访客地图$