AI模型架构：Transformer的相关资料

Transforming Ads Personalization with Sequential Modeling and Hetero-MMoE at Uber

Uber广告系统通过大规模机器学习模型优化广告投放，提升个性化推荐效果。系统引入目标感知Transformer编码器捕捉用户行为序列，增强长期意图建模。同时，采用异构MMoE框架融合多种专家模块，提升跨特征交互能力。升级后的模型显著提高了点击率和转化率，为用户提供更精准的广告推荐，促进广告主和平台的双赢。未来将进一步探索实时序列和长上下文建模，持续优化广告投放效果。

uber技术

语音评测技术在古诗背诵场景中的应用

语音评测技术助力口语学习，通过AI智能评估发音准确度、流畅度等，提升学习效率。技术框架基于HMM-DNN模型，结合GOP方法进行打分，实现高效语音对齐与评分。Conformer模型改进适应流式评测，降低延迟。古文背诵应用特殊处理多分支评测，优化用户体验。本地化评测方案结合端云一体，减少延迟，提升服务稳定性。未来有望实现完全端到端训练，进一步提高准确度。

作业帮技术

视频生成推理加速实践：基于全局时间索引的序列并行 3D 位置编码优化

Wan2.1是一款基于扩散Transformer架构的视频生成模型，采用全时空并行建模，生成质量领先。然而，全局扩散模型在长视频推理中面临显存和计算复杂度膨胀、固定长度假设及流式推理难题。Self-Forcing引入因果自回归生成，通过逐块生成和KV缓存机制，显著降低首帧延迟，支持实时生成，为长视频和流式推理提供新路径。

哔哩哔哩技术

马斯克说到做到：开源X平台核心推荐算法

X开源了内容推荐的召回和精排模型代码，展示了其Feed推荐系统的透明性。召回模型采用双塔结构，用户塔使用Transformer处理用户特征和行为序列，内容塔则用MLP处理帖子信息。精排模型同样基于Transformer，引入候选隔离机制，确保候选间互不影响。两阶段模型分别负责海量候选的初步筛选和精细排序，最终选出用户最感兴趣的帖子。

腾讯技术

社区推荐重排技术：双阶段框架的实践与演进

推荐系统重排环节通过生成式模型优化序列推荐效果。非自回归模型实现快速并行推理，自回归模型增强上下文依赖，结合MTP技术提升推理效率。工程上采用GPU加速和KV缓存优化性能。未来规划构建端到端生成架构，融合强化学习实现全局优化，突破质量-延迟-多样性瓶颈，推动AIGC与推荐系统深度结合。

得物技术

喜马大模型推荐算法优化（一）：生成式推荐的落地实践之路

喜马拉雅采用生成式推荐技术优化音频内容分发，解决了长音频反馈密度低、冷启动难等痛点。通过Transformer架构捕捉用户行为序列，显著提升内容分发效率和用户留存。生成式推荐模型在首页和播放页场景中全量上线，验证了其在音频推荐场景中的技术价值与业务潜力。

喜马拉雅技术

当我们谈论 AI 推理的 KV Cache，我们在说什么？

Transformer架构以注意力机制为核心，突破了RNN的串行计算局限，实现了高效的并行训练。通过向量表示和注意力矩阵，Transformer能捕捉丰富的上下文信息，优化模型性能。KV Cache技术的引入进一步提升了推理效率，减少了重复计算。未来，Transformer可能迈向Post-Transformer时代，结合物理世界体验，推动AGI的发展。

阿里巴巴技术

这大概是我读过关于AI大模型最全面、好读又易懂的文章了

神经网络是AI的核心，通过模拟大脑神经元进行学习和预测。大模型基于神经网络，处理自然语言时需分词、向量化，并通过Transformer等架构融合上下文信息。训练过程中，模型通过损失函数更新参数，利用自监督学习优化性能。AI浪潮下，GPU并行计算成为基础设施，推动大模型发展。RAG等技术的应用，增强了模型的实时数据处理能力。

腾讯技术

1篇搞懂AI通识:大白话拆解核心点

AI技术正从实验室走向生活，涵盖机器学习、深度学习和大模型等核心概念。Transformer架构成为现代大模型基石，通过注意力机制高效处理文本。优化技术如MOE、量化和微调让AI更轻量实用。从基础理论到落地应用，AI已融入聊天、办公、编程等场景，理解其底层逻辑能让复杂概念更清晰。掌握这些知识，轻松看透AI技术的核心价值。

京东技术

从零开始的大模型之旅｜解码大模型：开篇&技术篇1.1—基础架构概念

探索大模型技术之旅：从Transformer架构到预训练微调，再到参数规模与模型能力的关系，揭示了现代AI的核心原理。涌现能力的突现性、不可预测性和临界性，展示了AI系统的复杂动力学。MoE架构通过稀疏激活实现效率与性能的平衡，稀疏模型则代表了未来超大规模模型的发展方向。这些技术共同推动了大模型的广泛应用与创新。

京东技术

阿里云Tair KVCache仿真分析：高精度的计算和缓存模拟设计与实现

KVCache在大模型推理中逐渐升级为系统级基础设施，面临高维配置空间的优化挑战。阿里云推出Tair-KVCache-HiSim，首个分布式多级KVCache管理仿真工具，通过全链路建模实现高精度性能预测，支持计算选型、存储规划与调度策略协同优化，显著降低推理性能评估成本，助力智能化推理系统设计与部署。

阿里巴巴技术

阿里云Tair KVCache Manager：企业级全局 KVCache 管理服务的架构设计与实现

阿里云即将开源企业级全局KVCache管理服务Tair KVCache Manager，专为Agentic AI设计。该服务通过高性能网络解耦算力与存储，支持PB级KVCache池化，具备动态伸缩、多租户隔离等能力，兼容主流推理引擎。架构上采用中心化元数据管理，抽象LLM语义接口，并集成多种存储后端，显著提升大模型推理性能与资源利用率。

阿里巴巴技术

淘宝推出ReaSeq：基于世界知识推理的序列建模

推荐系统面临日志驱动范式的瓶颈，ReaSeq框架引入大语言模型，突破两大局限：丰富外部知识、捕捉日志外兴趣。通过推理增强表征与生成式行为推理，ReaSeq提升商品表征质量和用户兴趣感知能力，显著优化CTR模型性能，实现电商场景点击与转化指标的全面提升。

阿里巴巴技术

Hybrid Model Support：阿里云 Tair 联合 SGLang对 Mamba-Transformer 等混合架构模型的支持方案

阿里云Tair KVCache团队与SGLang社区合作，针对大模型推理中的显存与计算瓶颈，提出了混合架构模型支持方案。通过双内存池设计、状态快照技术及推测解码适配，解决了Transformer与Mamba模型的内存管理冲突，显著提升了推理效率。实测Qwen3-Next等混合模型在SGLang上表现出色，为大规模推理提供了高效、可靠的技术支持。

阿里巴巴技术

LLM 系列（十八）：注意力机制 Attention

NLP领域的核心在于构建理解语言序列与上下文依赖的模型。RNN及其变体虽一度主导，但序列递归处理存在不可并行化与长距离依赖丢失问题。Transformer以注意力机制实现全局并行，突破递归限制，依赖Q、K、V捕捉词间关系，多头设计提升表达力。随着模型规模扩大，MHA、MQA、GQA、MLA等变体在性能与资源间寻求平衡，FlashAttention等工程优化则释放了计算潜力。

转转大数据与AI——数据治理安全打标实践

转转利用AI大模型技术实现大数据治理中的自动安全打标，通过优化提示词、分批次处理、重计算等手段提升准确率。AI打标支持表和字段粒度，自动化流程降低成本，提高效率。未来规划包括覆盖全业务数据源、优化响应速度及自适应多数据源表优化服务，推动数据治理智能化发展。

58同城技术