LLM 系列(十八):注意力机制 Attention

摘要

NLP领域的核心在于构建理解语言序列与上下文依赖的模型。RNN及其变体虽一度主导,但序列递归处理存在不可并行化与长距离依赖丢失问题。Transformer以注意力机制实现全局并行,突破递归限制,依赖Q、K、V捕捉词间关系,多头设计提升表达力。随着模型规模扩大,MHA、MQA、GQA、MLA等变体在性能与资源间寻求平衡,FlashAttention等工程优化则释放了计算潜力。

欢迎在评论区写下你对这篇文章的看法。

评论

trang chủ - Wiki
Copyright © 2011-2025 iteam. Current version is 2.148.2. UTC+08:00, 2025-12-19 20:25
浙ICP备14020137号-1 $bản đồ khách truy cập$