AI模型架构：BERT的相关资料

从零开始的大模型之旅｜解码大模型：开篇&技术篇1.1—基础架构概念

探索大模型技术之旅：从Transformer架构到预训练微调，再到参数规模与模型能力的关系，揭示了现代AI的核心原理。涌现能力的突现性、不可预测性和临界性，展示了AI系统的复杂动力学。MoE架构通过稀疏激活实现效率与性能的平衡，稀疏模型则代表了未来超大规模模型的发展方向。这些技术共同推动了大模型的广泛应用与创新。

京东技术

告别关键词高亮，语义高亮才是解决搜索 / Agent噪音的标准答案

语义高亮在RAG和AI Agent场景中至关重要，但传统基于关键词的高亮无法满足语义需求。现有方案如OpenSearch、Provence等存在窗口小、泛化差、多语言支持不足等问题。我们自研了双语语义高亮模型，基于BGE-M3 Reranker v2，支持中英文，上下文窗口大，泛化能力强，已在HuggingFace开源预览版，未来将集成到Milvus中，提升检索效率。

LLM 系列（十八）：注意力机制 Attention

NLP领域的核心在于构建理解语言序列与上下文依赖的模型。RNN及其变体虽一度主导，但序列递归处理存在不可并行化与长距离依赖丢失问题。Transformer以注意力机制实现全局并行，突破递归限制，依赖Q、K、V捕捉词间关系，多头设计提升表达力。随着模型规模扩大，MHA、MQA、GQA、MLA等变体在性能与资源间寻求平衡，FlashAttention等工程优化则释放了计算潜力。

从 Bert 到 LLM：360 广告推荐业务中语言模型的应用探索

360 广告推荐业务中从 BERT 到 LLM 的语言模型应用探索，主要侧重工业界实际业务场景使用的角度，讨论语言模型在推荐系统的发展和应用。本次分享分为四部分：第一部分介绍 360 广告推荐业务的背景及为何使用语言模型的需求。第二部分分析语言模型在推荐系统中各算法的适用场景。第三部分介绍我们在广告业务场景中从 2021 年起的一系列语言模型应用实践。第四部分为总结和展望。

初步了解预训练语言模型BERT

BERT是由Google提出的预训练语言模型，它基于transformer架构，被广泛应用于自然语言处理领域，是当前自然语言处理领域最流行的预训练模型之一。

搜狐技术

Bert在UU跑腿地址解析任务中的应用

快递服务业在人们的生活中起着越来越重要的作用，寄快递的第一步就是填写寄件人、收件人信息，这些信息包括但不限于姓名、电话号、地址、门牌号等。随着用户越来越“懒”，产品也要越来越“精”，如何从用户粘贴的一段文本中快速、精准地识别出实体信息对用户的产品体验至关重要。

UU跑腿技术

NLP之NER：商品标题属性识别探索与实践

最近一段时间在做商品理解的工作，主要内容是从商品标题里识别出商品的一些属性标签，包括不限于品牌、颜色、领型、适用人群、尺码等等。这类任务可以抽象成命名实体识别（Named Entity Recognition, NER）工作，一般用序列标注（Sequence Tagging）的方式来做，是比较成熟的方向。