AI工程：RAG的相关资料

别迷信单向量检索！医疗法律 RAG 就该用多向量列方案

多向量混合检索通过整合文本语义、关键词及多模态信息，提升复杂场景下的搜索准确度。其核心包括稀疏-稠密向量搜索和多模态向量搜索，适用于电商、医疗、法律等领域。Milvus和Zilliz Cloud提供灵活的数据结构、多样化的索引与度量方式，支持全文搜索和重排序机制，确保检索结果的精准性和稳定性。

The Evolution from RAG to Agentic RAG to Agent Memory

AI智能体的记忆机制从基础的RAG逐步演化为代理式RAG，最终引入记忆管理概念。RAG通过外部知识源增强LLM的上下文，代理式RAG则让智能体动态决定是否检索及选择工具，而记忆机制进一步允许智能体读写信息，实现个性化交互。记忆管理涉及多种类型记忆源，并需应对记忆损坏和遗忘策略等新挑战。

RAG—Chunking策略实战

分块技术是RAG系统的关键，决定了知识检索的连贯性和准确性。不当分块会导致信息断裂，影响模型推理。高质量分块需结合文档结构、语义边界和适度重叠，避免固定长度切割。策略包括基础分块、结构感知、语义主题分块及高级混合方法，需根据文本类型调整参数。优化分块能显著提升检索相关性和答案质量，是改善RAG性能的核心。

得物技术

Develop an on-device RAG system powered by Gemma models

Google的EmbeddingGemma 300M模型支持在移动设备上生成文本嵌入，适用于多语言语义搜索、分类等任务。本文详细讲解了如何从PDF提取文本、分块、生成嵌入向量，并通过Gemma模型进行语义匹配和查询应答。开发者可利用IText Core库提取PDF文本，使用Deep Java Library进行分块，运行EmbeddingGemma生成向量，最后通过Gemma 3模型生成上下文相关的答案。整个过程无需依赖服务器，完全在设备端完成。

C3仓库AI代码门禁通用实践：基于Qwen3-Coder+RAG的代码评审

在C3级代码仓库中，团队通过Qwen3-Coder、RAG和Iflow实现了LLM代码评审的自动化实践。结合百炼Embedding构建知识索引，AI在CI流水线中自动触发评审，识别并发缺陷、资源泄漏等问题，显著提升评审效率与质量。AI评审已成功拦截多次高危缺陷，展现出与传统人工评审互补的优势，并在持续优化中探索修复建议生成。

阿里巴巴技术

RAG实践:一文掌握大模型RAG过程

RAG框架结合了信息检索与生成式大模型，突破传统限制，提升知识新鲜度与准确性。通过文档解析、数据清洗、元数据提取、内容分块、向量化等步骤，构建高效检索系统。问答阶段则包括查询预处理、数据检索、重排序、信息整合与LLM生成，确保答案精准且来源可靠。优化分块策略与混合检索方法，进一步提升系统性能与用户体验。

京东技术

RAG在B站大会员中心数据智能平台的应用实践

B站大会员中心利用RAG技术提升数据查询效率，通过自然语言转SQL，业务人员无需掌握SQL技能即可快速获取数据。RAG结合向量数据库与LLM，解决传统LLM生成SQL的“幻觉”问题，确保生成SQL的准确性。系统工作流程包括用户层、解析层、核心处理层、优化层和输出层，显著缩短数据获取周期，提升业务决策效率。

哔哩哔哩技术

打破RAG局限！意图+语义双检索框架来了

数字化转型中，智能客服和智能外呼通过多轮对话技术提升企业效率，但仍面临上下文理解不足和重复回复问题。CID-GraphRAG框架创新融合意图图谱与语义检索，构建双层检索机制，优化对话连贯性与目标导向。实验显示，该系统在检索与回复生成上显著优于传统方法，有效提升客服体验，推动会话式AI发展。

货拉拉技术

Meta如何给RAG做Context Engineering，让模型上下文增加16倍

Meta超级智能实验室提出的REFRAG框架，通过智能压缩上下文，解决了RAG与Agent长上下文处理中的高内存成本和冗余计算问题。该框架采用分块压缩、选择性扩展和高效推理策略，显著提升了首token生成速度和上下文处理长度，特别适用于RAG、多轮对话和长文档摘要等高吞吐量场景。

万字长文详解腾讯优图RAG技术的架构设计与创新实践

腾讯优图实验室通过前沿RAG技术，解决了信息爆炸时代下数据检索与生成的难题。其全栈解决方案涵盖了语义检索、结构化表检索和图检索，突破了传统局限。通过多阶段训练、精细化数据工程和多任务均衡配置，大幅提升了Embedding和Reranker模型的性能。自研的GraphRAG框架在构图效率和复杂推理上取得突破，推动了产业智能化升级。

腾讯技术

运用 Elasticsearch 进行向量搜索及创建 RAG 应用

Elasticsearch作为全球最大搜索引擎，广泛应用于ToB业务。智能时代下，传统词汇搜索逐渐向向量搜索过渡，突破了语义和语言的限制。Elasticsearch支持密集向量和稀疏向量搜索，结合RAG技术，显著提升了搜索的准确性和召回率。通过混合搜索和多级排序，进一步优化了搜索体验。Elasticsearch在性能优化、多模态搜索和企业搜索中的应用案例展示了其强大能力。

首个Nano-banana企业级多模态RAG教程，适合电商、游戏场景

Nano Banana作为当下最强的AI生图模型，能根据描述生成精细图片，并支持快速编辑。它已应用于娱乐公司和电商，实现换装、换发型等功能。结合Milvus向量数据库，搭建了多模态RAG系统，支持以文搜图。Nano Banana还帮助品牌创作宣传图，甚至制作手办原型，展现了高一致性和细节处理能力，但在复杂场景中仍需优化提示词和光影描述。

为什么说 RAG 2.0 是知识密集型 AI 的关键拐点？

RAG 2.0是传统检索增强生成的升级版，旨在解决旧版本中检索器与生成器不协调的问题。通过将两者融为一体，形成一个可训练的整体系统，显著提升了回答的准确性与可靠性。RAG 2.0优化了检索策略，从稀疏到稠密，并引入重排序器和联合训练，使检索器与生成器形成反馈闭环。未来，RAG将从独立模块逐步走向端到端联合训练，成为知识密集型AI应用的核心基石。

企业级基于DeepSeek模型的RAG系统，保姆教程来了！

Datawhale开源项目happy-llm更新了建筑文档智能RAG审查系统，帮助开发者理解知识引导检索在建筑文档审查中的应用。系统通过动态语义分块和生成式知识引导检索，提升了审查的准确性和效率。项目详细介绍了从LLM模块到文档预处理模块的实现步骤，并展示了如何通过智能化问询生成和知识引导检索来识别文档中的合规性问题。源码已开源，供开发者参考和扩展。

LLM 系列（十）：RAG 番外篇-向量检索

向量检索技术从关键词匹配演进到语义理解，通过稀疏检索（TF-IDF、BM25）与稠密检索（Embedding、ANN）的结合，实现高效精准的信息匹配。HNSW和IVF是ANN算法的代表，混合检索和多级检索策略进一步提升系统性能。优化索引参数、查询处理和引入反馈机制，可显著提升召回精度，构建智能检索系统。

Embedding无敌？是做文档处理RAG最大的幻觉（含LangExtract+Milvus教程）

Claude Context提升了代码检索效率，但无法完全替代grep。实际应用中，embedding、全文检索等技术需结合使用。谷歌LangExtract擅长从非结构化文档中提取结构化信息，Milvus则擅长语义相似度检索。两者结合可构建智能文档处理系统，适用于法律、医疗等场景。通过LangExtract提取信息并存入Milvus，可实现语义搜索和精确元数据过滤，提升检索效果。