AI工程：RAG的相关资料

我搭了一个智能体，帮想转岗AI产品经理的小伙伴更好的准备面试

AI产品经理面试难在跨业务与技术，押题无方向、回答缺逻辑。为此打造的智能体能拆解JD核心考核点，生成匹配的高频面试题及解题框架。它结合知识库与联网检索，提供结构化回答示例，授人以渔。工作流设计清晰：JD拆解→考核点押题→题目解析，循环调用确保覆盖全面。体验优化上注重等待动画与Markdown渲染，让准备面试更高效。智能体逻辑可复用于写作等场景，展现元器平台的灵活应用潜力。

从工单、文档到结构化知识库：一套可复用的 Agent 知识采集方案

本文介绍了一套全链路自动化知识库建设方案，通过“自动提取→智能泛化→增量更新→向量化同步”的流程，解决了知识收集、质量提升和维护更新的难题。方案利用AI模拟人类工作流程，将多源知识智能提取并泛化为多样化提问方式，提升RAG召回效果，并通过Python工具和工作流实现自动化操作，大幅降低知识库建设门槛与维护成本。

阿里巴巴技术

从人力推车到智能引擎：QA 智绘项目的测试用例自动生成术

AI驱动的「QA智绘」项目通过智能引擎构建测试用例生成系统，解决传统测试中的“杀虫剂悖论”和用例维护难题。系统采用三层架构，结合AI能力实现需求解析、用例生成与优化，并通过人机协同审核确保质量。接口测试模块则通过代码+调用链双驱动，实现全覆盖与自优化，显著提升测试效率与精准度。

雪球技术

大数据数据资产智能答疑实践

大数据中台建设中，数仓作为数据资产中心，承担数据清洗与分发任务。货拉拉数仓日益庞大，用户自助查询需求凸显。智能答疑工具采用Fine-tuning与Embeddings技术，结合HyDE与GraphRAG，提升问题匹配精度与响应速度。通过RAG架构，优化问题分类与答疑流程，推动数仓智能化，降低成本，提高效率。未来方向包括数据血缘打通、AISQL应用及更多RAG架构拓展。

货拉拉技术

IMA知识库：从0到1的架构设计与实践

知识库作为AI时代的信息中枢，从传统存储进化为智能助手。本文揭秘腾讯IMA知识库的架构设计：通过统一数据格式解耦异构源，异步削峰应对入库洪峰，服务拆分提升管理效率，双重机制保障数据一致性，深度建模实现权限安全。架构演进支撑了20+格式处理、日均百万级调用，让海量知识高效转化为智能对话。

腾讯技术

告别关键词高亮，语义高亮才是解决搜索 / Agent噪音的标准答案

语义高亮在RAG和AI Agent场景中至关重要，但传统基于关键词的高亮无法满足语义需求。现有方案如OpenSearch、Provence等存在窗口小、泛化差、多语言支持不足等问题。我们自研了双语语义高亮模型，基于BGE-M3 Reranker v2，支持中英文，上下文窗口大，泛化能力强，已在HuggingFace开源预览版，未来将集成到Milvus中，提升检索效率。

面向复杂场景的高阶检索增强生成技术探索

高阶RAG技术突破传统局限，适应复杂业务场景。Adaptive RAG通过动态策略提升效率，Agentic RAG引入智能体实现自主决策，OG-RAG利用本体论增强推理能力，OAG则将推理转化为实际行动，形成闭环。这些技术共同推动知识服务向精准、高效、自动化方向演进，为企业级应用提供强大支撑。

RAG-Anything × Milvus：读PDF要集成20个工具的RAG时代结束了！

RAG-Anything项目通过"1+3+N"架构，结合LightRAG知识图谱和Milvus向量数据库，实现多模态内容处理。核心在于并行处理文本、图像、表格和公式，提升效率。未来趋势包括扩大模态覆盖、增强实时处理能力和普及边缘计算。

让AI真正懂数据：猫超Matra项目中的AI知识库建设之路

猫超数据团队推出AI数据助手Matra，通过构建结构化知识库和知识图谱，实现自然语言智能取数。该方案解决了数据资产分散、语义模糊等痛点，支持业务同学低门槛获取数据，提升开发效率。目前已在资产查询、智能问数等场景落地，准确率超75%。未来将持续优化召回精度和知识保鲜机制，打造更智能的数据基础设施。

阿里巴巴技术

光大银行推出“问数”智能分析工具，融合AI大模型与BI可视化技术，实现对话式数据问答。该工具采用Text2DSL技术路线，支持用户对已有报表数据指标的问答场景，通过知识召回、提示词工程、DSL拼接和结果整理四大核心环节，提升数据分析效率与用户体验。问答准确率优化策略包括领域微调训练、多阶段重排序、交互式歧义消除和大模型幻觉识别机制，确保查询精准性。“问数”工具已服务2600余名用户，未来将持续拓展数据范围与技术适配能力，助力银行数据驱动增长。

从0到1搭建一个智能分析OBS埋点数据的AI Agent

通过AI Agent自动生成SQL查询，解决Grafana数据分析中的痛点。利用RAGFlow理解表结构，封装查询API为Tool，构建OBS Agent实现数据查询与分析自动化。结合Trae工具，优化Prompt设计，最终生成详细数据分析报告，提升数据分析效率与灵活性。

得物技术

数据库AI方向探索-MCP原理解析&DB方向实战

MCP（Model Context Protocol）是一种开放标准协议，旨在统一大型语言模型与外部数据源、工具及服务的交互方式。通过JSON-RPC 2.0定义通信规则，MCP采用客户端-服务器模式，包含MCP Host、MCP Client和MCP Server三个关键组件。它整合了RAG和Function Calling技术，提供标准化接口，扩展AI能力，降低开发复杂度，推动AI生态标准化发展。

得物技术

百度慧播星数字人技术演进

百度慧播星作为全链路AI直播平台，通过检索增强和强化学习生成高转化脚本，利用智能中控优化直播策略，实现语音与形象克隆的“小时级”效率。平台覆盖电商、教育等多行业，日均服务2万+直播间，罗永浩数字人直播GMV突破5500万。未来，慧播星将持续迭代，提升智能化与拟真度，优化直播体验。

百度技术

推荐系统三十年：从协同过滤到大模型时代的技术编年史

推荐系统30年演进史：从协同过滤到生成式AI。1992年Tapestry首创协同过滤，2006年Netflix Prize推动矩阵分解成为黄金标准，2016年深度学习全面统治，Wide&Deep、DIN等模型重塑工业架构。2023年起，大语言模型带来范式转移，生成式推荐、提示学习等新技术涌现，Meta、快手等已实现落地。技术演进始终围绕解决数据稀疏、冷启动等核心问题展开，未来将向多模态、个性化LLM方向发展。

腾讯技术

LlamaIndex 深度实战：用《长安的荔枝》学会构建智能问答系统

本文深入探讨了RAG技术原理及LlamaIndex实战应用，通过《长安的荔枝》案例，详细解析了AI如何像人类一样“读书”。从基础概念到实战代码，再到参数优化与系统架构，全面展示了如何构建高效问答系统。此外，还介绍了如何通过AgentBay扩展RAG功能，实现多源信息整合与自动化操作。

阿里巴巴技术

利用LLM赋能测试用例生成

大模型技术正革新测试用例生成！传统手工编写效率低、覆盖不全，而LLM能快速解析需求，智能生成用例，覆盖正向、异常、边界等场景，确保一致性与可维护性。通过知识库构建、功能点转化、等价类划分等关键技术，实现从需求到用例的自动化流程。人机协同模式既提升效率，又保障质量，为软件测试带来全新突破。