OceanBase 向量检索在货拉拉的探索和实践

1. OceanBase 向量检索在货拉拉的探索和实践陈铨货拉拉-大数据技术与产品部-高级大数据工程师

2. 目录 Contents 01 货拉拉介绍 02 大模型与向量数据库 03 向量数据库选型与落地 04 未来规划

3. 01 货拉拉介绍

4. • 2024年全球闭环货运交易总值最大的物流交易平台 • 2024年全球闭环货运 GTV 最大的同城物流交易平台 • 2024年全球已完成订单数量最多的物流交易平台 • 2024年全球平均月活商户最多的物流交易平台全球年订单全球月活用户城市

5. 02 大模型与向量数据库

6. 大模型在货拉拉的应用 14个业务部门 50+业务场景

7. 大模型当前的痛点大模型应用的四大问题领域知识缺乏过时解决幻觉安全问题 RAG(Retrieval Augmented Generation) 检索增强生成技术，利用检索外部文档提升生成结果质量领域知识和私有数据实时数据减少生成不确定性增强数据安全

8. RAG （检索增强生成） chunk Docs Split 文档 chunk Embedding chunk 向量数据库 Text 用户问题 Query Split Embedding LLMs 总结生成

9. 向量数据库 ➢ 存储非结构化数据 ⚫ 音频、视频、图片、文本 ⚫ 数据规模大，信息密度高，处理成本高 ➢ 向量化表示 ⚫ 通过神经网络提取数据特征，形成高维空间的坐标点多模态数据 Embedding 嵌入向量向量数据库 ⚫ 向量具备语义表达能力，用于相似性检索 ➢ 检索非结构化数据 ⚫ 通过向量间的距离（内积/欧氏距离）找出最相似的向量 ⚫ 检索过程是近邻图的遍历过程，需要进行大量浮点（距离）运算 L1：曼哈顿距离 L2：欧氏距离 Cosine：余弦距离

10. 03 向量数据库选型与落地

11. 现有架构入口层 5+ 接入层集群数量检索层 384G 混合检索复杂存储层基础设施单集群内存 2kw+ Document

12. 动态 Schema Step1 流程繁琐 Step2 索引重构耗时长混合检索复杂容易引发抖动 Step3

13. 混合检索向量检索优势全文检索优势 • 相近语义理解 • 精确匹配 • 多语言理解/跨语言理解 • 短文本匹配 • 多模态理解 • 倾向低频词汇的匹配 • 容错性强 • 可解释强 Hybrid Seach 多种存储介质 Reranking 混合检索优势 • 更高的检索召回精度：通过多路召回，既保证基于语义的查询结果，也能保证精确检索。 • 更复杂的查询能力：可以利用全文检索的逻辑运算、排序、过滤等功能，实现更复杂的查询需求。 • 更强的可解释性：可以利用全文检索的文本匹配和高亮显示，实现更可解释的检索结果。 • 更灵活、可自定义：用户可自定义全文检索召回结果、向量检索召回结果在最终结果的权重，为变化的检索场景选择更合适的检索手段标量检索向量检索相似度得分难统一全文检索用户实现 Reranking 关系数据库向量数据库 ES

14. 运维痛点 1 稳定性能力弱 • 向量数据库自身不稳定，BUG 多 • 专家经验不足，问题排查困难 • 监控指标少，问题难定位 3 权限认证 • 权限认证能力弱，容易造成数据泄漏和安全等问题 • 需自行实现权限管理，增加了开发和运维的复杂性 2 扩展性不足 • 节点横行扩展能力差，数据需手工迁移 • 数据分片管理运维复杂 4 社区活跃度差混合检索复杂 • 虽然项目仍在维护，但更新频率较低，社区贡献和开发者参与度有限 • 功能和生态发展缓慢，无法满足业务未来的需求

15. 选型标准业务诉求 • 功能：距离算法、索引、动态Schema • 检索：标量、向量、全文、混合检索 • 易用：支持 Go/Python/Java，文档完善 • 性能：召回率、P99 • 稳定性：稳定可靠、故障快恢运维诉求 • 稳定性：高可用、监控完善 • 扩展性：动态扩缩容、多云部署 • 可维护性：组件依赖少、备份恢复、容灾 • 成熟度：大厂实践

16. 选型过程候选集：10款多云部署：阿里云 ADB、腾讯云 VectorDB、Lindorm 向量纬度：pgvector 稳定性：Weaviate 淘汰 Zilliz（Milvus） Elasticsearch OceanBase（OB Cloud）入围：3款稳定性运维成本

17. OB Cloud 扩展性高可用运维成本弹性扩缩容 RPO = 0，RTO < 8秒专注业务接入 OB Cloud 基于云上构建向量存储服务

18. 资损代码识别随着软件系统复杂性增加，代码中的潜在问题可能导致严重的财务损失。传统审查方法效率低且易遗漏问题。本项目结合向量化技术和大模型，开发自动化代码风险识别系统。通过向量化历史代码并检索相似代码，利用大模型分析判断资损风险，提高代码审查效率和准确性，帮助企业更好地控制开发过程中的风险。混合检索复杂

19. 数仓 AI 答疑助手随着大数据的发展和应用，元数据的复杂性和多样性日益增加，传统的元数据检索和找数方式逐步面临挑战。用户在找数过程中，由于需要用户具备一定程度的业务知识和技术知识，经常会遇到各种数据理解和使用上的疑问，需要频繁跟技术来回沟通。尝试利用 AIGC 强大的自然语言处理和文本理解能力，降低用户找数门槛，减轻隐性的沟通负担，从而进一步提升数据检索的效率。

20. 04 未来规划

21. 未来规划存量业务迁移性能与成本内部系统集成更多场景探索 • 融合查询能力 • 索引：HNSW_SQ、IVF等 • 大数据体系 • OLAP 场景探索 • 业务改造 • 表级别 TTL • 监控告警 • OBKV 场景探索 • 迁移工具 • 冷热分层 • DMS 数据库管理系统 ... ... ... ...

22. 谢谢

23. 谢谢

24. 谢谢