OceanBase 向量检索在货拉拉的探索和实践

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. OceanBase 向量检索在货拉拉的 探索和实践 陈铨 货拉拉-大数据技术与产品部-高级大数据工程师
2. 目录 Contents 01 货拉拉介绍 02 大模型与向量数据库 03 向量数据库选型与落地 04 未来规划
3. 01 货拉拉介绍
4. • 2024年全球闭环货运交易总值最大的物流交易平台 • 2024年全球闭环货运 GTV 最大的同城物流交易平台 • 2024年全球已完成订单数量最多的物流交易平台 • 2024年全球平均月活商户最多的物流交易平台 全球 年订单 全球 月活用户 城市
5. 02 大模型与向量数据库
6. 大模型在货拉拉的应用 14个业务部门 50+业务场景
7. 大模型当前的痛点 大模型应用的四大问题 领域知识缺乏 过时 解决 幻觉 安全 问题 RAG(Retrieval Augmented Generation) 检索增强生成技术,利用检索外部文档提升生成结果质量 领域知识和私有数据 实时数据 减少生成不确定性 增强数据安全
8. RAG (检索增强生成) chunk Docs Split 文档 chunk Embedding chunk 向量数据库 Text 用户问题 Query Split Embedding LLMs 总结生成
9. 向量数据库 ➢ 存储非结构化数据 ⚫ 音频、视频、图片、文本 ⚫ 数据规模大,信息密度高,处理成本高 ➢ 向量化表示 ⚫ 通过神经网络提取数据特征,形成高维空间的坐标点 多模态数据 Embedding 嵌入向量 向量数据库 ⚫ 向量具备语义表达能力,用于相似性检索 ➢ 检索非结构化数据 ⚫ 通过向量间的距离(内积/欧氏距离)找出最相似的向量 ⚫ 检索过程是近邻图的遍历过程,需要进行大量浮点(距离)运算 L1:曼哈顿距离 L2:欧氏距离 Cosine:余弦距离
10. 03 向量数据库选型与落地
11. 现有架构 入口层 5+ 接入层 集群数量 检索层 384G 混合检索复杂 存储层 基础设施 单集群内存 2kw+ Document
12. 动态 Schema Step1 流程繁琐 Step2 索引重构耗时长 混合检索复杂 容易引发抖动 Step3
13. 混合检索 向量检索优势 全文检索优势 • 相近语义理解 • 精确匹配 • 多语言理解/跨语言理解 • 短文本匹配 • 多模态理解 • 倾向低频词汇的匹配 • 容错性强 • 可解释强 Hybrid Seach 多种存储介质 Reranking 混合检索优势 • 更高的检索召回精度:通过多路召回,既保证基于语义的查询结果, 也能保证精确检索。 • 更复杂的查询能力:可以利用全文检索的逻辑运算、排序、过滤等 功能,实现更复杂的查询需求。 • 更强的可解释性:可以利用全文检索的文本匹配和高亮显示,实现 更可解释的检索结果。 • 更灵活、可自定义:用户可自定义全文检索召回结果、向量检索召 回结果在最终结果的权重,为变化的检索场景选择更合适的检索手 段 标量检索 向量检索 相似度得分难统一 全文检索 用户实现 Reranking 关系数据库 向量数据库 ES
14. 运维痛点 1 稳定性能力弱 • 向量数据库自身不稳定,BUG 多 • 专家经验不足,问题排查困难 • 监控指标少,问题难定位 3 权限认证 • 权限认证能力弱,容易造成数据泄漏和安全等问题 • 需自行实现权限管理,增加了开发和运维的复杂性 2 扩展性不足 • 节点横行扩展能力差,数据需手工迁移 • 数据分片管理运维复杂 4 社区活跃度差 混合检索复杂 • 虽然项目仍在维护,但更新频率较低,社区贡献和开 发者参与度有限 • 功能和生态发展缓慢,无法满足业务未来的需求
15. 选型标准 业务诉求 • 功能:距离算法、索引、动态Schema • 检索:标量、向量、全文、混合检索 • 易用:支持 Go/Python/Java,文档完善 • 性能:召回率、P99 • 稳定性:稳定可靠、故障快恢 运维诉求 • 稳定性:高可用、监控完善 • 扩展性:动态扩缩容、多云部署 • 可维护性:组件依赖少、备份恢复、容灾 • 成熟度:大厂实践
16. 选型过程 候选集:10款 多云部署: 阿里云 ADB、腾讯云 VectorDB、Lindorm 向量纬度:pgvector 稳定性:Weaviate 淘汰 Zilliz(Milvus) Elasticsearch OceanBase(OB Cloud) 入围:3款 稳定性 运维成本
17. OB Cloud 扩展性 高可用 运维成本 弹性扩缩容 RPO = 0,RTO < 8秒 专注业务接入 OB Cloud 基于云上构建 向量存储服务
18. 资损代码识别 随着软件系统复杂性增加,代码中的潜在问题可能导致严重的财务损失。传统审查方法效率低且易遗漏问题。本项目结合向量 化技术和大模型,开发自动化代码风险识别系统。通过向量化历史代码并检索相似代码,利用大模型分析判断资损风险,提高代码审 查效率和准确性,帮助企业更好地控制开发过程中的风险。 混合检索复杂
19. 数仓 AI 答疑助手 随着大数据的发展和应用,元数据的复杂性和多样性日益增加,传统的元数据检索和找数方式逐步面临挑战。用户在找数过程中,由于需 要用户具备一定程度的业务知识和技术知识,经常会遇到各种数据理解和使用上的疑问,需要频繁跟技术来回沟通。尝试利用 AIGC 强大的自然 语言处理和文本理解能力,降低用户找数门槛,减轻隐性的沟通负担,从而进一步提升数据检索的效率。
20. 04 未来规划
21. 未来规划 存量业务迁移 性能与成本 内部系统集成 更多场景探索 • 融合查询能力 • 索引:HNSW_SQ、IVF等 • 大数据体系 • OLAP 场景探索 • 业务改造 • 表级别 TTL • 监控告警 • OBKV 场景探索 • 迁移工具 • 冷热分层 • DMS 数据库管理系统 ... ... ... ...
22. 谢谢
23. 谢谢
24. 谢谢

首页 - Wiki
Copyright © 2011-2025 iteam. Current version is 2.146.0. UTC+08:00, 2025-10-20 18:45
浙ICP备14020137号-1 $访客地图$