蚂蚁集团向量检索技术的挑战与实践

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 贾玮
2. 贾玮 ⚫ 蚂蚁集团 NoSQL数据库 和 向量数据库 技术负责人 ⚫ 2016年加入蚂蚁集团,专注于存储基础设施 ⚫ 对计算存储基础设施、中间件、向量检索有一定实践经验
3. 目录
4.
5.
6. vs 增长趋势 蚂蚁集团数据 +10% 数仓数据 vs 多媒体数据增速 ⚫ ⚫ ⚫ ⚫ +143%
7. ⚫ ⚫ ⚫ Vector Search ⚫ 向量化表示 ⚫ ⚫ 语义表达能力 ⚫ 图/倒排 ⚫ ⚫ ⚫ 大量浮点(距离)
8. ● ● ● ● ● ● ●
9. NoSQL / 全文检索 / 向量检索 资源需求 1TB+ 向量检索的高资源消耗 ⚫ 数万 ⚫ ⚫ 数千 10GB+ 数百 单CPU Core支持QPS NoSQL 100GB+ 1亿数据内存消耗GB 全文检索 向量检索
10. ⚫ ⚫ ⚫ ⚫ ⚫
11. ⚫ ⚫ ⚫ ⚫ ⚫
12. ⚫ ⚫ ⚫ ⚫
13. ⚫ ⚫ ⚫
14.
15. ⚫ ⚫ ⚫ ⚫ ⚫ ⚫
16. ⚫ ⚫ ⚫ ⚫ ⚫
17. ⚫ ⚫ ⚫
18. ⚫ ⚫ ⚫
19. ⚫ ⚫ ⚫
20. 稀疏向量特点 • • 关键词 短语
21.
22. 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 增加稀疏向量的收益 • 1@3 1@10
23.
24. 高性能表现 基于近似距离和线性分类器的 距离计算加速(应对成本挑战) ⚫ 近似距离 ⚫ 压缩向量 近似距离 ⚫ 原始向量 精确距离 ⚫ 1.4x ~ 2.2x
25. 高性能表现 ⚫ ⚫ ⚫ 内存排布 ⚫ 收益: 数据预取 +25% +20%
26. 更高召回率突破 共轭图 ⚫ ⚫ 查询反馈 ⚫ 连通性 ⚫ 基于生成: 99.8% 99.96% ⚫ 基于反馈: 99.8% 99.97% ⚫ ⚫ Tradeoff: 95% 增长3%
27. Binary 量化优化(RabitQ) ⚫ 量化技术 标量量化 乘积量化 ⚫ RabitQ ⚫ ⚫ RabitQ
28. 内存 + 磁盘索引上的改进(PAG) ⚫ 图-聚类 ⚫ ⚫ 分布式存储架构
29. HGraph 层次化图索引 ⚫ ⚫ ⚫ 索引框架 ⚫
30.
31. VSAG 是什么? ● ● ● ● ● ● ● VSAG 己在 Github 开源
32. ANN Benchmark 算法挑战 ✓ ✓ 优化策略 • • • • • • • • • •
33. PyVSAG 版本己发布 支持Python 生态快速接入 SQLite 集成 VSAG 向量索 引库 即将发布 集成 VSAG 向量索引的 VectorDB Module 即将发布 Oceanbase / Greptime 完 成 VSAG 向量索引集成
34. VSAG 规划 ⚫ ⚫ ⚫ ⚫ ⚫ ⚫ ⚫ ⚫ ⚫ support AMX instruction acceleration on Intel CPU ⚫ support attributes stored in vector index ⚫ support graph structure compression
35. 向量检索的挑战 与 实践 最新学术研究与应用 非结构化数据飞速增长 Binary量化 • 数据规模大,信息密度高,处理成本高 • • 向量检索、RAG 需求快速增长 HGraph层次化索引框架 向量检索的 新CAP 问题 • • 在 成本、精度、性能 之间取舍 向量数据库实践 • 存储工程 与 向量索引算法 深度优化 • 通过混合磁盘索引 降低成本 • 应用稀疏向量提升召回率 磁盘索引上的改进 • 基于公开 Benchmark 工具的性能调优 •
36.
37. 公众号 VSAG开源交流
38. 大模型正在重新定义软件 Large Language Model Is Redefining The Software

ホーム - Wiki
Copyright © 2011-2025 iteam. Current version is 2.147.0. UTC+08:00, 2025-10-27 00:23
浙ICP备14020137号-1 $お客様$