蚂蚁集团向量检索技术的挑战与实践
如果无法正常显示,请先停止浏览器的去广告插件。
1. 贾玮
2. 贾玮
⚫ 蚂蚁集团 NoSQL数据库 和 向量数据库 技术负责人
⚫ 2016年加入蚂蚁集团,专注于存储基础设施
⚫ 对计算存储基础设施、中间件、向量检索有一定实践经验
3. 目录
4.
5.
6. vs
增长趋势
蚂蚁集团数据
+10%
数仓数据 vs 多媒体数据增速
⚫
⚫
⚫
⚫
+143%
7. ⚫
⚫
⚫
Vector Search
⚫
向量化表示
⚫
⚫ 语义表达能力
⚫ 图/倒排
⚫
⚫
⚫
大量浮点(距离)
8. ●
●
●
●
●
●
●
9. NoSQL / 全文检索 / 向量检索 资源需求
1TB+
向量检索的高资源消耗
⚫
数万
⚫
⚫
数千
10GB+
数百
单CPU Core支持QPS
NoSQL
100GB+
1亿数据内存消耗GB
全文检索
向量检索
10. ⚫
⚫
⚫
⚫
⚫
11. ⚫
⚫
⚫
⚫
⚫
12. ⚫
⚫
⚫
⚫
13. ⚫
⚫
⚫
14.
15. ⚫
⚫
⚫
⚫
⚫
⚫
16. ⚫
⚫
⚫
⚫
⚫
17. ⚫
⚫
⚫
18. ⚫
⚫
⚫
19. ⚫
⚫
⚫
20. 稀疏向量特点
•
•
关键词
短语
21.
22. 1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
增加稀疏向量的收益
•
1@3
1@10
23.
24. 高性能表现
基于近似距离和线性分类器的
距离计算加速(应对成本挑战)
⚫
近似距离
⚫ 压缩向量 近似距离
⚫ 原始向量 精确距离
⚫
1.4x ~ 2.2x
25. 高性能表现
⚫
⚫
⚫ 内存排布
⚫ 收益:
数据预取
+25%
+20%
26. 更高召回率突破
共轭图
⚫
⚫
查询反馈
⚫
连通性
⚫ 基于生成: 99.8% 99.96%
⚫ 基于反馈: 99.8% 99.97%
⚫
⚫ Tradeoff:
95%
增长3%
27. Binary 量化优化(RabitQ)
⚫ 量化技术
标量量化 乘积量化
⚫
RabitQ
⚫
⚫
RabitQ
28. 内存 + 磁盘索引上的改进(PAG)
⚫
图-聚类
⚫
⚫
分布式存储架构
29. HGraph 层次化图索引
⚫
⚫
⚫
索引框架
⚫
30.
31. VSAG 是什么?
●
●
●
●
●
●
● VSAG 己在 Github 开源
32. ANN Benchmark 算法挑战
✓
✓
优化策略
•
•
•
•
•
•
•
•
•
•
33. PyVSAG 版本己发布
支持Python 生态快速接入
SQLite 集成 VSAG 向量索
引库 即将发布
集成 VSAG 向量索引的
VectorDB Module 即将发布
Oceanbase / Greptime 完
成 VSAG 向量索引集成
34. VSAG 规划
⚫
⚫
⚫
⚫
⚫
⚫
⚫
⚫
⚫ support AMX instruction acceleration on Intel CPU
⚫ support attributes stored in vector index
⚫ support graph structure compression
35. 向量检索的挑战 与 实践 最新学术研究与应用
非结构化数据飞速增长 Binary量化
• 数据规模大,信息密度高,处理成本高 •
• 向量检索、RAG 需求快速增长 HGraph层次化索引框架
向量检索的 新CAP 问题 •
• 在 成本、精度、性能 之间取舍
向量数据库实践
• 存储工程 与 向量索引算法 深度优化
• 通过混合磁盘索引 降低成本
• 应用稀疏向量提升召回率
磁盘索引上的改进
•
基于公开 Benchmark 工具的性能调优
•
36.
37. 公众号
VSAG开源交流
38. 大模型正在重新定义软件
Large Language Model Is Redefining The Software