作业帮检索系统重构:Havenask 实践案例分享
如果无法正常显示,请先停止浏览器的去广告插件。
1. 作业帮检索系统重构:
Havenask实践案例分享
程童
2. Havenask (HA3)
✓
✓
✓
✓
3. 目录
01 结果很重要
02 业务场景及核心问题
03 思路和决策
04 实践过程
05 总结
4.
5. 01
结果很重要
6. 成本问题
万qps
单位成本
2021
2022
2023
注:统计时间节点为每年年末高峰,
2024
年取元旦后数值
2025
7. 索引容量瓶颈
8. 业务需求问题
9. 结果很重要
大规模复杂算法系统年省
成本40%+
23年全年有效索引数据
增加超过100%,索引成
本增长<10%
强化向量检索,快速支持
基于RAG及多模态大模型
的AI业务落地
10. 结果很重要
十年系统能力重塑,拥抱AI时代
11. 02
业务场景及核心问题
12. 一次典型的题目检索过程
拍照上传图像
图像预处理
检测&识别
13. 一次典型的题目检索过程
检索query生成
召回&排序
返回top结果
14. 真实业务场景的复杂性
智能批改
检索增强及多模态LLM能力
15. 技术能力拆解
题目检索
图形题检索
多分类批改 … … 全学科知识点检索 检索增强&多模态LLM
OCR
AI
/
16. 系统架构
17. 检索系统的挑战
1. 压力主要集中在索引引擎上
2. 其次是排序层的问题
3. 根因还是流量&数据量持续增长,考验系统性能
18. 03
思路和决策
19. 思路与决策
1.
约束
2.
3.
现有基础迭代
✓
自研替换
✓
开源替换
✓
优势
✓
%
风险
✓
✓
20. 用户视角的HA3开源历程
正式开源
首次接触
停滞期
落地准备
转折
再次接触
21. 落地路线图
23年4月底
23年3月底
23年8月底
23年6月底
23年12月底
22. 04
实践过程
23. 遇到的问题 – 打平效果
需要反复AB实验分析case,耗时较多,过程可控
QA&排序
QRS
原有召回
服务
Searcher
24. 遇到的问题 – 误判的影响
对性能指标的误判让上半年收益近乎归零
25. 遇到的问题 – 性能优化
短周期/快速生效缓解压力
26. 遇到的问题 – 性能优化
中等周期/相对透明
Group2
Group1
QRS
Searcher
QRS
QRS
Searcher
Core1
Core2
QRS
QRS
Searcher
Core5
Core6
Memory
Memory
Core3
Core4
Numa
Node1
Core7
Core8
Numa
Node2
27. 部分测试数据
17.3%
13%
22.6%
Avg: ↓7%
Tail: ↓22%
8.8%
Cpu: ↓39%
Avg: ↓44%
28. 遇到的问题 – 性能优化
长周期/需要策略适配/收益最大
(A∩B)∪(C∩D) (E∩F)∪(G∩
H)
L1 end
29. 部分性能对比数据
CPU Util减少56.4%
SQ减少74.69%
代价: 单条耗时+62.26%
吞吐提升54.54%
32.8
时延减少29.66%
343.45
241.58
14.3
8.6
6.36
5.3
1.61
CPU使用率(%)
subquery请求量(kqps)
优化前-HA3
单条subquery耗时(ms)
优化后-HA3
注:优化后检索系统全局资源用量减少
20.94
32.36
单实例容量(qps)
优化前-接入
,如上是其中一个子系统数据
平均耗时(ms)
优化后-接入
30. 05
总结
31. 回顾
降本增效: 40%+ 场景:复杂大规模算法系统
结合约束条件选择方案 落地实践,解决问题
32. 总结
HA3
AI
33.
34. THANKS
大模型正在重新定义软件