360搜索ranking算法自动化评测系统建设和应用实践

1. 360搜索ranking算法自动化评测系统建设和应用实践分享人：张永强

2. 个人简介 •姓名：张永强 •所在组织：互联网产品事业群/搜索事业部 •专业领域：服务端测试

3. 内容 01 •搜索算法测试的背景和难点 02 •自动化评测系统的目标和设计思路 03 •自动化评测系统的实践过程和成果 04 •大模型时代的新思路

4. 算法测试的背景和难点

5. 行业背景

6. 要突破的现状算法提测占比超80% 人工评测的case数量太少、周期长 01 02 04 算法测试手段单一线上实验的周期太长 03 06 各个质量维度的影响面难以评估 05 实验存在失败风险

7. 自动化评测系统的目标和设计思路

8. 评测目标

9. 首要问题

10. 核心问题人工标注 • 初始完成数十万doc Label 算法模型 • 基于 bert_qt 相关性模型离线数据 • 基于MR离线计算doc CTR 积累的case集合 • 新doc 定期增量人工标注 • 基于 bert_qs 相关性模型 • doc的点击和展现数据 • Good case • Bad case

11. 自动化评测系统的实践过程和成果

12. 明确指标

13. 明确过程引入自动化评测后

14. 明确结论

15. 指标分析

16. 实践成果 2000个评测任务流程依赖度100% 运行 12个月效率提升90% 策略拦截率30%

17. 大模型时代的新思路

18. 对大模型进行自动化评测安全回复能力评测人工标注数据集回归意图识别能力评测代码能力评测使用gpt-4打分数据能力评测封闭性问题回翻译能力评测归逻辑推理能力评测回答长度评测

19. 用大模型评测ranking算法使用gpt-4实时计算doc相关性用大模型直接对doc排序作为完美排序大模型进行query意图识别和分类

20. THANK YOU