360搜索ranking算法自动化评测系统建设和应用实践
如果无法正常显示,请先停止浏览器的去广告插件。
1. 360搜索ranking算法自动化评测系统
建设和应用实践
分享人:张永强
2. 个人简介
•姓名:张永强
•所在组织:互联网产品事业群/搜索事业部
•专业领域:服务端测试
3. 内容
01 •搜索算法测试的背景和难点
02 •自动化评测系统的目标和设计思路
03 •自动化评测系统的实践过程和成果
04 •大模型时代的新思路
4. 算法测试的背景和难点
5. 行业背景
6. 要突破的现状
算法提测占比超80%
人工评测的case数量
太少、周期长
01
02
04
算法测试手段单一
线上实验的周期太长
03
06
各个质量维度的
影响面难以评估
05
实验存在失败风险
7. 自动化评测系统的目标和设计思路
8. 评测目标
9. 首要问题
10. 核心问题
人工标注 • 初始完成数十万doc Label
算法模型 • 基于 bert_qt 相关性模型
离线数据 • 基于MR离线计算doc CTR
积累的case集合
• 新doc 定期增量人工标注
• 基于 bert_qs 相关性模型
• doc的点击和展现数据
• Good case
• Bad case
11. 自动化评测系统的实践过程和成果
12. 明确指标
13. 明确过程
引入自动
化评测后
14. 明确结论
15. 指标分析
16. 实践成果
2000个评
测任务
流程依
赖度100%
运行
12个月
效率提
升90%
策略拦
截率30%
17. 大模型时代的新思路
18. 对大模型进行自动化评测
安全回复能力评测
人工标注数据
集回归
意图识别能力评测
代码能力评测
使用gpt-4打分 数据能力评测
封闭性问题回 翻译能力评测
归
逻辑推理能力评测
回答长度评测
19. 用大模型评测ranking算法
使用gpt-4实时计算doc相关性
用大模型直接对doc排序作为
完美排序
大模型进行query意图识别和
分类
20. THANK YOU