360搜索ranking算法自动化评测系统建设和应用实践

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 360搜索ranking算法自动化评测系统 建设和应用实践 分享人:张永强
2. 个人简介 •姓名:张永强 •所在组织:互联网产品事业群/搜索事业部 •专业领域:服务端测试
3. 内容 01 •搜索算法测试的背景和难点 02 •自动化评测系统的目标和设计思路 03 •自动化评测系统的实践过程和成果 04 •大模型时代的新思路
4. 算法测试的背景和难点
5. 行业背景
6. 要突破的现状 算法提测占比超80% 人工评测的case数量 太少、周期长 01 02 04 算法测试手段单一 线上实验的周期太长 03 06 各个质量维度的 影响面难以评估 05 实验存在失败风险
7. 自动化评测系统的目标和设计思路
8. 评测目标
9. 首要问题
10. 核心问题 人工标注 • 初始完成数十万doc Label 算法模型 • 基于 bert_qt 相关性模型 离线数据 • 基于MR离线计算doc CTR 积累的case集合 • 新doc 定期增量人工标注 • 基于 bert_qs 相关性模型 • doc的点击和展现数据 • Good case • Bad case
11. 自动化评测系统的实践过程和成果
12. 明确指标
13. 明确过程 引入自动 化评测后
14. 明确结论
15. 指标分析
16. 实践成果 2000个评 测任务 流程依 赖度100% 运行 12个月 效率提 升90% 策略拦 截率30%
17. 大模型时代的新思路
18. 对大模型进行自动化评测 安全回复能力评测 人工标注数据 集回归 意图识别能力评测 代码能力评测 使用gpt-4打分 数据能力评测 封闭性问题回 翻译能力评测 归 逻辑推理能力评测 回答长度评测
19. 用大模型评测ranking算法 使用gpt-4实时计算doc相关性 用大模型直接对doc排序作为 完美排序 大模型进行query意图识别和 分类
20. THANK YOU

首页 - Wiki
Copyright © 2011-2025 iteam. Current version is 2.139.0. UTC+08:00, 2025-01-11 15:49
浙ICP备14020137号-1 $访客地图$