快手计算机视觉算法评测体系
如果无法正常显示,请先停止浏览器的去广告插件。
1.
2. 快手计算机视觉算法评体系
3. 俞明利
快手 - 多媒体质效中心:CV算法质量负责人
• EMC – Software Engineer
• 蚂蚁金服 – 推荐算法测试开发
多年测试工具开发经验及算法测试经验
4. 目录
1 计算机视觉(CV)算法是什么?
2 CV算法初始阶段评测方式及难点
3 难点解决方案
4 CV算法评测pipeline体系
5 展望
5. 1
计算机视觉(CV)算
法是什么?
6. 什么是CV算法?
图片出自:
YouTube -
Knowing AI
CV算法的目的:看懂图像中的内容。
7. 什么是CV算法?——快手中的部分CV算法
目标:极致用户体验
手段:CV算法评测领航护航
8. 2
CV算法初始评测方式
及难点
9. CV算法如何评测?
CV算法质量的两个使命:
用户角度出发:评测算法模型效果效率
使命
帮助算法能力达到行业最佳
10. CV算法如何评测? 双循环结构
如何评测 —— 利用两个使命建立双循环结构,持续闭环提高算法水平
双循环结构:
• 驱动:问题点、优化点
• 方式:闭环收敛
• 手段:算法版本评测(效果、性能)、
竞品对比评测
11. CV算法如何评测? 算法整体链路
CV算法评测在算法上线整体链路中的位置 。
三种主要评测关键节点:
模型效果评测
模型性能评测
竞品对比
12. CV算法如何评测? 算法整体链路
初始阶段:
测试数据准备
• 产品目标与质
算法效果评测
算法性能评测
竞品对比评测
• 手动 • 手动操作 • 手动
• 主观 • 手动统计计算 • 主观
量质量映射
• 数据采集:实
拍
手动、主观为主要方式
13. 初始阶段:模型效果评测及难点
原图
美妆效果图
关键点预测
与label点
图
14. 初始阶段:模型性能&竞品对比评测难点
15. CV算法评测难点 – 业务难点
业务难点:
需求多、时效性强、质量要求高
如何质效合一,达到行业领先
16. 3
难点解决方案
17. CV算法评测特点
评测点 传统软件评测 CV算法评测
评测对象 软件功能 算法模型
产品目标 客观具体 主观抽象
评测输出 确定 不确定
评测方式 自动化程序 人眼?
评测方法上:跟传统软件评测差异大,传统软件测试方法不适用
新的评测体系
18. 解决方案
• 产品目标与质量
Before
• 手动 • 手动
• 主观 • 主观 • 主观
质量映射
• 数据采集:实拍
测试数据准备
• 产品目标与质量
After
• 手动
质量映射
• 数据采集:实拍、
公开、网图
算法效果评测
算法性能评测
• 批量跑测试集 • UI自动化 • 批量跑测试集
• 主观客观量化 • 数据处理模块 • 主观客观量化
• 数据清洗
• 数据标注
竞品对比评测
指标主客观量化,评测节点自动化
19. 解决:主观指标量化
主观量化 —— 用于效果类评测
美妆 – 人脸关键点
产品目标描述:妆容不露怯
算法质量目标:评测脸各部位妆容在不同权重场景下
的准确性、鲁棒性、稳定性
质量分数尺度:0~5分对应较差、中等、良好、优秀、
完美
打分表表头:
解决:
从主观指标解决
指标度量难
20. 解决:客观指标量化
不同方向算法分场景、维度映射不同类型客观指标。
如:人脸关键点算法:点平均距离、RMSE均方根误差
解决:
从客观指标解决指标度量难
21. 解决方案
主观指标量化
指标量化
两个解决方向
客观指标量化
评测节点自动化:效果、性能、竞品对比
22. 模型效果评测自动化 – 算法批量量化平台
实现:算法批量跑图/视频、获取量化指标
解决问题:测试集覆盖有限不可重复、主观耗时、
无客观量化指标
前端页面:收集测试信息
服务器端:1. 准备测试资源
2. 量化指标计算
3. 报告生成
客户端:获取算法结果
23. 算法批量量化平台 — 功能
主要支持评测:模型效果、魔表效果评测
• hack拍摄流:解决测试集覆盖面有限问题;
• 算法客观指标:解决无客观指标问题;
• 图像对比:多版本算法横向对比,统一样本;
• 算法阈值细调:动态调整阈值获得相应准召率。
24. 算法批量量化平台 — 能力
跑图方式
资源管理
客观量化
• 批量图片/视频 • 算法、测试资源自动映射 • 当前覆盖77%算法大方向
• 3种跑图方式 • 测试集动态生成 • 同方向多维度指标度量
• 测试结果可追溯可挖掘
25. 算法批量量化平台 — demo
算法批量量化结果
1. 结果图像对比
2. 量化结果报告
• 任务信息
• 客观量化指标table
• 图表展示
26. 解决:模型性能评测自动化
•
难点一:测试耗时长
解决方案:UI自动化
•
难点二:统计数据工作重复易出错
解决方案:数据分析模块
建立了各算法历史性能数据库为后续历史数据对比趋
势图提供数据基础
27. 解决:竞品对比自动化
批量测试集—— 解决:输入样本难对齐,测试集覆盖面有限、不可重复问题
竞品公开API调用—— 解决:主观耗时、人力成本高问题
通用指标计算—— 解决:指标难度量问题
28. 自动化解决方案 – 收益总结
需求覆盖度
l 效果测试评测需求覆盖度50%,
单日PV400+
l 性能测试需求覆盖度100%
l 服务端竞品对比需求覆盖度100%
节省 节省 节省
65% 70% 80%
效果 性能 竞品对比
客观指标发现问题
率100%
29. 自动化方案发展历程
03
算法性能 – 端上性能自动化
02
竞品对比自动化
周期性对比业界竞品,算法
成长趋势图
覆盖多个平台,多种场景,
多类指标
算法评测
pipeline
体系
算法效果 – 算法批量量化 01
跑图+量化:
手机端
服务端
PC端
04
资源管理
测试资源,测试结果数据管
理
30. 4
CV算法评测Pipeline体
系
31. CV算法评测Pipeline体系 – 链路
32. CV算法评测Pipeline体系 – 整体链路
算法评测pipeline推动算法整体pipeline自动化,组建一站
式通用平台。
33. CV算法评测Pipeline体系
34. CV算法评测pipeline体系
预期收益
提效
提质
数据可视化
预期节省至少 链路闭环,推进算法 呈现算法成长周期,
60%MPD 质量提升 挖掘过程质量
35. 5
展望
36. 准确
高效
智能
37. 欢迎关注:
快手技术号:快手音视频技术
多媒体质效中心:
38. END