Video annotator: a framework for efficiently building video classifiers using vision-language models and active learning
摘要
这篇文章介绍了一个名为Video Annotator (VA)的交互式框架,用于标注视频数据。VA利用大型视觉语言模型的零样本能力和主动学习技术,提高了样本效率和降低成本。它提供了一种独特的方法来标注、管理和迭代视频分类数据集,强调领域专家在人机交互系统中的直接参与。通过在标注过程中让用户快速做出决策,VA提高了系统的整体效率。它还支持持续的标注过程,用户可以快速部署模型、监控质量并迅速修复问题。这种自助式架构赋予领域专家在不需要数据科学家或第三方标注者的参与下进行改进的能力,建立了对系统的信任。经过实验,VA在多个视频理解任务中相对于竞争对手平均提高了8.3个平均精度点。他们还发布了一个包含153k标签的数据集和复制实验的代码。
欢迎在评论区写下你对这篇文章的看法。