基于动作敏感性学习的时序动作定位
摘要
视频时序动作定位(Temporal Action Localization,TAL)是视频理解领域一个重要的任务。这个任务需要对于给定的视频,识别出其中所有发生的动作,同时定位出每个动作发生的起始时间。视频时序动作定位的方法可以广泛应用于高光检测、行为监控以及短视频分析等领域。
在过去对这个任务的处理中,大多数方法或是建立整体的时序提议,再对其做分类和定位;或是直接对不同帧同等地进行预测。但事实上,我们发现视频中动作内部的帧是有不同重要性的。以图1为例,对于晾衣服动作,描绘“把衣服晾到衣架上”的帧对于识别出这个动作最重要,描绘“拿出衣服”的帧对于定位出这个动作的开始最重要。而一些例如转场或模糊的帧则不具有很高的重要度。
因此我们提出用动作敏感度来表征帧的重要度,提出动作敏感性学习(action sensitivity learning),对于每一帧的动作敏感度进行建模,并将学习到的敏感度应用于损失函数中,以促进模型更关注重要的帧,从而更好的训练。
欢迎在评论区写下你对这篇文章的看法。