基于动作敏感性学习的时序动作定位

出处：mp.weixin.qq.com

摘要

视频时序动作定位（Temporal Action Localization，TAL）是视频理解领域一个重要的任务。这个任务需要对于给定的视频，识别出其中所有发生的动作，同时定位出每个动作发生的起始时间。视频时序动作定位的方法可以广泛应用于高光检测、行为监控以及短视频分析等领域。

在过去对这个任务的处理中，大多数方法或是建立整体的时序提议，再对其做分类和定位；或是直接对不同帧同等地进行预测。但事实上，我们发现视频中动作内部的帧是有不同重要性的。以图1为例，对于晾衣服动作，描绘“把衣服晾到衣架上”的帧对于识别出这个动作最重要，描绘“拿出衣服”的帧对于定位出这个动作的开始最重要。而一些例如转场或模糊的帧则不具有很高的重要度。

因此我们提出用动作敏感度来表征帧的重要度，提出动作敏感性学习（action sensitivity learning），对于每一帧的动作敏感度进行建模，并将学习到的敏感度应用于损失函数中，以促进模型更关注重要的帧，从而更好的训练。

阅读原文

xiaozi 于 2023-08-21 分享

2939

关联话题： #阿里巴巴

欢迎在评论区写下你对这篇文章的看法。

基于动作敏感性学习的时序动作定位

基于动作敏感性学习的时序动作定位

摘要

评论

文库