Detecting Scene Changes in Audiovisual Content
摘要
本文提出了两种基于场景边界检测的方法,利用场景文本、音频和视频等多种模态信息。第一种方法使用预训练的句子级嵌入和动态时间规整方法在场景文本与时间戳文本的对齐信息上确定场景边界;第二种方法使用已标注的场景变化数据训练双向GRU序列模型,并利用预训练的多模态镜头嵌入来丰富模型。实验结果表明,这些方法在视频摘要、内容检索、配音质量评估和视频编辑等任务上的效果与最先进方法相当甚至更好。作者还提出了将场景边界检测与场景分类和关键时刻识别等任务相结合,进一步提高多模态机器学习模型在长形式内容中的表现。
欢迎在评论区写下你对这篇文章的看法。