前 言
视频精彩度分析技术方案
视频精彩度监督模型
我们的目标是对视频的精彩度进行较为准确的评分,而非简单的精彩/非精彩二分类,因而我们将精彩度建模为一个回归任务,而建立监督模型的前提是拥有高质量的标注数据集。我们的数据集来自5000多部爱奇艺影视剧和综艺长视频,每条数据为10s左右的视频切片,标注人员对切片根据精彩度进行打分0到10打分,并对精彩切片从场景、行为、情感、对话等多个维度上人工打出精彩看点标签,建立了包含超过36万切片的视频精彩度分析数据集。该数据集具有以下特点:
特征提取
精彩度评分
采用DLDL方法能够有效建模精彩度分数标签的不确定性,大大降低了标注噪声的影响,相比使用常规的MSE回归loss,我们的精彩度评分准确性得到比较明显的提升。
精彩看点标签分类
多任务学习模型
2
视频精彩度弱监督模型
我们采用一个具有低通性质的图滤波器进行图卷积操作,它能够聚合高阶邻接节点的特征来表示当前节点的特征,经过G的作用,相似视频切片的特征更加聚合,相对的,不相似视频切片的特征更加分散,如下图所示:
3
融合更多维度信息的精彩度
总结和规划
我们的视频精彩度技术方案已在多个业务场景中实现落地和应用,如生成AI广告产品前情提要、辅助创作,筛选优质视频进行智能分发、自动生成精彩集锦等,明显提升了业务产出质量和效率。
参考文献:
[1] https://ai.baidu.com/broad/introduction
[2] Gao B B, Xing C, Xie C W, et al. Deep label distribution learning with label ambiguity[J]. IEEE Transactions on Image Processing, 2017, 26(6): 2825-2838.
[3] Yeh C K, Wu W C, Ko W J, et al. Learning deep latent space for multi-label classification[C]//Thirty-First AAAI Conference on Artificial Intelligence. 2017.
[4] Xiong B, Kalantidis Y, Ghadiyaram D, et al. Less is more: Learning highlight detection from video duration[C] // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019: 1258-1267.
[5] Zhao K, Chu W S, Martinez A M. Learning facial action units from web images with scalable weakly supervised clustering[C]//Proceedings of the IEEE Conference on computer vision and pattern recognition. 2018: 2090-2099.
[6] Kipf T N, Welling M. Semi-supervised classification with graph convolutional networks[J]. arXiv preprint arXiv:1609.02907, 2016.
[7] Li Q, Wu X M, Liu H, et al. Label efficient semi-supervised learning via graph filtering[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019: 9582-9591.
[8] Zhang X, Liu H, Li Q, et al. Attributed graph clustering via adaptive graph convolution[J]. arXiv preprint arXiv:1906.01210, 2019.