【视频显著性检测】Video Salient Object Detection via Fully Convolutional Networks【论文笔记】

论文链接

这篇论文非常有意思,不仅仅在于显著性,而在于数据集的生成。

本文主要内容:

一、提出使用神经网络做动态视觉显著性检测

二、提出一种人工合成视频数据的方法。★★★★★

三、在数据集上state-of-the-art,且速度更快。

 

网络结构

网络结构如图,输入单张图片经过全卷积网络输出得到静态显著性检测图,然后与下一帧的帧对结合,输入动态的全卷积网络得到最终的显著性检测图。网络结构非常清晰。

【视频显著性检测】Video Salient Object Detection via Fully Convolutional Networks【论文笔记】_第1张图片

【视频显著性检测】Video Salient Object Detection via Fully Convolutional Networks【论文笔记】_第2张图片

 

【视频显著性检测】Video Salient Object Detection via Fully Convolutional Networks【论文笔记】_第3张图片

 

视频数据的合成【人工合成帧对数据以及相应的显著性图】

【视频显著性检测】Video Salient Object Detection via Fully Convolutional Networks【论文笔记】_第4张图片

 如上图,我们可以通过合成不同的光流图,加到原来的图像中,得到不同运动模式,不同形变,平滑转移的动态视频帧对。

首先,我们将图像根据显著性真图G分割成一组超像素R,再将R分为前景F和背景B。考虑动态下,背景也存在一定运动,选取10%的B中超像素S,,在[-d,d]的范围中随机移动,其中d=h/10(竖直方向为例),其余背景保持不动。前景物体一般整体移动,会比较紧凑,但不同部位移动幅度不同,因此,前景物体位移为m,在水平方向上在[m-d/10,m+d/10]的范围随机移动。从而确定原始的运动方向矢量v。

最后提出如下的损失函数,其中v为原始的运动向量。第一项为一元限制,表示每个超像素趋于原来的位置,第二项为平滑限制,表示色彩相似【可以理解为同为前景,或同为背景】并且相邻的超像素有一致的运动模式。

 

【视频显著性检测】Video Salient Object Detection via Fully Convolutional Networks【论文笔记】_第5张图片

λ表示多大程度上希望区域保持一致,对于前景区域F和选出的部分背景超像素S,希望他们保持原来的运动趋势,对于其他背景区域,只希望保持平滑。

【视频显著性检测】Video Salient Object Detection via Fully Convolutional Networks【论文笔记】_第6张图片

 wii‘ 如下式,C(r)表示超像素中像素的平均颜色向量,如果相邻像素分别为前景和背景,则w为0,保持前景和背景的不同,以及前景内和背景内的一致性。

【视频显著性检测】Video Salient Object Detection via Fully Convolutional Networks【论文笔记】_第7张图片

 最终结果:【做的时间比较早,效果肯定不必现在,但是这方面的研究也比较少】

【视频显著性检测】Video Salient Object Detection via Fully Convolutional Networks【论文笔记】_第8张图片

 溶解实验:总之静态以及动态一起才最好。另外,丰富的训练数据也是非常关键的一环。

【视频显著性检测】Video Salient Object Detection via Fully Convolutional Networks【论文笔记】_第9张图片

有意思的点:

1. 输入帧对,而不是使用光流,保证使用的数据能够体现动态变化。【与光流信息相结合也是一种思路,例如浅融合,深度融合等等】

2 极大的数据生成,可以解决训练数据太少的因素,也极大拓展网络的性能【数据增强,以及多种预处理值得重视】

你可能感兴趣的:(S,Video,Saliency)