【视频显著性检测】Revisiting Video Saliency: A Large-scale Benchmark and a New Model【论文笔记】

论文链接

该论文主要内容有两点:

一、建立了包含场景更加丰富的数据集,

二、提出了一个结合注意力机制的CNN-LSTM网络,作为视频显著性检测模型。

 

数据集:已有的一些数据集,要么数量太少,要么场景单一,且annotation获取时是由任务驱使的不是自由观看的。【显著性检测的是free view时人眼的凝视点】。我们建立了一个场景更加丰富的数据集,共1k份视频,由17名观察者标注完成。

网络模型:网络结构如图,每一帧图片输入到VGG-16【去掉全连接】的网络中,然后一段接Attention Model,另一端直接连接,,输出如左图,将注意力模块的输出与原输出相加,以保证不丢失有用的信息,从而得到每一帧的动态特征图。将每一帧的动态特征图输入到ConvLSTM中,通过记忆之前帧的显著性图像,指导当前帧的显著性图像,从而保证帧间的注视点平滑转移。

【视频显著性检测】Revisiting Video Saliency: A Large-scale Benchmark and a New Model【论文笔记】_第1张图片

有意思的点:

1平均annotation,验证了数据集确实存在中央偏差(Center Prior)

【视频显著性检测】Revisiting Video Saliency: A Large-scale Benchmark and a New Model【论文笔记】_第2张图片

2  损失函数,除了采用KL散度来求取凝视点图的损失以外,还添加了CC,NSS损失。由于不确定哪一种指标能够完全代表显著性检测的性能。

3 注意力模块,先缩小特征图,提高了网络的接受域,然后又变大,使得注意力机制保持大的接受域从而保证性能。

你可能感兴趣的:(S,VIdeo,Saliency)