1.《Flow Guided Recurrent Neural Encoder for Video Salient Object Detection》;
2.《A Bi-Directional Message Passing Model for Salient Object Detection》;
3.《Progressive Attention Guided Recurrent Network for Salient Object Detection》;
4.《Progressively Complementarity-Aware Fusion Network for RGB-D Salient Object Detection》;
5.《Revisiting Salient Object Detection! Simultaneous Detection, Ranking, and Subitizing of Multiple Sal》;
6.《Salient Object Detection Driven by Fixation Prediction》。
G. Li, Y. Xie, T. Wei, K. Wang and L. Lin
中山大学,浙江大学,商汤科技
点此处论文链接。
问题:之前接触到的显著性检测论文基本上都是针对图像的,而该论文做的是视频显著性目标检测。相比于图像,视频显著性检测的难点如下:目标或相机的移动,以及视频中对比度的剧烈变化,会影响显著性目标检测的结果;虽然静态图像的显著性检测模型很多,但其都很难扩展到视频显著性检测任务中去。
本文方法:针对上述问题,该论文提出了一个光流引导的递归神经网络解码器(Flow guided recurrent neural encoder, FGRNE):利用光流来获取运动信息,用LSTM来进行时序特征的演化编码,从而提高不同帧的特征间时间相干性。作者认为该模型可以看作是任何基于FCN的静态显著性检测算法扩展到视频显著性检测的通用框架。
L. Zhang, J. Dai, H. Lu, Y. He, and G. Wang
大连理工,海军航空大学,阿里 AILabs
点此处论文链接。
问题:在传统方法中,基于各种saliency cues的模型是显著性检测的主流算法之一。而近年来显著性目标检测模型大部分都是基于深度神经网络的(CNN、FCN等)。不同卷基层特征中的Saliency Cues包含了对显著性目标检测任务的补充信息,如何集成这些特征是显著性检测领域的一个问题。
本文方法:在该论文中,作者提出了一个双向信息传递模型(Bi-Directional Message Passing Model)来结合不同层的特征。首先,对 multi-level feature maps采用一个多尺度情感感知特征提取模块(Multi-scale Context-aware Feature Extraction Module, MCFEM)来获取丰富的环境信息。其次,用一个双向结构来通过不同层的特征,并用一个门限函数来控制信息流通率。信息传递(Message Passing)后的特征同时编码进了语义信息与空间细节信息,所以可以用其来预测Saliency Maps。最后,前面的预测结果结合起来生成最终的Saliency Map。
X. Zhang, T. Wang, J. Qi, H. Lu, and G. Wang
大连理工,阿里 AILabs
点此处论文链接
问题: FCN网络提出来后,被广泛地运用到显著性检测领域中,但是基于FCN的方法都是无差别地应用不同层的卷积特征。其实不同层的特征表述的信息均不同,信息的主要程度也都不同,所以无差别地处理不同特征,这会导致生成次优的结果。
而注意力模型(Attention Model)借鉴了人脑的注意力机制,旨在从众多信息中选择出对当前任务更关键的信息,给予其较大的权重。这正好可以解决上述FCN对不同特征进行无差别处理的问题。
本文方法:本问提出了一个注意力引导的网络,其可以以渐进的方式有选择地融合不同层的内容信息。网络产生的attention features可以减轻背景信息的分散性。
H. Chen, and Y. Li
香港城市大学
点此处论文链接。
问题:如何充分的结合跨模态互补性是RGB-D图像显著性检测中的基本问题。以前的方法仅通过简单地链接跨模态特征或者组合单峰预测来解决该问题。
补充信息:
- 跨模态互补性,比如图可以提供文字表达不了的信息,文字可以表述图像表示不了的信息。
- RGB-D图像即深度图像,RGB-D图像=普通RGB图+Depth Map。
本文方法: 本文从两个方面来解决该问题:(1) 作者认为,如果可以更明确地对互补部分进行建模,则可以更好地捕获跨模态补充。在采用CNN时,设计了一个新型的补充性感知模块(Complementary-aware fusion module)。通过在每个CA-Fuse模块中引入跨模态残差函数和补充性感知监督,学习配对模态互补性信息的问题明确地被假定为渐进近似的残差函数;
(2) 在所有级别(levels)上探索补充性:通过级联CA-Fuse模块,并从深到浅添加逐级监督信息,我们可以逐渐选择和组合跨模态的信息。
本文提出的RGB-D融合网络消除了跨模态与跨层融合过程中的歧义,并能得到更充分的融合结果。
M. Islam, M. Kalash, and N. Bruce
曼尼托巴大学(加拿大),瑞尔森大学(加拿大)
点此处论文链接
问题: 作者认为,显著性目标检测领域迄今为止的工作解决的是一个相当病态的问题。即不同的人对于什么是显著性目标没有一个普遍的一致意见。这意味着一些目标会比另一些目标更加显著,并且不同的显著性目标中存在着一个相对排名。
本文方法: 本文方法解决了考虑了相对排名这个更普遍的问题,并且提出了适合于衡量该问题的数据与度量方法,本文解决方案是基于相对显著性和分段式细化的分层表示的深度网络。该网络也可以解决显著性目标计数问题。
W. Wang, J. Shen, X. Dong, and A. Borji
北京理工大学,Inception Institute of Artificial Intelligence(阿布扎比,阿拉伯联合酋长国),中佛罗里达大学(美国)
点此处论文链接
问题: 眼动预测(Fixtion Prediction)和显著性目标检测(Salient Object Detection)是视觉显著性研究中的两大主要领域,但是这两者之间的关系却很少被探索过。
本文方法: 本文提出了一个新型的注意力显著性网络(ASNet),其利用眼动预测的结果图来确定并分割场景中的显著性目标。具体来说,从较高网络层中得到的fixation map捕捉了场景中的高层语义信息。然后将显著性目标检测视为深入的目标级显著性分割,并且以自上而下的方式在fixation map的引导下逐渐优化。
ASNet基于卷积LSTM的层次结构,为分割图的连续细化提供了有效的循环机制。
本文为博主原创文章,未经博主允许不得转载