基于深度诱导多尺度循环注意力网络的显著性检测
图1 复杂场景中几种最先进的基于CNNs的方法的显著图
本文主要研究如何在具有挑战的场景下有效的利用RGB-D数据增强模型的鲁棒性。
第一、本文借鉴残差连接的优势设计了一个简单而有效的深度提取块(DRB)去充分提取和融合多层的RGB图像和深度图像的特征。
第二、考虑到图像由多个不同大小、尺度的物体组成,并在多个布局中跨越不同的空间位置,本文创新性的设计了一个深度诱导的多尺度加权模块(DMSW)。
第三、启发于人脑的内部推导机制,本文设计了一个全新的循环注意力模块(RAM),这个模块可以通过使用面向记忆的场景理解功能,逐渐的优化局部细节,最终形成一个最优的检测结果。
此框架中:
1、使用一个双流结构分别提取RGB图像的特征和深度图像的特征。
2、保留了VGG-19的5个卷积块,最后的池化层和全连接层被丢弃。
3、两个流的唯一区别就是,深度流被进一步处理以学习深度向量。
DMRANet网络采用2路模式去分别提取RGB图像的特征以及深度图像的特征,这两路有相同的结构,但是拥有不同的参数。分别是RGB图像流和深度图像流。
此网络中使用的是VGG-19作为网络的主干结构,为了更好的适应本文任务的需要,VGG-19的5个卷积层被保留,最后的池化层和全连接层被舍弃。此两路结构设计上的唯一不同点是,深度图像流后面加上了一个池化操作、一个卷积操作以及一个Softmax激活函数去学习一个深度向量。
在此两路结构下,本模型设计了一个简单并且高效的深度提取模块去提取和融合多层的成对出现的RGB图像和Depth图像特征。
注意:
很多实验表明,从底层到高层的特征均包含了丰富的显著性检测线索,可以用来准确的识别和定位显著性物体。
①底层的特征,也就是VGG-19 网络前几层提取出来的特征,会包含更多的图像细节信息,这对于精确的识别显著性物体很重要。
②高层的特征,同时包含了更多的全局信息,能够帮助快速准确的定位显著性物体的区域。
针对每一层中深度图像和RGB图像的融合,之前的研究多采用直接级联或者简单相加的方式去融合特征,本文认为这种融合方式是不充分的,因为它们没有考虑到RGB图像和深度图像提供信息之间的差异。
本文设计的深度提取模块 DRB 中,引入了残差学习的思想,更充分的融合了深度信息以及RGB图像信息。融合之后的特征被输入到深度诱导的多尺度加权模块中,在这个模块中,通过使用多个并行的卷积层和池化层,能够提取出多个不同上下文的多尺度的特征,之前学习得到的深度向量被用于给这几个多尺度特征加权,然后加权后的多尺度特征被按元素相加求和,得到一个和输入特征相同大小的特征图。
这个步骤也可以看作是RGB信息和深度信息的进一步的融合。
到目前为止,融合后的特征已经可以直接用来去做预测,但是,如果直接将该特征去预测显著性图,融合特征的内部语义相关性就会被忽略掉。本文根据人脑的内部推导机制,设计了一个全新的循环注意力模块(Recurrent Attention Modulc,RAM)。在这里,注意力机制和 ConvLSTM被巧妙的结合在一起,极大的提高了本文模型的效果。最后预测得到的显著性图被真值监督,通过反向传播去更新网络的参数。此外,本文的网络是一个端到端的模型。
考虑到多层成对深度和RGB线索之间的互补性,利用残差连接来充分提取和融合多层成对互补信息。(此DRB可以充分的提取和融合多层成对的互补性信息)
DRB模块原理:fiRGB 和fidepth 分别代表在第 i 层RGB图像流和深度图像流的侧边输出。本文将fidepth输入到了一系列的加权层。这个加权层包含了两个卷积层和两个PReLU激活函数去学习一个深度残差向量。
这个残差结果可以近似为从深度图像流中提取出互补信息,接下来,通过残差连接的方式,深度残差被加到RGB 图像特征上去学习一个融合的特征。通过这种方法,第 i 层的深度特征和RGB 图像特征被充分的提取和融合。
下一步,为了更好的融合多层的特征,本文采取了一些调整特征大小和特征维度的操作,同时,在这里,本文仍然借鉴了残差学习的优势,在其中加入了一个常用的残差模块。如图所示,本文先调整(reshape)每层融合特征的大小(使用双线性插值的方法去增大特征图的大小,使用最大池化的方法减小特征图的大小),本文将所有层的特征图都调整到相同的分辨率大小。接下来,一个常规的残差模块被使用,去放缩特征的值,为了更好的适应多层特征的相加。一个1×1卷积操作被用来更改特征图的维度。最后从DRB模块中输出的特征为fi,fi是四分之一输入图像的大小,并且拥有相同的维度。
考虑到一个图像中的物体拥有不同的尺度,不同的大小,以及位于不同深度位置,本文设计了一个深度诱导的多尺度加权模块(DMSW),在这个模块中,深度线索被进一步和多尺度的特征结合在一起,去准确定位显著性区域。
DMSW模块原理:带有丰富空间位置信息的深度线索被进一步处理,去学习一个深度向量depth vector ,去指导多尺度特征的权重分配。具体来说,为了捕获到多尺度的上下文特征,本文在输入特征Fuse上加了一个全局卷积操作以及若干个并行的卷积操作,这些卷积操作拥有不同大小的卷积核,不同的膨胀率。通过这种方法,6个多尺度的上下文特征Fm(m = 1,2, …)被生成。这6个特征拥有相同的分辨率,但是捕获到了不同尺度的上下文信息,这些信息对于最终决定显著性物体具有不同的重要性,本文认为,深度线索能够对这种多尺度特征捕获到的不同尺度的目标分配权重,判断他们在最终结果的重要性。和普通的卷积操作相比,空洞(膨胀)卷积操作能够增大感受野的同时,不损失分辨率的信息,也不会增加计算的负担。
同时,为了获得对应的深度向量,一个全局平均池化操作和一个卷积层被加在深度图像流的最后一个卷积块的输出特征Fconv5_4上。然后本文使用了一个softmax激活函数去得到深度向量Vdepth,它可以被看作一个放缩向量,去加权每一个多尺度的上下文特征Fm,最后,所有的多尺度上下文特征会根据深度向量进行加权,然后加权后的多尺度上下文特征按特征级别进行相加,得出融合后的特征F∑ 。
RAM模块原理:受到人类视觉系统内部推导机制的启发。本文认为,充分挖掘融合特征内部的语义相关性也是非常重要的。本文通过使用一个全新的循环注意力模块去提升模型的性能。这个模型考虑到人脑内部推导机制IGM的核心所在,能够全方位的理解一个场景并且充分的学习融合特征的内部语义关联。详细来说,为了准确的捕获显著性物体,人脑IGM需要循环的根据之前的记忆去推导和预测显著性结果,在这个过程中,不确定和不重要的信息也会被忽略。
对于人脑内部推导机制的启发,本文设计了一个全新的循环注意力模块RAM,巧妙的结合了注意力机制和ConvLSTM。通过这种方式,当推断当前的结果时,本文的RAM可以获取之前的记忆去辅助当前的决策。能够循环的学习不同语义之间的时间空间依赖性,并且通过面向记忆的场景理解逐渐的优化检测结果的细节信息。
2.4.1 注意力子模块
注意力子模块原理:在注意力模块中,ht 代表的是循环注意力模块对上一次场景理解的记忆,F∑ 代表的是输入的特征。下角标 t 代表的是ConvLSTM中的时间步骤。ht 和 F∑ 被同时输入到卷积层中,然后分别得到一个卷积之后的特征图,之后这两个特征图被按元素级别进行相加。接下来,一个全局平均池化层和一个softmax激活函数被使用,去生成一个通道级别的注意力图。这里的注意力图是一个向量,用来给输入特征的每一个通道分配权重。
注意:之前的研究表明,使用不同的卷积核得到的特征,在语义表征上有很大的差异,所以简单的将每一个通道分配相同的权重,同等对待是不充分的,有必要采取一定的措施去学习它们之间的内部语义关系。接下来通过将注意力图和F∑ 按元素级别相乘,在这次加权中,一个更具有代表性的,包含更多特征的特征图F ̃∑,t生成了。
2.4.2 RAM子模块
RAM子模块原理:
F ̃∑,t被进一步输入到ConvLSTM中,去学习不同语义特征之间的空间相关性。
2.4.3 普通的空间级别的注意力机制
此外,本文使用了一个普通的空间级别的注意力机制,它被用来强调每一个像素点对最后显著性区域判断的重要程度。对于前一步提取的通道特征Fc,本文使用了一个卷积操作和一个Softmax激活函数去计算得到一个空间级别的注意力图。它可以被用来判断一个特征图的每一个像素点是否应该被强调或被降低重要性。
接下来,通道级别的注意力图Atts(Fc)和输入特征Fc被按元素级别进行相乘,得到一个空间加权的特征。最后,本文通过一个2通道的1x1卷积操作生成显著性图,然后本文将Fcs进行四次上采样得到最终的显著性图。
实验结果:可视化展示
本图显示了一个12行12列的不同方法下的显著性检测结果。
从图中可以看出,本文的结果更加符合GT。
①在复杂的场景中,杂乱的背景。(第5行和第6行)
②在低对比度、透明物体以及多个小物体等更具有挑战性的场景中,能够比其他场景更准确地定位和检测具有尖锐细节的整个明显物体。(第9行-第12行)
显著性物体检测的目的是识别一个场景中最吸引人的区域,这个基础的工作在很多计算机视觉中发挥了至关重要的作用,比如视觉追踪,图像分割,物体识别,等等。
本文提出了一个新颖的深度诱导的多尺度循环注意力网络,该网络从三个方面显著提高了显著性检测模型的能力:
(1) 通过使用一个简单而有效的深度提取块(DRB)去充分的提取和融合多层的RGB图像和深度图像互补信息;
(2) 创新性的将深度信息与多尺度上下文特征结合到一起,去帮助准确定位显著性区域
(3) 受到人脑的内部推导机制的启发,本文提出了一个新颖的循环注意力模块,该模块能够循环使用之前的场景理解的记忆,渐进式的优化模型检测的细节和移除背景躁点;
此外,本文还建立了一个具有1200图片的大规模RGB-D显著性数据集。包含了更多具有挑战性的场景。本文全面地验证了DMRA网络的每个组成部分的有效性,并显示了实验精度逐渐增加。实验结果也证明了本文的方法在7个RGB-D数据集上取得了最新的性能。
综上所述:这篇2019年在ICCV上发表的显著性检测论文:Depth-induced Multi-scale Recurrent Attention Network for Saliency Detection 是一篇很值得研究的论文,其网络结构具有很强的推广性,希望此总结能够帮助大家更好的理解这篇文章!