论文标题:Adjacent Context Coordination Network for Salient Object Detection in Optical Remote Sensing Images
论文链接:https://arxiv.org/abs/2203.13664
代码仓库:https://github.com/MathLee/ACCoNet
作者单位:上海大学、南洋理工大学(Weisi Lin,IEEE Fellow)、纽约州立大学石溪分校
欢迎关注微信公众号 @CV顶刊顶会 ,严肃且认真的计算机视觉论文前沿报道~
期刊介绍:IEEE Transactions on Cybernetics(IEEE TCYB)是中科院Q1区期刊,属于中国计算机学会推荐的人工智能与模式识别领域B类期刊,是图像处理及计算机视觉领域公认的国际顶级期刊,侧重图像处理的前沿理论与方法,其最新的影响因子为21.6。
显著性目标检测任务(Salient object detection,SOD)以及光学遥感图像中的显著目标检测(RSI-SOD)是目前遥感图像解译的新兴方向。然而,由于光学 RSI 和自然场景图像 (natural scene images,NSI) 之间的差异,直接将NSI-SOD方法应用于光学遥感图像中未能取得令人满意的结果。在本文中,来自上海大学、新加坡南洋理工大学等单位的研究者提出了一种针对光学遥感图像的相邻上下文协调网络 (adjacent context coordination network,ACCoNet) 发表在人工智能领域顶级期刊(IEEE Transactions on Cybernetics,TCYB)上。ACCoNet主要通过对RSI-SOD中的编码器-解码器架构中相邻特征的协调性进行探索。具体来说,ACCoNet由三部分组成:1)编码器; 2) 相邻上下文协调模块(adjacent context coordination modules,ACCoM); 3)解码器。作为 ACCoNet 的关键组成部分,ACCoM 激活编码器输出特征图的显着区域并将其传输到解码器。ACCoM 包含一个局部分支和两个相邻分支以同时协调多级特征。局部分支以自适应的形式突出显著区域,而相邻分支引入相邻级别的全局信息以增强显著区域。此外,为了扩展解码器块的功能,作者将其扩展为两个支路,并提出一个分叉聚合块 (bifurcation-aggregation block,BAB) 来捕获解码器中的上下文信息。在两个基准数据集上进行的大量实验表明,所提出的 ACCoNet 在九个评估指标下优于 22 种最先进的方法,并且在单个 NVIDIA Titan X GPU 上运行可以达到 81 fps。
显著性目标检测任务(SOD)旨在区分和突出场景中在视觉上吸引人的对象/区域,目前,SOD 已扩展到光学遥感图像领域,并吸引了大量的研究者。然而,自然图像和光学遥感图像在拍摄设备、场景和视图方向上存在显着差异,导致它们在分辨率、对象类型和对象尺度方面存在差异。 因此,将自然图像上的SOD方法直接迁移到遥感图像上往往会导致性能不尽如人意。如下图所示,最后一列结果为GateNet[1]的检测结果,GateNet是一种基于CNN结构的自然图像SOD代表方法,尽管作者将其在光学遥感图像上进行了再训练,但是其仍然无法适应遥感图像。
现有专门针对遥感图像SOD设计的方法可以分为基于手工特征和基于CNN的方法两种。传统手工特征通常在光学遥感的复杂场景中失效,基于CNN的方法专注于探索有效的特征交互策略,以克服光学遥感图像中的复杂拓扑和独特场景。密集注意力流体网络 (DAFNet) [2]是目前具有代表性的方法,其将捕捉边缘和纹理信息的低级特征的浅层注意力线索转移到深层,即捕捉语义和对象的高级特征。然而,高层特征对低层特征的影响被忽略,特征交互覆盖不足,解码器块的级联结构简单,可能导致遥感图形中上下文信息的探索不完整。DAFNet的效果如上图倒数第二列所示,其失去了清晰的边界和更精细的细节。
本文提出的ACCoNet基于编码器-解码器架构,整体框架如下图所示,由一个编码器网络、几个 ACCoM 组件和一个带有 BAB 模块的解码器网络组成。
编码器网络结构采用VGG-16,包含5个图像分辨等级,其中最后一个最大池化层和三个全连接层被截断。上下文信息对于RSI-SOD至关重要。它不仅存在于一个特征层中,而且存在于相邻层的特征中。并行使用具有不同卷积核的卷积层可以在一个特征级别内捕获局部和全局内容。这有利于捕获光学遥感图像中具有可变大小或不确定数量的显着物体。在相邻级别的特征之间引入特征交互是捕获跨级别上下文互补信息的有效策略。因此,作者使用这两种策略探索上述两种上下文信息。具体而言,作者在 ACCoM 中设计了三个分支(即一个局部分支和两个相邻分支)。局部分支以自适应方式进一步进行特征调制,两个相邻分支由previous-to-current分支和subsequent-to-current分支组成。由于先前和后续特征与当前特征的尺度不同,因此两个相邻分支通过两个空间注意(SA)图提供跨尺度信息以两次对齐显着区域。
因此,将ACCoM的处理过程定义为 F ( ⋅ ) F(\cdot) F(⋅),其公式如下:
f a c c o m t = { F ( f e t , f e t + 1 ) , t = 1 F ( f e t − 1 , f e t , f e t + 1 ) , t = 2 , 3 , 4 F ( f e t − 1 , f e t ) , t = 5 \boldsymbol{f}_{\mathrm{accom}}^{t}=\left\{\begin{array}{ll} \mathrm{F}\left(\boldsymbol{f}_{\mathrm{e}}^{t}, \boldsymbol{f}_{\mathrm{e}}^{t+1}\right), & t=1 \\ \mathrm{~F}\left(\boldsymbol{f}_{\mathrm{e}}^{t-1}, \boldsymbol{f}_{\mathrm{e}}^{t}, \boldsymbol{f}_{\mathrm{e}}^{t+1}\right), & t=2,3,4 \\ \mathrm{~F}\left(\boldsymbol{f}_{\mathrm{e}}^{t-1}, \boldsymbol{f}_{\mathrm{e}}^{t}\right), & t=5 \end{array}\right. faccomt=⎩ ⎨ ⎧F(fet,fet+1), F(fet−1,fet,fet+1), F(fet−1,fet),t=1t=2,3,4t=5
其中 f a c c o m t \boldsymbol{f}_{\mathrm{accom}}^{t} faccomt 是第 t t t 层ACCoM的输出特征图。
局部分支对当前特征 f t f_t ft 进行操作,包含两个主要操作。首先,使用四个具有不同扩张率的扩张卷积并行操作,其定义如下:
f d c t , i = DConv σ ( f e t ; W 3 × 3 t , i , r i ) , i ∈ { 1 , 2 , 3 , 4 } f_{\mathrm{dc}}^{t, i}=\operatorname{DConv}_{\sigma}\left(f_{\mathrm{e}}^{t} ; \mathbf{W}_{3 \times 3}^{t, i}, r^{i}\right), i \in\{1,2,3,4\} fdct,i=DConvσ(fet;W3×3t,i,ri),i∈{1,2,3,4}
随后通过通道注意力对四种分辨率的特征图进行整合。相邻分支负责对相邻的特征进行信息融合,融合操作如下:
f p c t = SA ( Down ( f e t − 1 ) ) ⊗ f c t , t = 2 , 3 , 4 , 5 f_{\mathrm{pc}}^{t}=\operatorname{SA}\left(\operatorname{Down}\left(f_{\mathrm{e}}^{t-1}\right)\right) \otimes f_{\mathrm{c}}^{t}, \quad t=2,3,4,5 fpct=SA(Down(fet−1))⊗fct,t=2,3,4,5
经过上述几步的特征协调,作者将这三个分支的输出特征与原来的当前特征进行整合,如下:
f a c c o m t = { f l o c t ⊕ f s c t ⊕ f e t , t = 1 f l o c t ⊕ ( f p c t ⊕ f s c t ) ⊕ f e t , t = 2 , 3 , 4 f l o c t ⊕ f p c t ⊕ f e t , t = 5 f_{\mathrm{accom}}^{t}=\left\{\begin{array}{ll} \boldsymbol{f}_{\mathrm{loc}}^{t} \oplus \boldsymbol{f}_{\mathrm{sc}}^{t} \oplus \boldsymbol{f}_{\mathrm{e}}^{t}, & t=1 \\ \boldsymbol{f}_{\mathrm{loc}}^{t} \oplus\left(\boldsymbol{f}_{\mathrm{pc}}^{t} \oplus \boldsymbol{f}_{\mathrm{sc}}^{t}\right) \oplus \boldsymbol{f}_{\mathrm{e}}^{t}, & t=2,3,4 \\ \boldsymbol{f}_{\mathrm{loc}}^{t} \oplus \boldsymbol{f}_{\mathrm{pc}}^{t} \oplus \boldsymbol{f}_{\mathrm{e}}^{t}, & t=5 \end{array}\right. faccomt=⎩ ⎨ ⎧floct⊕fsct⊕fet,floct⊕(fpct⊕fsct)⊕fet,floct⊕fpct⊕fet,t=1t=2,3,4t=5
BAB是解码器的基本单元,它处理来自当前 ACCoM 和先前 BAB 的特征,最后推断出显著目标的掩码,作者将BAB的处理定义为 B ( ⋅ ) B(\cdot) B(⋅),其公式如下:
f b a b t = { B ( f a c c o m t , Deconv ( f b a b t + 1 ) ) , t = 1 , 2 , 3 , 4 B ( f a c c o m t ) , t = 5 f_{\mathrm{bab}}^{t}=\left\{\begin{array}{ll} \mathrm{B}\left(\boldsymbol{f}_{\mathrm{accom}}^{t}, \operatorname{Deconv}\left(\boldsymbol{f}_{\mathrm{bab}}^{t+1}\right)\right), & t=1,2,3,4 \\ \mathrm{~B}\left(\boldsymbol{f}_{\mathrm{accom}}^{t}\right), & t=5 \end{array}\right. fbabt={B(faccomt,Deconv(fbabt+1)), B(faccomt),t=1,2,3,4t=5
随后将BAB-t层输出的特征定义为 f b − c t , l f_{\mathrm{b}-\mathrm{c}}^{t, l} fb−ct,l,随后两个
所以两个分叉的输出特征(即 f b i f t , l f_{bif}^{t, l} fbift,l)可以计算为:
f b i f t , l = D C o n v σ ( f b − c t , l ; W 3 × 3 t , l , r l ) , l = 1 , 2 \boldsymbol{f}_{\mathrm{bif}}^{t, l}=\mathrm{DConv}_{\sigma}\left(\boldsymbol{f}_{\mathrm{b}-\mathrm{c}}^{t, l} ; \mathbf{W}_{3 \times 3}^{t, l}, r^{l}\right), \quad l=1,2 fbift,l=DConvσ(fb−ct,l;W3×3t,l,rl),l=1,2
其中作者采用扩张卷积来扩展感受野并从 f a c c o m t f_{\mathrm{accom}}^{t} faccomt 中捕获上下文信息,在具体操作中,考虑到每个 BAB 的特征分辨率的差异,作者为不同的 BAB 设置了不同的分叉扩张率。随后,使用连接卷积运算将这两个分叉和原始特征 f b − c t , 3 f_{\mathrm{b}-\mathrm{c}}^{t, 3} fb−ct,3 聚合为:
f b a b t = Conv σ ( Concat ( f b i f t , 1 , f b i f t , 2 , f b − c t , 3 ) ; W 3 × 3 t ) \boldsymbol{f}_{\mathrm{bab}}^{t}=\operatorname{Conv}_{\sigma}\left(\operatorname{Concat}\left(\boldsymbol{f}_{\mathrm{bif}}^{t, 1}, \boldsymbol{f}_{\mathrm{bif}}^{t, 2}, \boldsymbol{f}_{\mathrm{b}-\mathrm{c}}^{t, 3}\right) ; \mathbf{W}_{3 \times 3}^{t}\right) fbabt=Convσ(Concat(fbift,1,fbift,2,fb−ct,3);W3×3t)
这样操作,BAB可以在推理阶段基于 f a c c o m t f_{\mathrm{accom}}^{t} faccomt 进一步扫描不同大小的区域,可以很好地适应光学遥感图像中显著物体的形状、大小和数量变化的特点。
ACCoNet的损失函数由像素级的二元交叉熵(BCE)和IoU损失联合构成,以实现全面和互补的内容增强。在训练阶段,将像素级监督附加到每个空间尺度上的解码器块以实现快速收敛,总体损失函数可以表示为:
L = ∑ t = 1 5 ( L b c e t ( U p ( S t ) , G T ) + L i o u t ( U p ( S t ) , G T ) ) \mathbb{L}=\sum_{t=1}^{5}\left(L_{\mathrm{bce}}^{t}\left(\mathrm{Up}\left(\mathbf{S}^{t}\right), \mathbf{G T}\right)+L_{\mathrm{iou}}^{t}\left(\mathrm{Up}\left(\mathbf{S}^{t}\right), \mathbf{G T}\right)\right) L=t=1∑5(Lbcet(Up(St),GT)+Liout(Up(St),GT))
本文的实验在两个公开数据集上进行,分别是ORSSD和EORSSD,ORSSD是第一个公开可用的 光学遥感SOD数据集,收集自 Google Earth 和一些现有的遥感数据集。它包含 800 个光学遥感图像,并为每个图像提供相应的像素注释。其中 600 张图像用作训练集,其余 200 张图像用作测试集。EORSSD是目前最大的遥感SOD公共数据集。它将原始 ORSSD 数据集扩展到 2000 个具有相应像素级 GT 的图像。 其中,1400张图片作为训练集,600张图片作为测试集。
作者进行了详尽的对比实验,实验结果如下图所示,包含了从2015年到2022年间的22种对比方法,ACCoNet在所有的评价指标上均获得了不错的效果。
在两个数据集上的PR曲线对比如下图所示,其中红线为ACCoNet的结果。
下图展示了ACCoNet与其他baseline方法在多目标、多微小目标和不规则几何结构的情况下的显著目标检测效果。
本文对编码器-解码器架构中的上下文信息进行挖掘,并根据遥感目标图像的特点,提出了一种简单有效的遥感显著目标检测网络ACCoNet。ACCoNet中提取的上下文信息有利于解决遥感SOD任务中的可变对象比例、对象形状和对象数量。在编码器中,提出的 ACCoM 可以用来协调相邻特征(即当前、先前和后续特征)并探索显着区域激活的相邻信息。在解码器中,提出了 BAB 模块来捕获显著目标区域的多尺度信息。 ACCoM 和 BAB 都学习上下文信息以改进显著对象的特征表示。此外,作者进行了充分的实验,对比了22种类似的方法,证明了本文方法的有效性。
[1] X. Zhao, Y. Pang, L. Zhang, H. Lu, and L. Zhang, “Suppress and balance: A simple gated network for salient object detection,” in Proc. ECCV , Aug. 2020, pp. 35–51.
[2] Q. Zhang et al., “Dense attention fluid network for salient object detection in optical remote sensing images,” IEEE Trans. Image Process., vol. 30, pp. 1305–1317, 2021.