Recalibrating Fully Convolutional Networks with Spatial and Channel ‘Squeeze & Excitation’ Blocks

Abstract

在广泛的语义分割任务中,已经成功地利用完全卷积神经网络(F-CNN)来实现最先进的性能。 F-CNN的架构创新主要是改进空间编码或网络连接以帮助梯度流。在本文中,我们的目标是自适应地重新校准学习的特征图;在抑制弱势特征的同时提升有意义的特征。通过简单的计算模块实现重新校准,这些模块可以轻松集成到F-CNN架构中。我们从最近提出的用于图像分类的通道重新校准的“挤压和激发”(SE)模块中汲取灵感。为此,我们引入了用于分割的SE模块的三种变体,(i)空间挤压和通道激励。 ,(ii)在空间上挤压通道和激励,以及(iii)联合空间和通道挤压和激发。我们有效地将所提出的SE模块整合到三个最先进的F-CNN中,并展示了在三个具有挑战性的基准数据集上的分割准确性的持续改进。重要的是,SE块仅导致模型复杂度的最小增加约1.5%,而在U-Net的情况下,Dice得分增加4-9%。因此,我们认为SE模块可以成为未来F-CNN架构的组成部分。

I. I NTRODUCTION

基于深度学习的体系结构,尤其是卷积神经网络(CNN),在图像分类取得巨大成功后,已成为处理图像数据的首选工具。对于图像分割,完全卷积神经网络(F-CNN)已经在医学成像和计算机视觉中设定了基准性能。所有这些体系结构的基本构建块是卷积层,它学习沿所有输入通道捕获局部空间模式的滤波器,并生成联合编码空间和信道信息的特征映射。这会生成特征映射,形成原始输入的丰富表示。最近的许多工作旨在改进空间和信道信息的联合编码,但对空间和信道方式模式的编码的独立性却少得多。最近的一项工作试图通过明确地建模特征图的通道之间的相互依赖性来增强其表示来解决这个问题。这是通过称为挤压和激励(SE)块的架构组件实现的,它可以无缝集成为CNN中的附加组件。该SE块通过全局平均池来计算空间依赖性以学习特定于通道的描述符,该描述符用于重新缩放输入特征映射以仅突出显示有用的通道。当这个组件沿着空间域“挤压”并沿着通道“激发”或重新加权时,它被称为挤压和激励块。具有此类SE块的卷积网络在ImageNet数据集上的ILSVRC 2017图像分类竞赛中获得了最佳性能,表明其效率。
在本文中,我们的目标是利用SE块的高性能将图像分类与图像分割相结合,将它们集成到F-CNN中。我们将先前提出的SE块[12]称为通道SE(cSE),因为它只是频道激发,已被证明对图像分类非常有效。使用这样的块的优点在于,由于全局平均池,每个中间层都具有输入图像的总感受域。我们假设像素方式的空间信息对于高度复杂的细粒度分割任务更具信息性。解剖学,在医学成像中很常见。因此,我们引入了一个替代SE块,它沿着通道“挤压”并在空间上“激发”,称为空间SE(sSE)。这是对cSE块的补充,因为它不会改变感受野,但会提供空间关注以专注于某些区域。最后,我们建议将这两个块组合在空间和通道SE块(scSE)中,这些块沿着通道和空间分别重新校准特征图,然后组合输出。这聚合了每个块的独特属性,并鼓励特征映射在空间和通道方面提供更多信息。我们针对分割准确性探索了两种块的不同聚合策略。据我们所知,这是神经网络首次提出空间挤压和激发以及F-CNN中挤压和激发的第一次整合。
我们将现有的(cSE)和提议的(sSE,scSE)SE模块集成到三个最先进的F-CNN模型中进行图像分割,以证明SE模块是提升性能的通用网络组件。 我们在三个具有挑战性的医学应用中评估分割性能:全脑,全身和视网膜层分割。 在全脑分割中,我们自动将27个皮质和皮质下结构包裹在磁共振成像(MRI)T1加权脑部扫描上。 在全身分割中,我们在对比增强CT扫描上标记了10个腹部器官。 在视网膜层和液体分割中,我们将视网膜光学相干断层扫描(OCT)扫描分为7层,并在患有糖尿病性黄斑水肿的受试者中积聚液体。
这项工作是我们早期工作的延伸[13],我们进一步改进了方法,提供了细节,并在训练期间对SE网络动态的分析进行了更广泛的实验。
总而言之,本文的贡献是
1.F-CNNs中挤压和激发的整合用于语义分割。
2.引入通道挤压和空间激发(sSE),提供对具有挑战性的空间区域的关注,有助于细粒度分割。
3.两个cSE和sSE块的组合由元素方式的max-out层组合,以共同重新校准特征映射,包括通道和空间。
4.对3个具有挑战性的分割任务进行了实验,将所提出的模块集成到4个F-CNN体系结构中,其中在模型复杂性的最小增加内观察到分割的一致性改进。

A. Related Work

F-CNN架构已广泛用于各种医学图像分割任务,提供最先进的性能。其中一个开创性的
F-CNN模型,U-Net [3]被提议用于分割电子显微镜扫描。 U-Net具有基于编码器 - 解码器的结构,由瓶颈层隔开。在具有相似空间分辨率的编码器和解码器的特征图之间包括空中连接,以向解码器提供更多上下文信息并帮助通过网络的梯度流。它成功地用于多种医学成像模式的分割。引入了Skip-DeconvNet(SD-Net)[5],它建立在U-Net之上,通过使用解拼层[7]来修改解码路径,以提高分段中的空间一致性。通过优化加权逻辑损失和骰子损失的关节损失函数来学习,专门设计用于解决类不平衡的挑战,这在医学成像中非常常见。 SD-Net成功用于OCT扫描中MRI扫描和视网膜层分割任务的全脑分割[14]。更新的体系结构引入了CNN中的密集连接[15],以促进层内的特征可重用性,使表示学习更有效。与使用正常卷积的U-Net和SD-Net不同,这种想法通过在编码器和解码器块内具有密集连接而被并入F-CNN中。这种架构称为完全卷积密集网(FC-DenseNet)[9],进一步提高了分段性能。这种FC-DenseNet的一种变体已被用于MRI T1扫描中的全脑分割任务[16]。在本文中,我们选择这些常用的F-CNN架构作为参考,以检查SE块的有效性。
II. M ETHODS
给定输入图像I,F-CNN近似非线性映射Fseg(·),其将I映射到分割S,Fseg:I→S。 函数Fseg(·)是对应于每个编码器或解码器块的级联函数Fitr(·)的序列,由最大池(在编码器路径中)或上采样层(在解码器路径中)分开。
让我们将中间输入特征图表示为X∈RH×W×C,其通过编码器或解码器块F tr(·)以生成输出特征图U∈RH×W×C,F tr:X→U。 这里H和W是空间高度和宽度,C 0和C分别是输入和输出通道。 生成的U通过一系列卷积层将非空间和信道信息组合在一起
由F tr(·)定义的线性度。 我们将SE块F SE(·)放在U上以重新校准它
你 我们提出了三种不同的SE模块变体,下面将详细介绍。
A. Spatial Squeeze and Channel Excitation Block (cSE)


图片.png

我们描述了[12]中提出的空间挤压和通道激发块。 我们将输入特征映射U = [u 1,u 2,...,u C]视为通道ui∈RH×W的组合。 空间挤压由全局平均合并层执行,产生矢量z∈R1×1×C及其第k个元素
该操作将全局空间信息嵌入向量z中。 该向量被变换为z = W 1(δ(W 2 z)),其中W1∈RC×Cr,W2∈RCr×C是两个完全连接层和ReLU算子δ(·)的权重。 参数r表示信道激励中的瓶颈,其编码信道方式依赖性。 预示我们的一些结果,通过r = 2获得最佳性能。 z的激活的动态范围被带到区间[0,1],使其通过S形层σ(z)。 得到的载体用于重新校准或激发U至


图片.png

激活σ(z i)表示第i个信道的重要性,其可以按比例放大或缩小。 随着网络的学习,这些激活被自适应地调整为忽略不太重要的通道并强调重要的通道。 该块的体系结构如图1(a)所示。
B. Channel Squeeze and Spatial Excitation Block (sSE)
每个值σ(qi; j)对应于给定特征图的空间信息(i; j)的相对重要性。 这种重新校准提供了相关空间位置的更多重要性,并忽略了不相关的空间位置。
C. Spatial and Channel Squeeze & Excitation Block(scSE)
以上解释的每个cSE和sSE块具有其独特的属性。 cSE块通过合并全局空间信息来重新校准通道。这个全局平均池化层在FCNN的每个阶段提供整个空间范围的感知域,帮助分割管道。 相反,由于通过1×1卷积层实现信道挤压,因此在sSE块中不改变感受野。 相反,它的行为类似于空间注意力图,指示网络应该更多地关注以帮助分割。 我们提出了来自这两个SE块的补充信息的组合,通过在空间和信道方面同时重新校准输入U. 组合的scSE块的体系结构如图1(c)所示。 我们将在下文中探讨并发空间和通道SE(U scSE)的四种不同策略。
(i) Max-Out:
max-out层强制实现两个SE块之间的元素竞争力,类似于[17]。 这提供了选择性空间和信道激励,使得最终分割得到改善。
(ii)Addition
(iii)Multiplication

(iv)Concatenation:
与前面提到的聚合策略相比,这种聚合的优点是不会丢失任何信息。 但在不利方面,输出UscSE的通道数量翻倍,这反过来又增加了模型的复杂性。
有人可能会争辩说,通过添加scSE块来提高性能可能是因为:(i)增加了模型复杂性,以及(ii)增加了感知域(平均全局池)。 在F-CNN架构中合并这些属性的一种简单方法是添加额外的编码器/解码器块。 标签。 图7示出了用于参考架构的MALC上的SD-Net的结果,其包括3个编码器/解码器块,添加另一个编码器/解码器块,以及添加scSE块。 我们观察到添加额外的编码器/解码器将Dice得分提高了5%,但模型复杂度增加了8%。 然而,添加scSE会使Dice得分增加9%,而模型复杂度仅增加1.5%。 这证实了scSE块具有独特的属性,这是通过添加更多卷积层无法实现的。
sE-1中的激活图主要显示前景与基于背景的区别。由于这是浅层之一,具有较低的特征顺序,因此激活不是特定于类的。在脑部MRI扫描中,我们观察到头骨也被突出显示,尽管它是背景课程的一部分。这表明网络使用头骨作为参考来建立脑组织的相对空间位置。此外,sE-1地图在时代上没有太大变化,因为这是网络中的第一层,并且已经在第一个时期学到了。
对于sD-4激活图,我们观察到更加动态的行为,并且在时期期间激活的明显变化。对于脑MRI,我们在第一个时期之后看到左侧白质上的突出显示,而在第三个时期之后右侧白质突出显示。时代。对于其他时代,跨半球的激活更加平衡。有趣的是,观察到网络已经在第一个时期粗略地学习了白质,正如紧随其后的激活所表明的那样。从第五纪开始,小脑结构得到强调。总的来说,我们注意到后期时代的激活图与输入扫描的某些相似性,侧重于边界。

你可能感兴趣的:(Recalibrating Fully Convolutional Networks with Spatial and Channel ‘Squeeze & Excitation’ Blocks)