[ arxiv:] (https://arxiv.org/abs/1912.05074)
首先总结作者提出的网络结构本质上是一个深度监督的编码器-解码器网络,其中编码器和解码器子网络中是通过一系列嵌套的,密集的跳跃路径连接。
Our architecture is essentially a deeply-supervised encoder-decoder network where the encoder and decoder sub-networks are connected through a series of nested, dense skip pathways.
然后提出使用嵌套的,密集跳跃路径连接的好处是:缩小编码器和解码器特征图的语义差距(the semantic gap)。作者认为当编码器和解码器的特征图的语义相似时优化器可以处理一个更加简单的学习任务(learning task),有利于提升模型的性能。
We argue that the optimizer would deal with an easier learning task when the feature maps from the decoder and encoder networks are semantically similar.
最后作者分别在多个医疗分割任务上对比了Unet++、Unet和wide-Unet,发现Unet++的性能均优于其他两个网络。
作者首先介绍了当前表现优异的医学分割网络Unet和FCN,并指出两种网络的共同特点:跳跃连接(Skip Connections)。跳跃连接被证明在恢复目标对象细粒度细节方面具有良好表现。
The skip connections have proved effective in recovering fine-grained details of the target objects, generating segmentation masks with fine details even on complex background.
同时指出跳跃连接也是实例分割网络(例如Mask-RCNN)成功的关键。这些网络在自然图像分割方面已经取得了令人满意的效果,但是在医学图像分割方面这还远远不够。
Segmenting lesions or abnormalities in medical images demands a higher level of accuracy than what is desired in natural images.
作者通过举例子例证了这一观点:结节周围细微的针状形态可能提示结节恶性。不准确的分割也可能导致后续计算机生成的诊断发生重大变化。
为了满足医疗分割的精度要求,作者提出了本文的网络模型Unet++,一种新的基于嵌套和密集跳过连接的分段体系结构。该模型下的假设是:当编码器的高分辨率特征图在与解码器中相应的语义丰富的特征图融合之前逐渐丰富是,该模型可以更有效地捕获前景对象的细粒度细节。这也是作者对该模型有效性的解释。
The underlying hypothesis behind our architecture is that the model can more effectively capture fine-grained details of the foreground objects when high-resolution feature maps from the encoder network are gradually enriched prior to fusion with the corresponding semantically rich feature maps from the decoder network.
这与U-Net中常用的普通跳过连接形成对比,后者直接从编码器到解码器网络的快进高分辨率特征映射,导致语义上不相似的特征映射的融合。
Long等人首先引入了全卷积网络(FCN),而Ronneberger等人引入了UNet。它们都有一个共同的关键思想:跳过连接。在FCN中,上采样的特征映射用从编码器跳过的特征映射进行求和,而U-Net将它们连接起来,并在每个上采样步骤之间添加卷积和非线性。跳跃连接已被证明有助于恢复网络输出的完整空间分辨率,使全卷积方法适合于语义分割。受到DenseNet架构的启发,Li等提出了H- denseunet用于肝脏和肝脏肿瘤分割。基于同样的精神,Drozdzalet等人系统地研究了跳越连接的重要性,并在编码器中引入了短跳越连接。尽管上述架构之间有微小的差异,但它们都倾向于融合来自编码器和解码器子网络的语义不同的特征映射,根据我们的实验,这可能会降低分割性能。
图a为Unet++网络结构图,黑色表示原Unet网络结构,绿色和蓝色表示密集的嵌套的跳跃连接,红色表示深度监督训练(deep supervision)。其中i为沿编码器的下采样层索引,j为沿跳过路径的密集块的卷积层索引。图b是Unet++首次条约路径,可以看到其借鉴了densenet的思想。图c表面若使用深度监督训练可以对Unet++进行自动剪枝。
重新设计的跳过路径改变了编码器和解码器子网络的连通性。在U-Net中,编码器的特征图直接在解码器中接收;而在unet++中,它们经历一个密集的卷积块,其卷积层数取决于金字塔级。
从本质上讲,密集卷积块使编码器特征映射的语义级别更接近于在解码器中等待的特征映射的语义级别。假设当接收到的编码器特征映射和相应的解码器特征映射在语义上相似时,优化器将面临更容易的优化问题。
论文作者在unet++中使用深度监督,使模型可以在两种模式下运行:1)精确模式下,对所有细分分支的输出进行平均;2)快速模式,即只从一个分割分支中选择最终分割图,其选择决定了模型修剪的程度和速度增益。图c显示了快速模式下分段分支的选择如何导致不同复杂性的架构。
四个语义层的损失函数L由binary cross-entropy 和 dice coefficient组合而成。
We have added a combination of binary cross-entropy and dice coefficient as the loss function to each of the above four semantic levels
公式如下:
N为batchsize
综上所述,如图a所示,unet++与最初的U-Net有三个不同之处:
①在跳过路径上有卷积层(绿色部分),这弥合了编码器和解码器特征图之间的语义鸿沟;
②在跳跃路径上有密集的跳跃连接(如蓝色所示),改善了梯度流动;
③具有深度监督(用红色表示),它支持模型修剪,并提高或在最坏情况下达到与仅使用一个损失层相当的性能。
使用四种医学成像数据集进行模型评估,涵盖来自不同医学成像模式的病变/器官。
本文unet++使用unet作为基本模型,同时还设计了一个宽的U-Net与Unet++参数数量相似。这是为了确保我们的体系结构所产生的性能增益不仅仅是由于参数数量的增加。