上一篇章,主要介绍了目前图像分割领域常用的基础网络结构,以及总结了十大图像分割算法,本节继续介绍剩余算法。
论文阅读—图像分割方法综述(一)(arXiv:[cs:cv]20200410)
论文阅读—图像分割方法综述(三)(arXiv:[cs:cv]20200410)
另一个流行的用于图像分割的深度模型系列基于卷积编码器-解码器体系结构。 大多数基于DL的分割工作都使用某种编码器/解码器模型,我们将这些工作分为两类:用于一般分割的编码器-解码器模型和用于医学图像分割的编码器/解码器模型(以更好地区分应用)。
Noh等[43]发表了有关基于反卷积(也称为转置卷积)的语义分割的早期论文。 他们的模型(图11)由两部分组成,一个是使用VGG16的卷积层作为编码器,另一个解码器是将特征向量作为输入并生成像素级类别概率图的反卷积网络。 反卷积网络由反卷积层和反池化层组成,这些层识别逐个像素的类标签并预测分割掩码。 该网络在PASCAL VOC 2012数据集上取得了可喜的性能,并且在当时没有外部数据训练的方法中获得了最高的准确性(72.5%)。
在另一个被称为SegNet的有前途的工作中,Badrinarayanan等人[44]提出了一种用于图像分割的卷积编码器-解码器架构(图12)。类似于反卷积网络,SegNet的核心可训练分段引擎包括一个编码器网络(在拓扑上与VGG16网络中的13个卷积层相同),以及一个相应的解码器网络,其后是按像素分类层。 SegNet的主要新颖之处在于解码器对其较低分辨率的输入特征图进行升采样。具体来说,它使用在相应编码器的最大池化步骤中计算出的合并索引来执行非线性上采样,从而无需学习上采样。然后,将(稀疏的)上采样图与可训练的滤波器进行卷积以生成密集的特征图。与其他竞争性体系结构相比,SegNet的可训练参数数量也明显更少。同一作者还提出了贝叶斯版本的SegNet,以对卷积编码器-解码器网络用于场景分割的固有不确定性建模[45]。
此类别中的另一个流行模型是最近开发的分割网络,高分辨率网络(HRNet)[119]图13。除了像DeConvNet,SegNet,U-Net和V-Net中那样恢复高分辨率表示之外,HRNet还会保持较高的通过并行连接高到低分辨率卷积流,并在分辨率之间反复交换信息,通过编码过程实现分辨率表示。
最初开发了几种用于医学/生物医学图像分割的模型,这些模型受FCN和编码器-解码器模型的启发。 U-Net [50]和V-Net [51]是两个众所周知的此类体系结构,现在也已在医疗领域之外使用。
Ronneberger等[50]提出了用于分割生物显微镜图像的U-Net。他们的网络和训练策略依靠数据增强来更有效地从可用的带注释的图像中学习。 U-Net体系结构(图14)包括两个部分,一个用于捕获上下文的收缩路径,以及一个能够实现精确定位的对称扩展路径。下采样或压缩部分具有类似于FCN的体系结构,可通过3x3卷积提取特征。上采样或扩展部分使用上卷积,在增加特征图尺寸的同时减少了特征图的数量。来自网络下采样部分的特征图将复制到上采样部分,以避免丢失模式信息。最后,1x1卷积处理特征图,以生成对输入图像的每个像素进行分类的分割图。 U-Net接受了30幅透射光显微镜图像的培训,并且在2015年赢得了ISBI细胞跟踪挑战赛的冠军。
多尺度分析是图像处理中的一个相当古老的想法,已被部署在各种神经网络体系结构中。 这种最突出的模型之一是Lin等人提出的特征金字塔网络(FPN)。它主要是为目标检测而开发的,但后来也应用于分割。 深度卷积神经网络固有的多尺度金字塔层次结构用于以少量额外成本构建特征金字塔。 为了合并低分辨率和高分辨率功能,FPN由自下而上的路径,自上而下的路径和横向连接组成。 然后,通过3x3卷积处理级联的特征图,以生成每个阶段的输出。 最终,自顶向下路径的每个阶段都会生成预测以检测物体。 对于图像分割,作者使用两个多层感知器(MLP)生成MASKS。图16显示了横向连接和自上而下的方式路径通过加法合并。
赵等[57]提出了金字塔场景解析网络(PSPN),这是一个多尺度网络,可以更好地学习场景的全局上下文表示(图17)。使用残差网络(ResNet)作为特征提取器得到特征图。 然后将这些特征图输入金字塔池模块,以区分不同比例的特征图,它们以四个不同的比例合并,每个比例对应于一个金字塔等级,并由1x1卷积层处理以减小其维度。 金字塔等级的输出被上采样并与初始特征图连接,以捕获本地和全局上下文信息。 最后,使用卷积层生成逐像素预测。
Ghiasi和Fowlkes [58]提出了一种基于拉普拉斯金字塔的多分辨率重建结构,该结构使用了来自高分辨率特征图的跳跃连接和乘性门控,以逐步完善从低分辨率图重建的分割边界。 他们表明,尽管卷积特征图的表观空间分辨率较低,但高维特征表示却包含重要的子像素定位信息。
还有其他使用多尺度分析进行细分的模型,例如DM-Net(动态多尺度过滤器网络)[59],上下文对比网络和门控多尺度聚合(CCN)[60],自适应金字塔上下文网络(APC- Net)[61],多尺度上下文交织(MSCI)[62]和显着对象分割[63]。
区域卷积网络(R-CNN)及其系列Fast R-CNN,Faster R-CNN,Mask-RCNN在目标检测应用中被证明是成功的。 R-CNN的某些扩展已被广泛用于解决实例分割问题。 即同时执行对象检测和语义分割的任务。 特别是,为目标检测而提出的Faster R-CNN [64]结构(图18)使用区域建议网络(RPN)生成候选框。RPN提取感兴趣区域(RoI),RoIPool层从这些建议框中计算特征,以推断出边界框坐标和对象的类别。
该模型的一个扩展中He等人[65]提出了一种用于对象实例分割的Mask R-CNN,它在许多COCO挑战方面都超过了以前的所有基准。 该模型有效地检测图像中的对象,同时为每个实例生成高质量的分割MASK。 MASK R-CNN本质上是具有3个输出分支的Faster RCNN(图19)-第一个计算边界框坐标,第二个计算关联的类,第三个计算binary mask以分割对象。 MASK R-CNN损失函数将边界框坐标,预测类和 segmentation mask的损失合并在一起,并共同训练它们。 图20显示了一些样本图像上的Mask-RCNN结果。
Liu等人提出的路径聚合网络(PANet)[66]基于Mask R-CNN和FPN模型(图21)。 网络的特征提取器使用FPN架构,具有新的增强的自下而上的路径,从而改善了低层功能的传播。 第三条路径的每个阶段都将前一阶段的特征图作为输入,并使用3x3卷积层对其进行处理。 使用横向连接将输出添加到自顶向下路径的同一阶段特征图,这些特征图将馈入下一个阶段。 与Mask RCNN中一样,自适应特征池化层的输出将馈入三个分支。 前两个使用全连接层来生成边界框坐标和关联对象类别的预测。,第三部分使用FCN处理RoI以预测object mask。
Dai等[67]提出了一个多任务网络,用于实例感知的语义分割,它由三个网络组成,分别区分实例,估计掩码estimating masks和对对象进行分类。 这些网络形成一个级联结构,旨在共享它们的卷积特征。 Hu等[68]提出了一种新的部分监督的训练范例,以及一个新颖的权重传递函数,该训练范例使训练实例分割模型可以基于大量类别,所有类别都具有框注,但是只有一小部分具有mask annotations。
Chen等通过基于Faster R-CNN的语义和方向特征完善对象检测,提出了一个实例分割模 MaskLab(图22)。 该模型产生三个输出,框检测,语义分割和方向预测。 在Faster-RCNN对象检测器的基础上,预测框提供了对象实例的精确定位。 在每个感兴趣的区域内,MaskLab通过组合语义和方向预测来执行前景/背景分割。
另一个有趣的模型是Chen等人提出的Tensormask [70],这是基于密集的滑动窗口实例分割。 他们将密集实例分割视为4D张量上的预测任务,并提出了一个通用框架,该框架使4D张量上的新型算子成为可能。 他们证明张量视图可以带来比基线大的收益,并且产生的结果与Mask R-CNN相当。 TensorMask在密集对象分割上取得了可喜的结果(图23)。
已经有许多基于R-CNN的实例分割模型被提出,例如那些mask proposal的模型,包括R-FCN [71],DeepMask [72],SharpMask [73],PolarMask [74]和边界感知实例分割[75]。 值得注意的是,还有另一个有希望的研究方向,它试图通过学习用于自下而上的分割的分组线索来解决实例分割问题,例如深度分水岭变换[76]和通过深度度量学习的语义实例分割[77]。
扩张卷积(空洞卷积)为卷积层引入了另一个参数,即扩张率。 信号x(i)的扩张卷积(图24)定义为 y i = ∑ k x [ i + r k ] w [ k ] y_i = \sum _{k}x [i + rk] w [k] yi=∑kx[i+rk]w[k],其中r是定义内核权重w之间的间距的扩张率 。 例如,具有2的膨胀率的3x3核将具有与5 5核相同的大小感受野,而仅使用9个参数,因此在不增加计算成本的情况下扩大了感受野。 空洞卷积在实时分割领域中很流行,并且许多最近的出版物报道了这种技术的使用。 其中最重要的一些包括DeepLab系列[78], multiscale context aggregation [79], dense upsampling convolution and hybrid dilatedconvolution (DUC-HDC) [80], densely79 connected Atrous Spatial Pyramid Pooling (DenseASPP) [81],and the efficient neural network (ENet) [82]。
DeepLabv1 [38]和DeepLabv2 [78]是Chen等人提出的一些最受欢迎的图像分割方法。后者具有三个关键功能。首先是使用空洞卷积来解决网络中分辨率下降的问题(这是由最大池化和步幅引起的)。其次是多孔空间金字塔池化(ASPP),它以多种采样率使用过滤器探测传入的卷积特征层,从而以多种比例捕获对象以及图像上下文,从而以多种比例可靠地分割对象。第三是通过结合深层CNN和概率图形模型的方法来改进对象边界的定位。 最好的DeepLab(使用ResNet-101作为骨干)在2012年PASCAL VOC挑战赛中达到79.7%的mIoU分数,在PASCAL-Context挑战赛中达到45.7%的mIoU分数,在Cityscapes挑战赛中达到70.4%的mIoU分数。图25说明了Deeplab模型,该模型类似于[38],主要区别在于使用了扩展卷积和ASPP。
随后陈等[12]提出了DeepLabv3,它结合了空洞卷积的级联和并行模块。 并行卷积模块在ASPP中分组。 在ASPP中添加了1x1卷积和批处理归一化(BN)。 所有输出通过另一个1x1卷积进行级联和处理,以创建具有每个像素logit的最终输出。
2018年Chen等[83]发布了Deeplabv3 +,该版本使用了编码器-解码器体系结构(图26),包括无空间可分卷积,由深度卷积(输入每个通道的空间卷积)和点向卷积(深度卷积为1x1卷积) 作为输入)。 他们使用DeepLabv3框架作为编码器。 最相关的模型具有经过修改的Xception骨架,具有更多层,扩展的深度可分离卷积,而不是最大池化和批量归一化。在COCO和JFT数据集上预训练的最佳DeepLabv3 +在2012年PASCAL VOC挑战中获得了89.0%的mIoU分数。
尽管CNN很自然地适合解决计算机视觉问题,但它们并不是唯一的可能性。 RNN在建模像素之间的短期/长期依存关系方面很有用,以改善分割图的估计。使用RNN,可以将像素链接在一起并进行顺序处理以建模全局上下文并改善语义分割。 但是,挑战之一是图像的自然2D结构。
Visin等[84]提出了一种基于RNN的语义分割模型ReSeg。 该模型主要基于另一项研究ReNet [85],该研究是为图像分类而开发的。 每个ReNet层(图27)由四个RNN组成,它们在两个方向上水平和垂直扫描图像,编码补丁/激活并提供相关的全局信息。 为了使用ReSeg模型进行图像分割(图28),ReNet层堆叠在提取通用局部特征的预训练VGG-16卷积层之上。 然后,在ReNet层之后是上采样层,以在最终预测中恢复原始图像分辨率。 使用门控循环单元(GRU)是因为它们在内存使用和计算能力之间提供了良好的平衡。
在另一项工作中,Byeon等 [86]使用长短期记忆(LSTM)网络开发了场景图像的像素级分割和分类。 他们研究了自然场景图像的二维(2D)LSTM网络,同时考虑了标签的复杂空间依赖性。 在这项工作中,分类,分割和上下文集成都由2D LSTM网络执行,从而允许在单个模型中学习纹理和空间模型参数。 [29]中提出的用于图像分割的2D LSTM网络的框图如图29所示。
Hu等[89]开发了一种基于自然语言表达的语义分割算法,结合使用CNN编码图像和LSTM编码其自然语言描述。这与图30不同。图LSTM模型与传统的像素级RNN模型之间的比较。从传统语义分割到一组预定义的语义类,例如短语“两个人坐在正确的长凳上”只将正确的长凳上的两个人分开,没有人站立或坐在另一个长凳上。为了产生用于语言表达的逐像素细分,他们提出了一种端到端可训练的递归和卷积模型,该模型共同学习处理视觉和语言信息(图33)。在考虑的模型中,使用递归LSTM网络将参考表达编码为矢量表示,并使用FCN从图像中提取空间特征图并输出目标对象的空间响应图。该模型的示例分割结果(针对查询“穿着蓝色外套的人”)如图34所示。
多年来,人们一直在计算机视觉中探索注意力机制,因此,找到将此类机制应用于语义分割的文章也就不足为奇了。
Chen等 [90]提出了一种注意力机制,可以学习在每个像素位置轻柔地加权多尺度特征。 他们采用了强大的语义分割模型,并结合多尺度图像和注意力模型对其进行了训练(图35)。 注意机制的性能优于平均池化和最大池化,它使模型能够评估不同位置和比例下特征的重要性。
与其他训练卷积分类器以学习标记对象的代表性语义特征的工作相反,Huang等人[91]提出了一种使用逆向注意机制的语义分割方法。其逆向注意网络(RAN)架构(图36)也训练模型以捕获相反的概念(即与目标类不相关的功能)。 RAN是一个三分支网络,可同时执行直接注意和反向注意学习过程。
Li等[92]开发了一个用于语义分割的金字塔注意网络。 该模型利用了全局上下文信息在语义分割中的影响,将注意力机制和空间金字塔相结合,以提取精确的密集特征进行像素标记,而不是使用复杂的空洞卷积和人工设计的解码器网络。
最近傅等人 [93]提出了一种用于场景分割的双重注意力网络,它可以基于自关注机制捕获丰富的上下文相关性。 具体来说,它们在扩张的FCN顶部附加了两种类型的注意模块,分别针对空间和通道维度的语义相互依赖性进行建模。位置注意模块通过所有位置的特征加权总和选择性地聚合每个位置的特征。双重注意力网络的体系结构如图37所示。
其他各种工作也探索了语义分割的注意力机制,例如OCNet [94],该机制提出了受自我注意力机制启发的目标内容上下文池化,期望最大化注意力(EMANet)[95],跨交叉注意力网络(CCNet)[96]。具有经常注意的端到端实例分割[97],用于场景解析的逐点空间注意网络[98]和区分性特征网络(DFN)[99],其中包括两个子网络:平滑网络 (包含一个通道注意块和全局平均池化以选择更具区别性的特征)和一个边界网络(以使边界的双边特征可区分)。
Luc等提出了一种对抗训练的语义分割方法。 他们训练了一个卷积语义分割网络(图38),以及一个对抗网络,该网络将真实分割图与由分割网络生成的图区分开来。 他们表明,对抗训练方法可以提高Stanford Background和PASCAL VOC 2012数据集的准确性。
图39显示了对来自斯坦福背景数据集的一幅示例图像进行对抗训练所带来的改进。
在另一项工作中,洪等人提出了一个使用对抗网络的半监督语义分割框架。 他们设计了FCN判别器,以考虑空间分辨率,将预测的概率图与真实分割图分布区分开。 该模型考虑的损失函数包含三个术语:基于分割的真实交叉熵损失,判别器网络的对抗损失和基于置信度图的半监督损失;以及判别器的输出。 Hung及其同事的模型架构如图40所示。
薛等[103]提出了一种具有多尺度L1损失的对抗网络,用于医学图像分割。 他们使用FCN作为分割器来生成分割标签图,并提出了一种具有多尺度L1损失函数的新型对抗性评价(critic)网络,以迫使critic and segmentor 学习捕获了两者之间长距离和短距离空间关系的全局和局部特征像素。 分割器和注释器网络的框图如图41所示。
医学相关不做介绍
除上述模型外,还有几种其他流行的用于分割的DL架构,例如:上下文编码网络(EncNet),它使用基本的特征提取器并将特征映射馈送到上下文编码模块[116]。 RefineNet [117]是一个多路径优化网络,它明确利用降采样过程中的所有可用信息,以实现使用远程残差连接的高分辨率预测。 Seednet [118]引入了具有深度强化学习功能的自动种子生成技术,该技术学会了解决交互式分割问题的方法。Feedforward-Net [124]将图像超像素映射到从一系列递增的嵌套区域中提取的丰富特征表示中 扩展并利用图像和标签空间中的统计结构,而无需建立明确的结构化预测机制。
全景分割[137]也是另一个有趣的(以及较新的)分割问题,而且普及程度不断提高,并且在这个方向上已经有一些有趣的工作,包括全景特征金字塔网络[138],用于全景分割的注意力指导网络[139], 和无缝场景分割[140]。
Figure 42 illustrates the timeline of popular DL-based works for semantic segmentation, as well as instance segmentation since 2014. Given the large number of works developed in the last few years, we only show some of the most representative ones.
该章总结:主要介绍了一些基于不同网络架构的典型分割算法,粗略地了解他们的工作原理,可以看到有很多值得思考研究的地方,后面我们再继续介绍图像分割领域中的常用数据集。
未完待续…