【实例分割】论文阅读-CenterMask: Real-Time Anchor-Free Instance Segmentation

论文:CenterMask : Real-Time Anchor-Free Instance Segmentation
作者:Youngwan Lee and Jongyoul Park Electronics and Telecommunications Research Institute (ETRI), South Korea

Abstract

我们提出了一个简单而有效的无锚点的实例分割,称为CenterMask,它与Mask R-CNN类似向无锚框的一阶段目标检测器(FCOS [33])添加了一个新颖的空间注意力导向Mask(SAG-Mask)分支。SAG-Mask分支将使用空间关注图预测每个检测到的盒子上的分割Mask,以帮助关注信息像素并抑制噪声。我们还提出了一种改进的骨干网络VoVNetV2,它具有两种有效的策略:(1)残差连接以缓解较大的VoVNet的优化问题[19],以及(2)有效的压缩激励(eSE),用于处理通道信息丢失问题。借助SAG-Mask和VoVNetV2,我们分别设计了分别针对大型和小型模型的CenterMask和CenterMask-Lite。使用相同的ResNet-101-FPN主干,CenterMask达到了38.3%,超越了以前所有的最新方法同时以更快的速度。 CenterMask-Lite在Titan Xp上也以超过35fps的速度大幅领先于最新技术。我们希望CenterMask和VoVNetV2可以分别作为用于各种视觉任务的实时实例分割和骨干网络的坚实基准。

【实例分割】论文阅读-CenterMask: Real-Time Anchor-Free Instance Segmentation_第1张图片

1. Introduction

最近,实例分割已取得了超越目标检测的巨大进步。 最有代表性的方法,Mask R-CNN [9],扩展到目标检测(例如,Faster R-CNN [30]),已主导了COCO [23]基准,因为可以通过检测目标然后预测每个框内的像素来轻松解决实例分割问题。 但是,即使有很多工作[15、2、3、20、24]用于改进Mask R-CNN [9],但考虑到实例分割速度的工作却很少。 尽管由于YOLACT [1]的并行结构和极其轻巧的Assembly过程,它是第一个实时的一阶段实例分割,但与Mask R-CNN [9]的准确性差距仍然很大。 因此,我们旨在通过提高准确性和速度来弥合差距。

Mask R-CNN [9]基于两阶段对象检测器(例如,Faster R-CNN),该对象检测器首先生成候选框,然后预测框的位置和分类,而YOLACT [1]建立在一阶段目标检测器上( RetinaNet [22]),无需生成候选框即可直接预测然而,这些物体检测器严重依赖于预定义锚,该预定义锚对超参数(例如,输入大小,纵横比,比例等)和不同的数据集敏感。 此外,由于它们密集地放置锚框以提高查全率,所以过多的锚框会导致正/负样本的不平衡以及较高的计算/内存成本。 为了解决锚框的这些缺点,最近,许多工作[18、6、38、39、33、38]倾向于通过使用角/中心点从锚框向无锚的方向转变,这与基于锚框的探测器相比,效率更高,性能更好。
【实例分割】论文阅读-CenterMask: Real-Time Anchor-Free Instance Segmentation_第2张图片
因此,我们设计了一个简单但有效的无锚框一阶段实例分割,称为CenterMask,它以与Mask R-CNN相同的方式向更高效的一阶段无锚框目标检测器(FCOS [33])添加了一个新颖的空间注意力导向的Mask分支。 图2显示了CenterMask的概述。 插入FCOS [33]对象检测器后,我们的空间注意力引导模块(SAG-Mask)分支将使用FCOS [33]检测器中的预测框来预测每个关注区域(RoI)上的分割Mask。 SAG-Mask中的空间注意模块(SAM)帮助Mask分支将注意力集中在有意义的像素上,并压制无关的像素。

在提取每个RoI的特征以进行Mask预测时,应考虑RoI比例来分配每个RoI池。 Mask R-CNN [9]提出了一种对其方式RoIAlign,它不考虑输入比例。 因此,我们设计了一种具有比例尺的RoI分配函数,该函数考虑了输入比例尺,是一种更适合的一级目标检测器。 我们还提出了一种基于VoVNet [19]的更有效的骨干网络VoVNetV2,由于其一键式聚合(OSA),它比ResNet [10]和DenseNet [14]具有更好的性能和更快的速度。

在Squeeze-Excitation(SE)通道注意模块中,发现全连接层会减小通道大小,从而减少计算负担但会意外地导致通道信息丢失。 因此,我们将SE模块重新设计为有效的SE(eSE),用保持通道维度的一个FC层代替了两个FC层,从而防止了信息丢失,进而提高了性能。 通过残余连接和eSE模块,我们建议使用各种规模的VoVNetV2。 从轻量级VoVNetV2-19,基本VoVNetV2-39 / 57和大型模型VoVNetV2-99,它们对应于MobileNet-V2 [11],ResNet-50 / 101 [10]和HRNetW18 / 32 [32]和ResNeXt-32x8d [ 36]。

2. CenterMask

在本节中,我们首先回顾无锚点的目标检测器FCOS [33],它是CenterMask的基本对象检测部分。 接下来,我们演示CenterMask的体系结构,并描述如何设计建议的空间注意力引导Mask分支(SAG-Mask)以插入FCOS [33]检测器。 最后,提出了一种更有效的骨干网络VoVNetV2,以提高CenterMask在准确性和速度方面的性能。

2.1. FCOS

FCOS [33]是像FCN [26]那样在每个像素的预测方式下无需锚定和建议的物体检测。诸如Faster RCNN [30],YOLO [29]等最先进的物体检测器]和RetinaNet [22]使用预定义锚框的概念,该锚框需要精心的参数调整和与训练中的IoU相关的复杂计算。如果没有锚框,FCOS [33]会直接预测4D向量以及特征图水平上每个空间位置的类标签。如图2所示,4D向量嵌入了从边界框的四个侧面到位置(例如,左,右,顶部和底部)的相对偏移量。另外,FCOS [33]引入了centerness分支来预测像素到其相应边界框中心的偏差,从而提高了检测性能。为避免锚框的复杂计算,FCOS [33]降低了内存/计算成本,但也优于基于锚框的目标检测器。由于FCOS [33]的效率和良好的性能,我们设计了基于FCOS [33]对象检测器的拟议CenterMask。

2.2. Architecture

图2显示了CenterMask的总体架构。 CenterMask由三部分组成:(1)用于特征提取的主干,(2)FCOS [33]detection head和(3)Mask head。 Mask的生成过程包括:从FCOS [33]中检测物体,然后以像素为单位预测裁剪区域内部的分割Mask。
【实例分割】论文阅读-CenterMask: Real-Time Anchor-Free Instance Segmentation_第3张图片

2.3. Adaptive RoI Assignment Function

在FCOS [33]box head 中预测候选框后,CenterMask使用与Mask RCNN相同的预测框区域来预测分割掩码。 由于RoI是根据特征金字塔网络(FPN [21])中不同尺度的特征图预测的,因此提取特征的RoI Align [9]应相对于RoI比例在不同的特征图比例下分配。 具体而言,必须将大尺度的RoI分配给更深的特征,反之亦然。
【实例分割】论文阅读-CenterMask: Real-Time Anchor-Free Instance Segmentation_第4张图片

2.4. Spatial AttentionGuided Mask

近来,注意力方法[13、34、40、28]已被广泛地应用于物体检测,因为它有助于专注于重要特征,同时还能抑制不必要的特征。 特别是,通道注意[13,12]强调了“什么”来聚焦于特征图的通道,而空间关注[34,4]则关注了“哪里”是一个信息区域。受空间注意机制的启发,我们采用了空间关注模块引导Mask head聚焦有意义的像素并压制无用的像素。

【实例分割】论文阅读-CenterMask: Real-Time Anchor-Free Instance Segmentation_第5张图片

因此,我们设计了一个空间注意力引导模块(SAGMask),如图2所示。一旦RoI Align [9]以14 x 14分辨率提取了预测RoI内的特征,这些特征将被馈送到四个转换层和空间注意模块(SAM)顺序,具体过程如图所示。

class SAG_Mask(nn.Module):
    def __init__(self, in_channels, out_channels):
        super(SAG_Mask, self).__init__()
        mid_channels = in_channels

        self.fisrt_convs = nn.Sequential(
            Conv3x3BNReLU(in_channels=in_channels, out_channels=mid_channels, stride=1),
            Conv3x3BNReLU(in_channels=mid_channels, out_channels=mid_channels, stride=1),
            Conv3x3BNReLU(in_channels=mid_channels, out_channels=mid_channels, stride=1),
            Conv3x3BNReLU(in_channels=mid_channels, out_channels=mid_channels, stride=1)
        )

        self.avg_pool = nn.AvgPool2d(kernel_size=3, stride=1, padding=1)
        self.max_pool = nn.MaxPool2d(kernel_size=3, stride=1, padding=1)

        self.conv3x3 = Conv3x3BNReLU(in_channels=mid_channels*2, out_channels=mid_channels, stride=1)
        self.sigmoid = nn.Sigmoid()

        self.deconv = nn.ConvTranspose2d(mid_channels,mid_channels,kernel_size=2, stride=2)
        self.conv1x1 = Conv1x1BN(mid_channels,out_channels)

    def forward(self, x):
        residual =  x = self.fisrt_convs(x)
        aggregate = torch.cat([self.avg_pool(x), self.max_pool(x)], dim=1)
        sag = self.sigmoid(self.conv3x3(aggregate))
        sag_x = residual + sag * x
        out = self.conv1x1(self.deconv(sag_x))
        return out

if __name__=='__main__':
    sag_mask = SAG_Mask(16,80)
    print(sag_mask)
    input = torch.randn(1, 16, 14, 14)
    out = sag_mask(input)
    print(out.shape)

2.5. VoVNetV2 backbone

在本节中,我们提出了更有效的骨干网络VoVNetV2,以进一步提高CenterMask的性能。 VoVNetV2是在VoVNet [19]引入残差[10]以及改进的有效挤压和激发(eSE)注意模块。 VoVNet是一种计算和节能的骨干网,由于一键聚合(OSA)模块,可以有效地呈现多样化的特征表示。 如图3(a)所示,OSA模块由连续的conv层组成,并立即聚合后续的特征图,它可以高效地捕获各种感受野s,并且在准确性和速度方面均优于DenseNet和ResNet。
【实例分割】论文阅读-CenterMask: Real-Time Anchor-Free Instance Segmentation_第6张图片
残差连接: 即使具有有效且多样化的特征表示,VoVNet在优化方面也有局限性。 随着OSA模块在VoVNet中堆叠(例如更深),我们观察到更深模型的准确性已饱和或降级。 具体而言,表4显示了VoVNetV1-99的准确性低于VoVNetV1-57的准确性。 基于ResNet [10]的动机,我们推测由于转换函数(例如conv)的增加,堆叠OSA模块使梯度的反向传播逐渐变得困难。 因此,如图3(b)所示,我们还将恒等特征[10]添加到OSA模块。 正确说,把输入连接到OSA模块的末端,该OSA模块能够像ResNet这样在每个阶段以端到端的方式反向传播每个OSA模块的梯度。 Identity mapping提高了VoVNet的性能,也使VoVNet可以扩展其深度,例如VoVNet-99。

Effective Squeeze-Excitation (eSE): 为进一步提高VoVNet的性能,我们还提出了一个通道注意模块,即有效压缩激励(eSE),可以更有效地改善原始SE [13]。 压缩激励(SE)[13]是CNN架构中采用的一种代表性的通道注意方法,用于显式地建模特征图通道之间的相互依赖性,以增强其表示能力。 SE模块通过全局平均池压缩空间相关性,以学习特定于通道的描述符,然后使用两个全连接(FC)层以及S型函数来重新缩放输入特征图从而凸显有用通道。

class eSE_Module(nn.Module):
    def __init__(self, channel,ratio = 16):
        super(eSE_Module, self).__init__()
        self.squeeze = nn.AdaptiveAvgPool2d(1)
        self.excitation = nn.Sequential(
            nn.Conv2d(channel, channel, kernel_size=1, padding=0),
            nn.ReLU(inplace=True),
            nn.Sigmoid()
            )
    def forward(self, x):
        b, c, _, _ = x.size()
        y = self.squeeze(x)
        z = self.excitation(y)
        return x * z.expand_as(x)

class OSAv2_module(nn.Module):
    def __init__(self, in_channels,mid_channels, out_channels, block_nums=5):
        super(OSAv2_module, self).__init__()

        self._layers = nn.ModuleList()
        self._layers.append(Conv3x3BNReLU(in_channels=in_channels, out_channels=mid_channels, stride=1))
        for idx in range(block_nums-1):
            self._layers.append(Conv3x3BNReLU(in_channels=mid_channels, out_channels=mid_channels, stride=1))


        self.conv1x1 = Conv1x1BNReLU(in_channels+mid_channels*block_nums,out_channels)
        self.ese = eSE_Module(out_channels)
        self.pass_conv1x1 = Conv1x1BNReLU(in_channels, out_channels)

    def forward(self, x):
        residual = x
        outputs = []
        outputs.append(x)
        for _layer in self._layers:
            x = _layer(x)
            outputs.append(x)
        out = self.ese(self.conv1x1(torch.cat(outputs, dim=1)))
        return out + self.pass_conv1x1(residual)

但是,SE模块还具有局限性:由于维度减小而导致信道信息丢失。 为了避免较高的模型复杂性负担,SE模块的两个FC层需要减小通道数量。具体来说,虽然第一FC层使用缩小率r将输入特征通道C减少到C/r,但是第二FC层将缩小的通道扩展为C,此通道维度减小导致通道信息丢失。

因此,我们提出了有效的SE(eSE),它仅使用一个具有C通道的FC层,而不使用降低通道尺寸的两个FC,从而维护了通道信息,从而提高了性能。
【实例分割】论文阅读-CenterMask: Real-Time Anchor-Free Instance Segmentation_第7张图片

2.6. Implementation details

由于CenterMask建立在FCOS [33]对象检测器上,因此我们遵循FCOS [33]的超参数,但正分数阈值0.03代替0.05,因为FCOS [33]在初始训练时间内不能很好地生成正RoI样本。 在检测步骤中使用具有256个通道的FPN深度从3至7,在Masking步骤中使用P3~ P7,如2.3中所述。 我们还使用Mask Scores[15],它会根据Mask RCNN中的Predict Mask quality(例如,Mask IoU)重新校准分类得分。

CenterMask-Lite: 为了实现实时处理,我们尝试使CenterMask变得轻量化。 我们缩小了三个部分的大小:Backbone、box head,mask head。 在骨干网中,首先,我们将FPN的通道C从256减少到128,这可以减少FPN中3 x 3 conv的输出,还可以减少box和mask head的输入尺寸。 然后,我们用更轻量的VoVNetV2-19代替骨干网络,该网络在每个阶段具有4个OSA模块,每个模块由3个卷积层组成,而不是VoVNetv2-39 / 57中的5个。 在Box head中,每个分类和Box分支上有4个3 x 3 卷积层,每个层具有256个通道,其中centerness分支与Box分支共享。 我们将128通道的卷积层数从4减少到2。 最后,在Mask head中,我们还将特征提取器和Mask score部分中的卷积层和通道数分别从(4,256)减少到(2,128)。

Training: 我们将检测框的数量从FCOS [33]设置为100,将得分最高的框送入SAG-mask分支以训练Mask分支。 我们使用与RoI及其关联的Ground-truth mask之间的交集所形成的Mask R-CNN相同的Mask target。训练的时候,我们定义了多任务的损失函数对于每一个ROI,如下: L = L c l s + L c e n t e r + L b o x + L m a s k L = L_{cls} + L_{center} + L_{box} +L_{mask} L=Lcls+Lcenter+Lbox+Lmask 他们分别为分类损失、中心损失、方框回归损失、以及Mask损失(二值交叉熵)

除非指定,否则将调整输入图像的大小为800 x 1333(或者小于)。我们通过使用随机梯度下降(SGD)进行90K迭代(12个时期)来训练CenterMask。 mini-batch16张图像,初始学习率0.01,在60K和80K迭代时分别降低了10倍。 我们分别使用0.0001的权重衰减和0.9的动量。 所有骨干模型均由ImageNet预先训练的权重初始化。

Inference: 在测试时,FCOS检测部分会产生50个高分检测框,然后mask分支使用它们来预测每个RoI上的分段mask。 CenterMask / CenterMask-Lite对较短的一侧分别使用800/600像素的单个比例。

3. Experiments

【实例分割】论文阅读-CenterMask: Real-Time Anchor-Free Instance Segmentation_第8张图片
【实例分割】论文阅读-CenterMask: Real-Time Anchor-Free Instance Segmentation_第9张图片
【实例分割】论文阅读-CenterMask: Real-Time Anchor-Free Instance Segmentation_第10张图片

4. Discussion

在表5中,我们观察到,使用相同的ResNet-101主干,Mask R-CNN [9]在小对象上显示出比CenterMask更好的性能。 我们推测,Mask R-CNN [9]比Center Mask(P3)使用更大的特征图(P2),其中,Mask分支可以提取比P3特征图更精细的对象空间布局。 我们注意到,仍然存在改善一级实例分割性能的空间,例如Mask R-CNN [9]的技术[2,3]。

5. Conclusion

我们提出了一种实时无锚点的一级实例分割和更有效的骨干网络。 通过将空间注意力引导的Mask分支添加到无锚点的一阶段实例检测中,CenterMask以实时速度实现了最先进的性能。 新提出的VoVNetV2骨干网从轻量级模型到大型模型,都使CenterMask在速度和准确性方面达到了均衡的性能。 我们希望Center-Mask将作为实时实例分割的基准。 我们还相信,我们提出的VoVNetV2可以用作各种视觉任务的强大而高效的骨干网络[37,16]。

你可能感兴趣的:(语义分割)