Problem Statement
实例分割通常通过在边界框包围的空间中进行二值分类来解决,这样逐像素计算代价相当大。本文力求用轮廓表示来建模分割掩膜,并且使用极坐标表示法来进行轮廓建模;对使用坐标表示进行建模时的模型训练,又提出了Polar Centerness和Polar IoU Loss,能大大提高模型的性能。
Method(s)
(1)提出了PolarMask框架,将实例分割问题形式化为实例中心的分类和密集距离回归,以一种简单高效的方式实现了实例分割;
(2)针对PolarMask框架,提出了Polar Centerness和Polar IoU损失,能有效地提高实例分割性能;
Evaluation
(1)论文中针对可能提出的问题,包括:Verification of Upper Bound、Number of Rays、Polar Centerness vs. Centerness、Box Branch、Backbone Architecture、Speed vs. Accuracy,都进行了消融实验,这和以前读的论文中针对增加的组件来进行消融实验的思路是不同的,可以借鉴。
(2)论文中也在COCO数据集上和目前最先进的一阶和二阶实例分割方法进行了比较,并且以很大的速度优势达到了可比较的性能,证明了使用极坐标建模实例分割的有效性。
Conclusion
PolarMask是single shot anchor-free的实例分割方法。与以前的解决方案通常将掩膜预测建模为空间中的二元分类不同,PolarMask提出用掩膜轮廓表示掩膜,并通过一个中心对轮廓进行建模,并以极坐标方式从中心发射到轮廓的射线。PolarMask的设计几乎与单次检测器一样简单、干净,从而获取可忽略不计的计算消耗。 我们希望PolarMask可以作为single-shot实例分割任务的基础和强大的基准。
Notes
(1)(CVPR20’Oral) PolarMask: 一阶段实例分割新思路
(2)github源码
在本文中,我们介绍了一种anchor-free单次实例分割方法,该方法在概念上简单,运用完全卷积,可以轻松地将其嵌入大多数现成的检测方法中来使用。 我们的称为PolarMask的方法将实例分割问题形式化为通过实例中心分类和极坐标中的密集距离回归来预测实例轮廓。 此外,我们提出了两种有效的方法来分别处理高质量中心样本的采样和密集距离回归的优化,这可以显着提高性能并简化训练过程。毫不吹嘘,PolarMask在具有挑战性的COCO数据集上进行single-model 和 single-scale的训练/测试的mask mAP达到32.9%。
我们首次展示了实例分割的复杂性,无论是在设计还是在计算复杂度方面,都可以与边界框对象检测相同,并且这种更加简单灵活的实例分割框架同样可以实现有竞争性的优势。 我们希望所提出的PolarMask框架可以作为one-shot实例分割任务的基础和强大的baseline。 可以在github.com/xieenze/PolarMask上找到代码。
(这篇论文主要的工作为:①提出了PolarMask框架,将实例分割问题形式化为实例中心的分类和密集距离回归,以一种简单高效的方式实现了实例分割;②针对PolarMask框架,提出了Polar Centerness和Polar IoU损失,能有效地提高实例分割性能;③本文表明了,可以将实例分割问题的复杂性简化到与边界框对象检测相同的复杂度,并且可以获得可比较的性能。)
(基于极坐标表示的实例分割方法具有的优点:①极坐标的原点可以作为对象的中心;②从原点开始,对象轮廓上的点由角度和距离确定;③角度是具有方向的,可以轻松构建成对象掩膜。)
实例分割是计算机视觉中的基本任务之一,它可以实现众多下游视觉应用。 由于它需要预测图像中每个实例的位置和语义掩膜,因此具有挑战性。 因此,直观上的实例分割可以通过边界框检测然后通过两个阶段的方法(例如Mask R-CNN [15])采用的每个框内进行语义分割来解决。 视觉界的最新趋势在设计更简单的边界框检测器技术路线[17、23、29、32、34、10、19]和后续的实例识别任务(包括实例分割)[2、4、35]上花费了更多的精力。 这也是我们在此工作的重点。 因此,我们的目标是设计一种概念上简单的掩膜预测模块,该模块可以轻松插入许多现成的检测器中,从而实现实例分割。
实例分割通常通过在边界框包围的空间中进行二值分类来解决,如图1(b)所示。 这样的像素到像素对应预测的代价是非常大的,尤其是在single-shot方法中。 相反,我们指出,如果获得轮廓,则可以成功且有效地恢复掩膜。 图1(c)中显示了一种定位轮廓的直观方法,该方法可预测组成轮廓的点的笛卡尔坐标。 在这里,我们称其为笛卡尔表示。 第二种方法是极点表示法,该方法将角度和距离作为坐标来定位点,如图1(d)所示。
在这项工作中,我们设计了一种基于极坐标表示的实例分割方法,因为它的固有优点如下:(1)极坐标的原点可以看作对象的中心。 (2)从原点开始,轮廓上的点由距离和角度确定。 (3)角度本来是有方向的,因此将点连接到整个轮廓非常方便。 我们认为笛卡尔表示法可能会表现出相似的前两个特点。 但是,它缺乏第三特性的优点。
我们通过使用最新的对象检测器FCOS [29]实现这种实例分割方法,主要是因为其简单性。 请注意,也可以使用其他检测器,例如RetinaNet [23],带最小修改的YOLO [27],用于我们的框架。 具体来说,我们提出PolarMask,将实例分割形式化为实例中心分类,并在极坐标中表示密集距离回归,如图2所示。该模型获取输入图像,并预测从采样的正位置(实例中心的候选)到目标的距离。 每个角度的实例轮廓,并在组合后输出最终掩膜。 PolarMask的总体流程几乎与FCOS一样简单和干净。 它引入了可忽略的计算开销。 简单性和效率是one-shot实例分割的两个关键因素,PolarMask成功实现了它们。
此外,PolarMask可以看作是FCOS的泛化。 换句话说,FCOS是PolarMask的特例,因为边界框可以看作是只有4个方向的最简单的掩膜。 因此,建议在掩模标注可用的任何地方使用基于FCOS的PolarMask进行实例识别[5、24、11、20]。
为了最大化极地表示的优势,我们提出Polar Centerness和Polar Representation IoU 损失分别处理高质量中心样本的采样和密集距离回归的优化。 它们相对提高了掩模精度约15%,在严格的本地化指标下显示出可观的增益。毫不吹嘘,PolarMask在具有挑战性的COCO数据集上进行single-model和single-scale的训练和测试时,mask mAP达到32.9%[24]。
这项工作的主要贡献有三方面:
Two-Stage Instance Segmentation. 两阶段实例分割通常将此任务表述为“先检测后再分割”的范式[21、15、25、18]。 他们通常会检测边界框,然后在每个边界框的区域中进行分割。 FCIS [21]的主要思想是完全卷积地预测一组位置敏感的输出通道。 这些通道同时处理对象类,框和掩膜,从而使系统快速运行。 基于Faster R-CNN的Mask R-CNN [15]仅添加了一个额外的Mask分支,并使用RoI-Align代替RoI-Pooling [12]以提高准确性。 继Mask R-CNN之后,PANet [25]引入了自底向上的路径扩充,自适应特征池和全连接融合,以提高实例分割的性能。 Mask Scoring R-CNN [18]通过添加掩膜IoU分支,从分类得分中重新获得掩膜的置信度,这使网络可以预测掩膜和地面真实物的IoU。
总之,上述方法通常包括两个步骤,首先是检测边界框,然后在每个边界框内进行分割。 它们可以实现最先进的性能,但通常速度较慢。
One Stage Instance Segmentation. 深度分水岭变换DWT[1]使用全卷积网络来预测整个图像的能量图,并使用分水岭算法来产生与对象实例相对应的连通分量。 InstanceFCN [6]使用实例敏感的分数图来生成建议。它首先生成一组实例敏感的得分图,然后使用组装模块在滑动窗口中生成对象实例。最新的YOLACT [2]首先生成一组原型掩膜,每个实例的线性组合系数和边界框,然后使用相应的预测系数线性组合原型,然后使用预测的边界框进行裁剪。 TensorMask [4]使用结构化的4D张量表示空间域上的掩膜,研究了密集的滑动窗口实例分割的范式。 ExtremeNet [35]使用关键点检测来预测一个实例的8个极点并生成八边形掩膜,从而实现相对合理的对象掩膜预测。 ExtremeNet的骨干是HourGlass [26],它很繁重,通常需要更长的培训时间。
极坐标表示法最早是在[28]中用于检测显微图像中的细胞,该问题由于只有两类而变得更加简单。 与我们的工作并行的是ESESeg [31]的工作,该工作也使用极坐标对实例进行建模。 但是,由于极坐标表示以外的设计差异很大,我们的PolarMask的性能要比ESESeg好得多。 请注意,这些方法大多数都不是直接为实例建模的,因此有时可能难以优化(例如,训练时间更长,数据扩充量更大和标签更多)。 我们的PolarMask通过两个平行分支的更简单,更灵活的方式直接为实例分割建模:对实例质心的每个像素进行分类,以及使质心与轮廓之间的射线密集距离回归。 与上述方法相比,PolarMask的最大优势在于简单高效。
在本节中,我们首先简要介绍所提议的PolarMask的总体架构。 然后,我们使用拟议的极点表示法来重新建模实例分割。 接下来,我们介绍新提出的“Polar Centerness”概念,以简化选择高质量中心样本的过程。 最后,我们引入了一个新的Polar IoU 损失来优化密集回归问题。
PolarMask是一个简单的统一网络,由骨干网[16],特征金字塔网络[22]和两个或三个特定于任务的头部组成,具体取决于是否预测边界框。骨干网和特征金字塔网络的设置 与FCOS [29]相同。 尽管有很多更强大的候选组件可供选择,但我们将这些设置与FCOS进行了统一,以显示我们的实例建模方法的简单性和有效性。
在本节中,我们将详细描述如何在极坐标中为实例分割建模。
Polar Representation. 给定实例掩膜,我们首先对实例的候选中心 ( x c , y c ) (x_c,y_c) (xc,yc)和位于轮廓 ( x i , y i ) , i = 1 , 2 , . . . , N (x_i,y_i),i = 1,2,...,N (xi,yi),i=1,2,...,N上的点进行采样。然后,从中心开始 , n n n条射线以相同的角度间隔 ∆ θ ∆θ ∆θ均匀发射(例如, n = 36 , ∆ θ = 10 ° n = 36,∆θ = 10° n=36,∆θ=10°),其长度由中心到轮廓的距离确定。 这样,我们将极坐标中的实例分割掩膜建模为一个中心和 n n n个射线。由于角度间隔是预先定义的,因此仅需要预测射线的长度。 因此,我们将实例分割形式化为极坐标中的实例中心分类和密集距离回归。
Mass Center. 实例中心有很多选择,例如框中心或质心。 如何选择一个更好的中心取决于它对掩膜预测性能的影响。 在这里,我们验证了框心和质心的上限,并得出结论,质心更有利。 详细信息在图7中。我们将这样的现象解释为,与框心相比,重心落入实例内部的可能性更大。 尽管在某些极端情况下(例如甜甜圈)(应该是那种 中间有洞的情况) ,实体质心和框心都不位于实例内部。 我们将其留作进一步研究。
Center Samples. 如果位置 ( x , y ) (x,y) (x,y)落入任何实例的质心周围区域,则将其视为中心样本。 否则,它是负样本。 我们将正像素采样区域定义为特征图从质心到左,上,右和下的1.5倍步幅[29]。 因此,每个实例在质心附近有大约9-16个像素作为中心实例。 它具有两个优点:(1)将正样本的数量从1增加到9至16可在很大程度上避免正样本和负样本的不平衡。 然而,训练分类分支时仍需要使用focal损失[23]。 (2)质心可能不是实例的最佳中心样本。 更多的候选点可以自动找到一个实例的最佳中心。 我们将在第3.3节中详细讨论它。
Distance Regression. 给定中心样本 ( x c , y c ) (x_c,y_c) (xc,yc)和实例的轮廓点, n n n条射线的长度 { d 1 , d 2 , . . . , d n } \{d_1,d_2,... ,dn\} {d1,d2,...,dn}可以很容易地计算出来。 更多详细信息在补充材料中。 这里我们主要讨论一些极端情况:
引入Centerness[29]可以抑制那些低质量的检测对象,而无需引入任何超参数,并且已证明在对象边界框检测中是有效的。 但是,直接将其应用到我们的系统可能不是最优的,因为它的centerness是为边界框设计的,并且我们关心掩膜的预测。
给出一个实例的 n n n条长度为 { d 1 , d 1 , . . . , d n } \{d_1,d_1,...,d_n\} {d1,d1,...,dn}的集合。我们提出的Polar Centerness为:(实质就是最短的射线和最长的射线之比,应该是力求center位于对象的中心吧)
Polar Centerness = min ( { d 1 , d 2 , … , d n } ) max ( { d 1 , d 2 , … , d n } ) \text { Polar Centerness }=\sqrt{\frac{\min \left(\left\{d_{1}, d_{2}, \ldots, d_{n}\right\}\right)}{\max \left(\left\{d_{1}, d_{2}, \ldots, d_{n}\right\}\right)}} Polar Centerness =max({d1,d2,…,dn})min({d1,d2,…,dn})
重新加权点是一种简单而有效的策略,以使KaTeX parse error: Expected '}', got 'EOF' at end of input: d_{min和 d m a x d_{max} dmax越近,分配点的权重就越高。
我们添加了一个与分类分支并行的单层分支,以预测某个位置的Polar Centerness,如图2所示。将网络预测的Polar Centerness乘以分类得分,从而可以降低低质量掩膜的权重。 实验表明,Polar Centerness可以提高精度,尤其是在更严格的定位指标(例如 A P 75 AP_{75} AP75)下。
如上所述,极点分割表示方法将实例分割的任务转换为一组回归问题。 在对象检测和分割领域中,大多数情况下,smooth- l 1 l_1 l1损失[13]和IoU损失[33]是监督回归问题的两种有效方法。 smooth- l 1 l_1 l1损失忽略了相同对象样本之间的相关性,因此导致定位精度降低。 但是,IoU损失将优化视为一个整体,并直接优化关注指标IoU。 然而,计算预测掩模和其真值之间的的IoU是棘手的,并且很难实现并行计算。 在这项工作中,我们推导了一种简单有效的算法,可基于极坐标矢量表示来计算掩膜的IoU,并能够获得具有竞争力的性能。
我们从IoU的定义开始介绍Polar IoU损失,它是预测的掩膜与地面真值之间的相交面积与相并面积之比。 如图5所示,在极坐标系中,对于一个实例,掩膜IoU的计算如下:(这里IoU是根据定义进行计算的,对于每个微分角度 Δ θ \Delta\theta Δθ而言,相交的扇形面积可以近似为 1 2 m i n ( d , d ∗ ) d θ \frac{1}{2}min(d,d^*)d\theta 21min(d,d∗)dθ,相并的面积同理,最后用积分求和就行)
I o U = ∫ 0 2 π 1 2 min ( d , d ∗ ) 2 d θ ∫ 0 2 π 1 2 max ( d , d ∗ ) 2 d θ \mathrm{IoU}=\frac{\int_{0}^{2 \pi} \frac{1}{2} \min \left(d, d^{*}\right)^{2} d \theta}{\int_{0}^{2 \pi} \frac{1}{2} \max \left(d, d^{*}\right)^{2} d \theta} IoU=∫02π21max(d,d∗)2dθ∫02π21min(d,d∗)2dθ
其中回归目标 d d d和预测 d ∗ d^{∗} d∗是射线的长度,角度为 θ θ θ。 然后我们将其转换为离散形式:
I o U = lim N → ∞ ∑ i = 1 N 1 2 d min 2 Δ θ i ∑ i = 1 N 1 2 d max 2 Δ θ i \mathrm{IoU}=\lim _{N \rightarrow \infty} \frac{\sum_{i=1}^{N} \frac{1}{2} d_{\min }^{2} \Delta \theta_{i}}{\sum_{i=1}^{N} \frac{1}{2} d_{\max }^{2} \Delta \theta_{i}} IoU=N→∞lim∑i=1N21dmax2Δθi∑i=1N21dmin2Δθi
当N接近无穷大时,离散形式等于连续形式。 我们假设射线是均匀发射的,所以 ∆ θ = 2 π N ∆θ =\frac{2π}{N} ∆θ=N2π,这进一步简化了表达式。 根据我们的经验,平方形式对性能几乎没有影响(±0.1 mAP差异),如果可以舍弃并简化为以下形式:
Polar IoU = ∑ i = 1 n d min ∑ i = 1 n d max \text { Polar IoU }=\frac{\sum_{i=1}^{n} d_{\min }}{\sum_{i=1}^{n} d_{\max }} Polar IoU =∑i=1ndmax∑i=1ndmin
Polar IoU损失是Polar IoU的二进制交叉熵(BCE)损失。 由于最佳IoU始终为1,损失实际上是Polar IoU的负对数:
Polar IoU Loss = log ∑ i = 1 n d max ∑ i = 1 n d min \text { Polar IoU Loss}=\text{log}\frac{\sum_{i=1}^{n} d_{\max }}{\sum_{i=1}^{n} d_{\min }} Polar IoU Loss=log∑i=1ndmin∑i=1ndmax
我们提出的Polar IoU损失具有两个有利的特性:(1)可微分,实现反向传播; 而且很容易实现并行计算,从而促进了快速的训练过程。 (2)整体预测回归目标。 与我们的实验中显示的“ smooth- l 1 l_1 l1”损失相比,它大大提高了整体性能。 (3)另外,Polar IoU损失能够自动保持分类损失与密集距离预测的回归损失之间的平衡。 我们将在实验中对其进行详细讨论。
我们提供了在具有挑战性的COCO基准上实例分割的结果[24]。 按照惯例[15,4],我们使用80K训练图像和val图像的35K子集(trainval35k)的联合进行训练,并报告剩余5K val的消融实验。 我们还将在test-dev上比较结果。 除非另有说明,否则我们采用1倍训练策略[14,3],使用短边为800的图像进行单尺度训练和测试。
Training Details. 在消融研究中,将ResNet-50 FPN [16,22]用作我们的骨干网,并使用与FCOS [29]相同的超参数。 具体来说,我们的网络使用随机梯度下降(SGD)进行了90K迭代训练,初始学习率为0.01,并且有16个图像的小批量。 在迭代60K和80K时,学习率分别降低了10倍。 重权重衰减和动量分别设置为0.0001和0.9。 我们使用ImageNet [9]上预先训练的权重来初始化骨干网。 调整输入图像的大小,使其短边为800,长边小于或等于1333。
Verification of Upper Bound. 关于PolarMask的第一个问题是它可能无法精确地描述掩膜。 在本节中,我们证明此担心可能没有必要。 在这里,当所有射线回归到真值的距离时,我们将PolarMask的上限验证为预测的掩膜和地面真值的IoU。 图7显示了对不同射线数量的验证结果。可以看到,当射线数量增加时,IoU接近完美(90%以上),这表明Polar Segmentation能够很好地建模掩膜 。 因此,不必关注PolarMask的上限。 同样,使用质心比以边界框中心为实例的中心更为合理,因为边界框中心更可能掉出实例范围。
Number of Rays. 它在PolarMask的整个系统中起着根本性的作用。 从表1a和图7中可以看出,更多的射线显示出更高的上限和更好的AP。 例如,与18条射线相比,36条射线使AP改善1.5%。 同样,太多的射线(72射线)会使性能饱和,因为它已经很好地描绘了掩膜轮廓,并且射线的数量不再是限制性能的主要因素。
Polar IoU Loss vs. Smooth- l 1 l_1 l1Loss. 我们在架构中测试了Polar IoU损失和Smooth- l 1 l_1 l1损失。 我们注意到,由于我们的体系结构是密集距离预测的任务,Smooth- l 1 l_1 l1 Loss的回归损失明显大于分类损失。 为了解决不平衡问题,我们在Smooth- l 1 l_1 l1损失中选择不同的因子α来回归损失。 实验结果示于表1b。 我们的Polar IoU损失达到了27.7%的AP,而没有平衡回归损失和分类损失。 相比之下,Smooth- l 1 l_1 l1损失的最佳设置达到25.1%AP,差距为2.6%AP,表明Polar IoU损失比Smooth-l1损失更有效地训练质心和轮廓之间的距离回归任务。
我们假设这种差距可能来自两个方面。 首先,Smooth- l 1 l_1 l1损失可能需要更多的超参数搜索才能获得更好的性能,与Polar IoU损失相比,这可能很耗时。 其次,Polar IoU损失可以预测一个实例作为一个整体的所有射线,这要优于Smooth-l1损失。
在图6中,我们分别比较了使用Smooth- l 1 l_1 l1损失和Polar IoU损失的一些结果。 Smooth- l 1 l_1 l1损失表现出整体性的失误,表明它缺乏对整个对象水平的监督。 PolarMask显示更平滑,更精确的轮廓。
Polar Centerness vs. Centerness. 可视化结果可以在补充材料中找到。 比较实验示于表1c。 Polar Centerness总体提高AP 1.4%。
特别是, A P 75 AP_{75} AP75和 A P L AP_L APL分别大幅提高了2.3%和2.6%。 我们解释如下。 一方面,低质量的掩膜会对高IoU产生更多负面影响。 另一方面,大实例在最大和最小射线长度之间存在较大差异的可能性更大,这正是Polar Centerness致力于解决的问题。
Box Branch. 大多数以前的实例分割方法都需要边界框来定位对象区域,然后对对象内部的像素进行分割。 相比之下,PolarMask可以直接输出掩膜而无需边界框。
在本节中,我们测试附加的边界框分支是否可以帮助改善Mask AP,如下所示。 从表1d中可以看出,边界框分支对模板预测的性能影响不大。 因此,为了简化和提高速度,我们在PolarMask中没有边界框预测头。
Backbone Architecture. 表1e显示了PolarMask在不同主干上的结果。 可以看出,由更深层次的高级设计网络提取的更好的功能可以按预期提高性能。
Speed vs. Accuracy. 较大的图像尺寸会以较低的推理速度产生较高的精度。 表1f显示了由较短图像侧定义的不同输入图像比例的速度和精度之间的权衡。 在一个V100 GPU上报告了FPS。 请注意,这里我们报告整个推理时间,包括所有后处理。 它表明PolarMask具有很强的潜力,可以通过简单的修改将其开发为实时实例分割应用程序。 我们还在补充材料的不同基准中报告了更多结果。
我们在COCO数据集上评估PolarMask,并将test-dev结果与包括一阶段和两阶段模型在内的最新方法进行比较,如表2所示。PolarMask输出在图8中可视化。对于数据扩充, 在训练过程中,我们将图像的较短边随机缩放为640到800。
毫不吹嘘,PolarMask可以与更复杂的one stage方法相比获得有竞争性的性能。 PolarMask拥有更简单的技术路线,并且只需要一半的训练时间,其0.9 mAP的性能优于YOLACT。 此外,最好的具有可变形卷积层的PolarMask [8]可以达到36.2 mAP,这与最新方法相当。
在补充材料中,我们比较了具有相同图像尺寸和设备的TensorMask和PolarMask之间的FPS。 PolarMask可以使用ResNet-101主干网以12.3 FPS的速度运行,比TensorMask快4.7倍。 即使配备了DCN [8],PolarMask仍然可以比TensorMask快三倍。
PolarMask是single shot anchor-free的实例分割方法。与以前的解决方案通常将掩膜预测建模为空间中的二元分类不同,PolarMask提出用掩膜轮廓表示掩膜,并通过一个中心对轮廓进行建模,并以极坐标方式从中心发射到轮廓的射线。PolarMask的设计几乎与单次检测器一样简单、干净,从而获取可忽略不计的计算消耗。 我们希望PolarMask可以作为single-shot实例分割任务的基础和强大的基准。