最近因为在做毕业设计,需要翻译Mask R-CNN这篇文章,估记录于此。水平有限,若有建议,欢迎提出。
部分参考自:https://alvinzhu.xyz/2017/10/07/mask-r-cnn/#fn:18
摘要
我们提出了一个概念上简单、灵活以及通用的目标实例分割框架。我们的方法有效地检测图像中的目标,同时为每一个实例生成高质量的分割掩模。这种叫Mask R-CNN的方法通过添加一个与现有边框识别分支并行的、用于预测目标掩模的分支来扩展Faster R-CNN。Mask R-CNN训练简单,相对于Faster R-CNN只增加了很小的开销,运行速度在5fps。此外,Mask R-CNN很容易推广到其他任务,例如,允许我们在同一个框架中估计人的姿势。我们在COCO系列挑战赛的全部三个比赛项目中都取得了最佳成绩,包括实例分割、边框目标检测以及人体关键点检测。在没有使用额外技巧的情况下,Mask R-CNN在每个任务上优于所有现有的单一模型实体,包括COCO 2016挑战的获胜者。我们希望我们简单而有效的方法能够成为一个基础的方法,并有助于未来实例级识别的研究。我们将稍后提供代码。
1、 简介
视觉社区在短时间内使目标检测和语义分割的效果取得很大提升。在很大程度上,这些提升是由强大的基线系统驱动的,例如用于目标检测的Fast/Faster R- CNN [9, 28]和用于语义分割的全卷积网络(FCN) [23]框架。这些方法在概念上很直观,提供灵活性和鲁棒性,并且训练和推理都很快速。在这项工作中我们的目标是为实例分割开发一个相对可用的框架。
实例分割是有挑战性的,因为它要求正确检测一张图片中所有的目标,同时需要精准的分割每个实例。它因此结合了来自经典计算机视觉任务目标检测的元素,其目的是对每个目标进行分类,并且使用边框对每个目标进行定位。以及语义分割(通常来讲,目标检测使用边框而不是掩模来标定每一个目标检测,语义分割是指在没有区分实例的情况下对每个像素进行分类。但我们注意到,实例分割既是语义分割,又是一种检测的形式。)其目标是将每个像素分类为一类固定的类别,而不区分对象。鉴于这种情况,人们可能认为需要一种复杂的方法才能取得较好的结果。然而,我们惊讶的发现一种简单、灵活以及快速的系统能够超越之前最先进的实例分割的结果。
我们把这种方法称为Mask R-CNN,它通过在每个感兴趣区域(RoI)上添加一个分支来预测分割掩模,继承自Faster R-CNN [28],这个分支与现有的分类和边框回归并行。如图1所示:
掩模分支是作用于每个感兴趣区域(RoI)的小全卷积神经网络(FCN),以像素到像素到方式预测分割掩模。Mask R-CNN是基于Faster R-CNN的,它易于实现和训练,并且为广泛灵活的架构设计提供了便利。此外,掩模分支只增加了一个小的计算开销,使快速系统和快速实验成为可能。
在原理上,Mask R-CNN是Faster R-CNN的直接扩展,正确构建掩模分支对于取得好结果是至关重要的。更重要的是,Faster R-CNN不是为网络输入和输出之间的像素对齐而设计的。这一点在RoIPool[13, 9]中最为明显,它实际上是用于处理实例的核心操作,对特征提取执行粗的空间量化。为了修正错位,我们提出了一个简单的,量化无关的层叫做RoIAlign,可以保留精确的空间位置。尽管看似一个很小的变化,RoIAlign起了很大的作用:它能将掩模准确率提高到10%至50%,在更严格的位置度量下显示出更大的收益。再者,我们发现解耦掩模和类预测是至关重要的:在没有类间竞争的情况下,我们为每个类独立的预测二进制掩模。并且依赖于网络的RoI分类分支来预测类别。相比之下,FCN通常执行每像素多类分类,分割和分类同时进行,基于我们的实验,发现它对实例分割效果不佳。
没有额外的技巧,Mask R-CNN超越了COCO实例分割任务[22]上所有先前最先进的单一模型的结果,包括来自2016年大赛冠军的大量作品。作为一个副产品,我们的方法也优于COCO目标检测任务。在对照实验中,我们评估多个基本实例,这使我们能够证明其鲁棒性并分析关键因素的影响。
我们的模型在GPU上以200ms每帧的速度运行,使用一台有8个GPU的机器,在COCO上训练需要一到两天的时间。我们相信,快速训练、测试速度以及框架的灵活性和准确性将会促进未来在实例分割的研究。
最后,我们通过在COCO关键点数据集[22]上的人体姿势估计任务来展示我们框架的通用性。通过把每个关键点视为一个one-hot二进制掩模(one-hot binary mask),只需要很少的修改,Mask R-CNN就可以应用于检测特定的姿势。没有额外的技巧,Mask R-CNN超过了COCO 2016关键点竞赛的获胜者,同时运行速度达到了5FPS,因此,Mask R-CNN可以被广泛的看作是用于实例级识别的灵活框架,并且可以容易的扩展到更复杂的任务。
我们将会发布代码以促进未来的研究。
2、 相关工作
R-CNN:区域卷积神经网络(R-CNN)[10]是通过找到一定数量的候选目标区域[32,15],并且在每个RoI上单独的执行卷积网络[19,18]来进行边框目标检测。基于R-CNN的改进[13,9],使用RoIPool在特征图上选取RoIs可以更快和更准确。Faster R-CNN[28]通过使用区域建议网络(RPN)学习注意机制来产生候选框。还有后续的对Faster R-CNN灵活性和鲁棒性的改进(如[29,21,16]),这是在当前的几个基准测试中领先的框架。
目标分割:在R-CNN有效的驱动下,实例分割的很多方法都是基于分割建议(segment proposals)的。早期的方法[10,11,12,6]依赖于自下而上的分割[32,2]。DeepMask[26]和[27,5]通过学习提出分割候选区(segment candidates ),然后由Fast R-CNN进行分类。在这些方法中,分割先于识别,速度慢并且准确率低。Dai[7]等人提出了一个复杂的多级级联,通过从边框建议中预测分割建议(segment proposals),然后进行分类。相反的,我们的方法并行的进行掩模和类标签的预测,更简单和灵活。
最近,Li[20]等人将[5]中的分割建议系统和[8]中的目标检测系统进行了“全卷积实例分割(FCIS)”的结合。在[5,8,20]中的共同想法是用全卷积预测一组位置敏感的输出通道。这些通道同时处理目标分类、边框和掩模,这使系统变得更快。但是FCIS在重叠实例上出现系统错误并且产生虚假边缘(图5)。这表明它受到了分割实例的基本困难的挑战。
3、 Mask R-CNN
Mask R-CNN概念简单:Faster R-CNN为每个候选目标输出一个类标签和一个边框偏移量。为此,我们添加了一个输出目标掩模的第三条分支。因此,Mask R-CNN是一个自然且直观的例子。但是,附加的掩模输出与类输出和边框输出不同,需要提取对象更精细的空间布局。接下来,我们将会介绍Mask R-CNN的关键特点,包括像素到像素的对齐,这是Fast/Faster R-CNN所不具备的关键点。
Faster R-CNN:我们首先简单回顾一下Faster R-CNN探测器[28],Faster R-CNN由两级组成。第一级称为区域建议网络(RPN),其目的是提出候选目标边框。第二级,本质上是Fast R-CNN[9],使用RolPool从每个候选框中提取特征,并进行分类和边框回归。两级的特征可以共享使用,以便更快推理。可以参考[16],以便了解Faster R-CNN和其他框架之间的最新综合比较。
Mask R-CNN:Mask R-CNN采用相同的两级,第一级是完全相同的(既RPN)。在第二级,与预测(类和边框偏移)并行,Mask R-CNN还会为每一个RoI输出一个二进制掩模。这与最近的其他系统相反,其分类取决于掩模预测(例如,[26,7,20])。我们的方法遵循于Fast R-CNN[9],边框分类和回归并行(这在很大程度上简化了R-CNN[10]的多级流水线)。
通常,在训练中,我们将每个采样后的RoI上的多任务损失函数定义为:
L = Lcls + Lbox + Lmask ,其中,分类损失Lcls和边框损失Lbox与[9]中定义相同。掩模分支对于每个RoI的输出维度为Km2 ,表示K个分辨率为m × m的二进制掩模。每个类别有一个分辨率为m × m的二进制掩模,K表示类别数量。为此,我们为每个像素应用sigmoid,并定义Lmask为平均二进制交叉熵损失。对于真实类别为k的RoI,仅在第k个掩模上计算Lmask(其他掩模输出不计入损失)。
我们对Lmask的定义允许网络在不夸类别竞争的情况下,为每个类独立的预测掩模;我们依靠专用分类分支预测用于选择输出掩模的类标签。这个将解耦掩模和类预测。这与通常将FCNs[23]应用于像素级softmax和多项式交叉熵损失的语义分割做法不同。在这种情况下,掩模将跨类别竞争。在我们的方法中,使用了像素级的sigmod和二进制损失,掩模将不会垮类别竞争。我们通过实验发现,这种方法是改善实例分割结果的关键。
掩模表示:掩模编码了输入目标的空间布局。因此,与通过全连接(fc)层不可避免的缩成短输出向量的类标签或边框偏移不同,通过卷积所提供的像素到像素的对应关系,可以很自然地提取出掩码的空间结构。
具体地,我们使用FCN[23]从每一个RoI预测一个m × m的掩模。这允许掩模分支中的每个层显示的保持m × m的对象空间布局,而不会将其缩成缺少空间维度的向量表示。这与之前使用fc层掩模预测方法[26,27,7]不同。我们的全卷积表示需要更少的参数,并且如实验所证明的那样更加准确。
这种像素到像素的行为需要RoI特征,它们本身就是小特征图,为了更好的对齐,以准确的保留显式的像素空间对应关系,我们开发出在掩模预测中发挥关键作用的RoIAlign层,将在接下来讲到。
RoIAlign:RoIPool[9]是从每个RoI提取特征图(例如,7×7)的标准操作。RoIPool首先将浮点数表示的RoI量化到与特征图匹配的粒度,然后将量化后的RoI分块,最后汇总每个块覆盖的区域的特征值(通常使用最大池化)。量化是执行的。例如,对在连续坐标系上的x计算[x/16],其中16是特征图步幅,[.]表示四舍五入。同样的,当对RoI分块时(例如7×7)也执行同样的计算。这些量化操作使RoI与提取的特征错位。虽然这可能不会影响分类,因为分类对小幅度的变换有一定的鲁棒性,但它对预测像素级精确的掩模有很大的负面影响。
为了解决这个问题,我们提出了一个RoIAlign层,消除了对RoIPool的粗糙量化,并将提取的特征与输入精准的对齐。我们提出的改变很简单,我们避免对RoI边界或块进行量化(例如,我们使用x/16代替[x/16])。我们选取每个RoI分块中的四个常规位置,使用双线性插值[17]来计算每个位置的精确值,并将结果汇总(使用最大或平均池化)。(我们抽取四个常规位置,以便我们可以使用最大或平均池化。实际上,在每个分块中心取一个值(没有池化)几乎同样有效。我们也可以为每个块采样超过四个位置,但我们发现这些位置的收益递减。)
正如我们在4.2节(对照实验)中所示,RoIAlign的改进效果明显。我们还比较了[7]中提出的RoIWarp操作。与RoIAlign不同,RoIWarp忽略了对齐问题,并在[7]的实现中有像RoIPool那样量化RoI。即使RoIWarp也采用了[17]中的双线性重采样,如实验实现所示(更所细节见表2c),它与RoIPool的效果差不多。这表明对齐起到了关键的作用。
网络架构:为了证明我们方法的通用性,我们构造了多种不同结构的Mask R-CNN。详细的说,我们使用不同的:(i)用于整个图像上的特征提取的卷积主干架构,(ii)用于边框识别(分类和回归)和掩模预测的上层网络,分别应用于每个RoI。
我们使用术语“网络深层特征”来命名下层架构。我们评估了深度为50或101层的ResNet [14]和ResNeXt [34] 网络。使用ResNet [14]的Faster R-CNN从第四级的最终卷积层提取特征,我们称之为C4。例如,使用ResNet-50的主干架构由ResNet-50-C4表示。这是[14,7,16,30]中常用的选择。
我们也探索了由Li[21]等人最近提出的另一种更有效主干架构,称为特征金字塔网络(FPN)。FPN使用具有横向连接(lateral connections )的自顶向下架构,从单一规模的输入构建网络功能金字塔。使用FPN的Faster R-CNN根据其尺度提取不同级别的金字塔的RoI特征,不过其他部分和平常的ResNet类似。使用ResNet-FPN主干架构的Mask R-CNN进行特征提取,可以在精度和速度方面获得极大的提升。有关FPN的更多细节,读者可以参考[21]。
对于上层网络,我们基本遵循了以前论文中提出的架构,我们添加了一个全卷积的掩模预测分支。具体来说,我们扩展了ResNet [14]和FPN[21]中提出的Faster R-CNN的上层网络。详情见下图(图3)所示:(上层架构:我们扩展了两种现有的Faster R-CNN上层架构[14,21],并分别添加了一个掩模分支。左/右面板分别显示了ResNet C4和FPN主干的上层架构。图中数字表示通道数和分辨率,箭头表示卷积、反卷积和全连接层(可以通过上下文推断,卷积减小维度,反卷积增加维度。)所有的卷积都是3×3的,除了输出层是1×1。反卷积是2×2,其步进为2,我们在隐藏层中使用ReLU[24]。在左图中,“res5”表示ResNet的第五级,简单起见,我们修改了第一个卷积操作,使用7×7,步长为1的RoI代替14×14,步长为2的RoI[14]。右图中的“×4 ”表示堆叠的4个连续的卷积。)ResNet-C4主干的上层网络包括ResNet的第5阶段(即9层的’res5’[14]),这是计算密集型的。但对于FPN,其主干已经包含了res5,因此可以使上层网络包含更少的卷积核而变的更加高效。
我们注意到我们的掩模分支是一个非常简单的结构,也许更复杂的设计有可能提高性能,但这不是这项工作的重点。
3.1实现细节
我们对超参数的设置与现有的Fast/Faster R-CNN基本一致[9,28,21]。虽然这些设置在原始论文[9,28,21]中是用于目标检测的,但是我们发现我们的实例分割系统对他们具有鲁棒性。
训练:和在Fast R-CNN设置一样,如果RoI与真值框的IoU不小于0.5,则为正样本,否则为负样本。掩模损失函数Lmask仅在RoI的正样本上定义。掩模目标是RoI及其相关的真值掩模之间的交集。我们采用以图像为中心的训练[9](image-centric training)。图像被缩放(较短边)到800像素[21]。批量大小为每个GPU2个图像,每个图像有N个RoI采样,正负比例为1:3[9]。C4的主干N为64(如[9,28]),FPN为512(如[21])。我们使用8个GPU训练(如此有效的批量大小为16)160k次迭代,学习率为0.02,在120k次迭代学习时学习率除以10。我们使用0.0001的权重衰减和0.9的动量。
RPN锚点跨越5个尺度和3个纵横比[21],为了方便对照,RPN分开训练,不与Mask R-CNN共享特征。除非有特殊说明,本文中的每个实体,其RPN和Mask R-CNN具有相同的主干,因此他们是可以共享的。
测试:在测试时,C4主干(如[28])中的建议数量为300,FPN为1000(如[21])。我们在这些建议上执行边框预测分支,然后执行非极大值抑制(non-maximum suppression[9]),再将掩模分支应用于评分最高的100个检测边框。尽管这与训练中使用的并行计算不同,但它可以加速推理并提高精度(由于使用的更少,所以有更准确的RoIs)。掩模分支可以预测每个RoI的K个掩模,但是我们只使用第k个掩模,其中k是分类分支预测的类别。然后将m×m浮点数掩模输出的大小调整为RoI大小,并使用阀值0.5将其二值化。
注意,由于我们仅在前100个检测边框中计算掩模,Mask R-CNN将边缘运行时间添加到其对应的Faster R-CNN版本(例如,在典型模型上约20%)。
4、 实验:实例分割
我们对Mask R-CNN与现有技术进行彻底的比较,并且进行了广泛的对照实验。我们所有的实验使用COCO数据集[22]。我们报告标准的COCO指标,包括AP(平均超过IoU阀值),AP50 , AP75 ,和APS , APM , APL (不同尺度的AP)。除非另有说明,使用掩模IoU评估AP,这与[3,21]所做的工作一样。我们使用80k训练集和35k验证集的子集(trainval 35k)的组合进行训练,并在剩下的5k个验证子集(minival)上报告对照结果。我们还给出了test-dev[22]的结果,其没有公布的标签。本文发布后,我们将根据建议把在test-std测试的完整结果上传到公开排行榜。
4.1 主要结果
我们将Mask R-CNN与其他最先见的实例分割方法进行比较,如下表(表1):(COCO test-dev上的实例分割掩模AP。MNC[7]和FCIS[20]分别是COCO 2015和2016分割挑战的获胜者。Mask R-CNN优于更复杂的,包含更多尺度训练和测试、水平翻转测试的FCIS+++[20]和OHEM[29],所有条目都是单模型的结果。)
我们模型的所有实例都胜过了先前最先进的模型,这包括MNC[7]和FCIS[20],分别是COCO 2015和2016年的分割挑战获胜者。没有额外的技巧,拥有ResNet-101-FPN的主干的Mask R-CNN比FCIS+++[20],包括多尺度的列车/测试、水平翻转测试和在线硬示例挖掘[29]效果还好。此外,这些模型中的改进也同样可以应用到Mask R-CNN中来。
FCIS+++在重叠对象上有问题,而Mask R-CNN没有。
4.2 对照实验
我们进行了一些对照来分析Mask R-CNN。结果在下表中(表2)(Mask R-CNN的对照。除非另有说明,我们在trainval 35k上训练,在minival上测试,并报告掩模AP),并在接下来详细的讨论。
结构:表2中a显示了具有各种使用不同主干的Mask R-CNN。它受益于更深层次的网络(50对比101)和高级的设计,包括FPN和ResNeXt(我们使用64×4d的普通ResNeXt[34])。我们注意到并不是所有的框架都会从更深层次的或高级的网络中自动获益(参见[16]中的基准测试)。
非独立与独立掩模:Mask R-CNN解藕了掩模和类预测:当现有的边框框分支预测类标签,我们为每个类生成一个掩模,而且不会产生类间竞争(通过像素级的sigmoid和二值化损失)。在表2,b中,我们将其与使用像素级softmax和非独立损失的方法进行比较(常用于FCN[23])。这些方法将掩模和类预测的任务结合,导致了掩模AP(5.5个点)的严重损失。这表明,一旦实例被归类(通过边框分支),就可以预测二值化掩模而不是担心类别,这样可以使模型训练更容易。
类相关和类无关掩模:我们默认预测类相关的掩模,即每类一个m×m掩模。有趣的是,这种方法与具有类别无关掩模的Mask R-CNN(即,预测单个m×m输出而不论是哪一类)几乎同样有效:对于ResNet-50-C4掩模AP为29.7,而对于类相关的模型AP为30.3。这进一步突出了我们方法中的改进:解藕了分类和分割。
RoIAlign:表2,c中,显示了对我们提出的RoIAlign层的评估。对于这个实验,我们使用的主干为ResNet- 50-C4,其步进为16。RoIAlign相对于RoIPool将AP提高了约3个点,在高IoU(AP75 )结果中增益良多。RoIAlign对最大/平均池化不敏感,我们在本文中的其余部分均使用平均池化。
此外,我们与采用双线性采样的MNC[7]中提出的RoIWarp进行比较。如第2节实例分割中所述,RoIWarp仍然量化了RoI,与输入没有对齐。从表2c中可以看出,RoIWarp与RoIPool效果差不多,比RoIAlign差的多。这更加表明正确的对齐是关键。
我们还使用了ResNet-50-C5主干评估了RoIAlign,其步进更大,达到了32像素。我们使用与图3(右)相同的上层架构,因为res5上层不适用。表2d表示,RoIAlign将掩模AP提高了7.3个点,并将掩模的AP75提高了10.5个点(相对改善了50%)。此外,我们注意到,与RoIAlign一样,使用步幅为32的C5特征(30.9AP)比使用步幅为16的C4特征(30.3AP,表2c)更加精准。RoIAlign在很大程度上解决了使用大步幅特征进行检测和分割的长期挑战。
最后,当与FPN一起使用时,RoIAlign显示出1.5个掩模AP和0.5个边框AP的增益,FPN具有更精细的多级步长。对于需要精准对准的关键点检测,即使使用FPN,RoIAlign也展现出了很大的增益(表6)。
掩模分支:分割是一个像素到一个像素的任务,我们使用FCN来利用掩模的空间布局。在表2e中,我们使用ResNet-50-FPN下层网络来比较多层感知机(MLP)和FCN。使用FCN可以提供超过多层感知机(MLP)2.1个点的AP增益。为了与多层感知机(MLP)进行公平的比较,FCN的上层网络的卷积层没有被预训练。
4.3 边框检测结果
我们在COCO数据集上将Mask R-CNN与其它最先进的边框检测方法进行比较,如下表(表3)所示:
对于该结果,虽然完整的Mask R-CNN模型被训练,但是测试时仅使用分类和边框的输出(忽略掩模输出)。Mask R-CNN使用ResNeXt-101-FPN优于所有先前最先进的模型的基本变体,包括单模型的G- RMI [16],其为COCO 2016检测挑战的获胜者。使用ResNeXt-101-FPN的Mask R-CNN进一步改善了结果,其AP相对于使用单模型的前最佳结果[30](使用Inception-ResNet-v2-TDM)提升了3个点。
作为进一步的比较,我们训练了一个没有掩模分支的版本的Mask R-CNN,见表3中的“Faster R-CNN, RoIAlign”,由于RoIAlign,该模型的性能优于[21]中提出的模型。但是,比Mask R-CNN低0.9个点的AP。这个差距是由于Mask R-CNN的多任务训练产生的。
最后,我们注意到Mask R-CNN在其掩模和边框的AP之间的差距很小:比如,AP 37.1(掩模,表1)与AP 39.8(边框,表3)之间的差距仅在2.7个点。这表明我们的方法在很大程度上弥补了目标检测与更具挑战性的实例分割任务之间的差距。
4.4 、 时间
测试:我们训练一个ResNet-101-FPN模型,在RPN和Mask R-CNN阶段之间共享特征,遵循Faster R-CNN[28]的四级训练。该模型在Nvidia Tesla M40 GPU上处理每个图像需要195ms(加上15ms的CPU时间,用于将输出的大小调整到原始分辨率)。并且达到了与非共享特征模型相同的掩模AP。我们还指出,ResNet-101-C4变体需要大约400ms,因为它的上层模型比较复杂(图3),所以我们不建议在实践中使用C4变体。
虽然Mask R-CNN很快,但我们注意到,我们的设计并没有针对速度进行优化,[16]可以实现更好的速度/精度平衡。例如,通过改变图像尺寸和候选数量,不过这超出了本文的范围。
训练:Mask R-CNN的训练也很快。在COCO trainval 35k上使用ResNet-50-FPN进行训练,我们的同步8GPU实现(每个批次耗时0.72ms,包括16个图像)需要32个小时,而ResNet-101-FPN需要44个小时。事实上,快速原型可以在不到一天的时间内在训练集上进行训练。我们希望这样快速的训练将会消除这一领域的重大障碍,并鼓励更多的人对这个具有挑战性的课题进行研究。
5、 Mask R-CNN人体姿势估计
我们的框架可以很容易的扩展到人类姿势估计。我们将关键点的位置建模为one-hot掩模,并采用Mask R-CNN来预测K个掩模,每个对应K种关键点类型之一(例如左肩、右肘)。此任务有助于展示Mask R-CNN的灵活性。
我们注意到,我们的系统利用了人类姿势的最小领域知识,因为实验主要是为了证明Mask R-CNN框架的通用性,我们期望领域专业知识(如,建模结构[4])将会是我们简单方法的补充,但这超出了本文范围。
实现细节:在适配关键点时,我们对分割系统进行细微的修改。对于目标的K个关键点中的每一个,训练目标是一个one-hot的m × m二进制掩模,其中只有一个像素被标记为前景。在训练期间,对于每个可视的关键点真实值,我们最小化在m2路softmax输出上的交叉熵损失(这驱使一个点被检测到)。我们注意到,和实例分割一样,K个关键点的检测仍然是独立的。
我们采用ResNet-FPN的变体,关键点检测的上层架构类似于图3(右图),由8个堆叠的3×3 512-d卷积层,后面是一个反卷积层进行2×双线性采样,产生分辨率56×56的输出。我们发现相对较高的分辨率输出(与掩模相比)是关键点级精确定位所必需的。
我们使用包涵关键点标准的COCO trainval 35k图像训练模型。由于训练集较小,为了减少过度拟合,我们训练时将图像在[640,800]范围内随机缩放,测试则统一缩放到800像素。我们的训练迭代90k次,从0.02的学习率开始,并在迭代次数达到60k和80k次时将学习率除以10。边框的非极大抑制阀值为0.5。其它实现细节与第3.1节相同。
人体姿势估计实验:使用ResNet-50-FPN评估人体关键点的AP(APkp)。我们也尝试了ResNet-101,不过效果差不多,可能因为更深层次的模型需要更多的训练数据,但是这个数据集相对较小。
如下表所示(表4):
我们的结果(62.7 APkp)比使用多级处理流水线的COCO 2016关键点检测获胜者[4]高出0.9个点。我们的方法简单的多,速度更快。
更重要的是,我们用一个统一的模型,可以5FPS的速度同时做边框检测、实例分割以及关键点检测。添加目标分割分支(针对人员类别)将test-dev上的APkp 提升到63.1(表4)。更多在在minival上的多任务学习的对照在下表中(表5):
将掩模分支添加到仅做边框检测(如 Faster R-CNN)或仅检测关键点的版本也会改进持续改进这些任务。然后,添加关键点分支会轻微降低边框/掩模的AP,关键点检测会从中多任务训练中获益,但它不会改善其它任务的准确率。然而,共同学习所有三个任务可以使统一的系统同时有效的预测所有输出,如下图(图6)所示:
我们也同样调查了RoIAlign对关键点检测的影响,如下表(表6):
尽管ResNet-50-FPN主干有较小的步进(例如,最小步进为4像素),但是RoIAlign对RoIPool仍然有明显的改进,并将APkp提高了4.4个点。这是因为关键点检测对定位精度更敏感。这再次表明像素级定位的对齐是至关重要的,包括掩模和关键点。
鉴于Mask R-CNN提取目标边框,掩模和关键点的有效性,我们期望它也可以变成其它目标级任务的有效框架。
引用:
[1] M. Andriluka, L. Pishchulin, P. Gehler, and B. Schiele. 2D human pose estimation: New benchmark and state of the art analysis. In CVPR, 2014. 8
[2] P. Arbela ́ez, J. Pont-Tuset, J. T. Barron, F. Marques, and J. Malik. Multiscale combinatorial grouping. In CVPR, 2014. 2
[3] S. Bell, C. L. Zitnick, K. Bala, and R. Girshick. Inside- outside net: Detecting objects in context with skip pooling and recurrent neural networks. In CVPR, 2016. 5
[4] Z. Cao, T. Simon, S.-E. Wei, and Y. Sheikh. Realtime multi-person 2d pose estimation using part affinity fields. arXiv:1611.08050, 2016. 7, 8
[5] J. Dai, K. He, Y. Li, S. Ren, and J. Sun. Instance-sensitive fully convolutional networks. In ECCV, 2016. 2
[6] J. Dai, K. He, and J. Sun. Convolutional feature masking for joint object and stuff segmentation. In CVPR, 2015. 2
[7] J. Dai, K. He, and J. Sun. Instance-aware semantic segmen- tation via multi-task network cascades. In CVPR, 2016. 2, 3, 4, 5, 6
[8] J.Dai,Y.Li,K.He,andJ.Sun.R-FCN:Objectdetectionvia region-based fully convolutional networks. In NIPS, 2016. 2
[9] R. Girshick. Fast R-CNN. In ICCV, 2015. 1, 2, 3, 4, 6
[10] R. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich fea- ture hierarchies for accurate object detection and semantic
segmentation. In CVPR, 2014. 2, 3
[11] B. Hariharan, P. Arbela ́ez, R. Girshick, and J. Malik. Simul-
taneous detection and segmentation. In ECCV. 2014. 2
[12] B.Hariharan,P.Arbela ́ez,R.Girshick,andJ.Malik.Hyper- columns for object segmentation and fine-grained localiza-
tion. In CVPR, 2015. 2
[13] K. He, X. Zhang, S. Ren, and J. Sun. Spatial pyramid pooling
in deep convolutional networks for visual recognition. In
ECCV. 2014. 1, 2
[14] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning
for image recognition. In CVPR, 2016. 2, 4, 7
[15] J. Hosang, R. Benenson, P. Dolla ́r, and B. Schiele. What
makes for effective detection proposals? PAMI, 2015. 2
[16] J. Huang, V. Rathod, C. Sun, M. Zhu, A. Korattikara, A. Fathi, I. Fischer, Z. Wojna, Y. Song, S. Guadarrama, et al. Speed/accuracy trade-offs for modern convolutional object
detectors. arXiv:1611.10012, 2016. 2, 3, 4, 5, 7
[17] M. Jaderberg, K. Simonyan, A. Zisserman, et al. Spatial
transformer networks. In NIPS, 2015. 3
[18] A. Krizhevsky, I. Sutskever, and G. Hinton. ImageNet clas-
sification with deep convolutional neural networks. In NIPS,
2012. 2
[19] Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E.
Howard, W. Hubbard, and L. D. Jackel. Backpropagation applied to handwritten zip code recognition. Neural compu- tation, 1989. 2
[20] Y. Li, H. Qi, J. Dai, X. Ji, and Y. Wei. Fully convolutional instance-aware semantic segmentation. arXiv:1611.07709, 2016. 2, 3, 5, 6
[21] T.-Y. Lin, P. Dolla ́r, R. Girshick, K. He, B. Hariharan, and S. Belongie. Feature pyramid networks for object detection. arXiv:1612.03144, 2016. 2, 4, 5, 7
[22] T.-Y. Lin, M. Maire, S. Belongie, J. Hays, P. Perona, D. Ra- manan, P. Dolla ́r, and C. L. Zitnick. Microsoft COCO: Com- mon objects in context. In ECCV, 2014. 2, 4, 5
[23] J. Long, E. Shelhamer, and T. Darrell. Fully convolutional networks for semantic segmentation. In CVPR, 2015. 1, 3, 6
[24] V. Nair and G. E. Hinton. Rectified linear units improve re-
stricted boltzmann machines. In ICML, 2010. 4
[25] G. Papandreou, T. Zhu, N. Kanazawa, A. Toshev, J. Tomp- son, C. Bregler, and K. Murphy. Towards accurate multi- person pose estimation in the wild. arXiv:1701.01779, 2017.
8
[26] P. O. Pinheiro, R. Collobert, and P. Dollar. Learning to seg- ment object candidates. In NIPS, 2015. 2, 3
[27] P. O. Pinheiro, T.-Y. Lin, R. Collobert, and P. Dolla ́r. Learn- ing to refine object segments. In ECCV, 2016. 2, 3
[28] S. Ren, K. He, R. Girshick, and J. Sun. Faster R-CNN: To- wards real-time object detection with region proposal net- works. In NIPS, 2015. 1, 2, 3, 4, 7
[29] A. Shrivastava, A. Gupta, and R. Girshick. Training region- based object detectors with online hard example mining. In CVPR, 2016. 2, 5
[30] A. Shrivastava, R. Sukthankar, J. Malik, and A. Gupta. Be- yond skip connections: Top-down modulation for object de- tection. arXiv:1612.06851, 2016. 4, 7
[31] C. Szegedy, S. Ioffe, and V. Vanhoucke. Inception-v4, inception-resnet and the impact of residual connections on learning. arXiv:1602.07261, 2016. 7
[32] J. R. Uijlings, K. E. van de Sande, T. Gevers, and A. W. Smeulders. Selective search for object recognition. IJCV, 2013. 2
[33] S.-E. Wei, V. Ramakrishna, T. Kanade, and Y. Sheikh. Con- volutional pose machines. In CVPR, 2016. 8
[34] S. Xie, R. Girshick, P. Dolla ́r, Z. Tu, and K. He. Ag- gregated residual transformations for deep neural networks. arXiv:1611.05431, 2016. 4, 5