尽管最近在行人检测方面已经取得了重大进展,但是在拥挤场景中的行人检测仍然具有挑战性。行人之间的严重遮挡给标准非极大值抑制(NMS)带来了巨大挑战。相对较低的交并阈值会导致丢失高度重叠的行人,而较高的阈值则会带来大量误报。为避免这种困境,本文提出了一种新颖的“代表性区域NMS(R2NMS)方法,该方法利用了较少遮挡的可见部分,有效去除了多余的框,而不会带来更多误报。为了获得可见部分,提出了一种新的双盒模型(PBM)来同时预测行人的全身框和可见框。全身框和可见框组成一对,作为模型的样本单元,从而确保了整个检测管道中两个盒子之间的强烈对应关系。此外,允许将两个框方便地集成在一起,以便在全身和可见的行人检测任务上实现更好的性能。在具有挑战性的CrowdHuman 和CityPersons 基准上进行的实验充分验证了所提出的方法在拥挤情况下对行人检测的有效性。
行人检测是各种现实应用(例如无人驾驶汽车和智能视频监控)的关键组成部分。近年来,随着深度卷积神经网络(CNN)的兴起,行人检测器的性能已得到快速提高。然而,在被遮挡的情况下行人检测仍然具有挑战性。遮挡通常可分为类间遮挡和类内遮挡。在类间遮挡中,人体的一部分被诸如支柱,汽车,垃圾箱等背景物体遮挡。背景对象的特征使模型混乱,从而导致这种情况下的高丢失率。减轻类间遮挡的常见解决方案是基于实例部分进行建模。可见部件可以提供更具区分性和置信度的线索来指导全身检测器。在类内遮挡中,行人彼此之间有较大的重叠,因此不同实例的特征将使检测器难以区分实例边界。结果,检测器可能会在重叠区域错误地给出许多阳性结果。为了解决这个问题,Repulsion Loss和AggLoss 对出现在两个人中间的BBox提出了额外的惩罚。这些建议都要牢固而紧密地定位到地面对象。
但是,即使检测器成功识别出人群中的不同人类实例,也可以通过非最大抑制(NMS)的后处理来抑制高度重叠的结果。这使当前的行人检测器陷入了两难境地:较低的交叉口阈值(IoU)导致高度重叠的行人遗漏,而较高的IoU阈值自然带来了更多的假阳性。为了解决这个问题,已经提出了NMS的几种修改版本。soft-NMS不会直接丢弃高度重叠的BBox,而是根据置信度不高的BBox与置信度最高的BBox的重叠来降低其检测得分。但是,它仍然会引入许多高度重叠的BBox的误报。自适应NMS提出了动态阈值版本的NMS。它预测密度图,并根据预测的密度为不同的BBox设置NMS中的自适应IoU阈值。但是,密度估计本身仍然是一项艰巨的任务,而且从密度到最佳IoU阈值的精确匹配也很难确定。此外,不准确的BBox预测通常会导致地面真实密度与预测的BBox的IoU之间不一致,如图2所示。这使得AdaptiveNMS仍然不是次优解决方案。
图2. AdaptiveNMS的弱缺点。绿色BBox是全身注释。红色虚线的BBox被检测为与基本情况不完全匹配的BBox。检测到的BBox之间的重叠不同于真实情况BBox之间的重叠。如果在这种情况下应用AdaptiveNMS。一个检测到的BBox将被减少。
为了获得行人的可见部分,我们提出了一种基于标准Faster R-CNN的新型配对盒模型(PBM)。 PBM同时预测RPN和R-CNN模块中行人的全身框和可见框(即,从RoI采样到最终的后分类和BBox回归层)。具体而言,将由实心框和可见框构成的一对定义为RPN和R-CNN模块的样本单元。这种配对策略可确保整个检测管道中的全身框和可见框之间具有很强的对应性。此外,配对解决方案还可以将两个盒子进行有效的特征集成,这既有益于完整的可见行人检测任务,又有利于行人检测。
在非常拥挤的基准CrowdHuman和CityPersons上进行的实验表明,该方法可以达到最新的结果,从而有力地验证了该方法的优越性。综上所述,这项工作的贡献有三方面:
(1)一种新颖的NMS方法– R^2NMS,克服了原始NMS的缺点;
(2)配对箱模型(PBM),该模型同时预测单个行人的全身框和可见框,并对这两个框进行特征集成;
(3)具有挑战性的CrowdHuman和CityPersons基准的最新结果。
图1. R2NMS的示意图。左图显示了在NMS之前检测到的两个结果。红色的BBox是全身预测,绿色的BBox是可见部分的预测。右侧的两个小图像显示了最终结果,该结果由原始NMS和R2NMS处理。红色实心BBox表示保留的BBox,而红色虚线BBox表示已减少的真实正BBox。箭头表示IoU计算。他们的全身预测的IoU为0.63,而可见部分身体的IoU只有0.18。因此,原始NMS将减少红色虚线的BBox,但R2NMS可以保留它。
通用对象检测。随着卷积神经网络(CNN)的快速发展[21,7,8],在目标检测领域已经取得了很大的进步。基于CNN的物体检测器通常分为一阶段和二阶段检测器。一阶段方法[13、17、10、18]旨在加速检测器的推理过程,以满足各种实际应用中对时间效率的要求。与一阶段方法相反,二阶段检测器[4、19、5]旨在通过添加后期分类和回归模块来完善检测结果,以追求最前沿的性能。为此,Faster R-CNN 及其变体,例如FPN 和Mask R-CNN 为通用对象检测任务建立了强大的基线。
图3.Paried-Box Model.的结构。灰色箭头表示信息流。 Pair RPN从同一个锚生成一对提议。之后,配对提议特征提取器会汇总一对提议特征并将其发送到P-RCNN。 P-RCNN预测BBox对。最后,R2NMS是我们的后处理方法,可以滤除误报。橙色虚线框中显示了两个成配对的BBoxes示例。
遮挡导致行人检测出现两个问题:对遮挡的行人进行错误分类,以及将检测到的结果错误地放置在人群中。解决前一个问题的常见方法是基于零件的方法,该方法精心设计了一系列的身体部位检测器来处理被遮挡实例的特定视觉模式。除上述方法外,最近的一些工作集中在利用可见物体的注释作为额外的监督来提高行人检测的性能。 [28]是第一个同时消退行人完整可见的身体的人。张等, [26]利用可见部分的注释作为外部指导,以更好地识别被遮挡的情况。 [16]将注意机制纳入行人检测中,以迫使检测器将更多的注意力集中在行人的可见区域上。在拥挤场景中的行人检测也引起了很多关注。 [23]和[25]都对出现在两个人中间的BBox施加了额外的惩罚条款。自适应NMS [12]预测密度图以执行具有动态阈值的NMS的修改版本。与所有现有工作不同,我们的方法利用可见区域信息来辅助NMS,并迫使模型在整个管道中一起学习完整的和可见的框,以实现两个框之间的强烈对应。
在本节中,我们首先分析标准NMS和AdaptiveNMS [12]在处理人群情况时的缺点。接下来,我们介绍提出的的R2NMS。最后,我们详细描述配对盒模型(PBM)。
3.1原始NMS和自适应NMS的分析在目标检测中,定位多个目标提案
该模型可能会对同一对象中的得分高打分。在这种情况下,必须使用NMS根据预测分数滤除不太自信的分数。但是,在拥挤的情况下,真实的行人高度重叠。自然,位于不同行人的检测盒之间也可能有很高的重叠度。因此,当在NMS期间使用相对较低的IoU阈值(如MS COCO基准)时(例如0.5),可以抑制不同实例的许多真实正值。这显着减少了所有实例的召回率,从而损害了最终的检测性能。以CrowdHuman数据集为例,对于验证集中的99,481个地面真实实例,我们假设检测器可以生成一个精确的BBox(即,BBox得分为1.0,BBox与地面之间的IoU -真例也为1.0)。但是,在使用IoU阈值0.5执行标准NMS之后,仅保留了90,232个精确的BBox。1在检测中遗漏了近10%的真实实例。这表明在NMS使用相对较低的IoU阈值之后,即使是完美的行人检测器也无法检测到所有地面真实情况。相反,在NMS中设置较高的IoU阈值可保留更多的真实阳性,同时显着增加假阳性。同样,在“人群-人群”验证集中,假设所有真实实例均具有精确的预测BBox,则当将NMS的IoU阈值设置为0.7时,丢失率将降低至1%。但是,较高的IoU阈值在实践中不可避免地会带来更多的误报。例如,在CrowdHuman的验证集中,经过良好训练的基于ResNet-101的Faster R-CNN会在IoU阈值为0.7的NMS之后产生大约15,000个检测盒,其得分超过0.5。请注意,真实实例号为99,481,因此约50,000个预测的框是多余的或错误的。因此,在拥挤的情况下,标准网管的困境难以解决。
为了克服标准NMS的缺点,提出了AdaptiveNMS 。 AdaptiveNMS 是NMS的动态阈值版本。它包含一个子网以预测每个位置的密度,并根据预测的密度为不同的BBox设置NMS中的自适应IoU阈值。但是,密度估计本身仍然是一项艰巨的任务。此外,仍然可以在AdaptiveNMS中手动进行从密度到最佳IoU阈值的匹配,因此很难获得精确的匹配。此外,不准确的BBox预测通常会导致地面真实密度与预测的BBox的IoU之间不一致。现象如图2所示。所有这些使AdaptiveNMS仍然不是次优解决方案。
3.2代表区域的NMS
为了克服标准NMS的上述问题,我们提出了一种代表区域的新型NMS(R2NMS)。 R2NMS与标准NMS之间的主要区别在于IoU计算。具体而言,不是直接将两个全身框的IoU计算为它们的“重叠度”,而是将两个框的可见区域之间的IoU用于确定两个全身框是否重叠。这种基于可见区域的重叠确定是基于以下观察结果的。定位不同行人的BBox通常在其可见区域之间的IoU较低,即使两个完整框之间的IoU很大。相反,当两个BBox定位同一行人时,整个区域和可见区域都将具有较大的IoU。因此,两个盒子的可见区域之间的IoU是更好的指标,表明两个全身盒子是否属于同一行人。结果,基于可见区域,相对较低的IoU阈值足以消除定位同一行人的多余BBox,同时避免了大量误报。 R2NMS的详细算法在算法1中进行了描述。
3.3配对BBox更快的R-CNN
为了获得行人的可见部分,我们提出了一种新颖的配对盒模型(PBM),该模型可以同时预测行人的全身框和可见框。为此,PBM基于具有以下三个修改的标准Faster R-CNN,即配对区域提案网络(P-RPN),配对提案特征提取器(PPFE)和Pair R-CNN( P-RCNN)。具体而言,P-RPN首先生成一组完整/可见建议对,每个建议对对应于行人的完整和可见区域。然后,PPFE提取每个提议对的特征,并将完整和可见框的特征融合在一起,以提供每个提议对的集成表示形式。最后,将集成的表示形式输入到P-RCNN中,以进行成对分类,并对预测的完整和可见BBox进行进一步细化。通过这种方式,可以获得具有强烈对应关系的完整和可见物体的BBox,从而简化了R2NMS的使用。
配对区域提案网络。配对区域提案网络(P-RPN)的职责是生成成对的全身提议和可见部分提议。由于行人的整个区域和可见区域通常具有较高的重叠度,因此可以从同一锚点回归一对完整的提案和可见的提案。此外,从同一个锚点回归这两个建议会在预测的全身建议和可见建议之间产生内在的对应关系。
带注释的全身框F和相应的可见框V构成对Q =(F,V),作为模型的真实单位。我们参考文献[28]中的建议匹配方法,在训练P-RPN时为锚点分配真实标签。更具体地说,更快的R-CNN [19]中的地面真相分配策略通过增加一个限制条件进行了修改。对于某个锚,我们将两者的IoU都考虑在内。全身地面真相盒及其IoF w.r.t.可见部分的真实框。形式上,如果满足以下要求,则将锚A视为与地面真实框对Q =(F,V)正匹配。
在这里,α1和β1分别是整个人体和可见物体的正阈值。根据我们的实验,当α1= 0.7和β1= 0.7时,PBM表现最佳。
P-RPN的详细架构遵循Faster R-CNN [19]中的RPN。唯一的区别在于输出层。除了成对提案的位置外,P-RPN还会预测每对的分数,以显示该对的置信度是否与行人匹配。因此,对于每个密集的锚点,P-RPN会产生10-d的结果(Rf,Rv,S)。这里Rf和Rv分别是朝向全身和可见地面真相的4-d BBox回归向量(fx,fy,fw,fh)和(vx,vy,vw,vh)。 S是softmax归一化后的二维置信度向量(S +,S-)。训练中使用的损失函数与标准RPN中的损失函数相同。
配对提案特征提取器。 R-RPN中的配对策略允许完整建议和可见建议之间的固有对应关系。因此,我们提出了一个成对的提案特征提取器(PPFE),以有效地整合这两个提案中的信息,从而促进对完整的和可见的行人检测任务的检测。
图5显示了两种建议的特征集成方法,一种直接的方法是直接将RoI Align之后的完整提议Ff和可见提议Fv的特征向量串联起来。由于在P-RCNN中仅使用fc层,因此不需要两个提议的特征进行空间对齐。实验结果表明,这种简单的特征融合方法可以大大提高性能。
特征集成的第二种方法是基于注意力机制,该机制突出显示信息量更大的可见区域。具体来说,对于每对建议,我们都会生成一个可见的身体注意遮罩,该遮罩显示是否要针对全身建议中的每个像素都位于可见的建议中。如果某个像素也位于可见提案中,则我们将值1分配给关注掩码中的该像素。可见提议之外的像素在注意蒙版中都设置为0。然后,在RoI Align之后将注意蒙版调整为与提案功能相同的大小,即7×7。然后,以元素方式将全身建议特征Ff与蒙版相乘,以得到可见的蒙版关注特征Fm。最后,我们将Fv和Fm连接起来以获得该对的最终集成特征。
图4. P-RCNN的示意图。红色的BBox代表整个正文注释。绿色BBox代表可见的注释。橙色BBox是锚点。 (a)P-RCNN从同一个锚点退回一对提案。 (b)将橙色锚点分配给该人,因为它与该人完整且可见的身体很好地对齐。 (c)点状橙色锚点具有较大的IoU,并带有全身注释,但是,这对于可见的身体是不利的
PPFE模块
配对的R-CNN。 PPFE产生的集成功能用作配对R-CNN(P-RCNN)的输入。 P- RCNN用于根据提案对执行完整的和可见的行人检测。 P-RCNN的详细架构基于Faster R-CNN [19]中的R-CNN模块,并进行了以下修改。接收到对特征后,P-RCNN包含两个分叉的分支,分别位于两个共享的fc层之后,分别用于完整的和可见的BBoxes预测。每个分支都具有与标准Faster R-CNN完全相同的体系结构和输出。
与P-RPN相似,P-RCNN的本质问题是如何将建议分配给地面真相。我们使用的策略与P-RPN中的锚分配方法非常相似。更具体地说,对于一对注释Q =(F,V),一对提议X =(Pf,Pv)如果满足:
根据我们的实验结果,α2,β2的最佳数分别为0.5和0.5。训练中使用的损失函数也与标准Faster R-CNN中的损失函数相同。
如上所述,来自Faster R-CNN的PBM的重大修改几乎没有引入额外的计算,同时带来了大量的性能提升。下一节的实验结果验证了我们模型的有效性。
为了评估我们提出的方法,我们对两个人群行人数据集进行了几个实验:CrowdHuman [20]和CityPersons [24]。
表1.主要结果。 *表示我们重新实施的结果。 MR和AP分别是对数平均丢失率和平均精度的缩写。 MR,AP,Recall代表全身结果。 MR-V代表可见身体的MR。对于MR,越低越好。对于AP和Recall,越高越好。 ∆ MR-V和∆ MR-V表示与我们重新实施的基准相比,可见光和全身的绝对增益。最好的结果以粗体显示。
表2.变化的β1和β2的影响。 NPM是朴素对模型(Naive Pair Model)的缩写。 MR-V + MR的值反映了模型在两个注释类别上的性能。
4.1数据集和评估指标
CrowdHuman数据集。最近,已经发布了人类检测基准CrowdHuman [20]数据集,以更好地评估拥挤场景中的行人检测器。训练集,验证集和测试集中分别有15000、4370和5000个图像。图像中的平均人数为22.6。 CrowdHuman [20]为每个人类实例提供了三类边界框注释:头部边界框,人类可见区域边界框和人类全身边界框。我们所有的实验都是在全身和可见身体的环境下进行的。在训练集上对模型进行训练,并在验证集上对模型进行评估。
CityPersons数据集。 CityPersons [24]数据集是Cityscapes [2]的子集,仅由人注解组成。有用于训练的2975张图像,用于验证和测试的500张和1575张图像。图像中行人的平均数为7。提供了可见区域和全身注释。我们在全身环境下评估我们提出的方法。按照CityPersons [24]中的评估协议,高度小于50像素的对象将被忽略。根据可见性,将验证集进一步分为几个子集:
我们展示了这两个子集的结果。
评估指标。为了进行评估,我们遵循标准的Caltech [3]评估标准– MR,它表示对每幅图像的假阳性(FPPI)的对数平均丢失率(FP-2),范围为[10-2,100]。为了更好地评估我们的方法,还提供了平均精度(AP)和召回率。
**4.2. Implementation Details **
对于CrowdHuman [20]数据集,我们采用特征金字塔网络(FPN)[9]和ResNet-50 [7]作为我们的基线。为了提取更精确的特征,我们采用RoI Align [6]而不是RoI Pooling [19]进行特征提取。将全身和可见物体的锚定纵横比设置为[0.5,1,2]。由于CrowdHuman数据集中的图像具有各种形状,因此我们将其调整大小,以使短边为800像素,而长边小于1400像素。我们在8个GPU上训练模型,每个小批量总共16张图像。我们使用动量为0.9的SGD作为优化程序,并将初始学习率设置为0.02。我们总共训练20个时代,在第16和19个时代将学习率降低0.1。
对于CityPersons数据集,我们遵循改编的Faster R-CNN框架中的设置[24]。具体来说,我们探测器的主干是VGG-16 [21]。为了检测小物体,我们移除了VGG-16中的第四个最大池化层。锚点的长宽比设置为2.44。锚点大小与[24]中的相同。我们还采用Adam作为我们的优化程序。我们在8个GPU上总共训练了12个时期,每个小批量总共16个图像。初始学习率设置为0.0008。在第8和11个时期,我们将学习率降低了0.1。我们不对输入图像进行升采样,而仅使用行人的合理子集进行训练。
4.3. 人群检测结果
主要结果。为了彻底评估我们提出的方法的性能,我们在CrowdHuman [20]数据集上进行了大量实验,并根据三个评估指标对性能进行了评估。选择MR作为主要指标。表1显示了基准和我们在CrowdHuman [20]验证子集上提出的方法的性能。为了公平比较,表1中列出的所有模型在超参数上都具有相同的设置。如表1所示,我们重新实现的FPN [9]基线在全身检测时达到了46.28%MR,在可见体检测时达到了55.57%MR,分别比CrowdHuman [20]的基线提高了4.14%和0.37。 %, 分别。因此,我们的基线足够强大,可以验证我们提出的方法的有效性。基于我们强大的基准,我们的方法可以进一步使MR,AP和Recall的Notable分别提高2.71%,4.37%和4.85%,这显着证明了我们方法的能力。为了单独分析我们提出的模块的贡献,我们使用我们的模块逐步将组件替换为基线模型。在以下段落中说明了相关的消融研究和分析。
基于对的样本单位中不同超参数设置的影响。为了评估我们基于配对的样本单元在整个管道中的功效,我们构建了一个简单的配对模型版本,该配对模型仅用P-RPN和P-RCNN替换了Faster R-CNN中的RPN和R-CNN。在NPM中,来自RPN的完整建议和可见建议被馈送到两个单独的R-CNN模块中。这两个单独的R-CNN模块分别负责完整的和可见的身体检测。每个R-CNN模块都具有与Faster R-CNN中的标准模块相同的体系结构。我们在NPM上进行了一组实验,以找出最合理的超参数设置。为了使NPM具有与基线一致的超参数设置,将α1和α2固定为固定值,即分别为0.7和0.5。全面研究了变化的β1和β2的影响,结果如表2所示。我们可以看到,当β1= 0.7和β2= 0.5时,NPM的效果相当好。当α1和α2固定时,β1和β2控制我们基于对的样本单元中训练时可见体和全身之间的平衡。当β1和β2较小时,会计算出质量较差的提议,这会损害NPM在可见检测结果上的性能。较大的β1和β2排除了排列不清晰的可见提议,同时,这种设置会拒绝一些排列良好的全身正训练示例,从而导致不良的全身检测结果。从表2的第三行可以看出,β1= 0.7和β2= 0.5在两个注释类别之间实现了良好的权衡。因此,除非另有说明,否则在整个实验中,我们使用α1= 0.7,α2= 0.5,β1= 0.7和β2= 0.5。
PPFE的影响。在将NPM配备PPFE模块时,它将成为PBM。我们在表3中对PBM和NPM进行了比较。从表3中,我们可以看出,第3节中提出的两种特征集成方法均对MR-V和MR进行了显着改进。较简单的方法是直接将完整提议和可见提议的特征串联起来,可使MR-V和MR分别提高1.99%和1.11%,而具有注意机制的PPFE则表现出更好的性能。 PBM和NPM之间的如此大的差距完全证明了我们提出的PPFE模块可以有效,成功地从基于对的样本单元中提取和集成特征。此外,从表4中我们可以了解到,PPFE通过改善模型在可见物体上的性能,使R2NMS的性能更好,这说明了PPFE模块的必要性。
MR-V与R2NMS之间的关系。为了证明R2NMS的有效性,我们用建议的R2NMS代替了原始的NMS。表4显示了三组实验结果。我们可以得出结论,在所有设置下,R2NMS都可以提高AP和Recall的性能,而在应用NPM时,R2NMS会使MR恶化。为了理解为什么R2NMS会削弱NPM的MR,我们想介绍MR-V和R2NMS之间的关系。很自然地认为可见的身体预测的质量至关重要,因为R2NMS使用两个BBox可见区域之间的IoU来确定两个全身BBox是否重叠。但是,我们认为,与预测的可见BBox的绝对定位质量相比,捕获两个人类实例之间的重叠程度的相对定位质量更为重要。一个简单的例子可以验证我们的观点-假设所有可见的身体预测与全身的预测完全相同,在这种情况下,MR-V将很差。但是,在R2NMS期间使用这种可见的身体预测可以得到与原始NMS完全相同的全身检测结果,而原始NMS不如MR-V差。该示例明确表明,对于R2NMS的全身预测,MR-V差并不一定会导致MR差。
表4. R2NMS的消融研究。 R2是R2NMS的缩写。 PBM在这里使用了PPFE的concat版本。
更具体地说,尽管较低的MR-V可能可以更好地对每个实例对之间的重叠进行建模,这将进一步有益于全身检测,如上所述,但是MR-V的绝对值不是决定其性能的决定性因素。全身检测。我们在表4中的实验结果也证明了这一点。随着MR-V的降低,R2NMS的性能变得更好,而MR-V低于54%足以对通过R2NMS进行全身检测产生积极影响。
关于R2NMS的进一步分析。表1中的实验结果表明,R2NMS可以显着改善AP和查全率,而仅将MR改善不到1%。这种现象是由MR和AP之间的差异引起的,我们希望对此进行深入讨论。
MR和AP之间的主要区别在于感兴趣的预测分数的范围。 MR只关心得分高于最高得分的假阳性的预测BBox。相比之下,AP会将评分在0到1之间的所有检测结果都考虑在内。因此,只有一小部分预测结果会影响MR。如第1节和第3节中所述,在拥挤的情况下,检测器趋向于生成大量高分的假阳性,这些假阳性很难通过NMS删除。因此,我们认为结果中的大量高分误报使FPPI迅速达到1。为了证明这一点,我们计算了所有测试图像中得分最高的假阳性的平均得分。事实证明,该值非常高,有时甚至超过0.9。这种现象表明,只有得分高于0.9的BBox才能影响MR。因此,MR反映了检测结果中得分较高的部分的性能,而AP则测量了所有检测到的BBox的性能。这种差异导致R2NMS的MR和AP增益之间存在巨大差异。
总之,尽管R2NMS并未在MR上带来大的改进,但它极大地提高了AP。 AP上的巨大改进有力地证明,与原始NMS相比,R2NMS不仅可以保留更多的真实阳性结果,而且可以减少假阳性。
4.4 . 关于人群人类的最新比较
我们在表5中的CrowdHuman验证集上将我们的方法与AdaptiveNMS [12]和排斥力[23]进行了比较。它清楚地表明,带有R2NMS的PBM优于这两种已发布的方法。我们的方法将MR从49.73%显着降低到43.35%,并将AP从84.71%提高到89.29%。如此巨大的差距证明了我们的PBM和R2NMS的优越性。
表5. CrowdHuman的最新技术比较。 *表示我们重新实施的结果。此处的PBM配备有PPFE的蒙版。
4.5 . CityPersons的检测结果
为了证明我们方法的泛化能力,我们还对CityPersons进行了一些实验[24]。比较结果显示在表6中。为了清楚地证明我们提出的新组件的有效性,我们还显示了在不同行中使用不同设置的out方法的性能。无论在哪种设置下,带有R2NMS的PBM的性能都优于基线。最好的结果以黑体显示并显示在最后一行。与基线相比,我们的检测器在合理范围内将MR从13.8%显着降低到11.1%。在重度咬合组上,它比基线好5.7%。如此大的增益为我们的探测器的有效性提供了令人信服的证据。我们将我们的方法与最近的最新方法进行了比较,这些方法包括Adapted FasterRCNN [24],ATT-part [26],排斥力[23],OR-CNN [25],AdaptiveNMS [12]和MGAN [16] ]在CityPersons验证集上。我们在表7中列出了在合理的子集上具有原始输入大小的先前工作的性能。我们在相同的设置下评估我们的方法。带有R2NMS的建议PBM在合理的验证子集上优于所有已发布的方法。我们的方法将最新结果的MR从11.5%降低到11.1%。请注意,由于模型的基线结果较弱,我们的方法比MGAN的效果略差。
表6.我们的PBM与CityPersons基准之间的比较[24]。报告验证子集的对数平均丢失率(MR)。 R表示合理的集合,而HO表示重度遮挡集合。
表7. CityPersons的最新技术比较。 AdaptiveNMS +是指具有AggLoss的AdaptiveNMS。 *表示我们的实施。
在本文中,我们提出R2NMS可以有效地去除冗余箱,而不会在拥挤情况下带来许多误报。 R2NMS使用两个框的可见区域之间的IoU来确定两个全身框是否重叠。为了支持该想法,我们提出了一种新颖的配对盒模型(PBM),以同时预测行人的满盒和可见盒。在非常拥挤的基准CrowdHuman [20]和CityPersons [20]上进行的实验表明,所提出的方法可以达到最新的结果,有力地证明了该方法的优越性。