这些年来目标检测领域经历了令人印象深刻的进展。除了这些改进,在小目标检测与大目标检测领域还是有不小的差距。我们在MS COCO上分析了当前SOTA的模型Mask-RCNN。研究成果展示GT目标与预测的anchors的重叠远远小于期望的IoU阈值。我们猜测这可能是由两个情况导致的:1、只有少部分样本包含小目标;2、及时在包含小目标的样本中,小目标的数目也不够。我们因此提出过采样那些包含小目标的样本,通过多次复制粘贴那些小目标到样本中达到数据扩展的效果。这样使得我们可以平衡检测器在小目标与大目标检测中的表现。我们评估了不同的粘贴扩展策略,最终与当前MS COCO上SOTA方法相比我们在实例分割上达到了9.7%的相对改进,在小目标检测上达到了7.1%的相对改进。
图像的目标检测是当前CV工作的一个重要基础任务,通常是许多现实应用中的第一步工作,包括机器人、自动驾驶、卫星、航空图像分析、医学图像中的组织与肿瘤定位。当前目标检测问题正经历许多变革。MS COCO目标检测竞赛中AP从2015年的0.373【32】发展到2017年的0.525(主要的竞赛度量指标IoU=.50:.05:.95),相似的结果在MS COCO实例分割竞赛中也可以找到。尽管有这些改进,现有解决方案在小目标上的表现还是不如预期,这里小目标的定义以MS COCO为例在表1中展示。它展示出了小目标与大目标检测中的巨大差距。图一中列出了排名靠前的MS COCO实例分割比赛结果。可以观察到实例分割也面临着类似的问题。例如,如图二中SOTA的Mask-RCNN模型的预测结果,模型漏检了大多数小目标样本。
对于许多下游任务来说小目标检测相当重要。对于自动驾驶车辆安全来说,从高清图像中检测出小样本或者远距离样本相当重要。许多目标,例如交通灯【11】【34】或者行人【31】,在高清样本中很难被察觉。在医学图像中,对于肿块或者肿瘤的早期检测对于尽早的精准诊断十分重要,然而这些目标很有可能大小只有几个像素【3】【29】。工业自动检测通过定位物料表面小的视觉瑕疵来从小目标检测中受益【1】【30】。还有卫星图像分析,在这个应用中例如汽车、船与房子这样的目标都需要被有效的标注出来【28,21】。在平均一个像素表示0.5到5m的分辨率下,这些目标有可能只有几个像素。换句话说,小目标检测与分割需要投入更多的精力,因为在现实世界中部署了更复杂的系统。我们因此提出了一种改进小目标检测的新方法。
我们的研究在MS COCO数据加上,专注于SOTA的Mask R-CNN检测器。除了小目标外我们注意到这个数据集还有两个特点。首先,我们观察到数据集中包含小目标的样本数量较少,这样潜在的让目标检测模型更关注中大目标的检测。第二,由小目标覆盖的区域更小,这样小目标的位置会缺少多样性。我们推测这使得小目标检测的在验证时的通用性变得很难,因为他们只出现在样本中很少被训练到的位置。
我们通过过采样包含小目标图像的方式解决上述第一个问题。第二个问题通过在包含小目标样本中多次复制粘贴小目标来解决。当粘贴每个目标的时候,我们保证粘贴的目标与现有的目标不重叠。这增加了小目标位置的多样性,同事保证目标出现在合适的上下文,如图3所示。每个样本中小目标个数的增加进一步解决了匹配的anchor数目问题,这个问题我们在第三章做量化分析。总体来说,我们在MS COCO数据集,使用SOTA的Mask R-CNN模型,在小目标实例分割上取得了9.7%的相对改进,在小目标检测上取得了7.1%的相对改进。
略
本章中,我们首先大致介绍MS COCO数据集与我们实验中用到的目标检测模型。之后我们讨论MS COCO数据集中的问题与训练中anchor匹配过程,这导致了小目标检测难的问题。
我们在MS COCO检测数据集上【25】进行试验。MS COCO 2017目标检测数据集包含11287张训练样本,5000张验证样本,40670张测试样本。80类860001个BBOX的目标与36781个实例掩模。
在MS COCO检测挑战中,主要的评估度量方式是AP。总的来说,AP定义为TP与所有召回的样本中正样本的平均比例。由于目标需要同时被定位与正确分类,只有在BBOX或者掩模的IoU大于0.5,并且被正确分类的时候才被认为正确。AP得分通过80类与10个阈值均衡分布在0.5到0.95间的IoU的平均得到。度量结果也包括不同目标尺寸的AP结果。本文中,我们主要关注小目标的AP。
我们的实验中使用【16】中实现的Mask R-CNN,使用ResNet-50作为backbone,使用文献【17】中的设置学习超参数的方法进行线性尺度规则设定。我们的训练周期比【16】中的短。我们使用基础学习率0.01在四块GPU上迭代了36k次。在优化方式上,我们使用sgd,momentum设置为0.9,权重衰减协设置为0.0001。分别在24K与32K次迭代的时候将学习率下降0.1倍。所有其他参数保持【16】中Mask R-CNN+FPN+ResNet-50的baseline设置。
网络的region proposal阶段使我们研究的重点。我们用FPN来产生目标的proposal【24】。它预测出来自5个不同尺度(322,642,1282,2562,5122)与三个aspect ratios(1,0.5,2)的15个目标proposal。Anchor如果与任何标注位置的IoU大于0.7那么就产生一个正样本标签。
在MS COCO中41.43%的训练集样本为小样本,只有34.4%与24.2%的是中型或者大样本。换句话说,只有大约一半的样本包含小目标,而70.07%与82.28%的训练样本中包含中大尺寸的样本,如表2。这确认了小目标检测的第一个issue:只有少量的样本包含小目标。
第二个issue在考虑每一类大小的类别的整体目标区域时马上就显示出来了。只有1.23%的标注像素属于小目标。中型的目标占了8倍以上的区域,约10.18%的标注像素,与此同时,绝大部分像素,82.28%是属于大型目标的。任何在这样的数据集训练的检测器都不可能学习到足够小目标的信息,无论是从图像还是从像素的角度。
正如本章之前提到的,每个通过rpn网络预测的anchor如果与GT的IoU最高或者与任何GT高于0.7那么将会被标记成正样本。这对大目标来说有先天优势,大目标跨越多个滑窗区域,通常匹配的上多个anchor,而小目标可能仅仅能在小IoU的情况下匹配上单个anchor。如表2中所列,只有29.96%的anchors是域小目标匹配成功了,而44.49%的anchors与大目标匹配。从另外的角度看,这意味着每个大目标有2.54个anchors匹配,而小目标平均只有一个。此外,由于Average Max IoU度量方式的原因,即使小目标最匹配的anchor的IoU通常也比较低。小目标的平均最大IoU仅仅只有0.29,而中大目标最匹配的anchors往往高达0.57与0.66。我们在图5中可视化展示了这个现象。实验结果展示,在计算rpnloss的时候小目标的贡献要小得多,这使得整个网络跟拟合中大型目标。
我们通过明确的分析MS COCO数据集中之前章节提到的小目标相关问题来解决优化目标检测器在小目标检测上性能表现问题。详细的说,我们将包含小目标的样本过采样并且进行小目标数据扩展来促使模型更加关注与小目标。尽管我们是在Mask R-CNN框架进行评估的,但是在其它框架下这种方法也同样适用,因为无论是过采样还是数据扩展都是在数据预处理阶段做的。
Oversampling
我们通过相对少的包含小目标的在训练时过采样来解决样本少的问题【4】。这个方法是花费最少并且最直接的方式来缓解MS COCO数据集并且改进在小目标检测中的表现。实验中,我们改变过采样率,探索过采样不仅仅在小目标检测,而且在中大型目标检测中同样有效。
Augmentation
在过采样的同时,我们也使用专注于小目标的数据扩展方法。MS COCO中的实例分割mask使得我们可以将任意目标从它原来的位置进行拷贝。拷贝被粘贴在不同的位置。通过增加每张样本中小目标的个数,匹配的anchor的数据增加了。这样改进了小目标在RPN训练期间在loss函数中的贡献。
在将目标粘贴到新路径之前,我们进行随机变换。我们通过将目标尺寸在±20%范围,旋转在±15°范围缩放。我们只考虑未被遮挡的目标,因为使用有遮挡区域的不连续样本会失真。我们确保新粘贴的目标不与任何现有的目标重叠,至少与图像边界保持5个像素的距离。
在图4中,我们可视化展示了提出的数据扩展策略,与它如何在训练阶段增加匹配的anchor数量,从而得到更好的小目标检测器。
第一组实验中我们演技包含小目标样本过采样的作用。我们依次改变过采样率为2/3/4。我们离线的将小目标样本进行拷贝而不是随机在线过采样来提高效率。
第二组实验中,我们研究数据扩展在小目标检测与分割中的作用。我们在每张样本中复制粘贴所有小目标样本一次。我们还过采样了包含小目标的样本来研究过采样与数据扩展策略之间的影响。
我们测试了三组设置。第一组测试中,我们将所有包含小目标的样本替换为复制粘贴过的样本。第二组测试中,我们将这些样本进行过采样。最后一组设置,我们使用原始样本与扩展后的样本,相当于过采样包含小目标样本两次,并且数据扩展会得到更多小目标
有多种复制粘贴小目标的方式。我们考虑使用三种不同的策略。首先,我们在样本中选择一个小目标,并在随机位置粘贴多次。第二,我们选择多个小目标,在任意位置只粘贴一次。最后,我们一起使用上述三种数据扩展方式。这样我们保留了原始样本与扩展后的样本。
粘贴小目标的时候,有两件事需要考虑。第一,我们必须决定目标是否可以与其它目标重叠。尽管我们选择不使用任何重叠,我们还是通过实验证明了这是一个好选择。第二,是否选择对粘贴的目标进行边缘平滑。我们实验证明与什么都不做相比,使用多种核尺寸的高斯滤波器可以提升表现。
略
略