论文链接:https://arxiv.org/abs/2004.10934
有大量的特性都自称可以提升卷积神经网络(CNN)的精度。仍然需要在大数据集上实际测试这些特性的组合并对结果进行理论证明。一些特性只能应用在特定模型上,或针对特定问题,或只应用与小尺度的数据集;另一些特征,像BN和残差连接可以应用到大部分的模型、任务和数据集上。我们假设通用的特征包括加权残差链接(WRC),跨阶段的部分链接(CSP),交叉小批量归一化(CmBN),自我对抗训练(SAT)和Mish激活。我们使用的新特性:WRC、CSP、CmBN、SAT、Mish激活、马赛克数据增强、CmBN、DropBlock正则化和CIoU丢失,并将其中一些功能结合起来以实现最好的结果:使用Tesla V100在MS COCO数据集上的AP为43.5%(AP50为65.7%),实时检测速度为65FPS。源代码见:https://github.com/AlexeyAB/darknet。
目前大部分基于CNN的目标检测器基本上只适用与推荐系统。例如,使用低速高精度模型通过城市的摄像头来搜索空闲停车位,然而车辆碰撞预警则使用快速低精度模型。提升实时目标检测系统的精度不仅可以使他们应用到推荐系统生成提示而且可以用于独立的流程管理和减少人工输入。在普通GPU上部署使用实时目标检测系统可以使他们在可接受的代价前提下大量应用。精度最高的流行神经网络不能够实时运行,并且要用大量的GPU进行大批量的训练。我们通过创建一个在传统GPU上能够达到实时计算的CNN来解决该问题,这样只需要一个普通GPU。
我们做这些事情的主要目的是设计一个在生成系统中运行速度快的检测器,优化并行计算,而不是低计算量理论指标(BFLOP)。我们希望设计出的系统易于训练和使用。例如,任何人使用普通的GPU来训练和测试都能够达到实时、高精度、令人信服的检测结果,就行图1中展示的YOLOv4的结果。
我们的主要贡献总结如下:
现在的检测器通常由两部分组成——使用ImageNet预训练的backbone网络和预测物体类别和边界框的head网络。运行在GPU平台上的检测器backbone可以用VGG [68], ResNet [26], ResNeXt [86]或 DenseNet [30]。运行在CPU平台上的检测器backbone可以用SqueezeNet [31], MobileNet[28, 66, 27, 74]或 ShuffleNet [97, 53]。至于head部分,它通常分为两类,即——一阶段目标检测和两阶段目标检测。最具代表性的两阶段检测是R-CNN[19]系列,包括fast R-CNN [18], faster R-CNN [64], R-FCN [9], Libra R-CNN [58]。同样将两阶段检测修改成不依赖anchor的目标检测器,例如RepPoints [87]。对于一阶段检测器,最具代表性的是YOLO [61, 62, 63], SSD [50], and RetinaNet [45]。在近几年,不依赖anchor的一阶段检测得到了很大发展。该系列的检测器有CenterNet [13], CornerNet [37, 38], FCOS [78]等。近些年目标检测的发展通常是在backbone和head之间插入一些层,这些层通常用来收集不同阶段的特征图。我们称之为目标检测的neck。通常,一个neck网络由一些自下向上和一些自上向下的路径组成。使用该技术的网络包括Feature Pyramid Network (FPN) [44], Path Aggregation Network (PAN) [49], BiFPN [77]和 NAS-FPN [17]。基于上面的网络,一些研究者将重点放在了创建新的backbone(DetNet [43],DetNAS [7])或者一个新的完整的目标检测模型(SpineNet [12], HitDetector [20])。
总之,一个普通的目标检测器由一些部分组成:
通常,传统的目标检测器是离线训练的。因此,研究者通常喜欢利用该优势创造出更好的训练方法,可以使检测器在不增加推理成本的同时能够获得更高的精度。我们称这种只改变训练策略或只提升训练成本的方法为"bag of freebies"。在目标检测中经常使用并且满足 bag of freebies 定义的是数据增强。数据增强的目的是增加输入图片的多样性,因此通过设计的检测器对不同环境获取的图片有更好的鲁棒性。例如,光度畸变和几何畸变是两种常用的数据增强方法,它们肯定有利于目标检测任务。在处理光度畸变时,我们调整图像的亮度、对比度、色调、饱和度和噪声。对于几何畸变,我们添加了随机缩放、裁剪、翻转和旋转。
上面提到的数据增强方法都是像素级的调整,并且保留调整区域中的所有原始像素信息。此外,一些从事数据增强的研究人员将重点放在模拟对象遮挡问题上。在图像分类和目标检测方面取得了良好的效果。例如,random erase[100]和CutOut[11]可以随机选择图像中的矩形区域,并填充随机值或零值。至于hide-and-seek[69]和grid mask[6],它们随机或有规律地选择图像中的多个矩形区域,并将它们的值全部替换为零。在特征图上应用的类似方法有DropOut[71]、DropConnect[80]和DropBlock[16]。此外,一些研究人员提出了使用多幅图像进行数据增强的方法。例如,MixUp[92]使用两幅图像以不同的系数比例相乘后叠加在一起,然后根据这些叠加比例调整标签。至于CutMix[91],它是将裁剪后的图像覆盖到另一个图像的矩形区域,并根据混合区域的大小调整标签。除了上述方法外,风格迁移GAN[15]也被用于数据增强,这种用法可以有效地减少CNN学习到的纹理细节的偏差。
与上提到的各种方法不同,一些其他的"bag of freebies"方法用来解决数据集中语义分布可能存在偏差的问题。在处理语义分布偏差问题中,一个很重要的问题是不同类别数据的数量不平衡,在两阶段目标检测器中该问题通常通过困难负样本挖掘[72]或者在线困难样本挖掘[67]来解决。但是,对于一阶段的目标检测器,样本挖掘方法就不再适用了,因为这种类别的检测器属于全连接检测架构。因此Lin等人[45]提出了focal loss来处理在多个类别见存在的数量不均衡的问题。另一个非常重要的问题是,很难表示出不同类别在one-hot硬表示的关联度的关系。这种表示方式通常在标记时使用。在[73]中提出的标签平滑用来将训练的硬标签转化为软标签,这样使得模型的鲁棒性更好。为了获取更好的软标签,Islam等人[33]引入了知识蒸馏的概念来设计标签细化网络。
硬标签:在机器学习中多指以0与1为值的训练数据的标签编码,例如one-hot编码。
软标签:使用概率的标签编码,多用于标签平滑,可以一定程度上抑制过拟合,例如:softmax
bag of freebies中最后一个是Bounding Box(BBox)回归的目标函数。传统的目标检测通常使用Mean Square Error(均方误差:MSE)来直接对BBox的中心点坐标、宽和高进行回归,即:{xcenter, ycenter, w, h}或者左上角和右下角的点坐标,即:{xtop_left , ytop_left , xbottom_right, ybottom_right}。对于基于anchor的方法,它需要估计对应的偏移,例如{xcenter_off_set, ycenter_offset, woffset, hoffset}和{xtop_left_ offset, ytop_left_offset, xbottom_right_offset, ybottom_right_offset}。但是,直接估计BBox每个点的对应坐标需要将这些点作为单独的变量来处理,但是实际上不会考虑物体本身的完整性。为了更好的处理该问题,一些研究者最近提出了IoU loss[90],它将BBox的预测区域和BBox的真值区域的覆盖范围考虑进来了。IoU loss的计算过程中通过计算与真值框的IoU然后将生成的结果连接成一个完成的编码,从而触发BBox四个坐标点的计算。因为IoU具有尺度不变性,它可以解决当传统方式计算{x, y, w, h}的L1或L2 loss时的问题——loss会跟着尺度的变大而变大。最近,一些研究者持续的发展IoU loss。例如,GIoU loss[65]除了覆盖区域外还包含了形状和方向。他们像找到一个能够覆盖预测的BBox和真值BBox的最小BBox,并使用该BBox作为分母,以取代IoU损失中最初使用的分母。至于DIoU loss[99],它还考虑了对象中心的距离,而CIoU loss[99],它同时考虑了重叠面积、中心点之间的距离和纵横比。CIoU可以在BBox回归问题上获得更好的收敛速度和精度。
对于那些只增加很小的推理开销的情况下可以显著提升目标检测的精度的插件式模块和后处理方法,我们称之为"bag of specials"。一般来说,这些插件式模块用来增强模型的特定属性,例如扩大感受野,引入注意力机制,或者强化特征整合能力等,后处理是筛选模型预测结果的方法。
用来增强感受野的的常用模块有SPP[25], ASPP[5], RFB[47]。SPP模块是从Spatial Pyramid Matching (SPM) [39]中提取出来的,SPMs的原始方法是将特征图切成多个dxd的大小相同的块,这里d可以为{1, 2, 3, …},因此整合空间金字塔,然后提取特征。SPP是将SPM整合到了CNN中,使用最大池化运算来替代了bag-of-word。由于SPP——是He等人[25]提出的,会输出一维的特征向量,并不适用与全连接网络(FCN)。因此在YOLOv3[63]的设计中Redmon和Farhadi改进了SPP,使之成为kernel为kxk的池化输出结果的组合,k={1, 5, 9, 13},stride=1。使用这种设计后,一个相当大的kxk的池化可以有效提升骨干网特征的感受野。在使用了改进型的SPP模块后,YOLOv3-608在MS COCO的目标检测任务上的AP50提升了2.7%,而只增加了额外的0.5%的算力。ASPP[5]和改进型的APP在运算上的主要区别是原始的kxk卷积核大小,最大池化的步长等于1几个核大小为3x3,在空洞卷积运算中,膨胀率为k,步长为1。RBF模型使用了数个核为k x k的空洞卷积,膨胀率为k,步长为1,RFB [47]只消耗了额外7%的推理时间使SSD在MS COCO上的AP50提升了5.7%。
目标检测中常用的注意力模块主要分为通道注意力和点注意力,两个注意力模块的代码分别为Squeeze-and-Excitation (SE) [29] 和 Spatial Attention Module (SAM) [85]。虽然SE模型可以将ResNet50在只额外消耗2%算力的前提下使其在ImageNet图像分类任务中的Top-1精度提升了1%,但是在GPU上它却多消耗了10%的推理时间,因此它更适用于移动设备。但是对于SAM,它只需要消耗额外0.1%的算力就可以使ResNet50-SE在ImageNet图像分类任务上的Top-1精度提升0.5%。最重要的是它不会影响在GPU上的推理速度。
在特征整合方面,早期的实践是通过skip connection[51]或hyper column[22]来将低级别的物理特征集成到高级别的语义特征。当FPN等多尺度预测模型流行起来后,人们提出了许多集成不同特征金字塔的轻量级模块。该系列模型包括SFAM [98], ASFF [48] 和 BiFPN [77]。SFAM的主要思想是在组合到一起的多尺度特征图上使用SE模型来执行通道级别的re-weighting。至于ASFF,它使用softmax作为逐点级重加权,然后添加不同尺度的特征图。 在 BiFPN 中,提出了多输入加权残差连接来执行按尺度级别重新加权,然后将不同尺度的特征图加起来。
在深度学习研究中,有些人将重点放在寻找好的激活函数上。一个好的激活函数可以是梯度更有效的传播,同时不会有太多的额外计算开销。2010年,Nair 和 Hinton [56]提出了ReLU实质性地解决传统 tanh 和 sigmoid 激活函数中经常遇到的梯度消失问题。随后又提出了LReLU [54], PReLU [24], ReLU6 [28], Scaled Exponential Linear Unit (SELU) [35], Swish [59], hard-Swish [27], 和Mish [55]等,也是用来解决梯度消失问题。LReLU 和 PReLU的主要目的是解决当输出小于0的时候ReLU的梯度是0的问题。至于ReLU6 和 hard-Swish是为量化网络专门设计的。至于 ReLU6 和 hard-Swish,它们是专门为量化网络设计的。为了自归一化神经网络,提出了 SELU 激活函数来满足目标。需要注意的一件事是 Swish 和 Mish 都是连续可微的激活函数。
基于深度学习的物体检测常用的后处理方法是NMS,它用来过滤那些对同一个物体预测不好的BBox,只保留最好的BBox作为候选。NMS 尝试改进的方式与优化目标函数的方法一致。NMS提出的原始方法并没有考虑上下文信息,因此Girshick等人[19]在R-CNN中添加了分类的置信度作为参考,根据置信分数的顺序,贪婪的NMS按高得分低分数的顺序执行。对于soft NMS[1],它考虑了对象的遮挡可能导致其在使用IoU的贪婪NMS中的置信度分数降低的问题。DIoU NMS [99] 开发者的思路是在软 NMS 的基础上,在 BBox 筛选过程中加入中心点距离信息。值得一提的是,由于上述后处理方法都没有直接参考捕获的图像特征,因此在后续开发不依赖anchor的方法时不再需要进行后处理。
生产系统和并行计算优化的基本目标是神经网络快速的计算速度,而不是低计算量理论指标(BFLOP)。 我们提供了两种实时神经网络选项:
**GPU ** 在卷积层中我们使用了小分组(1-8):CSPResNeXt50 / CSPDarknet53
**VPU ** 我们使用分组卷积,但我们避免使用 Squeeze-and-excitement (SE) - 特别是以下模型:EfficientNet-lite / MixNet [76] / GhostNet [21] / MobileNetV3
我们的目标是在网络输入分辨率、卷积层数量、参数数量(filter size2 * filters * channel / groups)和卷积层的输出数量(卷积核数量)之间找到最佳的平衡。例如,我们大量的研究证明,在ILSVRC2012 (ImageNet)数据集[10]上的目标分类任务,CSPResNext50比CSPDarknet53表现的好很多。但是,相反在MS COCO数据集[46]上的目标检测任务CSPDarknet53比CSPResNext50好。
下一个目标是选择提升感受野的模块和针对不同大小检测的骨干网参数聚合的最佳方式:例如,FPN, PAN, ASFF, BiFPN。
针对分类的最佳推理模型对于检测并不总是最佳的。与分类相比,检测还需要以下的内容:
假设,我们可以假设一个拥有更大的感受野(含有更多的3x3的卷积层)和更多数量的参数的模型应该被选做骨干网络。表1中展示了CSPResNeXt50, CSPDarknet53和EfficientNet B3的相关信息。CSPResNext50只有16个3x3的卷积层,425x425的感受野,20.6兆的参数;CSPDarknet53有29个3x3的卷积层,725x725的感受野,27.6兆的参数。通过理论上的判定结合我们大量的实验表明CSPDarknet53神经网络是作为检测骨干网的最佳模型。
感受野大小的影响总结如下:
我们在CSPDarknet53上增加了SPP模块,因为它可以大幅提升感受野,提取出最重要的上下文特征而且几乎不会降低网络执行速度。我们使用PANet替换YOLOv3中的FPN作为将骨干网络针对不同检测大小的参数聚合的方法。
最后,我们选择CSPDarknet53作为backbone,SPP附加模块,PANet为路径聚合的neck部分,YOLOv3(基于anchor)作为head构成了YOLOv4的体系结构。
未来我们计划大幅扩展检测BoF的内容,理论上可以解决一些问题并且能够提升检测精度,并以实验方式来依次检测每个特征的影响。
我们不使用Cross-GPU Batch Normalization (CGBN 或者 SyncBN)或者昂贵的专用设备。这允许任何人都可以在传统的图像处理器(例如GTX 1080Ti or RTX 2080Ti)复现我们最新的成果。
为了提升目标检测的训练效果,CNN通常使用一下方法:
对于训练的激活函数,由于PReLU和SELU训练更加困难,ReLU6是专门为量化网络设计的,因此我们将他们从候选列表中移除。在正则化方法中,发表过Drop Block的人将其方法与其他方法进行了详细的比较,他们的正则化方法的效果更好。因此,我们毫不犹豫地选择DropBlock作为正则化方法。至于归一化方法的选择,由于我们关注的是仅使用一个GPU的训练策略,因此不考虑syncBN。
为了使设计出的检测器更适合于在单GPU上训练,我们添加了如下的设计和改进:
马赛克代表了一种新的数据增强方法——将4张训练图片拼在一起。因此也就将4种不同的上下文被拼在一起,而CutMix只拼了两张图片。这就允许检测正常上下文以外的物体。另外,批量归一化从每层上的4个不同图像计算激活统计信息。这就大大减少了mini-batch的大小。
自对抗训练(SAT)也代表了一种新的数据增强技术,分前后两个阶段执行。第一阶段,神经网络修改原始图片而不是网络权重。神经网络以这种方式对自己执行对抗性攻击,修改原始图片来营造一种假象——图片中没有所需物体。在第二阶段,训练神经网络,以正常的方式检测修改后的图片上的物体。
CmBN是CBN的变种,如图4所示,定义为跨mini-batch的归一化(CmBN)。这仅在单个批次内的小批次之间收集统计信息。
我们将 SAM 从空间注意修改为点注意,并将 PAN 的短连接替换为拼接,分别如图 5 和图 6 所示。
在本章节中我们将介绍YOLOv4的具体细节。
YOLOv4组成部分:
• Backbone: CSPDarknet53 [81]
• Neck: SPP [25], PAN [49]
• Head: YOLOv3 [63]
YOLOv4使用的提升方法:
• backbone中使用的BoF: CutMix, 数据增强——Mosaic, 正则化——DropBlock, 类标签平滑
• backbone中使用的BoS: 激活函数——Mish, 跨阶段的部分链接 (CSP), 多输入加权残差链接 (MiWRC)
• detector中使用的BoF: CIoU-loss, CmBN, 正则化——DropBlock, 数据增强——Mosaic, 自对抗训练, 消除网络敏感性, 单个groundtrue使用多个anchor, Cosine annealing scheduler [52], 最佳超参, 随机训练形状
• detector中使用的BoS: 激活函数——Mish, SPP, SAM, PAN——路径聚合, DIoU-NMS
我们在 ImageNet (ILSVRC 2012 val) 数据集上测试了不同提升训练的技术对分类准确性的影响,然后在 MS COCO (test-dev 2017) 数据集上测试了检测的准确性的影响。
在ImageNet图片分类实验中,超参的默认设置如下:训练步数为8,000,000,batch-size和mini batch-size分别为128和32;采用多项式衰减学习率调度策略,学习率初始值为0.1;warmup为1000个step;momentum和weight衰减分别为0.9和0.005。我们所有的BoS实验使用相同的超参作为默认值;在BoF的实验中我们增加了额外的50%的训练步数为12,000,000。在BoF实验中我们验证了MixUp, CutMix, Mosaic, Bluring数据增强和标签平滑正则化方法。在BoS实验中,我们比较了LReLU, Swish和Mish激活函数的效果。所有的实验都是使用单个1080 Ti or 2080 Ti GPU完成的。
在MS COCO的目标检测实验中,超参的默认设置如下:训练步数为500,500;学习率初始化为0.01,衰减策略为分段常数衰减分别在400,000和450,000个step的时候学习率乘以0.1;momentum和weight衰减分别设置为0.9和0.0005。所有架构都使用单个GPU以batchsize为64执行多尺度训练,而mini batchsize为 8 或 4,具体取决于架构和 GPU 内存限制。。除了使用遗传算法完成超参搜索实验外,其他所有实验使用默认设置。遗传算法使用YOLOv3-SPP来训练,损失函数使用GIoU;搜索300个epoch找出最小的5k组值。遗传算法实验中我们使用的搜索的学习率为0.00261,momentum为0.949,与groundtruth IoU的阈值为0.213,loss normalizer为0.07。我们验证了大量的BoF,包括网格敏感性消除,Mosaic数据增强,IoU阈值,遗传算法,类标签平滑,跨mini-batch的归一化,自对抗训练,余弦衰减调度,动态mini-batchsize,DropBlock, Optimized Anchors,不同的IoU损失函数。我们还对多个BoS进行实验,包括Mish, SPP, SAM, RFB, BiFPN和高斯 YOLO [8]。所有的实验都在单个GPU上完成,所以像syncBN这种针对多个GPU的优化方法没有使用。
首先,我们研究了不同方法对分类训练的影响;具体来说,类标签平滑的影响;不同数据增强技术的影响——双边模糊, MixUp, CutMix and Mosaic,如图7所示;不同激活函数的影响——Leaky-ReLU (默认), Swish, Mish。
如表2所示,在我们的实验中,可以提升分类精度的有:CutMix和Mosaic数据增强, 类标签平滑, Mish激活函数。因此,分类训练中我们的backbone中使用的BoF如下:CutMix和Mosaic数据增强, 类标签平滑。另外我们将Mish激活函数作为补充选项,如表2,表3所示。
进一步的研究考虑了不同BoF(BoF-detector)对检测训练精度的影响,如表4所示。我们通过研究不同的可以提升检测精度而不影响性能FPS的方法极大的扩展了BoF的列表:
进一步的研究涉及不同 Bag-of-Specials (BoS-detector) 对检测器训练精度的影响,包括 PAN、RFB、SAM、高斯 YOLO (G) 和 ASFF,如表 5 所示。在我们的实验中, 检测器在使用 SPP、PAN 和 SAM 时获得最佳性能。
我们进一步研究了不同的backbone模型对检测精度的影响,见表6。我们注意到在分类上精度最好的模型在检测上精度并不总是最好的。
首先,虽然使用不同方法训练的CSPResNeXt50的分类精度比CSPDarknet53高,但是CSPDarknet53具有更高的目标检测精度。
其次,使用BoF和Mish训练CSPResNeXt50可以提升其分类精度,但是将这些预训练的权重用于检测训练却降低了检测精度。但是,使用BoF和Mish训练CSPDarknet53不仅可以提升其分类精度还可以提升用分类网络作为预训练权重的检测精度。最后的结论是CSPDarknet53比CSPResNeXt50更适合做检测网络的backbone。
我们观察到,使用各种改进后,CSPDarknet53模型展示出更强的提高检测精度的能力。
最后,我们分析了不同 mini-batch 大小训练的模型得到的结果,结果如表 7 所示。 从表 7 的结果中,我们发现加入 BoF 和 BoS 训练策略后,mini-batch 大小对检测的精度几乎没有影响。 这个结果表明,在引入 BoF 和 BoS 之后,不再需要使用昂贵的 GPU 进行训练。 换句话说,任何人都可以只使用传统的 GPU 来训练一个优秀的检测器。
图8中展示了与其他优秀检测器结果的比较。我们的YOLOv4位于帕累托最优曲线上,在速度和精度方面都优于最快和最精确的检测器。
由于不同的方法使用不同架构的 GPU 进行推理时间验证,我们在 Maxwell、Pascal 和 Volta 架构的常用 GPU 上运行 YOLOv4,并将它们与其他最先进的方法进行比较。 表8列出了使用Maxwell GPU的帧率对比结果,可以是GTX Titan X(Maxwell)或者Tesla M40 GPU。 表9列出了使用Pascal GPU的帧率对比结果,可以是Titan X(Pascal)、Titan Xp、GTX 1080 Ti或Tesla P100 GPU。 表10列出了使用V100 GPU的帧率对比结果。
我们提供最先进的检测器,比所有可用的替代检测器更快(FPS)和更准确(MS COCO AP50…95和AP50)。所述检测器可在具有8-16 GB-VRAM的传统GPU上训练和使用,这使其广泛使用成为可能。基于anchor的one-stage探测器的最初概念已证明其可行性。我们已经验证了大量的方法,并选择使用这些方法来提高分类器和检测器的准确性。这些特性可作为未来研究和开发的最佳实践。
作者希望感谢Glenn Jocher提出的Mosaic数据增强、使用遗传算法选择超参数以及解决网格敏感性问题的想法https://github.com/ultralytics/yolov3。
[1] Navaneeth Bodla, Bharat Singh, Rama Chellappa, and Larry S Davis. Soft-NMS–improving object detection with one line of code. In Proceedings of the IEEE International Conference on Computer Vision (ICCV), pages 5561–5569, 2017. 4
[2] Zhaowei Cai and Nuno Vasconcelos. Cascade R-CNN: Delving into high quality object detection. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 6154–6162, 2018. 12
[3] Jiale Cao, Yanwei Pang, Jungong Han, and Xuelong Li. Hierarchical shot detector. In Proceedings of the IEEE International Conference on Computer Vision (ICCV), pages 9705–9714, 2019. 12
[4] Ping Chao, Chao-Yang Kao, Yu-Shan Ruan, Chien-Hsiang Huang, and Youn-Long Lin. HarDNet: A low memory traffic network. Proceedings of the IEEE International Conference on Computer Vision (ICCV), 2019. 13
[5] Liang-Chieh Chen, George Papandreou, Iasonas Kokkinos, Kevin Murphy, and Alan L Yuille. DeepLab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs. IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 40(4):834–848, 2017. 2, 4
[6] Pengguang Chen. GridMask data augmentation. arXiv preprint arXiv:2001.04086, 2020. 3
[7] Yukang Chen, Tong Yang, Xiangyu Zhang, Gaofeng Meng, Xinyu Xiao, and Jian Sun. DetNAS: Backbone search for object detection. In Advances in Neural Information Processing Systems (NeurIPS), pages 6638–6648, 2019. 2
[8] Jiwoong Choi, Dayoung Chun, Hyun Kim, and Hyuk-Jae Lee. Gaussian YOLOv3: An accurate and fast object detector using localization uncertainty for autonomous driving. In Proceedings of the IEEE International Conference on Computer Vision (ICCV), pages 502–511, 2019. 7
[9] Jifeng Dai, Yi Li, Kaiming He, and Jian Sun. R-FCN: Object detection via region-based fully convolutional networks. In Advances in Neural Information Processing Systems (NIPS), pages 379–387, 2016. 2
[10] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, and Li Fei-Fei. ImageNet: A large-scale hierarchical image database. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 248–255, 2009. 5
[11] Terrance DeVries and Graham W Taylor. Improved regularization of convolutional neural networks with CutOut. arXiv preprint arXiv:1708.04552, 2017. 3
[12] Xianzhi Du, Tsung-Yi Lin, Pengchong Jin, Golnaz Ghiasi, Mingxing Tan, Yin Cui, Quoc V Le, and Xiaodan Song. SpineNet: Learning scale-permuted backbone for recognition and localization. arXiv preprint arXiv:1912.05027, 2019. 2
[13] Kaiwen Duan, Song Bai, Lingxi Xie, Honggang Qi, Qingming Huang, and Qi Tian. CenterNet: Keypoint triplets for object detection. In Proceedings of the IEEE International Conference on Computer Vision (ICCV), pages 6569–6578, 2019. 2, 12
[14] Cheng-Yang Fu, Mykhailo Shvets, and Alexander C Berg. RetinaMask: Learning to predict masks improves state-of-the-art single-shot detection for free. arXiv preprint arXiv:1901.03353, 2019. 12
[15] Robert Geirhos, Patricia Rubisch, Claudio Michaelis, Matthias Bethge, Felix A Wichmann, and Wieland Brendel. ImageNet-trained cnns are biased towards texture; increasing shape bias improves accuracy and robustness. In International Conference on Learning Representations (ICLR), 2019. 3
[16] Golnaz Ghiasi, Tsung-Yi Lin, and Quoc V Le. DropBlock: A regularization method for convolutional networks. In Advances in Neural Information Processing Systems (NIPS), pages 10727–10737, 2018. 3
[17] Golnaz Ghiasi, Tsung-Yi Lin, and Quoc V Le. NAS-FPN: Learning scalable feature pyramid architecture for object detection. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 70367045, 2019. 2, 13
[18] Ross Girshick. Fast R-CNN. In Proceedings of the IEEE International Conference on Computer Vision (ICCV), pages 1440–1448, 2015. 2
[19] Ross Girshick, Jeff Donahue, Trevor Darrell, and Jitendra Malik. Rich feature hierarchies for accurate object detection and semantic segmentation. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 580–587, 2014. 2, 4
[20] Jianyuan Guo, Kai Han, Yunhe Wang, Chao Zhang, Zhaohui Yang, Han Wu, Xinghao Chen, and Chang Xu. HitDetector: Hierarchical trinity architecture search for object detection. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2020. 2
[21] Kai Han, Yunhe Wang, Qi Tian, Jianyuan Guo, Chunjing Xu, and Chang Xu. GhostNet: More features from cheap operations. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2020. 5
[22] Bharath Hariharan, Pablo Arbel´aez, Ross Girshick, and Jitendra Malik. Hypercolumns for object segmentation and fine-grained localization. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 447–456, 2015. 4
[23] Kaiming He, Georgia Gkioxari, Piotr Doll´ar, and Ross Girshick. Mask R-CNN. In Proceedings of the IEEE International Conference on Computer Vision (ICCV), pages 2961–2969, 2017. 2
[24] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Delving deep into rectifiers: Surpassing human-level performance on ImageNet classification. In Proceedings of the IEEE International Conference on Computer Vision (ICCV), pages 1026–1034, 2015. 4
[25] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Spatial pyramid pooling in deep convolutional networks for visual recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 37(9):1904–1916, 2015. 2, 4, 7
[26] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun.
Deep residual learning for image recognition. In Proceed-ings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 770–778, 2016. 2
[27] Andrew Howard, Mark Sandler, Grace Chu, Liang-Chieh Chen, Bo Chen, Mingxing Tan, Weijun Wang, Yukun Zhu, Ruoming Pang, Vijay Vasudevan, et al. Searching for MobileNetV3. In Proceedings of the IEEE International Conference on Computer Vision (ICCV), 2019. 2, 4
[28] Andrew G Howard, Menglong Zhu, Bo Chen, Dmitry Kalenichenko, Weijun Wang, Tobias Weyand, Marco Andreetto, and Hartwig Adam. MobileNets: Efficient convolutional neural networks for mobile vision applications. arXiv preprint arXiv:1704.04861, 2017. 2, 4
[29] Jie Hu, Li Shen, and Gang Sun. Squeeze-and-excitation networks. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 71327141, 2018. 4
[30] Gao Huang, Zhuang Liu, Laurens Van Der Maaten, and Kilian Q Weinberger. Densely connected convolutional networks. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 47004708, 2017. 2
[31] Forrest N Iandola, Song Han, Matthew W Moskewicz, Khalid Ashraf, William J Dally, and Kurt Keutzer. SqueezeNet: AlexNet-level accuracy with 50x fewer parameters and¡ 0.5 MB model size. arXiv preprint arXiv:1602.07360, 2016. 2
[32] Sergey Ioffe and Christian Szegedy. Batch normalization:
Accelerating deep network training by reducing internal covariate shift. arXiv preprint arXiv:1502.03167, 2015. 6
[33] Md Amirul Islam, Shujon Naha, Mrigank Rochan, Neil Bruce, and Yang Wang. Label refinement network for coarse-to-fine semantic segmentation. arXiv preprint arXiv:1703.00551, 2017. 3
[34] Seung-Wook Kim, Hyong-Keun Kook, Jee-Young Sun, Mun-Cheon Kang, and Sung-Jea Ko. Parallel feature pyramid network for object detection. In Proceedings of the European Conference on Computer Vision (ECCV), pages 234–250, 2018. 11
[35] G¨unter Klambauer, Thomas Unterthiner, Andreas Mayr, and Sepp Hochreiter. Self-normalizing neural networks. In Advances in Neural Information Processing Systems (NIPS), pages 971–980, 2017. 4
[36] Gustav Larsson, Michael Maire, and Gregory Shakhnarovich. FractalNet: Ultra-deep neural networks without residuals. arXiv preprint arXiv:1605.07648, 2016. 6
[37] Hei Law and Jia Deng. CornerNet: Detecting objects as paired keypoints. In Proceedings of the European Conference on Computer Vision (ECCV), pages 734–750, 2018. 2, 11
[38] Hei Law, Yun Teng, Olga Russakovsky, and Jia Deng.
CornerNet-Lite: Efficient keypoint based object detection. arXiv preprint arXiv:1904.08900, 2019. 2
[39] Svetlana Lazebnik, Cordelia Schmid, and Jean Ponce. Beyond bags of features: Spatial pyramid matching for recognizing natural scene categories. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), volume 2, pages 2169–2178. IEEE, 2006. 4
[40] Youngwan Lee and Jongyoul Park. CenterMask: Real-time anchor-free instance segmentation. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2020. 12, 13
[41] Shuai Li, Lingxiao Yang, Jianqiang Huang, Xian-Sheng Hua, and Lei Zhang. Dynamic anchor feature selection for single-shot object detection. In Proceedings of the IEEE International Conference on Computer Vision (ICCV), pages 6609–6618, 2019. 12
[42] Yanghao Li, Yuntao Chen, Naiyan Wang, and Zhaoxiang Zhang. Scale-aware trident networks for object detection. In Proceedings of the IEEE International Conference on Computer Vision (ICCV), pages 6054–6063, 2019. 12
[43] Zeming Li, Chao Peng, Gang Yu, Xiangyu Zhang, Yangdong Deng, and Jian Sun. DetNet: Design backbone for object detection. In Proceedings of the European Conference on Computer Vision (ECCV), pages 334–350, 2018. 2
[44] Tsung-Yi Lin, Piotr Doll´ar, Ross Girshick, Kaiming He, Bharath Hariharan, and Serge Belongie. Feature pyramid networks for object detection. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 2117–2125, 2017. 2
[45] Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, and Piotr Doll´ar. Focal loss for dense object detection. In Proceedings of the IEEE International Conference on Computer Vision (ICCV), pages 2980–2988, 2017. 2, 3, 11, 13
[46] Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Doll´ar, and C Lawrence Zitnick. Microsoft COCO: Common objects in context. In Proceedings of the European Conference on Computer Vision (ECCV), pages 740–755, 2014. 5
[47] Songtao Liu, Di Huang, et al. Receptive field block net for accurate and fast object detection. In Proceedings of the European Conference on Computer Vision (ECCV), pages 385–400, 2018. 2, 4, 11
[48] Songtao Liu, Di Huang, and Yunhong Wang. Learning spatial fusion for single-shot object detection. arXiv preprint arXiv:1911.09516, 2019. 2, 4, 13
[49] Shu Liu, Lu Qi, Haifang Qin, Jianping Shi, and Jiaya Jia. Path aggregation network for instance segmentation. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 8759–8768, 2018. 1, 2, 7
[50] Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang Fu, and Alexander C Berg. SSD: Single shot multibox detector. In Proceedings of the European Conference on Computer Vision (ECCV), pages 21–37, 2016. 2, 11
[51] Jonathan Long, Evan Shelhamer, and Trevor Darrell. Fully convolutional networks for semantic segmentation. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 3431–3440, 2015. 4
[52] Ilya Loshchilov and Frank Hutter. SGDR: Stochastic gradient descent with warm restarts. arXiv preprint arXiv:1608.03983, 2016. 7
[53] Ningning Ma, Xiangyu Zhang, Hai-Tao Zheng, and Jian Sun. ShuffleNetV2: Practical guidelines for efficient cnn architecture design. In Proceedings of the European Conference on Computer Vision (ECCV), pages 116–131, 2018. 2
[54] Andrew L Maas, Awni Y Hannun, and Andrew Y Ng. Rectifier nonlinearities improve neural network acoustic models. In Proceedings of International Conference on Machine Learning (ICML), volume 30, page 3, 2013. 4
[55] Diganta Misra. Mish: A self regularized nonmonotonic neural activation function. arXiv preprint arXiv:1908.08681, 2019. 4
[56] Vinod Nair and Geoffrey E Hinton. Rectified linear units improve restricted boltzmann machines. In Proceedings of International Conference on Machine Learning (ICML), pages 807–814, 2010. 4
[57] Jing Nie, Rao Muhammad Anwer, Hisham Cholakkal, Fahad Shahbaz Khan, Yanwei Pang, and Ling Shao. Enriched feature guided refinement network for object detection. In Proceedings of the IEEE International Conference on Computer Vision (ICCV), pages 9537–9546, 2019. 12
[58] Jiangmiao Pang, Kai Chen, Jianping Shi, Huajun Feng, Wanli Ouyang, and Dahua Lin. Libra R-CNN: Towards balanced learning for object detection. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 821–830, 2019. 2, 12
[59] Prajit Ramachandran, Barret Zoph, and Quoc V Le.
Searching for activation functions. arXiv preprint arXiv:1710.05941, 2017. 4
[60] Abdullah Rashwan, Agastya Kalra, and Pascal Poupart. Matrix Nets: A new deep architecture for object detection. In Proceedings of the IEEE International Conference on Computer Vision Workshop (ICCV Workshop), pages 0–0, 2019. 2
[61] Joseph Redmon, Santosh Divvala, Ross Girshick, and Ali Farhadi. You only look once: Unified, real-time object detection. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 779788, 2016. 2
[62] Joseph Redmon and Ali Farhadi. YOLO9000: better, faster, stronger. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 72637271, 2017. 2
[63] Joseph Redmon and Ali Farhadi. YOLOv3: An incremental improvement. arXiv preprint arXiv:1804.02767, 2018. 2, 4, 7, 11
[64] Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun. Faster R-CNN: Towards real-time object detection with region proposal networks. In Advances in Neural Information Processing Systems (NIPS), pages 91–99, 2015. 2
[65] Hamid Rezatofighi, Nathan Tsoi, JunYoung Gwak, Amir Sadeghian, Ian Reid, and Silvio Savarese. Generalized intersection over union: A metric and a loss for bounding box regression. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 658–666, 2019. 3
[66] Mark Sandler, Andrew Howard, Menglong Zhu, Andrey Zhmoginov, and Liang-Chieh Chen. MobileNetV2: Inverted residuals and linear bottlenecks. In Proceedings
of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 4510–4520, 2018. 2
[67] Abhinav Shrivastava, Abhinav Gupta, and Ross Girshick. Training region-based object detectors with online hard example mining. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 761–769, 2016. 3
[68] Karen Simonyan and Andrew Zisserman. Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556, 2014. 2
[69] Krishna Kumar Singh, Hao Yu, Aron Sarmasi, Gautam Pradeep, and Yong Jae Lee. Hide-and-Seek: A data augmentation technique for weakly-supervised localization and beyond. arXiv preprint arXiv:1811.02545, 2018. 3
[70] Saurabh Singh and Shankar Krishnan. Filter response normalization layer: Eliminating batch dependence in the training of deep neural networks. arXiv preprint arXiv:1911.09737, 2019. 6
[71] Nitish Srivastava, Geoffrey Hinton, Alex Krizhevsky, Ilya Sutskever, and Ruslan Salakhutdinov. DropOut: A simple way to prevent neural networks from overfitting. The journal of machine learning research, 15(1):1929–1958, 2014. 3
[72] K-K Sung and Tomaso Poggio. Example-based learning for view-based human face detection. IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 20(1):39–51, 1998. 3
[73] Christian Szegedy, Vincent Vanhoucke, Sergey Ioffe, Jon Shlens, and Zbigniew Wojna. Rethinking the inception architecture for computer vision. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 2818–2826, 2016. 3
[74] Mingxing Tan, Bo Chen, Ruoming Pang, Vijay Vasudevan, Mark Sandler, Andrew Howard, and Quoc V Le. MNASnet: Platform-aware neural architecture search for mobile. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 2820–2828, 2019. 2
[75] Mingxing Tan and Quoc V Le. EfficientNet: Rethinking model scaling for convolutional neural networks. In Proceedings of International Conference on Machine Learning (ICML), 2019. 2
[76] Mingxing Tan and Quoc V Le. MixNet: Mixed depthwise convolutional kernels. In Proceedings of the British Machine Vision Conference (BMVC), 2019. 5
[77] Mingxing Tan, Ruoming Pang, and Quoc V Le. EfficientDet: Scalable and efficient object detection. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2020. 2, 4, 13
[78] Zhi Tian, Chunhua Shen, Hao Chen, and Tong He. FCOS: Fully convolutional one-stage object detection. In Proceedings of the IEEE International Conference on Computer Vision (ICCV), pages 9627–9636, 2019. 2
[79] Jonathan Tompson, Ross Goroshin, Arjun Jain, Yann LeCun, and Christoph Bregler. Efficient object localization using convolutional networks. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 648–656, 2015. 6
[80] Li Wan, Matthew Zeiler, Sixin Zhang, Yann Le Cun, and Rob Fergus. Regularization of neural networks using DropConnect. In Proceedings of International Conference on Machine Learning (ICML), pages 1058–1066, 2013. 3
[81] Chien-Yao Wang, Hong-Yuan Mark Liao, Yueh-Hua Wu, Ping-Yang Chen, Jun-Wei Hsieh, and I-Hau Yeh. CSPNet: A new backbone that can enhance learning capability of cnn. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshop (CVPR Workshop), 2020. 2, 7
[82] Jiaqi Wang, Kai Chen, Shuo Yang, Chen Change Loy, and Dahua Lin. Region proposal by guided anchoring. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 2965–2974, 2019. 12
[83] Shaoru Wang, Yongchao Gong, Junliang Xing, Lichao Huang, Chang Huang, and Weiming Hu. RDSNet: A new deep architecture for reciprocal object detection and instance segmentation. arXiv preprint arXiv:1912.05070, 2019. 13
[84] Tiancai Wang, Rao Muhammad Anwer, Hisham Cholakkal, Fahad Shahbaz Khan, Yanwei Pang, and Ling Shao. Learning rich features at high-speed for single-shot object detection. In Proceedings of the IEEE International Conference on Computer Vision (ICCV), pages 1971–1980, 2019. 11
[85] Sanghyun Woo, Jongchan Park, Joon-Young Lee, and In So Kweon. CBAM: Convolutional block attention module. In Proceedings of the European Conference on Computer Vision (ECCV), pages 3–19, 2018. 1, 2, 4
[86] Saining Xie, Ross Girshick, Piotr Doll´ar, Zhuowen Tu, and Kaiming He. Aggregated residual transformations for deep neural networks. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 1492–1500, 2017. 2
[87] Ze Yang, Shaohui Liu, Han Hu, Liwei Wang, and Stephen Lin. RepPoints: Point set representation for object detection. In Proceedings of the IEEE International Conference on Computer Vision (ICCV), pages 9657–9666, 2019. 2, 12
[88] Lewei Yao, Hang Xu, Wei Zhang, Xiaodan Liang, and Zhenguo Li. SM-NAS: Structural-to-modular neural architecture search for object detection. In Proceedings of the AAAI Conference on Artificial Intelligence (AAAI), 2020. 13
[89] Zhuliang Yao, Yue Cao, Shuxin Zheng, Gao Huang, and Stephen Lin. Cross-iteration batch normalization. arXiv preprint arXiv:2002.05712, 2020. 1, 6
[90] Jiahui Yu, Yuning Jiang, Zhangyang Wang, Zhimin Cao, and Thomas Huang. UnitBox: An advanced object detection network. In Proceedings of the 24th ACM international conference on Multimedia, pages 516–520, 2016. 3
[91] Sangdoo Yun, Dongyoon Han, Seong Joon Oh, Sanghyuk Chun, Junsuk Choe, and Youngjoon Yoo. CutMix: Regularization strategy to train strong classifiers with localizable features. In Proceedings of the IEEE International Conference on Computer Vision (ICCV), pages 6023–6032, 2019. 3
[92] Hongyi Zhang, Moustapha Cisse, Yann N Dauphin, and David Lopez-Paz. MixUp: Beyond empirical risk minimization. arXiv preprint arXiv:1710.09412, 2017. 3
[93] Hang Zhang, Kristin Dana, Jianping Shi, Zhongyue Zhang, Xiaogang Wang, Ambrish Tyagi, and Amit Agrawal. Context encoding for semantic segmentation. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 7151–7160, 2018. 6
[94] Shifeng Zhang, Cheng Chi, Yongqiang Yao, Zhen Lei, and Stan Z Li. Bridging the gap between anchor-based and anchor-free detection via adaptive training sample selection. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2020. 13
[95] Shifeng Zhang, Longyin Wen, Xiao Bian, Zhen Lei, and Stan Z Li. Single-shot refinement neural network for object detection. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 4203–4212, 2018. 11
[96] Xiaosong Zhang, Fang Wan, Chang Liu, Rongrong Ji, and Qixiang Ye. FreeAnchor: Learning to match anchors for visual object detection. In Advances in Neural Information Processing Systems (NeurIPS), 2019. 12
[97] Xiangyu Zhang, Xinyu Zhou, Mengxiao Lin, and Jian Sun. ShuffleNet: An extremely efficient convolutional neural network for mobile devices. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 6848–6856, 2018. 2
[98] Qijie Zhao, Tao Sheng, Yongtao Wang, Zhi Tang, Ying Chen, Ling Cai, and Haibin Ling. M2det: A single-shot object detector based on multi-level feature pyramid network. In Proceedings of the AAAI Conference on Artificial Intelligence (AAAI), volume 33, pages 9259–9266, 2019. 2, 4, 11
[99] Zhaohui Zheng, Ping Wang, Wei Liu, Jinze Li, Rongguang Ye, and Dongwei Ren. Distance-IoU Loss: Faster and better learning for bounding box regression. In Proceedings of the AAAI Conference on Artificial Intelligence (AAAI), 2020. 3, 4
[100] Zhun Zhong, Liang Zheng, Guoliang Kang, Shaozi Li, and Yi Yang. Random erasing data augmentation. arXiv preprint arXiv:1708.04896, 2017. 3
[101] Chenchen Zhu, Fangyi Chen, Zhiqiang Shen, and Marios Savvides. Soft anchor-point object detection. arXiv preprint arXiv:1911.12448, 2019. 12
[102] Chenchen Zhu, Yihui He, and Marios Savvides. Feature selective anchor-free module for single-shot object detection. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 840–849, 2019. 11