有许多功能可以提高卷积神经网络(CNN)的准确性。需要在大型数据集上对这些特征的组合进行实际测试,并在理论上证明结果的正确性。某些功能仅在某些模型上运行,并且仅在某些问题上运行,或者仅在小型数据集上运行;而某些功能(例如批归一化和残差连接)适用于大多数模型,任务和数据集。我们假设此类通用功能包括加权残差连接(WRC),跨阶段部分连接(CSP),跨小批量标准化(CmBN),自对抗训练(SAT)和Mish激活。我们使用以下新功能:WRC,CSP,CmBN,SAT,Mish激活,马赛克数据增强,DropBlock正则化和CIoU loss,并结合使用其中的一些功能以实现最新的结果:43.5%的AP(65.7% AP50)。在Tesla V100上,MS COCO数据集的实时速度约为65 FPS。源代码位于https://github.com/AlexeyAB/darknet。
开发了一种有效而强大的对象检测模型。它使每个人都可以使用1080 Ti或2080 Ti GPU训练超快速和准确的物体检测器。
验证了在探测器训练过程中最新的 Bag-of-Freebies 和 Bag-of-Specials 检测方法的影响。
修改了最先进的方法,使它们更有效,更适合单GPU训练,包括CBN [89],PAN [49],SAM [85]等。
- 现代检测器通常由两部分组成,一个是在ImageNet上经过预训练的骨架(backbone),另一个是用来预测物体的类别和边界框的头部(head)。对于在GPU平台上运行的那些检测器,其主干可能是VGG ,ResNet ,ResNeXt 或DenseNet 。对于在CPU平台上运行的那些检测器,其主干可以是SqueezeNet ,MobileNet 或ShuffleNet 。至于头部,通常分为两类,即一级目标检测器和二级目标检测器。最有代表性的两级对象检测器是R-CNN 系列,包括fast R-CNN ,faster R-CNN ,R-FCN 和Libra R-CNN 。使二级对象检测器成为无锚对象检测器也是可以的,例如RepPoints 。对于一级目标检测器,最具代表性的模型是YOLO ,SSD 和RetinaNet 。近年来,开发了无锚的一级物体检测器。这种检测器是CenterNet ,CornerNet ,FCOS 等。近年来开发的目标检测器通常在骨架和头部之间插入一些层,这些层通常用于收集不同阶段的特征图。我们可以称其为对象检测器的颈部。通常,颈部由几个自下而上的路径和几个自上而下的路径组成。配备此机制的网络包括功能金字塔网络(FPN),路径聚合网络(PAN),BiFPN 和NAS-FPN 。

1. 附加块
2. 路径聚合块
1. 有锚
2. 无锚
Faster R-CNN
Usually, a conventional object detector is trained offline. Therefore, researchers always like to take this advantage and develop better training methods which can make the object detector receive better accuracy without increasing the inference cost. We call these methods that only change the training strategy or only increase the training cost as “bag of freebies.”
- 目的是增加输入图像的可变性,从而使设计的物体检测模型对从不同环境获得的图像具有更高的鲁棒性。例如,光度畸变和几何畸变是两种常用的数据增强方法,它们无疑有益于物体检测任务。在处理光度失真时,我们会调整图像的亮度,对比度,色相,饱和度和噪点。对于几何变形,我们添加了随机缩放,裁剪,翻转和旋转。
IoU loss
GIoU loss
DIoU loss
For those plugin modules and post-processing methodsthat only increase the inference cost by a small amount but can significantly improve the accuracy of object detec-tion, we call them “bag of specials”.
SPM的原始方法是将特征图分割成几个dxd不等的块,其中 d 可以为{1,2,3,…},从而形成空间金字塔,然后提取词袋特征。
1)channel-wise attention
- Squeeze-and-Excitation(SE)
2)point-wise attention
- Spatial Attention Module(SAM)
在特征集成方面,早期的实践是使用 跳过连接(skip connection)或超列(hyper-column)将低层物理特征集成到高层语义特征。
skip connection
由于诸如FPN的多尺度预测方法已变得流行,因此提出了许多集成了不同特征金字塔的轻量级模块。 此类模块包括SFAM ,ASFF 和BiFPN。 SFAM的主要思想是使用SE模块对多尺度级联的特征图执行通道级的重新加权。 对于ASFF,它使用softmax作为逐点级别重新加权,然后添加不同比例的特征图。在BiFPN中,提出了多输入加权残差连接以执行按比例级别重新加权,然后添加 不同的规模。
- 在2010年,Nair和Hin-ton提出了ReLU,以基本上解决传统tanh和S形激活函数中经常遇到的梯度消失问题。
- 其他激活函数
- LReLU和PReLU的主要目的是解决当输出小于零时ReLU的梯度为零的问题。 至于ReLU6和hard-Swish,它们是专门为量化网络设计的。 为了对神经网络进行自归一化,提出了SELU激活函数来满足这一目标。 要注意的一件事是,Swish和Mish都具有连续可区分的激活功能。
在基于深度学习的对象检测中通常使用的后处理方法是NMS,它可以用于过滤那些无法预测相同对象的BBox,并仅保留响应速度更快的候选BBox。NMS尝试改进的方法与优化目标函数的方法一致。 NMS提出的原始方法没有考虑上下文信息。
soft NMS
DIoU NMS [99]开发人员的思维方式是在soft NMS的基础上将中心点距离的信息添加到BBox筛选过程中。
- 对于GPU,使用少量的(1-8)组卷积层:CSPResNeXt50 / CSPDarknet53
- 对于VPU ,使用分组卷积,但是不再使用 Squeeze-and-excitemen(SE)模块 - 它包括以下模型:EfficientNet-lite / MixNet / GhostNet / MobileNetV3
我们的目标是在输入网络分辨率,卷积层数,参数数( f i l t e r _ s i z e 2 ∗ 过 滤 器 ∗ 通 道 / 组 filter\_size^2 * 过滤器 * 通道 / 组 filter_size2∗过滤器∗通道/组)和层输出(过滤器)数目之间找到最佳平衡。 例如,大量研究表明,在ILSVRC2012(ImageNet)数据集上的对象分类方面,CSPResNext50比CSPDarknet53更好。 但是,相反,在检测MS COCO数据集上的对象方面,CSPDarknet53比CSPResNext50更好。
ILSVRC2012 (ImageNet) dataset
MS COCO dataset
对于分类而言最佳的参考模型对于检测器而言并不总是最佳的。 与分类器相比,检测器需要满足以下要求:
- 更高的输入网络大小(分辨率)–用于检测多个小型物体
- 层数更多 – 更高的接收域可以覆盖增加的输入网络规模
- 更多参数–具有更大的模型容量,可在单个图像中检测不同大小的多个对象
假设来说,我们可以假设应该选择一个具有更大的接收域大小(具有更多的卷积层3×3)和更多的参数的模型作为主干。 表1显示了CSPResNeXt50,CSPDarknet53和Effi-cientNet B3的信息。 CSPResNext50仅包含16个卷积层3×3,a425×425接收域和20.6M参数,而CSPDarknet53包含29个卷积层3×3,a725×725接收域和27.6M参数。 这种理论上的论证,再加上我们的大量实验,表明CSPDarknet53神经网络是两者作为检测器骨干的最佳模型。

- 取决于物体尺寸 - 允许查看整个对象
- 取决于网络规模 - 允许查看对象周围的上下文
- 超出网络规模 - 增加图像点和最终激活之间的连接数
作者在CSPDarknet53上添加了SPP块,因为它显着增加了接收域,分离出了最重要的上下文特征,并且几乎没有降低网络运行速度。 作者使用PANet作为来自不同主干级别,针对不同检测器级别的参数聚合方法,而不是YOLOv3中使用的FPN。
作者选择CSPDarknet53骨干网,SPP附加模块,PANet路径聚合颈部和YOLOv3(基于锚)头作为YOLOv4的体系结构。 将来,作者计划大幅扩展探测器的Bag of Freebies(BoF)的内容,从理论上讲,它可以解决一些问题并提高探测器的准确性,并以实验方式依次检查每个功能的影响
作者修改了一些现有方法以使我们的设计适合进行有效的训练和检测 - modified SAM,modified PAN和交叉小批量标准化(CmBN)。
Mosaic 代表了一种新的数据增强方法,该方法混合了4个训练图像。 因此,有4种不同的环境混合,而CutMix仅混合2个输入图像。 这允许检测对象超出其正常上下文。 此外,批量归一化还根据每层上的4张不同图像计算激活统计信息。这大大减少了对大的 mini-batch size 的需求。

自我专业训练(SAT) 也代表了一种新的数据增强技术,该技术可在2个前向和后向阶段中进行操作。 在第一阶段,神经网络会更改原始图像,而不是网络权重。 这样,神经网络会对其自身执行对抗性攻击,从而更改原始图像以产生一种欺骗,即图像上没有所需的对象。 在第二阶段,训练神经网络以正常方式检测该修改图像上的物体。

CmBN表示CBN修改版本,如图4所示,定义为 Cross mini-Batch Normalization(CmBN)。 这仅收集单个批次中的mini-batche之间的统计信息。
作者将SAM从spatial-wise attention 改为point-wise attention,并将PAN的快捷连接替换为串联,分别如图5和图6所示。

- Backbone: CSPDarknet53 [81]
- Neck: SPP [25], PAN [49]
- Head: YOLOv3
- 支持主干的 Bag of Freebies(BoF):CutMix和Mosaic数据增强,DropBlock正则化,类标签平滑
- 专为骨干网设计的 Bag of Specials(BoS):Mish激活,跨阶段部分连接(CSP),多输入加权剩余连接(MiWRC)
- 用于检测器的 Bag of Freebies(BoF):CIoU损失,CmBN,DropBlock正则化,镶嵌数据增强,自我专家训练,消除网格敏感性,对单个地面使用多个锚,余弦退火调度器[52],最佳超参数,随机训练形状
- 用于检测器的 Bag of Specials(BoS):灭碟激活,SPP块,SAM块,PAN路径聚集块,DIoU-NMS
我们测试了不同训练改进技术对ImageNet(ILSVRC 2012 val)数据集上分类器准确性的影响,然后对MS COCO(test-dev 2017)数据集上检测器的准确性进行了影响。
在ImageNet图像分类实验中,默认的超参数如下:训练步骤为8,000,000;batch size 和 mini-batch size 分别为128和32;采用多项式衰减学习速率调度策略,初始学习速率为0.1;预热步骤为1000; 动量和权重偏差分别设置为 0.9 和 0.005 。我们所有的BoS实验都使用与默认设置相同的超参数,并且在BoF实验中,我们添加了额外的50%训练步骤。在BoF实验中,我们验证了MixUp,CutMix,Mosaic,模糊数据增强和标签平滑正则化方法。 在BoS实验中,我们比较了LReLU,Swish和Mishactivation功能的效果。 所有实验均使用1080Ti或2080 Ti GPU进行培训。
在MS COCO对象检测实验中,默认的超参数如下:训练步骤为500,500; 采用步阶衰减学习率调度策略,初始学习率为0.01,分别在400,000步和450,000步处乘以0.1。动量和重量衰减分别设置为0.9和0.0005。 所有架构都使用单个GPU以64的批处理大小执行多尺度训练,而最小批处理大小为8或4,具体取决于架构和GPU内存限制。 动量和重量衰减分别设置为0.9和0.0005。 所有架构都使用single GPU以64的批处理大小执行多尺度训练,而 mini-batch size 为8或4则取决于架构和GPU内存限制。除了使用遗传算法进行超参数搜索实验外,所有其他实验均使用默认设置。 遗传算法使用YOLOv3-SPP训练GIoU损失,并搜索300个epochs的最小值5k集。对于遗传算法实验,我们采用搜索学习率0.00261,动量0.949,IoU阈值分配地面实况0.213,损失归一化器0.07。
我们已经验证了许多BoF,包括消除网格敏感性,mosaic数据增强,IoU阈值,遗传算法,类标签平滑,交叉小批量标准化,自对抗训练,余弦退火调度程序,动态小批量大小,DropBlock ,优化的锚点,不同类型的IoU损失。
We have verified a largenumber of BoF, including grid sensitivity elimination, mosaic data augmentation, IoU threshold, genetic algorithm,class label smoothing, cross mini-batch normalization, self-adversarial training, cosine annealing scheduler, dynamicmini-batch size, DropBlock, Optimized Anchors, differentkind of IoU losses.
我们还对各种BoS进行了实验,包括Mish,SPP,SAM,RFB,BiFPN和高斯YOLO [8]。 对于所有实验,我们仅使用一个GPU进行训练,因此未使用可优化多个GPU的诸如syncBN之类的技术。
- 首先,我们研究不同特征对分类器训练的影响;具体来说,如图9所示,类标签平滑的影响,不同数据增强技术的影响,双边模糊,MixUp,CutMix和Mosaic的影响(如图7所示)以及诸如Leaky-ReLU(默认情况下)之类的不同激活的影响,Swish和Mish。

- 在我们的实验中,如表2所示,通过引入以下功能提高了分类器的准确性:CutMix和Mosaic数据增强,Class label平滑和Mish激活。 结果,我们用于分类器训练的BoF-backbone((Bag of Freebies)包括以下内容:CutMix 和 Mosaic 数据增强和类标签平滑。 此外,我们使用Mish激活作为补充选项,如表2和表3所示:

- 进一步的研究涉及到不同的Bag-of-Freebies(BoF-detector)对探测器训练精度的影响,如表4所示。

S: 消除网格敏感性,YOLOv3使用方程 b x = σ ( t x ) + c x , b y = σ ( t y ) + c y b_x = σ(t_x) + c_x,b_y = \sigma(t_y) + c_y bx=σ(tx)+cx,by=σ(ty)+cy,其中 c x c_x cx和 c y c_y cy始终是整数来评估对象坐标,因此,对于接近 c x 或 c x + 1 c_x 或 c_x + 1 cx或cx+1 值的 b x b_x bx值,需要非常高的 t x t_x tx绝对值。 我们通过将sigmoid乘以超过1.0的因子来解决此问题,从而消除了无法检测到物体的网格的影响。
M:Mosaic data augmentation 马赛克数据增强 - 在训练过程中使用4图像马赛克代替单个图像
IT:IoU threshold IoU阈值 - 将多个锚点用于ground truth IoU(truth,anchor)> IoU_threshold
GA:Genetic algorithms 遗传算法 - 使用遗传算法在前10%的时间段进行网络训练期间选择最佳超参数
LS:Class label smoothing 类标签平滑 - 使用类标签平滑进行sigmoid激活
CBN:CmBN - 使用交叉微型批处理规范化来收集整个批处理中的统计信息,而不是在单个微型批处理中收集统计信息
CA:Cosine annealing scheduler 余弦退火调度器 - 在正弦曲线训练中改变学习率
DM: Dynamic mini-batch size 动态mini-batch size - 通过使用随机训练形状在小分辨率训练期间自动增加 mini-batch 大小
OA: Optimized Anchors 优化的锚点 - 使用优化的锚点以 512x512 网络分辨率进行训练
GIoU, CIoU, DIoU, MSE - 使用不同的损失算法进行边界框回归
进一步的研究涉及不同的 Bag-of-Specials (BoS-detector)对探测器训练准确性的影响,包括PAN,RFB,SAM,高斯YOLO(G)和ASFF,如表5所示。在我们的实验中, 使用SPP,PAN和SAM时,检测器可获得最佳性能。


其次,使用BoF和Mish进行CSPResNeXt50分类器训练会提高其分类准确性,但是将这些预先训练的权重进一步应用于检测器训练会降低检测器准确性。 然而,将BoF和Mish用于CSPDarknet53分类器训练可以提高分类器和使用该分类器预训练加权的检测器的准确性。 最终结果是,与CSPResNeXt50相比,主干CSPDarknet53更适合于检测器。
(5)不同的 mini-batch size 对检测器训练的影响
最后,我们分析了使用不同 mini-batch sizes 训练的模型获得的结果,结果显示在表7中。从表7中显示的结果中,我们发现在添加BoF和BoS训练策略之后,mini-batch size 几乎没有影响在检测器的性能上。 该结果表明,在引入BoF和BoS之后,不再需要使用昂贵的GPU进行训练。 换句话说,任何人都只能使用传统的GPU来训练出色的探测器。

- 图8显示了与其他最新对象探测器获得的结果的比较.我们的YOLOv4位于Pareto 最优曲线上,在速度和准确性方面均优于最快,最准确的探测器。

- 由于不同的方法使用不同架构的GPU进行推理时间验证,因此我们在Maxwell,Pascal和Volta architectures常用的GPU上运行YOLOv4,并将它们与其他最新方法进行比较。 表8列出了使用Maxwell GPU的帧速率比较结果,可以是GTX Titan X(Maxwell)或 Tesla M40 GPU。 表9列出了使用Pascal GPU的帧率比较结果,可以是Titan X(Pascal),Titan Xp,GTX 1080 Ti或Tesla P100 GPU。 至于表10,它列出了使用Volta GPU的帧率比较结果,可以是Titan Volta或Tesla V100 GPU。
- 我们提供最先进的检测器,其速度(FPS)和准确度( M S C O C O A P 50...95 和 A P 50 MS COCO AP_{50 ... 95}和AP_{50} MSCOCOAP50...95和AP50)比所有可用的替代检测器都高。 所描述的检测器可以在具有8-16GB-VRAM的常规GPU上进行训练和使用,这使得它的广泛使用成为可能。一阶段基于锚的探测器的原始概念已证明其可行性。 我们已经验证了许多功能,并选择使用这些功能以提高分类器和检测器的准确性。 这些功能可以用作将来研究和开发的最佳实践。


