发表时间及作者:2020 CVPR
Yolov4
其实并没有提出什么创新点,主要是对当时领域内的一些Tricks
(WRC、CSP、CmBN、SAT、Mish激活、Mosaic数据增强,DropBlock和CIoU)进行了大量的实验,并且对模型的精度和速度进行了平衡;最终在MS COCO数据集上实现了43.5% AP (65.7% AP50),在Tesla V100
的实时速度为65帧/秒。
YOLOv4一共有如下三点贡献:
1.开发了一个高效、强大的目标检测模型。它使每个人都可以使用1080ti或2080ti GPU来训练一个非常快速和准确的目标检测器
2.验证了最先进的 Bag-of-Freebies和 Bag-of-Specials对象检测在检测器训练时的影响。
3.对现有的方法进行了改进,使其更加高效,更适合于单个GPU的训练,包括CBN,PAN,SAM等。
图1:YOLOv4与其他最先进的物体探测器的比较。在性能相当的情况下,YOLOv4运行速度是EfficientDet的两倍。YOLOv4将YOLOv3的AP和FPS分别提升10%和12%。
YOLOv4结构组成如下:
• Backbone: CSPDarknet53
• Neck: SPP , PAN
• Head: YOLOv3
YOLOv4
借鉴了CSPNet
(Cross Stage Partial Networks,跨阶段局部网络)的思想,对YOLOv3
的Darknet53
网络进行了改进,形成了全新的主干网路结构–CSPDarknet53
;
采用CSP结构有如下几点好处:
1.加强CNN学习能力
2.删除计算瓶颈
3.减少内存成本
CSPNet
实际上是基于Densnet
的思想,即首先将数据划分成Part 1
和Part 2
两部分,Part 2
通过dense block
发送副本到下一个阶段,接着将两个分支的信息在通道方向进行Concat
拼接,最后再通过Transition
层进一步融合。CSPNet
思想可以和ResNet
、ResNeXt
和DenseNet
结合,目前主流的有CSPResNext50
和CSPDarknet53
两种改造Backbone
网络。
改进后的主干网络结构如下图所示:
SPP-Net
全称Spatial Pyramid Pooling Networks
,主要是用来解决不同尺寸的特征图如何进入全连接层的,如下2图所示,下图中对任意尺寸的特征图直接进行固定尺寸的池化,来得到固定数量的特征。
PAN
(Path Aggregation Network
)结构其实就是在FPN
(从顶到底信息融合)的基础上加上了从底到顶的信息融合,如下图(PAN结构图)所示。
YOLOv4
在原始PAN
结构上进行了一点改进,如下图所示。图(a)是PAN
论文中的原始融合方式,即特征层之间融合时是直接通过addition
的方式进行融合的,但在YOLOv4
中的PAN
是通过在通道方向Concat
拼接的方式进行融合的。
这里首先介绍两个概念:
Bag of Freebies
和Bag of Specials
Bag of Freebies
:指的是那些不增加模型复杂度,也不增加推理的计算量的训练方法技巧,来提高模型的准确度。目标检测经常采用的符合Bag of Freebies
定义的是数据增强。数据增强的目的是增加输入图像的可变性,使所设计的目标检测模型对从不同环境中获取的图像具有更高的鲁棒性。例如,光学畸变和几何畸变是两种常用的数据增强方法,它们对目标检测有明显的好处。
Bag of Specials
:指的是那些增加少许模型复杂度或计算量的训练技巧,但可以显著提高模型的准确度。一般来说,这些插件模块是为了增强模型中的某些属性,如放大感受野、引入注意机制或增强特征集成能力等。
1.Backbone采用的Bag of Freebies
:
CutMix
,Mosaic数据增强
, DropBlock
,类标签平滑
2.Backbone采用的Bag of Specials
:
Mish激活函数
, Cross-stage partial connections (CSP)
,多输入加权残差连接(MiWRC)
3.Detector采用的Bag of Freebies
:
CIoU损失
,CmBN
, DropBlock正则化
,Mosaic数据增强
,自对抗训练
,消除网格敏感性
,单目标使用多 Anchor
,余弦退火
,最优超参数
,随机训练形状
4.Detector采用的Bag of Specials
:
Mish激活
、SPP
、SAM
、PAN路径聚合
、DIoU-NMS
DropBlock方法的引入是为了克服Dropout随机丢弃特征的主要缺点,Dropout被证明是全连接网络的有效策略,但在特征空间相关的卷积层中效果不佳。DropBlock技术在称为块的相邻相关区域中丢弃特征。这样既可以实现生成更简单模型的目的,又可以在每次训练迭代中引入学习部分网络权值的概念,对权值矩阵进行补偿,从而减少过拟合。如下图:
训练样本中会出现少量的错误样本,而模型过于相信训练样本,在训练过程中调整参数极力去逼近样本,这就导致了这些错误样本的负面影响变大,因此需要在一定程度上减缓这些错误样本的影响,使得模型避免过于相信训练样本。
消融实验结果:
Mish
是一个平滑的曲线,平滑的激活函数允许更好的信息深入神经网络,从而得到更好的准确性和泛化;在负值的时候并不是完全截断,允许比较小的负梯度流入。实验中,随着层深的增加,ReLU
激活函数精度迅速下降,而Mish
激活函数在训练稳定性、平均准确率(1%-2.8%)、峰值准确率(1.2% - 3.6%)等方面都有全面的提高。如下图:
MiWRC
是Multi-input weighted residual connections的简称, 在BiFPN
中,提出了用MiWRC
来执行标尺度级重加权,添加不同尺度的特征映射。我们已经讨论了FPN
和PAN
作为例子。下面的图(d)显示了另一种被称为BiFPN
的neck
设计,根据BiFPN
的论文,该设计具有更好的准确性和效率权衡。
(a)FPN引入自顶向下的路径,将多尺度特征从3级融合到7级(P3-P7);
(b)PANET在FPN之上增加一个额外的自下而上的路径;
©NAS-FPN使用神经网络搜索找到一个不规则的特征拓扑网络,然后重复应用同一块拓扑结构;
(d)是这里的BiFPN,具有更好的准确性和效率权衡。将该neck放到整个整个网络的连接中如下图:
上图采用EfficientNet
作为骨干网络,BiFPN
作为特征网络,共享class/box
预测网络。 基于不同的资源约束,BiFPN
层和类/盒网层都被重复多次。
CIoU
就是在DIoU
的基础上增加了检测框尺度的loss
,增加了长和宽的loss
,这样预测框就会更加的符合真实框。
BN
:无论每个batch被分割为多少个mini batch,其算法就是在每个mini batch前向传播后统计当前的BN数据(即每个神经元的期望和方差)并进行Nomalization,BN数据与其他mini batch的数据无关。
CBN
:每次iteration中的BN数据是其之前n次数据和当前数据的和(对非当前batch统计的数据进行了补偿再参与计算),用该累加值对当前的batch进行Nomalization。好处在于每个batch可以设置较小的size。
CmBN
:只在每个Batch内部使用CBN的方法,若每个Batch被分割为一个mini batch,则其效果与BN一致;若分割为多个mini batch,则与CBN类似,只是把mini batch当作batch进行计算,其区别在于权重更新时间点不同,同一个batch内权重参数一样,因此计算不需要进行补偿。
SAT(Self-Adversarial Training)
为一种新型数据增强方式。在第一阶段,神经网络改变原始图像而不是网络权值。通过这种方式,神经网络对其自身进行一种对抗式的攻击,改变原始图像,制造图像上没有目标的假象。在第二阶段,训练神经网络对修改后的图像进行正常的目标检测。
对于 b x = c x b_x = c_x bx=cx和 b x = c x + 1 b_x=c_x + 1 bx=cx+1 的情况,我们需要 t x t_x tx分别具有很大的负值和正值。但我们可以将 与一个比例因子(>1.0)相乘,从而更轻松地实现这一目标
YOLOv4
将SAM
从空间注意修改为点注意,下图(a)图为原始SAM模块,下(b)图为改进的SAM
模块
根据DIOU
的论文,如果只是单纯的使用NMS
,即是使用IoU
作为阈值去筛掉其他预测框时,当两个物体过于接近时,很有可能另外一个物体的预测框就被滤除了。
就像下图中的摩托。使用DIOU-NMS
可以一定程度上提升对于靠近的物体的检测
最后放上一些不同模型的速度和精度的比较。(一些文章仅说明了他们的探测器针对其中一个GPU的FPS:Maxwell/Pascal/Volta),可以看到,YOLOv4
在速度和精度方面都优于最快和最准确的探测器。
参考文献:
目标检测算法YOLOv4详解
YOLOv4网络详解