yolov7-学习笔记

yolov7:可训练的免费赠品袋为实时物体检测器设置了新的最先进技术

摘要:

YOLOv7 在 5 FPS 到 160 FPS 的范围内在速度和精度上都超过了所有已知的物体检测器,并且在 GPU V100 上具有 30 FPS 或更高的所有已知实时物体检测器中具有最高的精度 56.8% AP。 YOLOv7-E6 目标检测器(56 FPS V100,55.9% AP)在速度上优于基于变压器的检测器 SWINL Cascade-Mask R-CNN(9.2 FPS A100,53.9% AP)509% 的速度和 2% 的准确率,以及基于卷积的检测器ConvNeXt-XL Cascade-Mask R-CNN (8.6 FPS A100, 55.2% AP) 速度提高 551%,准确度提高 0.7% AP,以及 YOLOv7 优于:YOLOR、YOLOX、Scaled-YOLOv4、YOLOv5、DETR、Deformable DETR 、DINO-5scale-R50、ViT-Adapter-B 和许多其他物体检测器的速度和准确性。此外,我们只在 MS COCO 数据集上从头开始训练 YOLOv7,而不使用任何其他数据集或预训练权重

1.介绍

实时目标检测是计算机视觉中一个非常重要的主题,因为它通常是计算机视觉系统中的必要组件。例如,多目标跟踪[94、93]、自动驾驶[40、18]、机器人技术[35、58]、医学图像分析[34、46]等。执行实时目标检测的计算设备是通常是一些移动CPU或GPU,以及各大厂商开发的各种神经处理单元(NPU)。例如,苹果神经引擎(Apple)、神经计算棒(Intel)、Jetson AI边缘设备(Nvidia)、边缘TPU(谷歌)、神经处理引擎(Qualcomm)、AI处理单元(MediaTek)、和 AI SoC(Kneron),都是 NPU。上面提到的一些边缘设备专注于加速不同的操作,例如普通卷积、深度卷积或 MLP 操作。在本文中,我们提出的实时物体检测器主要是希望它能够同时支持移动GPU和从边缘到云端的GPU设备。

近年来,实时目标检测器仍在为不同的边缘设备开发。例如,MCUNet [49, 48] 和 NanoDet [54] 的开发专注于生产低功耗单芯片并提高边缘 CPU 的推理速度。至于 YOLOX [21] 和 YOLOR [81] 等方法,它们专注于提高各种 GPU 的推理速度。最近,实时对象检测器的开发集中在高效架构的设计上。至于可在 CPU [54、88、84、83] 上使用的实时目标检测器,它们的设计大多基于 MobileNet [28、66、27]、ShuffleNet [92、55] 或 GhostNet [25] .另一种主流的实时目标检测器是为 GPU [81,21,97] 开发的,它们大多使用 ResNet [26]、DarkNet [63] 或 DLA [87],然后使用 CSPNet [80] 策略优化架构。本文提出的方法的发展方向不同于当前主流的实时目标检测器。除了架构优化之外,我们提出的方法还将侧重于训练过程的优化。我们的重点将放在一些优化的模块和优化方法上,这些模块和优化方法可能会增加训练成本以提高目标检测的准确性,但不会增加推理成本。我们将所提出的模块和优化方法称为可训练的免费赠品。

最近,模型重新参数化 [13、12、29] 和动态标签分配 [20、17、42] 已成为网络训练和目标检测中的重要课题。主要是在上述新概念提出后,目标检测器的训练又演化出了很多新问题。在本文中,我们将介绍我们发现的一些新问题,并设计有效的方法来解决这些问题。对于模型重参数化,我们利用梯度传播路径的概念分析了适用于不同网络层的模型重参数化策略,并提出了计划的重参数化模型。另外,当我们发现使用动态标签分配技术时,多输出层模型的训练会产生新的问题,即:“如何为不同分支的输出分配动态目标?”针对这个问题,我们提出了一种新的标签分配方法,称为 coarse-to-fine lead guided label assignment。

本文的贡献总结如下:(1)我们设计了几种可训练的免费赠品袋方法,使得实时目标检测可以在不增加推理成本的情况下大大提高检测精度; (2) 对于目标检测方法的演进,我们发现了两个新问题,即重新参数化模块如何替换原始模块,以及动态标签分配策略如何处理分配到不同输出层。此外,我们还提出了解决这些问题所带来的困难的方法; (3) 我们提出了可以有效利用参数和计算的实时目标检测器的“扩展”和“复合缩放”方法; (4) 我们提出的方法可以有效地减少 state-of-the-art 实时目标检测器大约 40% 的参数和 50% 的计算量,并且具有更快的推理速度和更高的检测精度。

2.相关工作

2.1.实时目标检测

目前最先进的实时目标检测器主要基于 YOLO [61, 62, 63] 和 FCOS [76, 77],它们是 [3, 79, 81, 21, 54, 85, 23] .能够成为最先进的实时目标检测器通常需要具备以下特性:(1)更快更强的网络架构; (2) 更有效的特征整合方法 [22, 97, 37, 74, 59, 30, 9, 45]; (3) 更准确的检测方法[76,77,69]; (4) 更稳健的损失函数 [96, 64, 6, 56, 95, 57]; (5) 更高效的标签分配方法 [99, 20, 17, 82, 42]; (6) 更有效的训练方法。在本文中,我们不打算探索需要额外数据或大型模型的自我监督学习或知识蒸馏方法。相反,我们将为与上述 (4)、(5) 和 (6) 相关的最先进方法派生的问题设计新的可训练的免费赠品袋方法。

2.2.模型重新参数化

模型重新参数化技术 [71、31、75、19、33、11、4、24、13、12、10、29、14、78] 在推理阶段将多个计算模块合并为一个。模型重参数化技术可以看作是一种集成技术,我们可以将其分为两类,即模块级集成和模型级集成。模型级重新参数化以获得最终推理模型有两种常见的做法。一种是用不同的训练数据训练多个相同的模型,然后对多个训练好的模型进行权值平均。另一种是对不同迭代次数的模型权重进行加权平均。模块级重参数化是最近比较热门的研究课题。这种方法在训练时将一个模块拆分成多个相同或不同的模块分支,在推理时将多个分支模块整合成一个完全等价的模块。然而,并非所有提出的重新参数化模块都可以完美地应用于不同的体系结构。考虑到这一点,我们开发了新的重参数化模块,并为各种架构设计了相关的应用策略。

2.3.模型缩放

模型缩放 [72, 60, 74, 73, 15, 16, 2, 51] 是一种放大或缩小已设计模型并使其适合不同计算设备的方法。模型缩放方法通常使用不同的缩放因子,如resolution(输入图像的大小)、depth(层数)、width(通道数)、stage(特征金字塔数),以达到很好的权衡-关闭网络参数量、计算量、推理速度和准确性。网络架构搜索(NAS)是常用的模型缩放方法之一。 NAS 可以自动从搜索空间中搜索合适的缩放因子,而无需定义太复杂的规则。 NAS的缺点是需要非常昂贵的计算来完成对模型缩放因子的搜索。在[15]中,研究者分析了缩放因子与参数量和操作量之间的关系,试图直接估计一些规则,从而获得模型缩放所需的缩放因子。查阅文献,我们发现几乎所有的模型缩放方法都独立地分析单个缩放因子,甚至复合缩放类别中的方法也独立优化缩放因子。这样做的原因是因为大多数流行的 NAS 架构处理的缩放因子不是很相关。我们观察到,所有基于连接的模型,例如 DenseNet [32] 或 V oVNet [39],都会在缩放此类模型的深度时改变某些层的输入宽度。由于所提出的架构是基于级联的,我们必须为此模型设计一种新的复合缩放方法。

3.架构

3.1.扩展高效层聚合网络

在大多数关于设计高效架构的文献中,主要考虑的不外乎参数的数量、计算量和计算密度。 Ma等人[55]从内存访问成本的特点出发,还分析了输入/输出通道比、架构的分支数量和element-wise操作对网络推理速度的影响。 Dollár 等人 [15] 在进行模型缩放时额外考虑了激活,即更多地考虑卷积层输出张量中的元素数量。图 2 (b) 中 CSPV oVNet [79] 的设计是 V oVNet [39] 的变体。除了考虑上述基本设计问题外,CSPV oVNet [79] 的架构还分析了梯度路径,以使不同层的权重能够学习更多不同的特征。上述梯度分析方法使推理更快,更准确准确的。图 2 © 中的 ELAN [1] 考虑了以下设计策略——“如何设计高效网络?”。他们得出了一个结论:通过控制最短最长的梯度路径,更深层的网络可以有效地学习和收敛。在本文中,我们提出了基于 ELAN 的扩展 ELAN(E-ELAN),其主要架构如图 2(d)所示。
yolov7-学习笔记_第1张图片

无论梯度路径长度和大规模ELAN中计算块的堆叠数量如何,它都达到了稳定状态。如果无限堆叠更多的计算块,这种稳定状态可能会被破坏,参数利用率会降低。提出的E-ELAN使用expand, shuffle, merge cardinality来实现在不破坏原有梯度路径的情况下不断增强网络的学习能力。在架构方面,E-ELAN只改变了计算块中的架构,而过渡层的架构完全没有变化。我们的策略是使用组卷积来扩展计算块的通道和基数。我们将对计算层的所有计算块应用相同的组参数和通道乘数。然后,每个计算块计算出的feature map会根据设定的组参数g被shuffle成g个组,然后将它们连接在一起。此时每组feature map中的通道数将与原架构中的通道数相同。最后,我们添加 g 组特征图来执行合并基数。 E-ELAN除了保持原有的ELAN设计架构外,还可以引导不同组的计算块学习到更多样化的特征。

3.2.基于级联的模型的模型缩放

模型缩放的主要目的是调整模型的一些属性,生成不同尺度的模型,以满足不同推理速度的需要。例如,EfficientNet [72] 的缩放模型考虑了宽度、深度和分辨率。至于 scaled-YOLOv4 [79],其缩放模型是调整阶段数。在[15]中,Dollár等人分析了vanilla convolution和group convolution在进行宽度和深度缩放时对参数量和计算量的影响,并以此设计了相应的模型缩放方法。以上方法主要用于PlainNet或ResNet等架构。这些架构在执行scaling up或scaling down时,每一层的入度和出度都不会发生变化,因此我们可以独立分析每个缩放因子对参数量和计算量的影响。然而,如果将这些方法应用于基于级联的架构,我们会发现,当对深度进行放大或缩小时,紧接基于级联的计算块之后的转换层的入度会降低或降低。增加,如图 3 (a) 和 (b) 所示。
yolov7-学习笔记_第2张图片

从上述现象可以推断,对于基于级联的模型,我们不能单独分析不同的缩放因子,而必须综合考虑。以 scaling up depth 为例,这样的动作会导致过渡层的输入通道和输出通道之间的比率发生变化,这可能会导致模型的硬件使用率下降。因此,我们必须为基于级联的模型提出相应的复合模型缩放方法。当我们缩放计算块的深度因子时,我们还必须计算该块的输出通道的变化。然后,我们将在过渡层上进行相同变化量的宽度因子缩放,结果如图3(c)所示。我们提出的复合缩放方法可以保持模型在初始设计时具有的属性并保持最佳结构。

4.可训练的免费赠品袋

4.1.计划的重新参数化卷积

尽管 RepConv [13] 在 VGG [68] 上取得了优异的性能,但是当我们将其直接应用于 ResNet [26] 和 DenseNet [32] 等架构时,其精度会显着降低。我们使用梯度流传播路径来分析重新参数化卷积应该如何与不同的网络相结合。我们还相应地设计了计划的重新参数化卷积。

RepConv 实际上在一个卷积层中结合了 3×3 卷积、1×1 卷积和恒等连接。在分析了 RepConv 和不同架构的组合和相应的性能后,我们发现 RepConv 中的恒等连接破坏了 ResNet 中的残差和 DenseNet 中的连接,这为不同的特征图提供了更多的梯度多样性。基于以上原因,我们使用无恒等连接的 RepConv (RepConvN) 来设计计划重参数化卷积的架构。在我们的想法中,当一个带有残差或连接的卷积层被重新参数化的卷积所取代时,应该没有恒等连接。图 4 显示了我们设计的用于 PlainNet 和 ResNet 的“计划重新参数化卷积”的示例。至于基于残差模型和基于级联模型的完整计划的重新参数化卷积实验,将在消融研究中展示。
yolov7-学习笔记_第3张图片

4.2.粗为辅助,席位铅损

深度监督[38]是一种经常用于训练深度网络的技术。它的主要思想是在网络的中间层增加额外的辅助头,以辅助损失为指导的浅层网络权重。即使对于通常收敛良好的 ResNet [26] 和 DenseNet [32] 等架构,深度监督 [70、98、67、47、82、65、86、50] 仍然可以显着提高模型在许多任务上的性能.图 5 (a) 和 (b) 分别显示了“没有”和“有”深度监督的对象检测器架构。在本文中,我们将负责最终输出的头称为lead head,用于辅助训练的头称为auxiliary head。

接下来我们要讨论标签分配的问题。以往在深度网络的训练中,标签分配通常直接参考ground truth,根据给定的规则生成hard label。然而,近年来,如果我们以目标检测为例,研究人员往往利用网络预测输出的质量和分布,然后与ground truth一起考虑,使用一些计算和优化方法来生成可靠的软标签[61, 8, 36, 99, 91, 44, 43, 90, 20, 17, 42]。例如,YOLO [61]使用边界框回归和ground truth预测的IoU作为objectness的软标签。在本文中,我们将这种将网络预测结果与ground truth一起考虑然后分配软标签的机制称为“标签分配器”。

深度监督需要针对目标目标进行培训,无论是副主管还是牵头主管的情况。在开发soft label assigner相关技术的过程中,无意中发现了一个新的衍生问题,即“如何给辅助头和引导头分配软标签?”据我们所知,目前相关文献还没有探讨这个问题。目前最流行的方法的结果如图5(c)所示,就是将辅助头和引导头分开,然后利用各自的预测结果和ground truth进行标签分配。本文提出的方法是一种新的标签分配方法,通过引导头预测来引导辅助头和引导头。分别用于辅助头和引导头学习。提出的两种深度监督标签分配策略分别如图 5 (d) 和 (e) 所示。
yolov7-学习笔记_第4张图片

导头引导标签分配器 主要是根据lead head的预测结果和ground truth进行计算,通过优化过程生成soft label。这组软标签将作为辅助头和引导头的目标训练模型。之所以这样做是因为引导头具有比较强的学习能力,因此从中生成的软标签应该更能代表源数据和目标数据之间的分布和相关性。此外,我们可以将这种学习视为一种广义残差学习。通过让较浅的辅助头直接学习lead head已经学习到的信息,lead head将更能够专注于学习尚未学习到的剩余信息。

由粗到精的引导头引导标签分配器 还使用了lead head的预测结果和ground truth来生成soft label。然而,在这个过程中,我们生成了两组不同的软标签,即粗标签和细标签,其中细标签与 lead head guided label assigner 生成的软标签相同,粗标签是通过允许更多的网格来生成的通过放宽正样本分配过程的约束,将其视为正目标。原因是辅助头的学习能力不如引导头强,为了避免丢失需要学习的信息,我们会重点优化辅助头的召回物体检测任务。至于lead head的输出,我们可以从高recall的结果中过滤出高精度的结果作为最终的输出。但是,我们必须注意,如果粗标签的附加权重接近于精细标签的附加权重,则可能会在最终预测时产生不良先验。因此,为了让那些extra coarse positive grids的影响更小,我们在decoder中加入了一些限制,使得extra coarse positive grids不能完美的产生soft label。上述机制使得fine label和coarse label的重要性在学习过程中动态调整,使得fine label的可优化上界始终高于coarse label。

4.3.其他可训练的免费赠品

在本节中,我们将列出一些可训练的免费赠品。这些免费赠品是我们在训练中使用的一些技巧,但最初的概念并不是我们提出的。这些免费赠品的训练细节将在附录中详细说明,包括(1)conv-bn-activation topology中的Batch normalization:这部分主要是将batch normalization layer直接连接到convolutional layer。这样做的目的是整合均值和方差在推理阶段对卷积层的偏差和权重进行批量归一化。 (2) YOLOR[81]中的隐式知识结合卷积特征图加法乘法的方式:YOLOR中的隐式知识可以在推理阶段通过预计算简化为一个向量。该向量可以与前一个或后一个卷积层的偏置和权重相结合。 (3) EMA 模型:EMA 是 mean teacher [75] 中使用的一种技术,在我们的系统中,我们纯粹使用 EMA 模型作为最终的推理模型。

5.实验

5.1.实验装置

我们使用 Microsoft COCO 数据集进行实验并验证我们的目标检测方法。我们所有的实验都没有使用预训练模型。也就是说,所有模型都是从头开始训练的。在开发过程中,我们使用train 2017 set进行训练,然后使用val 2017 set进行验证和选择超参数。最后,我们展示了目标检测在 2017 年测试集上的性能,并将其与最先进的目标检测算法进行了比较。详细的训练参数设置在附录中描述。

我们为边缘 GPU、普通 GPU 和云 GPU 设计了基础模型,它们分别被称为 YOLOv7tiny、YOLOv7 和 YOLOv7-W6。同时,我们也针对不同的业务需求,使用基础模型进行模型缩放,得到不同类型的模型。对于YOLOv7,我们在neck上做stack scaling,使用提出的复合缩放方法对整个模型的深度和宽度进行scaling up,得到YOLOv7-X。至于YOLOv7-W6,我们使用新提出的复合缩放方法得到YOLOv7-E6和YOLOv7-D6。此外,我们将建议的 EELAN 用于 YOLOv7-E6,从而完成 YOLOv7E6E。由于 YOLOv7-tiny 是面向边缘 GPU 的架构,它将使用 leaky ReLU 作为激活函数。至于其他模型,我们使用 SiLU 作为激活函数。我们将在附录中详细描述每个模型的比例因子。

5.2.基准线

我们选择以前版本的 YOLO [3, 79] 和最先进的目标检测器 YOLOR [81] 作为我们的基线。表 1 显示了我们提出的 YOLOv7 模型与使用相同设置训练的那些基线的比较。
yolov7-学习笔记_第5张图片

从结果中我们看到,如果与 YOLOv4 相比,YOLOv7 的参数减少了 75%,计算量减少了 36%,AP 提高了 1.5%。如果与最先进的 YOLOR-CSP 相比,YOLOv7 的参数减少了 43%,计算量减少了 15%,AP 提高了 0.4%。在tiny模型的性能上,与YOLOv4-tiny-31相比,YOLOv7tiny减少了39%的参数数量和49%的计算量,但保持相同的AP。在云GPU模型上,我们的模型仍然可以有更高的 AP,同时减少 19% 的参数数量和 33% 的计算量。

5.3.与最先进的目标检测技术比较

我们将所提出的方法与用于通用 GPU 和移动 GPU 的最先进的目标检测器进行比较,结果如表 2 所示。从表 2 的结果我们知道所提出的方法具有最佳的速度-精度权衡-全面关闭。如果我们将 YOLOv7-tiny-SiLU 与 YOLOv5-N (r6.1) 进行比较,我们的方法速度提高了 127 fps,AP 上的准确度提高了 10.7%。另外,YOLOv7在161fps的帧率下有51.4%的AP,而同样AP的PPYOLOE-L只有78fps的帧率。在参数使用方面,YOLOv7 比 PPYOLOE-L 少了 41%。如果我们将推理速度为 114 fps 的 YOLOv7-X 与推理速度为 99 fps 的 YOLOv5-L (r6.1) 进行比较,YOLOv7-X 可以将 AP 提高 3.9%。如果将 YOLOv7X 与类似规模的 YOLOv5-X (r6.1) 进行比较,则 YOLOv7-X 的推理速度快 31 fps。此外,在参数量和计算量方面,YOLOv7-X相比YOLOv5-X(r6.1)减少了22%的参数和8%的计算量,但AP提升了2.2%。
yolov7-学习笔记_第6张图片

如果我们将 YOLOv7 与使用输入分辨率 1280 的 YOLOR 进行比较,YOLOv7-W6 的推理速度比 YOLOR-P6 快 8 fps,检测率也提高了 1% AP 。 YOLOv7-E6与YOLOv5-X6(r6.1)的对比,前者比后者有0.9%的AP增益,参数减少45%,计算量减少63%,推理速度提升47%。YOLOv7 -D6 的推理速度与 YOLOR-E6 接近,但 AP 提高了 0.8%。 YOLOv7-E6E 的推理速度接近 YOLOR-D6,但 AP 提高了 0.3%。

5.4. 消融研究

5.4.1 提出的复合缩放方法

表 3 显示了使用不同的模型缩放策略进行放大时获得的结果。其中,我们提出的复合缩放方法是将计算块的深度放大1.5倍,将过渡块的宽度放大1.25倍。如果我们的方法与只放大宽度的方法相比,我们的方法可以用更少的参数和计算量将 AP 提高 0.5%。如果我们的方法和只增加深度的方法相比,我们的方法只需要增加2.9%的参数数量和1.2%的计算量,就可以提高0.2%的AP。可以看出从表 3 的结果可以看出,我们提出的复合缩放策略可以更有效地利用参数和计算。
yolov7-学习笔记_第7张图片

5.4.2 提出的计划重新参数化模型

为了验证我们提出的平面重新参数化模型的通用性,我们分别将其用于基于级联的模型和基于残差的模型进行验证。我们选择用于验证的基于连接的模型和基于残差的模型分别是 3-stacked ELAN 和 CSPDarknet。

在concatenation-based模型的实验中,我们将3-stacked ELAN中不同位置的3×3卷积层替换为RepConv,具体配置如图6所示。从表4的结果可以看出,所有更高的AP 值出现在我们提议的计划重新参数化模型中。
yolov7-学习笔记_第8张图片
yolov7-学习笔记_第9张图片

在处理基于残差模型的实验中,由于原始暗块没有符合我们设计策略的3×3卷积块,我们为实验额外设计了一个反向暗块,其架构如图所示7. 由于带暗块和反转暗块的CSPDarknet参数量和运算量完全相同,所以比较公平。表 5 中所示的实验结果充分证实了所提出的计划重新参数化模型在基于残差的模型上同样有效。我们发现 RepCSPResNet [85] 的设计也符合我们的设计模式。
yolov7-学习笔记_第10张图片
yolov7-学习笔记_第11张图片

5.4.3辅助头的辅助损失

在辅助头实验的辅助损失中,我们比较了引导头和辅助头方法的一般独立标签分配方法,我们还比较了两种提出的引导引导标签分配方法。我们在表 6 中显示了所有比较结果。从表 6 中列出的结果可以清楚地看出,任何增加辅助损失的模型都可以显着提高整体性能。此外,我们提出的引导标签分配策略在 AP、AP50 和 AP75 中获得了比一般独立标签分配策略更好的性能。至于我们提出的 coarse for assistant 和 fine for lead 标签分配策略,它在所有情况下都会产生最佳结果。在图 8 中,我们显示了在辅助头和引导头上通过不同方法预测的对象图。从图8我们发现,如果辅助头学习lead guided soft label,确实会帮助lead head从一致的目标中提取残差信息。
yolov7-学习笔记_第12张图片
yolov7-学习笔记_第13张图片

在表 7 中,我们进一步分析了所提出的由粗到精的引导标签分配方法对辅助头解码器的影响。即,我们比较了引入上界约束和不引入上界约束的结果。从表中的数字来看,通过距物体中心的距离来约束物体性上界的方法可以获得更好的性能。
yolov7-学习笔记_第14张图片

由于提出的 YOLOv7 使用多个金字塔来联合预测目标检测结果,我们可以直接将辅助头连接到中间层的金字塔进行训练。这种类型的训练可以弥补下一级金字塔预测中可能丢失的信息。由于上述原因,我们在提出的 E-ELAN 架构中设计了部分辅助头。我们的方法是在合并基数之前在其中一组特征图之后连接辅助头,这种连接可以使新生成的一组特征图的权重不直接由辅助损失更新。我们的设计允许每个铅头金字塔仍然从不同大小的物体中获取信息。表 8 显示了使用两种不同方法获得的结果,即从粗到细的引导方法和部分从粗到细的引导方法。显然,局部由粗到细的导联法具有较好的辅助效果。
yolov7-学习笔记_第15张图片

6.总结

在本文中,我们提出了一种新的实时对象检测器架构和相应的模型缩放方法。此外,我们发现目标检测方法的演变过程产生了新的研究课题。在研究过程中,我们发现了重新参数化模块的替换问题和动态标签分配的分配问题。为了解决这个问题,我们提出了可训练的免费赠品袋方法来提高目标检测的准确性。基于以上,我们开发了 YOLOv7 系列目标检测系统,获得了 state-of-the-art 的结果。

7.致谢

作者要感谢国家高性能计算中心 (NCHC) 提供的计算和存储资源。
yolov7-学习笔记_第16张图片

你可能感兴趣的:(yolo,学习,深度学习)