翻译工具: DeepL和 讯飞文档翻译
论文:https://arxiv.org/abs/2207.02696
代码:https://github.com/WongKinYiu/yolov7
Bag-of-Freebies:将BoF视为一个数据增强的pipeline,数据增强的目的是增加训练图像的多样性,以使模型对从不同环境获得的图像具有更强的鲁棒性。通常,光度失真和几何失真是两种最常用的数据增强方法。对于光度失真,可以调整图像的亮度,色度,对比度,饱和度,以及加入噪点;对于几何失真,可以对图像进行随机缩放,裁剪,翻转,旋转等。此外,还有一种数据增强方法是模拟遮挡,即用一个物体覆盖另一个物体的一部分。BoF仅作用于模型的训练阶段,只对模型的最终学习到的参数有影响,并不会修改网络结构。
图1:与其他实时目标检测器相比,我们提出的方法达到了最先进的性能
在GPU V100上,YOLOV7在5fps到160fps的范围内在速度和精度上都超过了所有已知的物体检测器,并且在所有已知的30fps或更高的实时物体检测器中具有最高的56.8%AP的精度。YOLOV7-E6目标探测器(56 FPS V100,55.9%AP)的性能优于基于变压器的探测器SWINL Cascade-Mask R-CNN(9.2 FPS A100,53.9%AP)的速度提升509%,精度提高了2%;基于卷积的探测器ConvNextXL Cascade-Mask R-CNN(8.6 FPS A100,55.2%AP)的速度提升了551%,精度提高0.7%AP;以及Yolov7在速度和精度上优于:Yolor、Yolox、Scaled-Yolov4、Yolov5、DETR 、 Deformable DETR 、 Dino-5Scale-R50 、 VitAdapter-B。此外,我们仅在MS COCO数据集上从头开始训练YOLOV7,而不使用任何其他数据集或预训练的权重。源代码发布于https://github.com/WongKinYiu/yolov7。
实时目标检测是计算机视觉中一个非常重要的课题,因为它通常是计算机视觉系统中必不可少的组成部分。例如,多目标跟踪[94, 93],自动驾驶[40, 18],机器人[35, 58],医学图像分析[34, 46]等。执行实时目标检测的计算设备通常是一些移动CPU或GPU,以及各大厂商开发的各种神经处理单元(NPU)。例如,苹果神经引擎(Apple)、神经计算棒(Intel)、捷信人工智能边缘设备(Nvidia)、边缘TPU(Google)、神经处理引擎 ( Qualcomm ) 、 人 工智能处理单元(MediaTek)和人工智能SoC(Kneron)都是NPU。上面提到的一些边缘设备专注于加速不同的操作,例如普通卷积、深度卷积或MLP操作。在本文中,我们提出的实时目标检测器主要希望能够同时支持移动GPU和从边缘到云端的GPU设备。
近年来,针对不同边缘设备的实时目标检测技术仍在不断发展。例如,开发MCUNET的发展[49, 48]和NanoDet[54专注于生产低功耗单片机和提高边缘CPU的推理速度。至于Yolox等方法[21]和Yolor[81],他们专注于提高各种GPU的推理速度。最近,实时对象检测器的发展集中在高效架构的设计上。至于可以在CPU上使用的实时对象检测器[54,88, 84, 83],它们的设计主要基于MobileNet[28, 66,27], ShuffleNet [92, 55],或GhostNet[25].另一种主流的实时目标检测器是为GPU开发的[81, 21, 97],他们大多使用ResNet[26],暗网[63],或DLA[87],然后使用CSPNet[80]优化体系结构的策略。本文提出的方法与目前主流的实时目标检测器的发展方向不同。除了架构优化,我们提出的方法还将关注训练过程的优化。我们的重点将放在一些优化模块和优化方法上,这些模块和方法可能会增加训练成本,以提高目标检测的准确性,但不会增加推理成本。我们称所提出的模块和优化方法为可训练的免费袋。
最近,模型重新参数化[13, 12, 29]及DY动态标签分配[20, 17, 42已经成为网络训练和目标检测中的重要课题。主要是在上述新概念提出后,目标检测器的训练出现了许多新的问题。在本文中,我们将介绍我们发现的一些新问题,并设计有效的方法来解决这些问题。在模型重新参数化方面,利用梯度传播路径的概念,分析了适用于不同网络层次的模型重新参数化策略,提出了规划的重新参数化模型。此外,当我们发现使用动态标签分配技术时,具有多个输出层的模型的训练会产生新的问题。即:“如何为不同分支的输出分配动态目标?”针对这一问题,我们提出了一种新的标签分配方法,称为由粗到精的引导标签分配。
本文的贡献主要体现在以下几个方面:
(1)设计了几种可训练的Bag-of-Freebies方法,使得实时目标检测在不增加推理代价的情况下,大大提高了检测精度;
(2)对于目标检测方法的发展,我们发现了两个新的问题,即重新参数化的模块如何替换原始模块,以及动态标签分配策略如何处理对不同输出层的分配。此外,我们还提出了解决这些问题所产生的困难的方法。
(3)提出了实时目标检测器的“扩展”和“复合缩放”方法,可以有效地利用参数和计算;
(4)本文提出的方法可以有效地减少现有实时目标检测器约40%的参数和50%的计算量,并具有更快的推理速度和更高的检测精度。
目前最先进的实时目标检测器主要基于YOLO[61, 62,63]和FCO[76, 77],它们是[3, 79, 81, 21, 54, 85, 23].能够成为最先进的实时物体检测器通常需要以下特征:(1)更快更强的网络架构;(2)更有效的特征集成方法[22, 97, 37, 74,59, 30, 9, 45];(3)更准确的检测方法[76, 77, 69];(4)更稳健的损失函数蒂翁[96, 64, 6, 56, 95, 57];(5)更有效的标签分配分段法[99, 20, 17, 82, 42];(6)更有效的训练方法。在本文中,我们不打算探索需要额外数据或大模型的自我监督学习或知识提取方法。相反,我们将为从与上述(4)、(5)和(6)相关的最先进的方法衍生的问题设计新的可训练的免费袋方法。
模型重新参数化技术[71, 31, 75, 19, 33,11, 4, 24, 13, 12, 10, 29, 14, 78】是在推理阶段将多个计算模块合并为一个。模式重新参数化技术可以看作是一种集成技术,我们可以将其分为两类,即模块级集成和模型级集成。对于模型级重新参数化以获得最终推理模型,有两种常见的做法。一种是用不同的训练数据训练多个相同的模型,然后对多个训练模型的权重进行平均。另一种是在不同迭代次数下对模型的权重进行加权平均。模块级重新参数化是近年来比较热门的研究课题。这种类型的方法在训练期间将一个模块拆分为多个相同或不同的模块分支,并且在推理期间将多个分支模块集成为完全等价的模块。然而,并不是所有提出的重新参数化模块都能完美地应用于不同的体系结构。考虑到这一点,我们开发了新的重新参数化模块,并为各种架构设计了相关的应用策略。
模型缩放[72, 60, 74, 73, 15, 16, 2, 51]是一种扩大或缩小已经设计好的模型并使其适合不同计算设备的方法。模型缩放方法通常使用不同的缩放因子,例如分辨率(输入图像的大小)、深度(层数)、宽度(通道数)和阶段(特征金字塔的数量),从而实现网络参数数量、计算量、推理速度和精度的良好折衷。网络架构搜索(NAS)是常用的模型缩放方法之一。NAS可以自动从搜索空间中搜索合适的缩放因子,而无需定义过于复杂的规则。NAS的缺点是它需要非常昂贵的计算来完成模型缩放因子的搜索。在中[15]分析了缩放因子与参数和操作数量之间的关系,试图直接估计一些规律,从而得到模型缩放所需的缩放因子。查阅文献,我们发现几乎所有的模型标度方法都是独立地分析单个标度因子,甚至复合标度类别中的方法也是独立地优化标度因子。这样做的原因是,大多数流行的NAS体系结构处理的扩展因子并不十分相关。我们观察到所有基于连接的模型,如 DenseNet[32] 或Vovnet[39],将在缩放此类模型的深度时更改某些层的输入宽度。由于所提出的架构是基于级联的,我们必须为该模型设计一种新的复合缩放方法。
图2:扩展的高效层聚合网络。所提出的扩展ELAN(E-ELAN)完全不改变原有架构的梯度传输路径,而是使用分组卷积来增加添加特征的基数,并以洗牌合并基数的方式组合不同分组的特征。这种操作方式可以增强不同特征图学习到的特征,提高参数的使用和计算。
在大多数关于设计高效体系结构的文献中,主要考虑的无非是参数的数量、计算量和计算密度。从存储器访问成本的特性出发,Ma等人[55]分析了输入/输出通道比、结构的分支数和单元操作对网络推理速度的影响。Dollr等人[15]在执行模型缩放时额外考虑激活,即更多地考虑卷积层的输出张量中的元素数量。CSPVOVNet的设计79]在图中2 (B)是Vovnet的变体[39].除了考虑上述基本设计问题外,CSPVOVNet的体系结构[79]还分析了梯度路径,以便使不同层的权重能够学习更多样化的特征。上面描述的梯度分析方法使得推断更快且更准确。埃兰[1]在图中2 (C)考虑了以下设计策略——“如何设计一个高效的网络?”他们得出了一个结论:通过控制最短最长的梯度路径,一个更深的网络可以有效地学习和收敛。本文在ELAN的基础上提出了扩展ELAN(E-ELAN),其主要架构如图所示2 (d).在大规模ELAN中,无论梯度路径长度和计算块的堆叠数如何,它都达到了稳定状态。如果无限制地堆叠更多的计算块,这种稳定状态可能会被破坏,参数利用率也会下降。本文提出的E-Elan使用扩展、洗牌、合并基数来实现在不破坏原有梯度路径的情况下不断增强网络学习能力的能力。在架构方面,E-Elan只改变了计算块的架构,而过渡层的架构完全不变。我们的策略是使用群卷积来扩展计算块的通道和基数。我们将对计算层的所有计算块应用相同的组参数和通道乘数。然后,每个计算块计算出的特征图将根据设置的分组参数G被混洗成G个分组,然后将它们连接在一起。此时,每组特征图中的通道数量将与原始架构中的通道数量相同。最后,我们添加G组特征映射来执行合并基数。除了保持原有的Elan设计架构,E-Elan还可以引导不同组的计算块学习更多样化的特性。
模型缩放的主要目的是调整模型的某些属性,生成不同规模的模型,以满足不同推理速度的需要。例如,EfficientNet的缩放模型[72]考虑宽度、深度和分辨率。至于缩放的YOLOV4[79],其缩放模型是调整级数。在中[15],Dollr等人分析了常规卷积和分组卷积在进行宽度和深度缩放时对参数量和计算量的影响,并以此设计了相应的模型缩放方法。
图3:基于连接模型的模型缩放。从(a)到(B),我们观察到当在基于连接的模型上执行深度缩放时,计算块的输出宽度也增加。这种现象将导致后续传输层的输入宽度增加。因此,我们提出(C),即,当在基于级联的模型上执行模型缩放时,仅需要缩放计算块中的深度,并且以相应的宽度缩放来执行传输层的剩余部分。
上述方法主要用于PlainNet或ResNet等架构。这些架构在执行向上扩展或向下扩展时,每一层的入度和出度都不会发生变化,因此我们可以独立地分析每个缩放因子对参数量和计算量的影响。然而,如果将这些方法应用到基于级联的架构中,我们会发现,当对深度进行放大或缩小时,紧随基于级联的计算块之后的转换层的入度会减少或增加,如图所示3 (a)和(B)。
从上述现象可以推断,对于基于连接的模型,我们不能单独分析不同的缩放因子,而必须一起考虑。以按比例放大深度为例,这样的动作将引起过渡层的输入通道和输出通道之间的比率变化,这可能导致模型的硬件使用减少。因此,我们必须为基于连接的模型提出相应的复合模型缩放方法。当我们缩放计算模块的深度因子时,我们还必须计算该模块的输出通道的变化。然后,我们将在过渡层上执行具有相同变化量的宽度因子缩放,结果如图所示3 (C)。我们提出的复合缩放方法可以保持模型在初始设计时的特性,并保持最优结构。
虽然RepConv[13]在VGG[68]上取得了优异的性能。当我们直接将其应用于ResNet[26]和DenseNet[32]和其他架构,其精度将显著降低。我们使用梯度流传播路径来分析如何将重新参数化的卷积与不同的网络相结合。我们还相应地设计了计划的重新参数化卷积。
图4:计划的重新参数化模型。在所提出的计划重新参数化模型中,我们发现具有剩余或级联连接的层,其RepConv不应具有跳跃连接。在这些情况下,可以将其替换为不包含标识连接的RepConvN。
RepConv实际上在一个卷积层中结合了3x3卷积、1x1卷积和恒等连接。在分析了RepConv与不同体系结构的结合和相应性能后,我们发现RepConv中的跳跃连接破坏了ResNet中的残差和DenseNet中的连接,这为不同的特征图提供了更多的梯度多样性。由于上述原因,我们使用没有身份连接的RepConv(RepConvn)来设计计划重新参数化卷积的架构。在我们的思维中,当具有残差或连接的卷积层被重新参数化的卷积所取代时,应该没有恒等连接。数字4 展示了我们在PlainNet和ResNet中设计的“计划重新参数化卷积”的示例。至于在基于残差的模型和基于串联的模型中完整计划的重新参数化卷积实验,将在消融实验中介绍。
图5:辅助标签分配器为粗,导线头标签分配器为细。与正常模型(A)相比,(B)中的模式具有辅助头部。与通常的独立标签分配器(C)不同,我们提出了(D)引导头引导标签分配器和(E)由粗到细引导头引导标签分配器。通过前导头部预测和地面实况对所提出的标签分配器进行优化,以同时获得训练前导头部和辅助头部的标签。详细的由粗到精的实现方法和约束设计细节将在APENDIX中阐述。
深度监督[38]是一种经常用于训练深度网络的技术。其主要思想是在网络的中间层增加额外的辅助头,以辅助损失为指导的浅层网络权值。即使对于ResNet这样的架构[26]和DenseNet[32]通常收敛良好,深度监督[70, 98, 67, 47, 82, 65, 86, 50]仍然可以显著提高模型在许多任务上的性能。数字5 (a)和(B)分别示出了“没有”和“有”深度监督的对象检测器架构。在本文中,我们将负责最终输出的Head称为Lead Head,将用于辅助训练的Head称为Auxiliary Head。
接下来,我们要讨论标签分配的问题。过去,在深度网络的训练中,标签分配通常直接参考真实情况,根据给定的规则生成硬标签。然而,近年来,如果我们以目标检测为例,研究人员经常使用网络输出的预测质量和分布,然后与地面实况一起考虑使用一些计算和优化方法来生成可靠的软标签[61, 8, 36, 99, 91, 44,43, 90, 20, 17, 42].例如,YOLO[61】使用包围盒回归预测的IOU和真实的有效值作为客观性的软标签。在本文中,我们将将网络预测结果与基本事实一起考虑,然后分配软标签的机制称为“标签分配器”。
无论辅助主管还是领导主管的情况如何,深度监督都需要在目标目标上进行培训。在开发软标签分配器相关技术的过程中,我们偶然发现了一个新的衍生问题,即“如何将软标签分配给辅助头和引导头?”据我们所知,到目前为止,相关文献尚未对此问题进行探讨。目前最流行的方法的结果如图所示5 (C),即将辅助水头和主导水头分开,然后使用各自的预测结果和真实的有效值的标签分配。本文提出的方法是一种新的标签分配方法,通过前导头部预测来指导辅助头部和前导头部。换句话说,我们使用引导头预测作为指导来生成由粗到细的分层标签,分别用于辅助头和引导头学习。所提出的两种深度监督标签分配策略如图所示5 分别是(d)和(e)。
前导头部引导标签分配器主要是根据前导头部的预测结果和真实的有效值进行计算,并通过优化过程生成软标签。这组软标签将用作辅助头和引导头的目标训练模型。这样做的原因是因为Lead Head具有相对较强的学习能力,因此由此生成的软标签应该更能代表源数据和目标之间的分布和相关性。此外,我们可以把这种学习看作是一种广义残差学习。通过让较浅的辅助头直接学习引导头已经学习的信息,引导头将更能够集中于学习尚未学习的剩余信息。
由粗到精的引导头引导标签分配器还使用引导头的预测结果和地面实况来生成软标签。然而,在该过程中,我们生成两组不同的软标签,即粗标签和细标签,其中细标签与由引导头引导的标签分配器生成的软标签相同,而粗标签是通过放松正样本分配过程的约束,允许更多的网格被视为正目标来生成的。这是因为辅助头部的学习能力不如引导头部的学习能力强,并且为了避免丢失需要学习的信息,我们将在对象检测任务中重点优化辅助头部的回忆。对于Lead Head的输出,我们可以从高召回率的结果中筛选出高查准率的结果作为最终的输出。但是,我们必须注意,如果粗标签的附加重量接近对于细标签,它可能在最终预测时产生不好的先验。因此,为了使那些过粗的正网格产生较小的影响,我们在解码器中加入了限制,使得过粗的正网格不能完美地产生软标签。上述机制允许在学习过程中动态调整细标签和粗标签的重要性,并使细标签的可优化上界始终高于粗标签。
在本节中,我们将列出一些可训练的 bag-of-freebies。这些是我们在训练中使用的一些技巧,但最初的概念并不是由我们提出的。这些赠品的训练细节将在附录中详细阐述,包括
(1)conv-bnactivation拓扑中的批处理规范化:该部分主要将批处理规范化层直接连接到卷积层。这样做的目的是在推理阶段将批量归一化的均值和方差整合到卷积层的偏差和权重中。
(2)Yolor中的内隐知识81结合卷积特征图,以加法和乘法的方式:通过在推理阶段预先计算,可以将Yolor中的隐含知识简化为一个向量。该向量可以与先前或随后的卷积层的偏置和权重组合。
(3)EMA模型:EMA是Mean Teacher[75在我们的系统中,我们使用EMA模型作为最终的推理模型。
我们使用微软COCO数据集进行了实验,并验证了我们的目标检测方法。我们所有的实验都没有使用预先训练的模型。也就是说,所有模型都是从零开始训练的。在开发过程中,我们使用Train 2017 Set进行训练,然后使用Val 2017 Set进行验证和选择超参数。最后,我们展示了目标检测在2017测试集上的性能,并将其与最先进的目标检测算法进行了比较。附录中描述了详细的培训参数设置。
我们设计了边缘GPU、普通GPU和云GPU的基本模型,分别称为YOLOV7-Tiny、YOLOV7和YOLLV7-W6。同时,我们还针对不同的服务需求,使用基本模型进行模型缩放,得到不同类型的模型。对于YOLOV7,我们对颈部进行叠加缩放,并使用所提出的复合缩放方法对整个模型的深度和宽度进行放大,并使用该方法获得YOLOV7-X。对于YOLOV7-W6,我们使用新提出的复合标度方法来获得YOLOV7-E6和YOLLV7-D6。此外,我们将所提出的EELAN用于YOLOV7-E6,从而完成YOLOV7-E6E。由于YOLOV7-TINY是一个面向边缘GPU的架构,它将使用Leaky ReLU作为激活函数。对于其他模型,我们使用SILU作为激活函数。我们将在附录中详细描述每个模型的比例因子。
我们选择以前版本的YOLO[3, 79]和最先进的对象检测器Yolor[81]作为我们的基线。表1 显示了我们提出的YOLOV7模型与使用相同设置训练的基线的比较。从结果可以看出,与YOLOV4相比,YOLOV7的参数减少了75%,计算量减少了36%,AP提高了1.5%。与最先进的YOLOR-CSP相比,YOLOV7的参数减少了43%,计算量减少了15%,AP增加了0.4%。在TINY模型的性能上,与YOLOV4-TINY-31相比,YOLOV7-TINY减少了39%的参数数量和49%的计算量,但保持了相同的AP。在云GPU模型上,我们的模型仍然可以具有更高的AP,同时减少19%的参数数量,计算量减少了33%。
我们将所提出的方法与用于通用GPU和移动GPU的最先进的对象检测器进行比较,结果如表所示2.根据表中的结果2 我们知道,所提出的方法综合起来具有最佳的速度-精度折衷。如果我们将YOLOV7-TINY-SILU与YOLOV5-N(R6.1)进行比较,我们的方法在AP上快了127 FPS ,准确度提高了 10.7% 。此外, YOLOV7 在161fps的帧率下有51.4%的AP,而相同AP的PPYOLOE-L只 有 78fps 的 帧 率 。 在 参 数 使 用 方 面 , YOLOV7 比PPYOLOE-L减少了41%。如果我们将推理速度为114 FPS的YOLOV7-X推理速度为99 FPS的YOLOV5-L(R6.1)进行比较,则YOLVO7-X可以将AP提高3.9%。如果将YOLOV7-X与相似规模的YOLOV5-X(R6.1)进行比较,则YOLLOV7-X的推理速度快31fps。此外,在参数和计算量方面,与YOLOV5-X(R6.1)相比,YOLOV7-X减少了22%的参数和8%的计算量,但AP提高了2.2%。
如果我们使用输入分辨率1280来比较Yolov7和Yolor,Yolov7-W6的推理速度比Yolor-P6快8fps,检测率也提高了1%AP。YOLOV7-E6与YOLOV5-X6(R6.1)相比,前者比后者有0.9%的AP增益,参数减少45%,计算量减少63%,推理速度提高47%。YOLOV7-D6的推理速度与YOLOR-E6接近,但AP提高了0.8%。YOLOV7-E6E的推理速度与YOLOR-D6接近,但AP提高了0.3%。
表3显示使用不同的模型扩大规模的模型缩放策略。其中,我们提出的复合缩放方法是将计算块的深度放大1.5倍,将过渡块的宽度放大1.25倍。如果将我们的方法与仅按比例放大宽度的方法相比,我们的方法可以以更少的参数和计算量将AP提高0.5%。如果将我们的方法与仅按比例放大深度的方法相比,我们的方法只需要增加2.9%的参数数量和1.2%的计算量,就可以提高0.2%的AP。从表3中的可以看出 我们提出的复合缩放策略可以更有效地利用参数和计算。
为了验证我们提出的规划重参数化模型的通用性,我们分别在基于连接的模型和基于残差的模型上进行了验证。我们选择用于验证的基于连接的模型和基于残差的模型分别是3-Stacked ELAN和CSPDarknet。
在基于连接模型的实验中,我们重新模型使用RepConv将3x3的卷积层放置在3层堆叠ELAN中的不同位置,详细配置如图6所示,从表4中所示的结果我们看到,所有较高的AP值都出现在我们提出的计划重新参数化模型上。
图6:计划的REPCONV 3-堆叠ELAN。蓝色圆圈是将我们Conv替换为RepConv的位置。
在处理基于残差的模型的实验中,由于原始块不具有3×3条件,根据我们的设计策略,我们额外设计了一个用于实验的反向暗块,其结构如图7所示.由于具有暗块和反向暗块的CSPDarkNet具有完全相同数量的参数和操作,因此进行比较是公平的。实验结果如表5所示 充分确认所提出的计划重新参数化模型对基于残差的模型同样有效。我们发现REPCSPresNet的设计[85]也符合我们的设计方式。
图7:反向CSPDarknet。我们反转了暗块中1x1和3x3卷积层的位置,以符合我们计划的重新参数化模型设计策略。
在辅助头部的辅助损失实验中,我们比较了一般的前导头部和辅助头部的独立标签分配方法,也比较了我们提出的两种前导引导标签分配方法。我们在表6中显示了所有比较结果.根据表中6列出的结果。很明显,任何增加辅助损失的模型都可以显著提高整体性能。此外,在AP、AP50和AP75中,我们提出的引导标签分配策略比一般的独立标签分配策略具有更好的性能。至于我们提出的辅助标签分配策略(Coarse for Assistant)和前导标签分配策略(Fine for Lead Label Assignment),它在所有情况下都获得了最佳结果。在图中8 我们看到了在辅助头和引导头上用不同方法预测的对象图。从图中8 我们发现,如果辅助头部学习引导软标签,将确实有助于引导头部从一致目标中提取剩余信息。
图8:不同方法预测的辅助头和主导头的物性图。
在表中7 我们进一步分析了所提出的由粗到精的引导标签分配方法对辅助磁头解码器的影响。也就是说,我们比较了引入/不引入上界约束的结果。从表中的数字来看,用距离物体中心的距离来约束对象性上界的方法可以获得更好的性能。
由于所提出的YOLOV7使用多个金字塔来联合预测目标检测结果,因此我们可以直接将辅助头部连接到中间层的金字塔中进行训练。这种类型的训练可以弥补在下一级金字塔预测中可能丢失的信息。由于上述原因,我们在提出的E-ELAN架构中设计了部分辅助磁头。我们的方法是在合并基数之前,在其中一组特征图之后连接辅助头,这种连接可以使新生成的特征图的权重不会因为辅助损失而直接更新。我们的设计允许每个金字塔的铅头仍然从不同大小的物体中获取信息。表8显示了使用两种不同方法获得的结果,即从粗到细的引导方法和部分从粗到细的引导方法。显然,部分由粗到细的引线引导方法具有更好的辅助效果。
本文提出了一种新的实时目标检测器的体系结构和相应的模型缩放方法。此外,我们发现目标检测方法的发展过程产生了新的研究课题。在研究过程中,发现了重新参数化模块的替换问题和动态标签分配问题。为了解决这个问题,我们提出了可训练的Bag-ofFreebies方法来提高目标检测的准确性。基于上述内容,我们开发了YOLOV7系列目标检测系统,该系统获得了最先进的结果。
YOLOV7在速度和精度上都超过了所有已知的物体探测器,范围从5 FPS到160 FPS,并且在GPU V100上具有30 FPS或更高的所有已知实时物体探测器中具有最高 的 精 度 56.8%AP Test-Dev/56.8%AP Min-Val 。YOLOV7-E6目标探测器(56 FPS V100,55.9%AP)在速度和精度上比基于变压器的探测器SWIN-L CascadeMask R-CNN(9.2 FPS A100,53.9%AP)高出509%和2%。
基于卷积的检测器ConvNext-XL CascadeMask R-CNN(8.6 FPS A100,55.2%AP)的速度提高了551%和0.7%AP的准确度,以及Yolov7优于:Yolor,Yolox,Scaled-Yolov4,Yolov5,Detr,DeFormable DETR、Dino-5SCALE-R50、Vit-ADAPTER-B和许多其他物体探测器的速度和精度。此外,我们仅在MS COCO数据集上从头开始训练YOLOV7,而不使用任何其他数据集或预先训练的权重。
在COCO数据集上,YOLOV7-E6E(56.8%AP)实时模型的最大准确率比目前最准确的美团/YOLOV6-S模型( 43.1%AP )高出 +13.7%AP 。 我 们 的 YOLOV7-Tiny(35.2%AP,0.4 ms)模型比美团/YOLOV6-N(35.0%AP,0.5 ms)快+25%,在相同条件下,在COCO数据集和batch=32的V100 GPU上,AP高+0.2%。