Bag of freebies、致力于解决数据集中语义分布可能存在偏差的问题。在处理语义分布偏差问题时,一个非常重要的问题是不同类别之间存在数据不平衡的问题。
(1)边界框 (BBox) 回归的目标函数。
(2)IOU loss损失函数
3. 传统IoU loss:将预测的 BBox 区域和 ground truth BBox 区域的覆盖范围考虑在内。 IoU损失计算过程会通过与ground truth执行IoU来触发BBox的四个坐标点的计算,然后将生成的结果连接成一个整体的代码。由于IoU是尺度不变表示,可以解决传统方法计算{x, y, w, h}的L1或L2损失时,损失会随着尺度增加的问题。
4. GIoU loss: 除了覆盖区域之外,还包括对象的形状和方向。他们提出寻找能同时覆盖预测BBox和ground truth BBox的最小面积BBox,并用这个BBox作为分母来代替原来在IoU loss中使用的分母。
5. DIoU loss ,额外考虑了物体中心的距离。
6. CIoU loss ,同时考虑了重叠区域,中心点之间的距离和纵横比,CIoU 可以在 BBox 回归问题上实现更好的收敛速度和准确性。
7. SIoU loss
———————————————————————————————————————————————————————————
Bag of specials、只增加少量推理成本但能显着提高目标检测准确率的插件模块和后处理方法,我们称之为“ bag of specials ”。一般来说,
这些插件模块是为了增强模型中的某些属性,比如扩大感受野,引入注意力机制,或者加强特征整合能力等,而后处理是一种筛选模型预测结果的方法。
用于增强感受野的常见模块有 SPP 、 ASPP和 RFB。
(1)SPP模块:起源于空间金字塔匹配(SPM),SPM最初的方法是将feature map分割成几个d×d相等的块,其中d可以是{1,2,3,…} ,从而形成空间金字塔,然后提取 bag-of-word 特征。 SPP 将 SPM 集成到 CNN中,并使用最大池操作代替bag-of-word 操作。由何凯明等人提出的 SPP 模块。
(2)ASPP [5]模块和改进的SPP模块在操作上的区别主要是从原来的k×k 卷积核,变成多个3×3 kernel size,dilated ratio等于k。
(3)RFB模块是利用多个k×k核的dilated 卷积,dilated ratio等于k,stride等于1,以获得比ASPP更全面的空间覆盖。 RFB 只需花费 7% 的额外推理时间即可将SSD 在 MS COCO 上的AP50提高5.7%。
注意力模块主要分为channel‑wise attention、point wise attention、, 这两种注意力模型的代表是Squeeze‑and‑Excitation (SE) [29]和Spatial Attention Module(SAM)。
(1)SE 模块可以提高 ResNet50 在 ImageNet 图像分类任务中 1% 的 top‑1 准确率,代价是只增加 2% 的计算量,但在GPU 上通常它会增加大约 10% 的推理时间。
(2) 对于SAM,只需要多出0.1%的额外计算,就可以提高图像分类任务上0.5%的top‑1准确率。最重要的是,它几乎不会影响 GPU 上的推理速度。
(3) CBAM
由于 FPN 等多尺度预测方法的流行,许多集成不同特征金字塔的轻量级模块被提出。此类模块包括 SFAM、 ASFF 和 BiFPN 。
(1) SFAM:主要思想是使用 SE 模块对多尺度级联特征图执行通道级重新加权。
(2) ASFF:使用softmax作为point‑wise level re weighting,然后加入不同尺度的feature maps。
(3) BiFPN:提出了多输入加权残差连接来执行scale‑wise level reweighting,然后添加不同尺度的feature maps。
好的激活函数可以让梯度更高效地传播,同时不会造成太多额外的计算开销。
(1)2010年提出提出 ReLU 来实质性解决传统激活函数 tanh() 和 sigmoid() 激活函数中经常遇到的梯度消失问题
(2)LReLU和PReLU的主要目的是解决当输出小于零时ReLU的梯度为零的问题。
(3)ReLU6 和 hard‑Swish,专门为量化网络设计的,为自归一化神经网络工作。
(4)SELU 激活函数被提出来满足目标
(5)Swish 连续可微的激活函数
(6)Mish 连续可微的激活函数
基于深度学习的物体检测常用的后处理方法是NMS,可以用来过滤掉对同一物体预测不好的BBox,只保留响应较高的候选BBox。NMS 尝试改进的方式与优化目标函数的方法很相似。 NMS 提出的原始方法没有考虑上下文信息因此出现如下优化方法:
(1)贪心NUM:加入分类置信度分数作为参考,并根据置信度分数的顺序,按照高分到低分的顺序进行过滤。
(2)SoftNUS:考虑了对象的遮挡可能导致具有 IoU 分数的贪婪 NMS 中的置信度分数下降的问题.
(3) DIoU NMS开发者的思路是在软NMS的基础上,在BBox筛选过程中加入中心点距离信息。
上述后处理方法都没有直接引用捕获的图像特征,因此后续开发的anchor‑free方法不再需要进行后处理。
————————————————————————————————————————————————————————————
为了改进目标检测训练,CNN 通常使用以下内容:
激活函数: ReLU、leaky‑ReLU、parametric‑ReLU、ReLU6、SELU、Swish 或 Mish。( PReLU和SELU难以训练,ReLU6是专门为量化网络设计的,一般不采用)
边界框回归损失: MSE、IoU、GIoU、CIOU,DIOU
数据扩充: CutOut、MixUp、CutMix
正则化方法: DropOut、DropPath 、空间 DropOut、DropBlock
通过均值和方差对网络激活函数进行归一化:批量归一化 (BN)、跨 GPU 批量归一化(CGBN 或 SyncBN、滤波器响应归一化 (FRN) 、交叉迭代批量归一化(CBN)(一个 GPU 的训练,不考虑别的归一化)
跳过连接:残差连接、加权残差连接、多输入加权残差连接或跨阶段部分连接 (CSP)
SGD 、Adam 、余弦退火
BN CBN CmBN
主干负责从输入图像中提取有用的特征。它通常是在大规模图像分类任务(例如 ImageNet)上训练的卷积神经网络 (CNN)。
主干捕获不同尺度的层次特征,在较早的层中提取较低级别的特征(例如,边缘和纹理),在较深的层中提取较高级别的特征(例如,对象部分和语义信息)VGG16 、 ResNet‑50 、 SpineNet、EfficientNet‑B0/B7、 CSPResNeXt50、CSPDarknet53
颈部是连接脊柱和头部的中间部件。它聚合并提炼了骨干网提取的特征,通常侧重于增强不同尺度的空间和语义信息。颈部可能包括额外的卷积层、特征金字塔网络 (FPN) [49]或其他改进特征表示的机制。
附加块Additional blocks:SPP 、 ASPP 、RFB、SPPF、SimSPPF、ASPP、RFB、SPPCSPC、SPPFCSPC、
路径聚合块Path-aggregation blocks:FPN 、 PAN、NAS‑FPN、Fully-connected FPN、BiFPN、ASFF、SFAM、
Tsung-Yi Lin, Piotr Dollár, Ross Girshick, Kaiming He,Bharath Hariharan, and Serge Belongie. Feature pyramid networks for object detection. CVPR, 2017.
Shu Liu, Lu Qi, Haifang Qin, Jianping Shi, and Jiaya Jia. Path aggregation network for instance segmentation. CVPR,2018.
Tan, Mingxing, Ruoming Pang, and Quoc V. Le. “Efficientdet: Scalable and efficient object detection.” Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2020.
He, Kaiming, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. “Spatial pyramid pooling in deep convolutional networks for visual recognition.” IEEE transactions on pattern analysis and machine intelligence 37, no. 9 (2015): 1904-1916.
头部是物体检测器的最后一个组成部分;它负责根据骨干和颈部提供的特征进行预测。它通常由一个或多个特定于任务的子网络组成,这些子网络执行分类、定位,以及最近的实例分割和姿态估计。头部处理颈部提供的特征,为每个候选对象生成预测。最后,诸如非最大抑制 (NMS) 之类的后处理步骤会过滤掉重叠的预测并仅保留最有信心的检测.
聚合的Dense Prediction (one-stage):
基于锚框的(anchor based) : RPN , SSD , YOLO , RetinaNet
非锚框的(anchor free):CornerNet , CenterNet , MatrixNet、, FCOS
分离的Sparse Prediction (two-stage)
基于锚框的(anchor based): Faster R-CNN , R-FCN, Mask R-CNN
非锚框的(anchor free):RepPoints
Hu, J., Shen, L., Albanie, S., Sun, G., & Wu, E. (2017). Squeeze-and-Excitation Networks. IEEE Transactions on Pattern Analysis and Machine Intelligence, 42, 2011-2023.
Zhu, X., Cheng, D., Zhang, Z., Lin, S., & Dai, J. (2019). An Empirical Study of Spatial Attention Mechanisms in Deep Networks. 2019 IEEE/CVF International Conference on Computer Vision (ICCV), 6687-6696.
Yang, L., Zhang, R., Li, L., & Xie, X. (2021). SimAM: A Simple, Parameter-Free Attention Module for Convolutional Neural Networks. International Conference on Machine Learning.
Woo, S., Park, J., Lee, J., & Kweon, I. (2018). CBAM: Convolutional Block Attention Module. European Conference on Computer Vision.
Wang, Q., Wu, B., Zhu, P.F., Li, P., Zuo, W., & Hu, Q. (2019). ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 11531-11539.
https://doi.org/10.48550/arXiv.2103.02907
https://doi.org/10.48550/arXiv.2108.01072
NAM: Normalization-based Attention Module
:CC-Net: https://arxiv.org/abs/1811.11721
: GAM https://arxiv.org/pdf/2112.05561v1.pdf
Global Attention Mechanism: Retain Information to Enhance Channel-Spatial Interactions
南京理工
SHUFFLE ATTENTION FOR DEEP CONVOLUTIONAL NEURAL NETWORKS
Double Attention Networks
Redmon, Joseph et al. “You Only Look Once: Unified, Real-Time Object Detection.” 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (2015): 779-788.
Redmon, Joseph and Ali Farhadi. “YOLO9000: Better, Faster, Stronger.” 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (2016): 6517-6525.
Redmon, Joseph and Ali Farhadi. “YOLOv3: An Incremental Improvement.” ArXiv abs/1804.02767 (2018): n. pag.
Bochkovskiy, Alexey et al. “YOLOv4: Optimal Speed and Accuracy of Object Detection.” ArXiv abs/2004.10934 (2020): n. pag.
特别篇:YOLOv5
Li, C., Li, L., Jiang, H., Weng, K., Geng, Y., Li, L., Ke, Z., Li, Q., Cheng, M., Nie, W., Li, Y., Zhang, B., Liang, Y., Zhou, L., Xu, X., Chu, X., Wei, X., & Wei, X. (2022). YOLOv6: A Single-Stage Object Detection Framework for Industrial Applications. ArXiv, abs/2209.02976.
Wang, C., Bochkovskiy, A., & Liao, H.M. (2022). YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors. ArXiv, abs/2207.02696.
Long, X., Deng, K., Wang, G., Zhang, Y., Dang, Q., Gao, Y., Shen, H., Ren, J., Han, S., Ding, E., & Wen, S. (2020). PP-YOLO: An Effective and Efficient Implementation of Object Detector. ArXiv, abs/2007.12099.
Xu, S., Wang, X., Lv, W., Chang, Q., Cui, C., Deng, K., Wang, G., Dang, Q., Wei, S., Du, Y., & Lai, B. (2022). PP-YOLOE: An evolved version of YOLO. ArXiv, abs/2203.16250.
Ge, Z., Liu, S., Wang, F., Li, Z., & Sun, J. (2021). YOLOX: Exceeding YOLO Series in 2021. ArXiv, abs/2107.08430.
Li, C., Li, L., Geng, Y., Jiang, H., Cheng, M., Zhang, B., Ke, Z., Xu, X., & Chu, X. (2023). YOLOv6 v3.0: A Full-Scale Reloading. ArXiv, abs/2301.05586.
论文话术:
1.For all experiments, we only use one GPU for training, so techniques such as syncBN that optimizes
multiple GPUs are not used.对于所有实验,我们只使用一个 GPU 进行训练,因此没有使用优化多个 GPU 的 syncBN 等技术。
2.消融实验
为不同场景下的工业应用而闻名。
不同尺寸的模型通常通过缩放技术获得。RepVGG 块的简单模型缩放变得不切实际,
为此我们认为小型和大型网络之间的网络设计的优雅一致性是不必要的
基于重新参数化的检测器的量化也需要细致的处理,否则在训练和推理期间由于其异构配置而难以处理性能下降。
可以容忍训练策略的调整,以提高准确率性能但不增加推理成本,例如知识蒸馏。注入了自蒸馏策略,在分类任务和回归任务上执行。同时动态调整来自教师和标签的知识,以帮助学生模型在所有训练阶段,更有效地学习知识。
网络设计、标签分配、损失函数、数据增强、行业便利的改进以及量化和部署.
骨干网络的设计对检测模型的有效性和效率有很大的影响。以前,已经表明多分支网络39 ]通常可以比单路径网络实现更好的分类性能,但它通常伴随着并行性的降低并导致增加推理延迟。相反,像VGG [37]这样的普通单路径网络具有高并行性和较少内存占用的优势,从而提高推理效率。最近在 RepVGG [3] 中,提出了一种结构重新参数化方法,将训练时间多分支拓扑与推理时间平面架构分离,以实现更好的速度精度权衡。
YOLOv5 是一个耦合头,其参数在分类和定位分支之间共享,而其FCOS [41]和 YOLOX [7]中的对应物解耦了两个分支,并且在每个分支中引入了额外的两个 3×3 卷积层以提高性能。在 YOLOv6 中,我们采用混合通道策略来构建更高效的 decoupledhead。
具体来说,我们将中间 3×3 卷积层的数量减少到只有一个。头部的宽度由脊柱和颈部的宽度乘数共同缩放。这些修改进一步降低了计算成本,以实现更低的推理延迟。
Anchor‑free Anchor‑free 检测器因其更好的泛化能力和解码预测结果的简单性而脱颖而出。其后处理的时间成本大大降低。有两种类型的无锚检测器:基于锚点的和基于关键点的[16、在 YOLOv6 中,我们采用了基于锚点的范式,其框回归分支实际上预测了锚点到边界框四个边的距离。
TOOD [5] 中提出,其中设计了分类分数和预测框质量的统一度量。
目标检测包含两个子任务:分类和定位,对应两个损失函数:分类损失和框回归损失。对于每个子任务,近年来都有各种损失函数。
CPU 上使用的实时目标检测器,它们的设计大多基于 MobileNet ShuffleNet或 GhostNet
GPU开发的,大多使用 ResNet 、 DarkNet 或DLA ,然后使用 CSPNet策略优化网络结构
本文的贡献总结如下:(1)我们设计了几种可训练的免费赠品袋方法,使得实时目标检测可以在不增加推理成本的情况下大大提高检测度; (2) 对于目标检测方法的演进,我们发现了两个新问题,即重新参数化的模块如何替换原始模块,以及动态标签作为符号策略如何处理分配给不同的输出层。此外,我们还提出了解决这些问题所带来的困难的方法; (3) 我们提出了可以有效利用参数和计算的实时目标检测器“扩展”和“复合缩放”方法; (4) 我们提出的方法可以有效地减少 state‑of‑the‑art 实时目标检测器的大约 40% 的参数和 50% 的计算量,并且具有更快的推理速度和更高的检测精度。
The contributions of this paper are summarized as fol-lows: (1) we design several trainable bag-of-freebies meth-ods, so that real-time object detection can greatly improvethe detection accuracy without increasing the inferencecost; (2) for the evolution of object detection methods, wefound two new issues, namely how re-parameterized mod-ule replaces original module, and how dynamic label as-signment strategy deals with assignment to different outputlayers. In addition, we also propose methods to address the difficulties arising from these issues; (3) we propose “ex-tend” and “compound scaling” methods for the real-time object detector that can effectively utilize parameters and computation; and (4) the method we proposed can effec-tively reduce about 40% parameters and 50% computation of state-of-the-art real-time object detector, and has faster inference speed and higher detection accuracy.