bigcindy

目标检测经典论文——YOLOv4论文翻译（纯中文版）：YOLOv4: 目标检测最优速度和精度（YOLOv4: Optimal Speed and Accuracy of Object Detecti）

目标检测经典论文翻译汇总：[翻译汇总]

翻译pdf文件下载：[下载地址]

此版为纯中文版，中英文对照版请稳步：[YOLOv4中英文对照版]

YOLOv4: 目标检测最优速度和精度

Alexey Bochkovskiy*

[email protected]

Chien-Yao Wang*

Institute of Information Science

Academia Sinica, Taiwan

[email protected]

Hong-Yuan Mark Liao

Institute of Information Science

Academia Sinica, Taiwan

[email protected]

摘要

有大量的技巧可以提高卷积神经网络（CNN）的精度。需要在大数据集下对这种技巧的组合进行实际测试，并需要对结果进行理论论证。某些技巧仅在某些模型上使用和专门针对某些问题，或只针对小规模的数据集；而一些技巧，如批处理归一化、残差连接等，适用于大多数的模型、任务和数据集。我们假设这种通用的技巧包括加权残差连接（Weighted-Residual-Connection，WRC）、跨小型批量连接(Cross-Stage-Partial-connection，CSP)、Cross mini-Batch Normalization（CmBN）、自对抗训练（Self-adversarial-training，SAT）和Mish激活函数。我们在本文中使用这些新的技巧：WRC、CSP、CmBN、SAT，Mish-activation，Mosaic data augmentation、CmBN、DropBlock正则化和CIoU损失，以及这些技巧的组合，在MS COCO数据集达到目前最好的结果：43.5%的AP（65.7% AP50），在Tesla V100上速度达到约65FPS。源码见：https://github.com/AlexeyAB/darknet.

1. 引言

大多数基于CNN的目标检测器基本上都仅适用于推荐系统。例如：通过城市摄像头寻找免费停车位，它由精确的慢速模型完成，而汽车碰撞警报需要由快速、低精度模型完成。改善实时目标检测器的精度，使其能够不仅可以用于提示生成推荐系统，也可以用于独立的流程管理和减少人力投入。传统GPU使得目标检测可以以实惠的价格运行。最准确的现代神经网络不是实时运行的，需要大量的训练的GPU与大的mini bacth size。我们通过创建一个CNN来解决这样的问题，在传统的GPU上进行实时操作，而对于这些训练只需要一个传统的GPU。

这研究的主要目的是设计一个可以在生产环境快速运行的目标检测器，并且进行并行计算优化，而不是较低的计算量理论指标（BFLOP）。我们希望所设计的目标易于训练和使用。例如，任何使用传统GPU进行训练和测试的人都可以实现实时、高质量、有说服力的目标检测结果，YOLOv4的结果如图1所示。现将我们的成果总结如下：

1. 我们构建了一个快速、强大的模型，这使得大家都可以使用1080 Ti或2080 Ti GPU来训练一个超快、准确的目标检测器。

2. 我们验证了最先进的Bag-of-Freebies和Bag-of-Specials方法在目标检测训练期间的影响。

3. 我们修改了最先进的方法，使其变得更高效并且适合单GPU训练，包括CBN[89]、PAN[49]、SAM[85]等。

图1：本文提出的YOLOv4和其他先进的目标检测器比较结果。YOLOv4与EfficientDet相比精度差不多相同，但速度比其快两倍。YOLOv3的AP值和FPS都分别提升了10%和12%。

2. 相关工作

2.1. 目标检测模型

现代目标检测器通常由两部分组成：ImageNet上预训练的backbone和用于预测类别和BBOX的检测器head。对于那些在GPU平台上运行的探测器，其backbone可以是VGG[68]，ResNet[26]、ResNeXt[86]、或DenseNet [30]。对于那些运行在CPU平台上的检测器形式，它们的backbone可以是SqueezeNet[31]、MobileNet[28，66，27，74]，或ShuffleNet[97，53]。至于head部分，它通常被分两类：即一阶段（one-stage）和两阶段（two-stage）的目标检测器。最有代表性的两阶段检测器是R-CNN[19]系列模型，包括Fast R-CNN[18]、Faster R-CNN[64]、R-FCN[9]和Libra R-CNN[58]。也可以在两阶段目标检测器中不用anchor的目标检测器，如RepPoints[87]。对于一阶段检测器来说，最代表性的有YOLO[61、62、63]、SSD[50]和RetinaNet[45]。近几年来，也开发了许多不使用anchor的一阶段目标检测器。这类检测器有CenterNet[13]、CornerNet[37，38]、FCOS[78]等。近年来开发检测器往往会在backbone和head之间插入一些层，这些层用于收集不同阶段的特征图。我们可以称它为检测器的neck。通常情况下neck是由几个自下而上或自上而下的通路（paths）组成。具有这种结构的网络包括Feature Pyramid Network (FPN)[44]、Path Aggregation（PAN）[49]、BiFPN[77]和NAS-FPN[17]。除上述模型外，有的研究者注重于直接重新构建backbone（DetNet[43]、DetNAS[7]）或重新构建整个模型（SpineNet[12]、HitDetector[20])，并用于目标检测任务。

总结起来，通常目标检测模型由以下一些部分组成：

输入：图像、图像块、图像金字塔
Backbones：VGG16[68]、ResNet-50[26]、SpineNet[12]、EfficientNet-B0/B7[75]、CSPResNeXt50[81]、CSPDarknet53[81]
Neck:
Additional blocks: SPP [25], ASPP [5], RFB[47], SAM [85]
Path-aggregation blocks: FPN [44], PAN [49],NAS-FPN [17], Fully-connected FPN, BiFPN[77], ASFF [48], SFAM [98]
Heads:
Dense Prediction (one-stage):RPN [64], SSD [50], YOLO [61], RetinaNet[45] (anchor based) CornerNet [37], CenterNet [13], MatrixNet[60], FCOS [78] (anchor free)
Sparse Prediction (two-stage):Faster R-CNN [64], R-FCN [9], Mask R-CNN [23] (anchor based) RepPoints [87] (anchor free)

图2：目标检测器。

2.2. Bag of freebies

通常情况下，传统的目标检测器的训练都是在线下进行的。因此，研究者们总是喜欢利用纯下训练的好处而研究更好的训练方法，使得目标检测器在不增加测试成本的情况下达到更好的精度。我们将这些只需改变训练策略或只增加训练成本的方法称为bag of freebies。目标检测经常采用并符合这个定义的就是数据增强。数据增强的目的是增加输入图像的多样性，从而使设计的目标检测模型对来自不同环境的图片具有较高的鲁棒性。比如photometric distortions和geometric distortions是两种常用的数据增强方法，它们对检测任务肯定是有好处的。使用photometric distortions时，我们调整图像的亮度、对比度、色调、饱和度和噪声。使用geometric distortions时，我们对图像添加随机缩放、裁剪、翻转和旋转。

上面提到的数据增强方法都是逐像素的调整，以及调整区域的所有原始像素信息会被保留下来。此外，一些从事数据增强工作的研究者把重点放在了模拟目标遮挡问题上。他们在图像分类和目标检测取得了好的结果。例如，随机擦除[100]和CutOut[11]可以随机的选取图像中的矩形区域，并填充随机值或零的互补值。至于hide-and-seek [69]和grid mask [6]，他们随机或均匀地选择图像中的多个矩形区域，并将其全部像素值替换为零值。如果将类似的概念应用到特征图中，就是DropOut[71]、DropConnect[80]和DropBlock[16]方法。此外，有研究者提出了将多张图像放在一起从而实现数据增强的方法。例如，MixUp[92]将两张图像以不同系数的进行相乘和叠加，并根据叠加比例调整标签。对于CutMix[91]，它通过覆盖裁剪后的图像到其他图像的矩形区域，并根据混合区的大小调整标签。除了以上提到的方法，网络迁移GAN[15]也常常用于数据增强，这种方法可以有效地减少CNN学习到的纹理偏差。

与上面提出的各种方法不同，其他的一些Bag of freebies方法是专门解决可能有偏差的数据集中语义分布问题。在处理语义分布偏差的问题上，有一个很重要的问题是不同类别之间的数据不平衡，而两阶段检测器处理这个问题通常是通过hard negative example mining [72]或online hard example mining [67]。但example mining method不适用于一阶段的目标检测器，因为这种检测器属于密集预测架构。因此，Linet al.[45]提出了focal loss解决数据不平衡问题。另一个很重要的问题是，one-hot编码很难表达出类与类之间关联程度。这种表示方法（one-hot）通常在打标签的时候使用。在[73]中提出的label smoothing方案是将硬标签转化为软标签进行训练，可以使模型更具有鲁棒性。为了获得更好的软标签，Islam等[33]引入知识蒸馏的概念并用于设计标签细化网络。

最后一个bag of freebies是边界框(BBox)回归的目标函数。检测器通常使用MSE损失函数对BBOX的中心点和宽高进行回归，例如{xcenter, ycenter, w, h}，或者是回归预测左上角的点和右下角的点，例如{xtop_left, ytop_left, xbottom_right, ybottom_right}。对于基于anchor的方法，它会估算出对应的偏移量，例如{ x center offset , y center offset , w offset , h offset } and { x top left offset , y top left offset , x bottom right offset , y bottom right offset }。但是，如果要直接估计BBOX每个点的坐标值，就要将这些点作为独立变量，但实际上未考虑对象本身的完整性。为了使这一问题得到更好的解决，一些研究人员最近提出了IoU损失[90]，其考虑了预测BBox面积和ground truth BBox面积的覆盖度。IoU损失计算过程将通过计算预测值与真实值的IoU，然后将生成的结果连接成一个整体代码，最终通过计算获得BBox的四个坐标值。因为IOU是一个与尺度无关的表示，它可以解决当传统方法计算{x，y，w，h}的l1或l2损失时，损失会随着尺度增加而增大的问题。最近，一些研究人员不断改善IOU损失。例如GIoU损失[65]除覆盖面积也考虑物体的形状和方向。他们建议找到能同时覆盖预测BBOX和真实值BBox的最小面积BBOX，并使用这个BBox作为分母并取代原先IoU损失的分母。至于DIoU损失[99]，它另外还包括考虑物体中心的距离，另一方面CIoU损失[99]同时考虑到重叠面积和中心点之间的距离以及长宽比。CIoU可以在BBox回归问题上获得了更好的收敛速度和精度。

2.3. Bag of specials

对于那些只会增加少量的推理成本的插入模块和后期处理方法，但可显著提高目标检测的准确性，我们称其为“Bag of specials”。一般来说,这些插入模块是用来增强模型的某些属性的，如扩大感受野、引入注意力机制或增强特征整合能力等，而后处理是一种筛选模型预测结果方法。

可用于扩大感受野的常用模块有SPP[25]、ASPP[5]和RFB[47]。SPP模块源于Spatial Pyramid Match（SPM）[39]，而SPMs的原始方法是将特征图分割成几个d×d相等大小的块，其中d可以是{1,2,3,…}，从而形成空间金字塔，然后提取bag-of-word特征。SPP将SPM集成到CNN并使用max-pooling操作而不是bag-of-word运算。由于He等人提出的SPP模块[25]会输出一维特征向量，因此不可能应用于全卷积网络（FCN）中。因此，在YOLOv3的设计[63]中，Redmon和Farhadi改进了YOLOv3的设计，将SPP模块修改为融合k×k池化核的最大池化输出，其中k = {1,5,9,13}，步长等于1。在这种设计下，一个相对较大的k×k有效地增加了backbone的感受野。增加了改进版的SPP模块后，YOLOv3-608在MS COCO上AP50提升了2.7%，但要付出0.5%的额外计算成本。ASPP[5]模块和改进后的SPP模块在操作上的区别是主要由原来的步长1、核大小为k×k的最大池化到几个3×3核的最大池化，缩放比例为k，步长1的空洞卷积。RFB模块是使用几个k×k核的空洞卷积，空洞率为k，步长为1以得到比ASPP更全面的空间覆盖率。RFB[47]只需额外增加7%推理时间却在MS COCO上将SSD的AP50提升5.7%。

在目标检测中经常使用的注意力模块，通常分为channel-wise注意力和point-wise注意力，具有代表性的两个模型分别是Squeeze-and-Excitation (SE) [29]和Spatial Attention Module (SAM) [85]。虽然SE模块可以将ResNet50在ImageNet图像分类任务上的top-1准确率提升1%，而计算量仅仅增加2%，但是在GPU上推理时间通常会增加10％左右，所以更适合用于移动端设备。但对于SAM，它只需要额外0.1%的计算量就可以将ResNet50-SE在ImageNet图像分类任务上的Top-1精度提高0.5%。最重要的是，它完全不会影响GPU上推理的速度。

在特征融合方面，早期的做法是使用快捷连接（skip connection）[51]或超列（hyper-column）[22]将低级物理特征融合成高级语义特征。由于FPN等多尺度预测方法越来越流行，许多集成了不同的特征金字塔特征的轻量级模块被提了出来。这类模块包括SFAM[98]、ASFF[48]和BiFPN[77]。SFAM的主要思想是利用SE模块对多尺度特征图在通道方向上重新加权拼接特征图。至于ASFF，它用softmax进行point-wise水平的重新加权，然后在不同尺度添加特征图。在BiFPN中，多输入加权残差连接进行多尺度水平的重新加权，然后在不同尺度上添加特征图。

在深度学习的研究中，有人注重于寻找好的激活函数。一个好的激活函数可以使梯度更有效地传播，同时也不会造成太多的额外计算成本。2010年，Nair和Hinton [56]提出了ReLU来实质性地解决梯度消失的问题，这也是tanh和sigmoid激活函数经常遇到的问题。随后便提出了LReLU[54]、PReLU[24]、ReLU6[28]、Scaled Exponential Linear Unit (SELU)[35]、Swish[59]、hard-Swish[27]和Mish[55]等，这些激活函数也用来解决梯度消失问题的。LReLU和PReLU的主要目的是为了解决当ReLU输出小于零时梯度为零的问题。至于ReLU6和Hard-Swish，它们是专为量化网络（quantization networks）设计。对于自归一化的神经网络， SELU激活函数的提出满足了这一目的。需要注意的是，Swish和Mish都是连续可微的激活函数。

基于深度学习的目标检测中常用的后处理方法是NMS（非极大值抑制），它可以用于过滤那些对相同目标预测较差的边界框，并且只保留响应较高的候选边界框。NMS努力改进的方式与目标函数的优化方法一致。NMS原始方法没有考虑背景信息，所以Girshick等人[19]在R-CNN中增加了分类置信度分数作为参考，并根据信任分数的顺序，从高分到低分的顺序执行贪婪NMS。至于soft NMS[1]，它关注了这样一个问题，即目标遮挡可能会导致基于IoU分数的贪婪NMS的置信度得分降低。基于DIoU的NMS[99]的开发者思路是在soft NMS基础上将中心点距离信息增加到BBox筛选的过程中。值得注意的是，由于上述后处理方法都没有直接涉及指提取特征图，所以在不使用anchor的方法后续开发中不再需要进行后处理。

3. 方法

基本目的是生产系统中神经网络的快速运行速度和并行计算的优化，而不是低计算量理论指标（BFLOP）。我们提出了两种实时神经网络：

对于GPU，我们在卷积层使用少量组（1-8）：CSPResNeXt50 / CSPDarknet53
对于VPU，我们使用分组卷积，但避免使用Squeeze-and-excitement (SE) blocks。具体包括以下模型：EfficientNet-lite / MixNet [76] / GhostNet[21] / MobileNetV3

3.1架构选择

我们的目的是在输入网络分辨率、卷积层数目、参数数量（卷积核2 * 卷积核个数 * 通道数/组数）和每层输出个数（过滤器）之间找到最佳平衡。例如我们的许多研究表明CSPResNext50在ILSVRC2012(ImageNet)数据集上的目标分类效果比CSPDarknet53好很多。然而，CSPDarknet53在MS COCO数据集上的目标检测效果比CSPResNext50更好。

下一个目标是选择额外的blocks以扩大感受野，从不同级别的backbone中选择最佳的参数组合方法以达到不同水平的检测效果，例如FPN、PAN、ASFF、BiFPN。

一个最佳的分类参考模型并不总是最佳的检测器。与分类器相比，检测器需要满足以下几点：

更大的输入网络尺寸（分辨率）——用于检测多个小尺寸目标
更多的层数——获得更大的感受野以便能适应网络输入尺寸的增加
更多参数——获得更大的模型容量以便在单个图像中检测多个大小不同的物体。

我们可以假设选择的backbone模型具有较大的感受野（具有很多3×3卷积层）和大量的参数。表1显示了CSPResNeXt50，CSPDarknet53和EfficientNet B3的相关信息。CSPResNext50仅包含16个3×3卷积层、425×425感受野大小和20.6M个参数，而CSPDarknet53包含29个3×3卷积、725×725感受野大小和27.6M个参数。这种理论上的证明，加上我们大量的实验表明：CSPDarknet53是这两个神经网络中最佳的检测器backbone模型。

表1：图像分类神经网络的参数。

不同大小的感受野的影响总结如下：

最大目标尺寸——允许观察到整个目标
最大网络尺寸——允许观察到目标周围的上下文
超出网络尺寸——增加图像像素点与最终激活值之间的连接数

我们将SPP模块添加到CSPDarknet53上，因为它大大增加了感受野，分离出最重要的context特征，然而几乎不会导致网络运行速度降低。我们使用PANet作为来自不同检测器水平不同backbone的参数组合方法而不是YOLOv3中使用的FPN。

最后，对于YOLOv4架构，我们选择CSPDarknet53为backbone、SPP额外添加模块、PANet path-aggregation为neck、YOLOv3（基于anchor的）为head。

之后，我们将计划大幅扩展Bag of Freebies（BoF）的内容到检测器架构中，这些扩展的模块理论上应该可以解决一些问题并增加检测器准确性，并通过实验的方式按顺序检查每个功能的影响。

我们没有使用跨GPU的批标准化（CGBN或SyncBN）或昂贵的专用设备。这使得任何人都可用常规图形处理器，例如GTX 1080Ti或RTX2080Ti，复现我们最新的成果。

3.2. BoF 和BoS的选择

为了改善目标检测的训练，CNN通常会使用如下方法或结构：

激活函数: ReLU、leaky-ReLU、parametric-ReLU、ReLU6、SELU、Swish、Mish
边界框损失回归：MSE、IoU、GIoU、CIoU、DIoU
数据增强：CutOut、MixUp、CutMix
正则化方法：DropOut、DropPath[36]、Spatial DropOut [79]、DropBlock
通过均值和方差标准化网络激活函数输出值：Batch Normalization (BN) [32]、Cross-GPU Batch Normalization (CGBN or SyncBN)[93]、Filter Response Normalization (FRN) [70]、Cross-Iteration Batch Normalization (CBN) [89]
快捷连接（Skip-connections）：残差连接、加权残差连接、多输入加权残差连接、Cross stage partial connections (CSP)

至于训练激活函数，由于PRELU和SELU的训练难度较大，而ReLU6是专门为量化网络而设计的，因此我们从候选列表中删除这几个激活函数。至于正则化方法，发表了DropBlock的人将他们的方法与其他方法进行了细致的比较，他们的正则化方法完胜。因此，我们毫不犹豫地选择了DropBlock作为我们正则化方法。至于归一化（或标准化）方法的选择，由于我们只关注在仅使用一个GPU上的训练策略，因此不会考虑使用syncBN。

3.3 额外的改进

为了使所设计的检测器更适合于在单GPU上进行训练，我们做了如下额外的设计和改进：

我们引入了一种新的数据增强方法Mosaic和自对抗训练方法（Self-Adversarial Training，SAT）
我们使用遗传算法选择最优超参数
我们对现在方法做了一些修改，使得我们的设计更适合于高效的训练和检测——修改的SAM、修改的PAN和Cross mini-Batch Normalization (CmBN).

Mosaic是一个混合了4个训练图像的新的数据增强方法。由于混合了4个不同的contexts，而CutMix只混合了2个输入图像。这使得可以检测到目标正常contexts之外的目标。此外，批标准化从每层上4个不同的图像计算激活值统计数据。这显著地减少了对大batch size的需要。

图3：数据增强的一个新方法马赛克（Mosaic）。

自对抗训练（Self-Adversarial Training，SAT）也是一种新的数据增强技术，以2个前向反向阶段的方式进行操作。在第一个阶段，神经网络改变的是原始图像而不是的网络权重。这样神经网络对其自身进行对抗性攻击，改变原始图像并创造出图像上没有目标的假象。在第2个阶段中，通过正常方式在修改的图像上进行目标检测对神经网络进行训练。

如图4所示，CmBN是CBN的修改版，定义为Cross mini-Batch Normalization(CmBN)。其只收集单个批次内mini-batches之间的统计数据。

图4：Cross mini-Batch Normalization。

如图5所示，我们将SAM从spatial-wise attention修改为point-wise attention，如图6所示，我们将PAN的快捷连接改为拼接。

图5：修改的SAM。

图6：修改的PAN。

3.4. YOLOv4

本节，我们将详细介绍YOLOv4。

YOLOv4包括：

Backbone：CSPDarknet53 [81]
Neck：SPP [25]、PAN [49]
Head：YOLOv3 [63]

YOLO v4使用:

Bag of Freebies (BoF) for backbone：CutMix and Mosaic数据增强、DropBlock正则化、Class label smoothing
Bag of Specials (BoS) for backbone：Mish激活函数、Cross-stage partial connections (CSP)、多输入加权残差连接 (MiWRC)
Bag of Freebies (BoF) for detector: CIoU损失、CmBN、DropBlock正则化、Mosaic数据增强、自对抗训练、Eliminate grid sensitivity、Using multiple anchors for a single ground truth、Cosine annealing scheduler [52]、优化超参数、Random training shapes
Bag of Specials (BoS) for detector：Mish激活函数、SPP-block、SAM-block、PAN path-aggregation block、DIoU-NMS

4. 实验

我们测试了不同的训练改进在ImageNet数据集分类任务（ILSVRC 2012年val）和MS COCO（test-dev 2017）数据集检测上的准确性。

4.1实验设置

在ImageNet的图像分类实验中，默认超参数如下：训练步数为8百万次；批大小和mini批大小分别为128和32；polynomial decay learning rate scheduling strategy初始学习率为0.1的多项式衰减调度策略；warm-up步数为1000；动量和衰减权重分别设定为0.9和0.005。我们所有的BoS实验都使用的默认超参数设置，而在BoF实验中，我们增加了额外50%的训练步数。在BoF实验中，我们验证了MixUp、CutMix、Mosaic、Bluring数据增强和标签smoothing正则化方法。在BoS实验中我们比较了LReLU、Swish和Mish激活函数的效果。所有实验都使用用1080Ti或2080 Ti GPU进行了训练。

在MS COCO目标检测实验中，默认参数如下：训练步数为500500；采用初始学习率为0.01的学习率衰减策略，并分别在40万步和45万步时乘以系数0.1。动量和权重衰减分别设置为0.9和0.0005。所有的架构使用单个GPU进行了多尺度训练，批大小为64，mini批大小为8或4，具体取决于模型架构和GPU显存容量限制。除了使用使用遗传算法进行超参数搜索外，所有其他实验均使用默认设置。YOLOv3-SPP使用的遗传算法实验使用GIoU损失进行训练，对min-val 5k数据集进行了300轮的搜索。遗传算法采用搜索学习率为0.00261、动量为0.949，真实值的IoU阈值设置为0.213，损失正则化为0.07。我们也经验证了大量的BoF，包括grid sensitivity elimination、马赛克数据增强、IoU阈值、遗传算法、类别标签smoothing、跨小批量标准化、自对抗训练、cosine annealing scheduler、dynamic mini-batch size、DropBlock、Optimized Anchors、不同类型的IoU损失。我们也对各种BoS进行了实验，包括Mish、SPP、SAM、RFB、BiFPN、BiFPN和Gaussian YOLO[8]。对于所有的实验，我们只使用一个GPU进行了训练，因此诸如syncBN可以优化多GPU训练的技术并没有使用。

4.2. 不同技巧对分类器训练的影响

首先，我们研究了不同技巧对分类器训练的影响；具体而言，研究了类别标签smoothing的影响，如图7所示双边模糊（bilateral blurring）、MixUp、CutMix和马赛克等不同数据增强的影响，以及Leaky-ReLU（默认值）、Swish和Mish等不同激活函数的影响。

图7：不同的数据增强方法。

如表2所示，我们的实验引入了以下技巧从而提高了精度，如CutMix和马赛克数据增强、类别标签smoothing和Mish激活函数。因此，我们的分类器训练的BoF-backbone (Bag of Freebies)包括CutMix和Mosaic数据增强、类别标签smoothing。除此之外，如表2和表3所示我们还使用了Mish激活函数作为互补选项。

表2：BoF和Mish对CSPResNeXt-50分类器精度的影响

表3：BoF和Mish对CSPDarknet-53分类器精度的影响

4.3 不同技巧对检测训练的影响

如表4所示，深入研究了不同Bag-of-Freebies (BoF-detector)在检测器训练中的影响。我们通过研究不影响FPS的同时能提升精度的技巧，显著扩展了BOF列表的内容，具体如下：

S：消除了格子灵敏度，在YOLOv3通过方程bx=σ(tx)+cx, by=σ(ty)+cy计算对象坐标，其中cx和cy始终为整数，因此，当bx值接近cx或cx+1时需要极高的tx绝对值。我们通过将sigmoid乘以超过1.0的因子来解决此问题，从而消除了没有检测到目标格子的影响。
M：马赛克数据增强——训练时使用4张图像的马赛克结果而不是单张图像
IT：IoU阈值——针对一个真值边界框使用多个anchor，Iou（真值，anchor）>IoU阈值
GA：遗传算法——在网络训练最初10%的时间内使用遗传算法筛选最优超参数
LS：类别标签smoothing——对sigmoid激活函数结果使用类别标签smoothing
CBN：CmBN——使用Cross mini-Batch Normalization在整个小批量内收集统计数据，而不是在单个mini小批量收集统计数据
CA：Cosine annealing scheduler——在正弦训练中改变学习率
DM：Dynamic mini-batch size——采用随机训练形状时，对于小分辨率的输入自动增大mini-batch的大小
OA：最优化Anchors——使用最优化anchor对512×512的网络分辨率进行训练
GIoU、CIoU、DIoU、MSE——边界框使用不同的损失算法

表4：Bag-of-Freebies的消融研究(CSPResNeXt50-PANet-SPP，512x512)。

如表5所示，进一步的研究涉及了不同的Bag-of-Specials(BoS-detector)对检测器训练精度的影响，包括PAN、RFB、SAM、Gaussian YOLO(G)和ASFF。在我们的实验中，当使用SPP、PAN和SAM时，检测器获得最佳性能。

表5：对Bag-of-Specials进行消融研究（尺寸512x512）。

4.4 不同backbone和预训练权重对检测器训练的影响

如表6所示，我们进一步研究不同backbone对检测器精度的影响。我们注意到具有最佳的分类精度的模型架构并不总是具有最好的检测精度。

表6：使用不同分类器预训练的权重进行检测器训练（所有模型中所有其它参数都是相同的）。

首先，虽然使用不同特征的CSPResNeXt50模型的分类准确率高于 CSPDarknet53模型，但是CSPDarknet53模型在目标检测方面具有更高的精度。

其次，CSPResNeXt50分类器的训练使用BoF和Mish后提高了其分类精度，但将这些预先训练的权重应用到检测器训练时则降低了检测器的精度。然而，CSPDarknet53分类器的训练时使用BoF和Mish均提高了分类器和检测器的精度，检测器使用了分类器预训练的权重。最终的结果是， CSPDarknet53比CSPResNeXt50更适合于做检测器的backbone。

我们观察到，CSPDarknet53模型由于各种改进体现出更大的能力来提高检测器的精度。

4.5 不同的mini-batch size对检测器训练的影响

最后，我们分析了模型经过不同mini-batch大小的训练的结果，结果图表7所示。从表7所示的结果来看，我们发现训练时加入BoF和BoS后mini-batch大小几乎对检测器性能没有任何影响。这一结果表明，引入BoF和BoS后将不再需要使用昂贵的GPU来进行训练。换句话说，任何人都可以只使用一个传统的GPU来训练一个优秀的检测器。

表7：使用不同mini-batch大小进行检测器训练。

5. 结果

如图8所示为我们的模型与其他最先进的检测器的比较结果。我们的YOLOv4位于帕累托最优曲线上，并且在速度和精度方面都超过最快和最精确的检测器。

图8：不同目标检测器速度和精度的比较。（一些文章指出，它们的检测器的FPS仅基于某一种GPU：Maxwell/Pascal/Volta）。

由于不同的方法在进行推理时间验证的时候使用了不同架构的GPU，我们让YOLOv4运行在Maxwell、Pascal和Volta等常用的GPU上，并与其他最新技术进行了比较。表8列出了使用Maxwell GPU时帧率的比较结果，具体型号可以是GTX Titan X (Maxwell)或Tesla M40 GPU）。表9列出了使用Pascal GPU时帧率的比较结果，具体型号可以是Titan X（Pascal）、Titan Xp、GTX 1080 Ti或Tesla P100 GPU。表10列出使用Volta GPU时帧率的比较结果，具体型号可以是Titan Volta或Tesla V100 GPU。

表8：不同目标检测器在MS COCO数据集上的速度和准确性的比较（test-dev 2017）。（FPS 30或更高的实时检测器突出显示。我们在batch=1、不使用tensorRT的情况下对结果进行了比较。）（译者注：使用Maxwell GPU）

表9：不同目标检测器在MS COCO数据集上的速度和准确性的比较（test-dev 2017）。（FPS 30或更高的实时检测器突出显示。我们在batch=1、不使用tensorRT的情况下对结果进行了比较。）（译者注：使用Pascal GPU）

表10：不同目标检测器在MS COCO数据集上的速度和准确性的比较（test-dev 2017）。（FPS 30或更高的实时检测器突出显示。我们在batch=1、不使用tensorRT的情况下对结果进行了比较。）（译者注：使用Volta GPU）

6. 结论

我们提供了一个最先进的检测器，相比于其它所有可用、可替代的检测器其速度更快（FPS）、更准确（MS COCO AP50…95和AP50）。该检测器可以在8-16GB-VRAM的传统GPU上训练和使用，这使得它能够被广泛使用。基于一阶段anchor原始概念的检测测器已经被证实是可行的。我们已经验证了大量方法，并选择使用其中一些方法以提高分类器和检测器的准确性。这些方法可以用作未来研究和开发的最佳实践。

7. 致谢

作者们感谢Glenn Jocher关于马赛克数据增强、使用遗传算法进行超参数筛选和解决格子敏感问题的想法，https://github.com/ ultralytics/yolov3。

参考文献

[1] Navaneeth Bodla, Bharat Singh, Rama Chellappa, and Larry S Davis. Soft-NMS–improving object detection with one line of code. In Proceedings of the IEEE International Conference on Computer Vision (ICCV), pages 5561–5569, 2017. 4

[2] Zhaowei Cai and Nuno Vasconcelos. Cascade R-CNN: Delving into high quality object detection. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 6154–6162, 2018. 12

[3] Jiale Cao, Yanwei Pang, Jungong Han, and Xuelong Li. Hierarchical shot detector. In Proceedings of the IEEE International Conference on Computer Vision (ICCV), pages 9705–9714, 2019. 12

[4] Ping Chao, Chao-Yang Kao, Yu-Shan Ruan, Chien-Hsiang Huang, and Youn-Long Lin. HarDNet: A low memory trafﬁc network. Proceedings of the IEEE International Conference on Computer Vision (ICCV), 2019. 13

[5] Liang-Chieh Chen, George Papandreou, Iasonas Kokkinos, Kevin Murphy, and Alan L Yuille. DeepLab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs. IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 40(4):834–848, 2017. 2, 4

[6] Pengguang Chen. GridMask data augmentation. arXiv preprint arXiv:2001.04086, 2020. 3

[7] Yukang Chen, Tong Yang, Xiangyu Zhang, Gaofeng Meng, Xinyu Xiao, and Jian Sun. DetNAS: Backbone search for object detection. In Advances in Neural Information Processing Systems (NeurIPS), pages 6638–6648, 2019. 2

[8] Jiwoong Choi, Dayoung Chun, Hyun Kim, and Hyuk-Jae Lee. Gaussian YOLOv3: An accurate and fast object detector using localization uncertainty for autonomous driving. In Proceedings of the IEEE International Conference on Computer Vision (ICCV), pages 502–511, 2019. 7

[9] Jifeng Dai, Yi Li, Kaiming He, and Jian Sun. R-FCN: Object detection via region-based fully convolutional networks. In Advances in Neural Information Processing Systems (NIPS), pages 379–387, 2016. 2

[10] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, and Li Fei-Fei. ImageNet: A large-scale hierarchical image database. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 248–255, 2009. 5

[11] Terrance DeVries and Graham W Taylor. Improved regularization of convolutional neural networks with CutOut. arXiv preprint arXiv:1708.04552, 2017. 3

[12] Xianzhi Du, Tsung-Yi Lin, Pengchong Jin, Golnaz Ghiasi, Mingxing Tan, Yin Cui, Quoc V Le, and Xiaodan Song. SpineNet: Learning scale-permuted backbone for recognition and localization. arXiv preprint arXiv:1912.05027, 2019. 2

[13] Kaiwen Duan, Song Bai, Lingxi Xie, Honggang Qi, Qingming Huang, and Qi Tian. CenterNet: Keypoint triplets for object detection. In Proceedings of the IEEE International Conference on Computer Vision (ICCV), pages 6569–6578, 2019. 2, 12

[14] Cheng-Yang Fu, Mykhailo Shvets, and Alexander C Berg. RetinaMask: Learning to predict masks improves state-of-the-art single-shot detection for free. arXiv preprint arXiv:1901.03353, 2019. 12

[15] Robert Geirhos, Patricia Rubisch, Claudio Michaelis, Matthias Bethge, Felix A Wichmann, and Wieland Brendel. ImageNet-trained cnns are biased towards texture; increasing shape bias improves accuracy and robustness. In International Conference on Learning Representations (ICLR), 2019. 3

[16] Golnaz Ghiasi, Tsung-Yi Lin, and Quoc V Le. DropBlock: A regularization method for convolutional networks. In Advances in Neural Information Processing Systems (NIPS), pages 10727–10737, 2018. 3

[17] Golnaz Ghiasi, Tsung-Yi Lin, and Quoc V Le. NAS-FPN: Learning scalable feature pyramid architecture for object detection. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 70367045, 2019. 2, 13

[18] Ross Girshick. Fast R-CNN. In Proceedings of the IEEE International Conference on Computer Vision (ICCV), pages 1440–1448, 2015. 2

[19] Ross Girshick, Jeff Donahue, Trevor Darrell, and Jitendra Malik. Rich feature hierarchies for accurate object detection and semantic segmentation. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 580–587, 2014. 2, 4

[20] Jianyuan Guo, Kai Han, Yunhe Wang, Chao Zhang, Zhaohui Yang, Han Wu, Xinghao Chen, and Chang Xu. HitDetector: Hierarchical trinity architecture search for object detection. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2020. 2

[21] Kai Han, Yunhe Wang, Qi Tian, Jianyuan Guo, Chunjing Xu, and Chang Xu. GhostNet: More features from cheap operations. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2020. 5

[22] Bharath Hariharan, Pablo Arbel´aez, Ross Girshick, and Jitendra Malik. Hypercolumns for object segmentation and ﬁne-grained localization. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 447–456, 2015. 4

[23] Kaiming He, Georgia Gkioxari, Piotr Doll´ar, and Ross Girshick. Mask R-CNN. In Proceedings of the IEEE International Conference on Computer Vision (ICCV), pages 2961–2969, 2017. 2

[24] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Delving deep into rectiﬁers: Surpassing human-level performance on ImageNet classiﬁcation. In Proceedings of the IEEE International Conference on Computer Vision (ICCV), pages 1026–1034, 2015. 4

[25] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Spatial pyramid pooling in deep convolutional networks for visual recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 37(9):1904–1916, 2015. 2, 4, 7

[26] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. In Proceed-ings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 770–778, 2016. 2

[27] Andrew Howard, Mark Sandler, Grace Chu, Liang-Chieh Chen, Bo Chen, Mingxing Tan, Weijun Wang, Yukun Zhu, Ruoming Pang, Vijay Vasudevan, et al. Searching for MobileNetV3. In Proceedings of the IEEE International Conference on Computer Vision (ICCV), 2019. 2, 4

[28] Andrew G Howard, Menglong Zhu, Bo Chen, Dmitry Kalenichenko, Weijun Wang, Tobias Weyand, Marco Andreetto, and Hartwig Adam. MobileNets: Efﬁcient convolutional neural networks for mobile vision applications. arXiv preprint arXiv:1704.04861, 2017. 2, 4

[29] Jie Hu, Li Shen, and Gang Sun. Squeeze-and-excitation networks. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 71327141, 2018. 4

[30] Gao Huang, Zhuang Liu, Laurens Van Der Maaten, and Kilian Q Weinberger. Densely connected convolutional networks. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 47004708, 2017. 2

[31] Forrest N Iandola, Song Han, Matthew W Moskewicz, Khalid Ashraf, William J Dally, and Kurt Keutzer. SqueezeNet: AlexNet-level accuracy with 50x fewer parameters and¡ 0.5 MB model size. arXiv preprint arXiv:1602.07360, 2016. 2

[32] Sergey Ioffe and Christian Szegedy. Batch normalization: Accelerating deep network training by reducing internal covariate shift. arXiv preprint arXiv:1502.03167, 2015. 6

[33] Md Amirul Islam, Shujon Naha, Mrigank Rochan, Neil Bruce, and Yang Wang. Label reﬁnement network for coarse-to-ﬁne semantic segmentation. arXiv preprint arXiv:1703.00551, 2017. 3

[34] Seung-Wook Kim, Hyong-Keun Kook, Jee-Young Sun, Mun-Cheon Kang, and Sung-Jea Ko. Parallel feature pyramid network for object detection. In Proceedings of the European Conference on Computer Vision (ECCV), pages 234–250, 2018. 11

[35] G¨unter Klambauer, Thomas Unterthiner, Andreas Mayr, and Sepp Hochreiter. Self-normalizing neural networks. In Advances in Neural Information Processing Systems (NIPS), pages 971–980, 2017. 4

[36] Gustav Larsson, Michael Maire, and Gregory Shakhnarovich. FractalNet: Ultra-deep neural networks without residuals. arXiv preprint arXiv:1605.07648, 2016. 6

[37] Hei Law and Jia Deng. CornerNet: Detecting objects as paired keypoints. In Proceedings of the European Conference on Computer Vision (ECCV), pages 734–750, 2018. 2, 11

[38] Hei Law, Yun Teng, Olga Russakovsky, and Jia Deng. CornerNet-Lite: Efﬁcient keypoint based object detection. arXiv preprint arXiv:1904.08900, 2019. 2

[39] Svetlana Lazebnik, Cordelia Schmid, and Jean Ponce. Beyond bags of features: Spatial pyramid matching for recognizing natural scene categories. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), volume 2, pages 2169–2178. IEEE, 2006. 4

[40] Youngwan Lee and Jongyoul Park. CenterMask: Real-time anchor-free instance segmentation. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2020. 12, 13

[41] Shuai Li, Lingxiao Yang, Jianqiang Huang, Xian-Sheng Hua, and Lei Zhang. Dynamic anchor feature selection for single-shot object detection. In Proceedings of the IEEE International Conference on Computer Vision (ICCV), pages 6609–6618, 2019. 12

[42] Yanghao Li, Yuntao Chen, Naiyan Wang, and Zhaoxiang Zhang. Scale-aware trident networks for object detection. In Proceedings of the IEEE International Conference on Computer Vision (ICCV), pages 6054–6063, 2019. 12

[43] Zeming Li, Chao Peng, Gang Yu, Xiangyu Zhang, Yangdong Deng, and Jian Sun. DetNet: Design backbone for object detection. In Proceedings of the European Conference on Computer Vision (ECCV), pages 334–350, 2018. 2

[44] Tsung-Yi Lin, Piotr Doll´ar, Ross Girshick, Kaiming He, Bharath Hariharan, and Serge Belongie. Feature pyramid networks for object detection. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 2117–2125, 2017. 2

[45] Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, and Piotr Doll´ar. Focal loss for dense object detection. In Proceedings of the IEEE International Conference on Computer Vision (ICCV), pages 2980–2988, 2017. 2, 3, 11, 13

[46] Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Doll´ar, and C Lawrence Zitnick. Microsoft COCO: Common objects in context. In Proceedings of the European Conference on Computer Vision (ECCV), pages 740–755, 2014. 5

[47] Songtao Liu, Di Huang, et al. Receptive ﬁeld block net for accurate and fast object detection. In Proceedings of the European Conference on Computer Vision (ECCV), pages 385–400, 2018. 2, 4, 11

[48] Songtao Liu, Di Huang, and Yunhong Wang. Learning spatial fusion for single-shot object detection. arXiv preprint arXiv:1911.09516, 2019. 2, 4, 13

[49] Shu Liu, Lu Qi, Haifang Qin, Jianping Shi, and Jiaya Jia. Path aggregation network for instance segmentation. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 8759–8768, 2018. 1, 2, 7

[50] Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang Fu, and Alexander C Berg. SSD: Single shot multibox detector. In Proceedings of the European Conference on Computer Vision (ECCV), pages 21–37, 2016. 2, 11

[51] Jonathan Long, Evan Shelhamer, and Trevor Darrell. Fully convolutional networks for semantic segmentation. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 3431–3440, 2015. 4

[52] Ilya Loshchilov and Frank Hutter. SGDR: Stochastic gradient descent with warm restarts. arXiv preprint arXiv:1608.03983, 2016. 7

[53] Ningning Ma, Xiangyu Zhang, Hai-Tao Zheng, and Jian Sun. ShufﬂeNetV2: Practical guidelines for efﬁcient cnn architecture design. In Proceedings of the European Conference on Computer Vision (ECCV), pages 116–131, 2018. 2

[54] Andrew L Maas, Awni Y Hannun, and Andrew Y Ng. Rectiﬁer nonlinearities improve neural network acoustic models. In Proceedings of International Conference on Machine Learning (ICML), volume 30, page 3, 2013. 4

[55] Diganta Misra. Mish: A self regularized nonmonotonic neural activation function. arXiv preprint arXiv:1908.08681, 2019. 4

[56] Vinod Nair and Geoffrey E Hinton. Rectiﬁed linear units improve restricted boltzmann machines. In Proceedings of International Conference on Machine Learning (ICML), pages 807–814, 2010. 4

[57] Jing Nie, Rao Muhammad Anwer, Hisham Cholakkal, Fahad Shahbaz Khan, Yanwei Pang, and Ling Shao. Enriched feature guided reﬁnement network for object detection. In Proceedings of the IEEE International Conference on Computer Vision (ICCV), pages 9537–9546, 2019. 12

[58] Jiangmiao Pang, Kai Chen, Jianping Shi, Huajun Feng, Wanli Ouyang, and Dahua Lin. Libra R-CNN: Towards balanced learning for object detection. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 821–830, 2019. 2, 12

[59] Prajit Ramachandran, Barret Zoph, and Quoc V Le. Searching for activation functions. arXiv preprint arXiv:1710.05941, 2017. 4

[60] Abdullah Rashwan, Agastya Kalra, and Pascal Poupart. Matrix Nets: A new deep architecture for object detection. In Proceedings of the IEEE International Conference on Computer Vision Workshop (ICCV Workshop), pages 0–0, 2019. 2

[61] Joseph Redmon, Santosh Divvala, Ross Girshick, and Ali Farhadi. You only look once: Uniﬁed, real-time object detection. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 779788, 2016. 2

[62] Joseph Redmon and Ali Farhadi. YOLO9000: better, faster, stronger. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 72637271, 2017. 2

[63] Joseph Redmon and Ali Farhadi. YOLOv3: An incremental improvement. arXiv preprint arXiv:1804.02767, 2018. 2, 4, 7, 11

[64] Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun. Faster R-CNN: Towards real-time object detection with region proposal networks. In Advances in Neural Information Processing Systems (NIPS), pages 91–99, 2015. 2

[65] Hamid Rezatoﬁghi, Nathan Tsoi, JunYoung Gwak, Amir Sadeghian, Ian Reid, and Silvio Savarese. Generalized intersection over union: A metric and a loss for bounding box regression. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 658–666, 2019. 3

[66] Mark Sandler, Andrew Howard, Menglong Zhu, Andrey Zhmoginov, and Liang-Chieh Chen. MobileNetV2: Inverted residuals and linear bottlenecks. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 4510–4520, 2018. 2

[67] Abhinav Shrivastava, Abhinav Gupta, and Ross Girshick. Training region-based object detectors with online hard example mining. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 761–769, 2016. 3

[68] Karen Simonyan and Andrew Zisserman. Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556, 2014. 2

[69] Krishna Kumar Singh, Hao Yu, Aron Sarmasi, Gautam Pradeep, and Yong Jae Lee. Hide-and-Seek: A data augmentation technique for weakly-supervised localization and beyond. arXiv preprint arXiv:1811.02545, 2018. 3

[70] Saurabh Singh and Shankar Krishnan. Filter response normalization layer: Eliminating batch dependence in the training of deep neural networks. arXiv preprint arXiv:1911.09737, 2019. 6

[71] Nitish Srivastava, Geoffrey Hinton, Alex Krizhevsky, Ilya Sutskever, and Ruslan Salakhutdinov. DropOut: A simple way to prevent neural networks from overﬁtting. The journal of machine learning research, 15(1):1929–1958, 2014. 3

[72] K-K Sung and Tomaso Poggio. Example-based learning for view-based human face detection. IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 20(1):39–51, 1998. 3

[73] Christian Szegedy, Vincent Vanhoucke, Sergey Ioffe, Jon Shlens, and Zbigniew Wojna. Rethinking the inception architecture for computer vision. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 2818–2826, 2016. 3

[74] Mingxing Tan, Bo Chen, Ruoming Pang, Vijay Vasudevan, Mark Sandler, Andrew Howard, and Quoc V Le. MNASnet: Platform-aware neural architecture search for mobile. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 2820–2828, 2019. 2

[75] Mingxing Tan and Quoc V Le. EfﬁcientNet: Rethinking model scaling for convolutional neural networks. In Proceedings of International Conference on Machine Learning (ICML), 2019. 2

[76] Mingxing Tan and Quoc V Le. MixNet: Mixed depthwise convolutional kernels. In Proceedings of the British Machine Vision Conference (BMVC), 2019. 5

[77] Mingxing Tan, Ruoming Pang, and Quoc V Le. EfﬁcientDet: Scalable and efﬁcient object detection. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2020. 2, 4, 13

[78] Zhi Tian, Chunhua Shen, Hao Chen, and Tong He. FCOS: Fully convolutional one-stage object detection. In Proceedings of the IEEE International Conference on Computer Vision (ICCV), pages 9627–9636, 2019. 2

[79] Jonathan Tompson, Ross Goroshin, Arjun Jain, Yann LeCun, and Christoph Bregler. Efﬁcient object localization using convolutional networks. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 648–656, 2015. 6

[80] Li Wan, Matthew Zeiler, Sixin Zhang, Yann Le Cun, and Rob Fergus. Regularization of neural networks using DropConnect. In Proceedings of International Conference on Machine Learning (ICML), pages 1058–1066, 2013. 3

[81] Chien-Yao Wang, Hong-Yuan Mark Liao, Yueh-Hua Wu, Ping-Yang Chen, Jun-Wei Hsieh, and I-Hau Yeh. CSPNet: A new backbone that can enhance learning capability of cnn. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshop (CVPR Workshop), 2020. 2, 7

[82] Jiaqi Wang, Kai Chen, Shuo Yang, Chen Change Loy, and Dahua Lin. Region proposal by guided anchoring. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 2965–2974, 2019. 12

[83] Shaoru Wang, Yongchao Gong, Junliang Xing, Lichao Huang, Chang Huang, and Weiming Hu. RDSNet: A new deep architecture for reciprocal object detection and instance segmentation. arXiv preprint arXiv:1912.05070, 2019. 13

[84] Tiancai Wang, Rao Muhammad Anwer, Hisham Cholakkal, Fahad Shahbaz Khan, Yanwei Pang, and Ling Shao. Learning rich features at high-speed for single-shot object detection. In Proceedings of the IEEE International Conference on Computer Vision (ICCV), pages 1971–1980, 2019. 11

[85] Sanghyun Woo, Jongchan Park, Joon-Young Lee, and In So Kweon. CBAM: Convolutional block attention module. In Proceedings of the European Conference on Computer Vision (ECCV), pages 3–19, 2018. 1, 2, 4

[86] Saining Xie, Ross Girshick, Piotr Doll´ar, Zhuowen Tu, and Kaiming He. Aggregated residual transformations for deep neural networks. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 1492–1500, 2017. 2

[87] Ze Yang, Shaohui Liu, Han Hu, Liwei Wang, and Stephen Lin. RepPoints: Point set representation for object detection. In Proceedings of the IEEE International Conference on Computer Vision (ICCV), pages 9657–9666, 2019. 2, 12

[88] Lewei Yao, Hang Xu, Wei Zhang, Xiaodan Liang, and Zhenguo Li. SM-NAS: Structural-to-modular neural architecture search for object detection. In Proceedings of the AAAI Conference on Artiﬁcial Intelligence (AAAI), 2020. 13

[89] Zhuliang Yao, Yue Cao, Shuxin Zheng, Gao Huang, and Stephen Lin. Cross-iteration batch normalization. arXiv preprint arXiv:2002.05712, 2020. 1, 6

[90] Jiahui Yu, Yuning Jiang, Zhangyang Wang, Zhimin Cao, and Thomas Huang. UnitBox: An advanced object detection network. In Proceedings of the 24th ACM international conference on Multimedia, pages 516–520, 2016. 3

[91] Sangdoo Yun, Dongyoon Han, Seong Joon Oh, Sanghyuk Chun, Junsuk Choe, and Youngjoon Yoo. CutMix: Regularization strategy to train strong classiﬁers with localizable features. In Proceedings of the IEEE International Conference on Computer Vision (ICCV), pages 6023–6032, 2019. 3

[92] Hongyi Zhang, Moustapha Cisse, Yann N Dauphin, and David Lopez-Paz. MixUp: Beyond empirical risk minimization. arXiv preprint arXiv:1710.09412, 2017. 3

[93] Hang Zhang, Kristin Dana, Jianping Shi, Zhongyue Zhang, Xiaogang Wang, Ambrish Tyagi, and Amit Agrawal. Context encoding for semantic segmentation. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 7151–7160, 2018. 6

[94] Shifeng Zhang, Cheng Chi, Yongqiang Yao, Zhen Lei, and Stan Z Li. Bridging the gap between anchor-based and anchor-free detection via adaptive training sample selection. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2020. 13

[95] Shifeng Zhang, Longyin Wen, Xiao Bian, Zhen Lei, and Stan Z Li. Single-shot reﬁnement neural network for object detection. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 4203–4212, 2018. 11

[96] Xiaosong Zhang, Fang Wan, Chang Liu, Rongrong Ji, and Qixiang Ye. FreeAnchor: Learning to match anchors for visual object detection. In Advances in Neural Information Processing Systems (NeurIPS), 2019. 12

[97] Xiangyu Zhang, Xinyu Zhou, Mengxiao Lin, and Jian Sun. ShufﬂeNet: An extremely efﬁcient convolutional neural network for mobile devices. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 6848–6856, 2018. 2

[98] Qijie Zhao, Tao Sheng, Yongtao Wang, Zhi Tang, Ying Chen, Ling Cai, and Haibin Ling. M2det: A single-shot object detector based on multi-level feature pyramid network. In Proceedings of the AAAI Conference on Artiﬁcial Intelligence (AAAI), volume 33, pages 9259–9266, 2019. 2, 4, 11

[99] Zhaohui Zheng, Ping Wang, Wei Liu, Jinze Li, Rongguang Ye, and Dongwei Ren. Distance-IoU Loss: Faster and better learning for bounding box regression. In Proceedings of the AAAI Conference on Artiﬁcial Intelligence (AAAI), 2020. 3, 4

[100] Zhun Zhong, Liang Zheng, Guoliang Kang, Shaozi Li, and Yi Yang. Random erasing data augmentation. arXiv preprint arXiv:1708.04896, 2017. 3

[101] Chenchen Zhu, Fangyi Chen, Zhiqiang Shen, and Marios Savvides. Soft anchor-point object detection. arXiv preprint arXiv:1911.12448, 2019. 12

[102] Chenchen Zhu, Yihui He, and Marios Savvides. Feature selective anchor-free module for single-shot object detection. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 840–849, 2019. 11

你可能感兴趣的:(深度学习经典论文翻译,YOLOv4,目标检测,实时目标检测,Bag,of,freebies,Bag,of,specials)

Adam-mini：深度学习内存效率新突破 XianxinMao 人工智能深度学习人工智能
标题：Adam-mini：深度学习内存效率新突破文章信息摘要：Adam-mini优化器在深度学习领域展现出突破性潜力，尤其在内存效率和计算性能上表现卓越。相比AdamW，Adam-mini将内存效率提升了一倍，并通过减少学习率数量显著降低了内存消耗，同时保持了与AdamW相当甚至更好的性能。在训练十亿参数级别的大语言模型（LLM）时，Adam-mini实现了49.6%的吞吐量提升，并减少了33%的
C++,Go 语言开发危险化学品流动跟踪APP Geeker-2025 c++golang
开发一款危险化学品流动跟踪APP是一个非常重要且复杂的项目，主要用于监控和管理危险化学品的运输、存储和使用过程，确保其符合安全规范，防止泄漏、误用或其他安全事故。该APP需要具备实时跟踪、数据记录、报警机制、权限管理等功能。C++和Go语言的结合在这个项目中可以发挥各自的优势：C++适合高性能计算、底层硬件交互和实时数据处理，而Go语言适合高性能后端服务、并发处理和分布式系统。---##1.**项
Spring Boot整合SSE实现消息推送：跨域问题解决与前后端联调实战 Cloud_. spring boot 后端 java
摘要本文记录了一次完整的SpringBoot整合Server-SentEvents（SSE）实现实时消息推送的开发过程，重点分析前后端联调时遇到的跨域问题及解决方案。通过@CrossOrigin注解的实际应用案例，帮助开发者快速定位和解决类似问题。一、项目背景与需求开发一个实时订单推送系统，需要实现：司机端与服务端的持久化连接订单信息实时推送客户端主动关闭连接二、技术方案设计2.1技术选型技术组件
Transformer与图神经网络的融合与应用 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Transformer与图神经网络的融合与应用关键词：Transformer,图神经网络,注意力机制,图结构数据,图表示学习,图分类,图生成1.背景介绍近年来，深度学习技术在各个领域取得了显著的进展。其中，Transformer模型和图神经网络（GraphNeuralNetworks,GNNs）是两个备受关注的研究方向。Transformer最初应用于自然语言处理领域，通过自注意力机制实现了并行计
深度学习的颠覆性发展：从卷积神经网络到Transformer AI天才研究院 AI大模型应用入门实战与进阶 ChatGPT 大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍深度学习是人工智能的核心技术之一，它通过模拟人类大脑中的神经网络学习从大数据中抽取知识，从而实现智能化的自动化处理。深度学习的发展历程可以分为以下几个阶段：2006年，GeoffreyHinton等人开始研究卷积神经网络（ConvolutionalNeuralNetworks，CNN），这是深度学习的第一个大突破。CNN主要应用于图像处理和语音识别等领域。2012年，AlexKrizh
玛哈特矫平机：引领制造业平整技术的新篇章玛哈特-小易制造校平机矫平机大数据微信公众平台
玛哈特矫平机：引领制造业平整技术的新篇章在制造业的广阔舞台上，材料的平整度是确保产品质量与精度的关键要素。玛哈特矫平机，凭借其出色的性能和前沿技术，正逐步成为推动制造业发展的重要驱动力。技术的飞跃与创新的引领玛哈特矫平机不仅代表了传统矫平技术的升级，更是一次技术的飞跃和创新的引领。它融合了先进的传感器网络、实时数据分析系统以及自动化控制平台，为材料矫平提供了智能化的解决方案。这种创新的技术组合，使
Ai时代初期，人类文明的多纬度演进方向分析 Ai度人工智能
在AI时代初期，文明的演进呈现出多维度、跨领域的突破性特征，结合最新研究进展与实践案例，其深层变革可进一步细化为以下六大维度：一、技术平权与生产要素重构AI技术通过算力跃迁与认知革命重构生产要素。例如，华为昇腾芯片使县域政务系统获得省级决策能力，特斯拉工厂的机械臂实现0.8秒完成车身焊接，而量子-经典混合算法将药物分子模拟效率提升1200倍。这种技术平权运动正推动全球劳动生产率提升30%，同时催生
高性能计算:GPU加速与分布式训练 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍随着人工智能技术的飞速发展，深度学习模型的规模和复杂度不断提升，对计算能力的需求也越来越高。传统的CPU架构已经难以满足深度学习模型训练的需求，因此，GPU加速和分布式训练成为了高性能计算领域的研究热点。1.1.深度学习与计算挑战深度学习模型通常包含数百万甚至数十亿个参数，训练过程需要进行大量的矩阵运算和梯度更新，对计算资源的需求非常高。传统的CPU架构虽然具有较强的通用性，但其并行计
Starrocks使用中一些总结 WYRM_GOLD Starrocks 数据库数据仓库数据库开发
1、实时写入的注意事项数据表如果是每天写入，要创建分区(推荐按天分区)。表模型选择更新模型查询的维度列，整数类型列放在前面，有利于快速的查询表分区要设置过期时间，尽可能保留最近一年的数据。总结：1、分区是为了分区内数据查询时扫描的数据量减少，提高查询效率2、更新模型比组件模型更适合实时数据的写入，使用更新模型后IO和CPU使用都会有明显的下降。3、对应上述第三项中会提高查询效率，字符的扫描没有数值
基于Wasm的边缘计算Pandas：突破端侧AI的最后一公里——让数据分析在手机、IoT设备上飞驰 Eqwaak00 Pandas 人工智能 wasm 边缘计算 pandas 架构深度学习
引言：边缘计算的算力觉醒在智能家居设备每秒产生数万条传感器数据、手机App需要实时分析用户行为的今天，传统云计算模式面临高延迟、隐私风险、带宽成本三大挑战。本文将揭示如何通过WebAssembly（Wasm）+Pandas的技术组合，在边缘设备上实现零云端依赖的实时数据分析，并通过智慧工厂设备预测性维护案例，展示从理论到工程的全链路实现。一、技术架构设计1.1边缘计算范式演进mermaid：gra
使用 MistralAI 平台进行开源模型托管与调用 VYSAHF python
MistralAI是一个提供开放源码模型托管的平台，致力于帮助开发者更轻松地使用和管理开源模型。通过该平台，你可以方便地调用强大的深度学习模型，并将其集成到你的应用中。本文将带你了解如何利用MistralAI提供的服务来进行模型的托管和调用。技术背景介绍MistralAI的服务包括了如聊天模型和嵌入模型等，这些模型适用于聊天机器人、文本嵌入等各种场景。使用这些模型需要注册并获取一个有效的API密钥
数据仓库和非结构化数据。 weixin_30631587 数据库
数据仓库包含标准化数据。还包含外部数据/非结构化数据如果外部数据量小可以保持数据库内部或者专用服务器。如果量大只能记住地址，在etl加载当然也有需求是实时数据比如股票汇率拿只能etl过程处理非结构化数据包含图片，视频音频如果是传统数据库db2oracle存在里面是不合适的。存储影响性能如果是hadoop无所谓影响不大，但是从使用者的角度非结构化数据只能转换关系使用建一张元数据表存储非结构化存储位置
StarRocks 主键（Primary Key）深度解析数据库数据分析主键缓存物化视图
一、StarRocks产品简介StarRocks是一款高性能分析型数据库，专为海量数据的实时分析而设计。作为新一代湖仓（Lakehouse）加速引擎，StarRocks融合了MPP架构和列式存储引擎的优势，能够支持亿级数据秒级查询响应。核心特性：全面的数据模型：支持明细模型、主键模型和聚合模型，满足多样化业务场景实时数据分析：提供高效的数据导入与更新能力，支持实时数据处理分布式架构：采用无共享（S
量化交易api有哪些类型？如何选择适合自己的量化交易api？股票程序化交易接口量化交易股票API接口 Python股票量化交易区块链量化交易 api类型选择数据获取股票量化接口股票API接口
Python股票接口实现查询账户，提交订单，自动交易（1）Python股票程序交易接口查账，提交订单，自动交易（2）股票量化，Python炒股，CSDN交流社区>>>量化交易API的主要类型量化交易依赖大量数据，数据获取型API就显得尤为重要。这种类型的API能够连接到各种数据源，如股票市场数据、期货数据等。它可以为交易者提供实时价格数据、历史数据等。一些API能从各大证券交易所获取股票的最新成交
暗光增强技术研究进展与产品落地综合分析（2023-2025） AndrewHZ 深度学习新浪潮图像处理算法动态范围计算机视觉深度学习 transformer 暗光增强
一、引言暗光增强技术作为计算机视觉与移动影像领域的核心研究方向之一，近年来在算法创新、硬件适配及产品落地方面取得了显著进展。本文从技术研究与产业应用两个维度，系统梳理近三年（2023-2025）该领域的关键突破，并对比分析主流手机厂商的影像技术优劣势。二、暗光增强技术研究进展1.算法创新：从传统模型到深度学习（1）Retinex理论的深度结合清华与ETH联合提出的Retinexformer（202
算力技术演进与多场景融合路径智能计算研究中心其他
内容概要算力技术的演进正经历从异构计算到量子计算的范式跃迁。当前技术图谱中，芯片制程突破与架构创新持续推动算力密度提升，如5nm以下先进工艺与存算一体设计显著增强运算单元效率。与此同时，模型压缩、数据预处理等算法优化手段使单位算力产出提高30%以上。典型应用场景中，工业互联网通过自适应计算实现毫秒级实时控制，医疗影像领域借助分布式计算完成TB级数据处理，而智能安防系统依托边缘计算降低端到端时延至5
金融风控算法透明度与可解释性优化智能计算研究中心其他
内容概要金融风控算法的透明化研究面临模型复杂性提升与监管合规要求的双重挑战。随着深度学习框架在特征提取环节的广泛应用，算法可解释性与预测精度之间的平衡成为核心议题。本文从联邦学习架构下的数据协作机制出发，结合特征工程优化与超参数调整技术，系统性分析逻辑回归、随机森林等传统算法在召回率、F1值等关键指标上的表现差异。研究同时探讨数据预处理流程对风控决策鲁棒性的影响，并提出基于注意力机制的特征权重可视
算力融合创新与多场景应用生态构建智能计算研究中心其他
内容概要算力作为数字经济的核心驱动力，正经历从单一计算范式向融合架构的跨越式演进。随着异构计算、光子计算等底层技术的突破，算力资源逐步形成跨架构协同、多模态联动的智能供给体系，支撑工业互联网、医疗影像、智能安防等场景实现效率跃升。与此同时，量子计算与神经形态计算的前沿探索，正在重塑科学计算与实时决策的技术边界。建议行业关注算力可扩展性与安全标准的协同设计，通过动态调度算法与分布式架构优化，构建弹性
H800核心性能优化技术智能计算研究中心其他
内容概要作为新一代AI加速卡的核心创新载体，H800通过异构计算架构与动态能效管理技术的协同设计，实现了从硬件底层到应用层的系统性优化。其技术突破聚焦于张量核心重构带来的计算密度提升、混合精度运算对资源利用率的增强，以及智能散热方案在复杂负载场景下的稳定性保障。这些创新不仅显著提升了30%以上的能效比，更通过精细化任务调度机制，解决了深度学习训练中高并发数据处理与模型参数同步的效率瓶颈。值得关注的
TikTokenizer 项目常见问题解决方案齐飞锴Timothea
TikTokenizer项目常见问题解决方案tiktokenizerOnlineplaygroundforOpenAPItokenizers项目地址:https://gitcode.com/gh_mirrors/ti/tiktokenizer项目基础介绍TikTokenizer是一个开源项目，主要用于文本处理，特别是将文本转化为可用于深度学习的格式。该项目是基于TensorFlow和Keras开发
录音文字转换专家，一键搞定音转文字，让你的工作效率飞起来！开开心心_Every python eclipse django virtualenv pygame tornado flask
录音转文字助手是一款功能丰富的app，主要聚焦于语音识别、音频转文字以及实时语音翻译等功能。在这个app中，其内置了一套强大的识别系统。这套系统具备快速且无损转换的能力，无论是语音内容，还是音频文件内容，它都能够迅速地将其转换为文字内容并输出。而且，该app的功能不仅局限于此，它还可以进行多语种的翻译操作，这为不同语言需求的用户提供了极大的便利。帮助中心帮助中心相关问题解答：一、安装报错的处理安卓
DeepSeek混合专家架构赋能智能创作智能计算研究中心其他
内容概要在人工智能技术加速迭代的当下，DeepSeek混合专家架构（MixtureofExperts）通过670亿参数的动态路由机制，实现了多模态处理的范式突破。该架构将视觉语言理解、多语言语义解析与深度学习算法深度融合，构建出覆盖文本生成、代码编写、学术研究等场景的立体化能力矩阵。其核心优势体现在三个维度：精准化内容生产——通过智能选题、文献综述自动生成等功能，将学术论文写作效率提升40%以上；
基于Python的金融领域AI训练数据抓取实战（完整技术解析）海拥✘ python 金融人工智能
项目背景与需求分析场景描述为训练一个覆盖全球金融市场的多模态大语言模型（LLM），需实时采集以下数据：全球30+主要证券交易所（NYSE、NASDAQ、LSE、TSE等）的上市公司公告企业财报PDF文档及结构化数据社交媒体舆情数据（Twitter、StockTwits）新闻媒体分析（Reuters、Bloomberg）技术挑战地理封锁：部分交易所（如日本TSE）仅允许本国IP访问历史数据动态反爬：
探索 Tavily Search API：为 AI 提供快速准确的搜索结果 nseejrukjhad 人工智能 python 开发语言
引言在当今的技术时代，AI代理（如大型语言模型）日益需要实时、准确和事实性强的搜索结果。TavilySearchAPI就是为此而生的。这篇文章将介绍如何将TavilySearchAPI集成为一个检索器，使开发者可以在应用中快速获取所需信息。此外，我们将讨论这一集成过程中的挑战及其解决方案。主要内容1.TavilySearchAPI简介TavilySearchAPI是一个专门为AI代理设计的搜索引擎
使用 Tavily 搜索 API 获取实时精确搜索结果 fgayif python 数据库开发语言
技术背景介绍Tavily搜索API是一个专为AI代理（如大型语言模型）而设计的搜索引擎。它能够快速提供实时、准确且事实性强的搜索结果。这使得Tavily成为可以嵌入到AI应用中的理想工具，提升信息获取的效率和准确性。核心原理解析Tavily搜索API提供了异步的原生调用方式，可以返回包括标题、URL、内容和答案在内的数据。API可以根据需求设置不同的搜索深度和结果数量。通过与其他语言模型（如Ope
【手把手教学】DeepSeek官方搜索API博查本地使用指南：从原理到实战，全面解锁智能搜索！ BigNorthBear python 人工智能自然语言处理机器学习语言模型
前言：当大模型遇见本地搜索你是否遇到过这些问题？想在企业内网部署智能搜索，但担心数据泄露风险？需要定制搜索逻辑，但云端API灵活性不足？网络环境不稳定时，搜索服务频繁中断？博查AI搜索API的本地化方案完美解决了这些问题！通过将本地大模型与云端API结合，既能保障数据安全，又能享受实时搜索能力。本文将手把手教你如何实现这一技术方案，即使你是零基础开发者，也能轻松上手！一、本地化原理：为什么能“既本
云牧场智能环境控制系统的设计与实现雲明
本文还有配套的精品资源，点击获取简介：本文详细探讨了基于云牧场的智能环境控制系统的构建、功能及实现原理。系统的硬件由传感器和执行器组成，软件平台负责数据分析处理与环境控制设备的自动调整。系统包括数据采集、实时监控、自动控制、预警与报警以及数据分析与决策支持等核心功能模块。此外，文章还分析了云计算与物联网技术的应用、系统安全性与可靠性，并通过实际案例说明了该系统对提高畜牧业生产效益的重要性。1.云牧
YOLO11改进-模块-引入频率谱动态聚合模块FSDA 去除噪声一勺汤 YOLOv11模型改进系列目标检测魔改模块 YOLO YOLOv11 YOLOv11改进改进
在图像去雾领域，深度学习在白天图像去雾方面成果显著，但夜间雾图研究较少。夜间雾图面临诸多挑战，其中包括雾、辉光和噪声因多个低强度有源彩色光源而具有复杂特性，以及模拟与真实数据的域差异导致的亮度问题。为解决这些，我们使用FSDA模块，处理频率不一致特性。FSDA先对频谱信息聚合，再计算通道权重并应用，最后映射回空间域，以此优化频谱信息，使模型更好处理复杂干扰。本文将其与YOLOv11相结合，增强YO
基于多头注意机制的多尺度特征融合的GCN的序列数据（功率预测、故障诊断）模型及代码详解清风AI 深度学习算法详解及代码复现人工智能神经网络深度学习 python conda pip pandas
GCN基础在深度学习领域中，图卷积网络(GCN)是一种强大的图数据处理工具。它将卷积操作扩展到图结构上，能够有效捕捉图中节点之间的关系信息。GCN的核心思想是通过聚合邻居节点的特征来更新目标节点的表示，这种局部聚合机制使得GCN能够学习到图的拓扑结构和节点属性。GCN的主要构成要素包括节点特征矩阵、邻接矩阵和卷积核。通过多次迭代，GCN可以逐步学习到图中节点的高阶表示，为后续的分类、预测等任务提供
YOLO魔改之频率分割模块（FDM）清风AI YOLO算法魔改系列 YOLO 人工智能计算机视觉目标检测 python 深度学习
目标检测原理目标检测是一种将目标分割和识别相结合的图像处理技术，旨在从图像中定位并识别特定目标。深度学习方法，如FasterR-CNN和YOLO系列，已成为主流解决方案。这些方法通常采用两阶段或单阶段策略，通过卷积神经网络(CNN)提取特征并进行分类和定位。在小目标检测中，为克服分辨率低和特征不明显的问题，模型设计中会特别注重特征融合和多尺度处理，以增强对小目标的感知能力。YOLOv8基础YOLO
java解析APK 3213213333332132 java apk linux 解析APK
解析apk有两种方法 1、结合安卓提供apktool工具，用java执行cmd解析命令获取apk信息 2、利用相关jar包里的集成方法解析apk 这里只给出第二种方法，因为第一种方法在linux服务器下会出现不在控制范围之内的结果。 public class ApkUtil { /** * 日志对象 */ private static Logger
nginx自定义ip访问N种方法 ronin47 nginx 禁止ip访问
　　　因业务需要，禁止一部分内网访问接口，　由于前端架了F5，直接用deny或allow是不行的，这是因为直接获取的前端Ｆ５的地址。　　　所以开始思考有哪些主案可以实现这样的需求，目前可实施的是三种：　　　一：把ip段放在redis里，写一段lua 二：利用geo传递变量，写一段
mysql timestamp类型字段的CURRENT_TIMESTAMP与ON UPDATE CURRENT_TIMESTAMP属性 dcj3sjt126com mysql
timestamp有两个属性，分别是CURRENT_TIMESTAMP 和ON UPDATE CURRENT_TIMESTAMP两种，使用情况分别如下： 1. CURRENT_TIMESTAMP 当要向数据库执行insert操作时，如果有个timestamp字段属性设为 CURRENT_TIMESTAMP，则无论这
struts2+spring+hibernate分页显示 171815164 Hibernate
分页显示一直是web开发中一大烦琐的难题，传统的网页设计只在一个JSP或者ASP页面中书写所有关于数据库操作的代码，那样做分页可能简单一点，但当把网站分层开发后，分页就比较困难了，下面是我做Spring+Hibernate+Struts2项目时设计的分页代码，与大家分享交流。　　1、DAO层接口的设计，在MemberDao接口中定义了如下两个方法： public in
构建自己的Wrapper应用 g21121 rap
我们已经了解Wrapper的目录结构，下面可是正式利用Wrapper来包装我们自己的应用，这里假设Wrapper的安装目录为:/usr/local/wrapper。首先，创建项目应用 &nb
[简单]工作记录_多线程相关 53873039oycg 多线程
最近遇到多线程的问题,原来使用异步请求多个接口(n*3次请求) 方案一使用多线程一次返回数据,最开始是使用5个线程,一个线程顺序请求3个接口,超时终止返回缺点测试发现必须3个接
调试jdk中的源码，查看jdk局部变量程序员是怎么炼成的 jdk 源码
转自：http://www.douban.com/note/211369821/ 学习jdk源码时使用-- 学习java最好的办法就是看jdk源代码，面对浩瀚的jdk（光源码就有40M多，比一个大型网站的源码都多）从何入手呢，要是能单步调试跟进到jdk源码里并且能查看其中的局部变量最好了。可惜的是sun提供的jdk并不能查看运行中的局部变量
Oracle RAC Failover 详解 aijuans oracle
Oracle RAC 同时具备HA(High Availiablity) 和LB(LoadBalance). 而其高可用性的基础就是Failover(故障转移). 它指集群中任何一个节点的故障都不会影响用户的使用，连接到故障节点的用户会被自动转移到健康节点，从用户感受而言，是感觉不到这种切换。 Oracle 10g RAC 的Failover 可以分为3种： 1. Client-Si
form表单提交数据编码方式及tomcat的接受编码方式 antonyup_2006 JavaScript tomcat 浏览器互联网 servlet
原帖地址：http://www.iteye.com/topic/266705 form有2中方法把数据提交给服务器，get和post,分别说下吧。（一）get提交 1.首先说下客户端（浏览器）的form表单用get方法是如何将数据编码后提交给服务器端的吧。对于get方法来说，都是把数据串联在请求的url后面作为参数，如：http://localhost:
JS初学者必知的基础百合不是茶 js函数 js入门基础
JavaScript是网页的交互语言,实现网页的各种效果, JavaScript 是世界上最流行的脚本语言。 JavaScript 是属于 web 的语言，它适用于 PC、笔记本电脑、平板电脑和移动电话。 JavaScript 被设计为向 HTML 页面增加交互性。许多 HTML 开发者都不是程序员，但是 JavaScript 却拥有非常简单的语法。几乎每个人都有能力将小的
iBatis的分页分析与详解 bijian1013 java ibatis
分页是操作数据库型系统常遇到的问题。分页实现方法很多，但效率的差异就很大了。iBatis是通过什么方式来实现这个分页的了。查看它的实现部分，发现返回的PaginatedList实际上是个接口，实现这个接口的是PaginatedDataList类的对象，查看PaginatedDataList类发现，每次翻页的时候最
精通Oracle10编程SQL(15)使用对象类型 bijian1013 oracle 数据库 plsql
/* *使用对象类型 */ --建立和使用简单对象类型 --对象类型包括对象类型规范和对象类型体两部分。 --建立和使用不包含任何方法的对象类型 CREATE OR REPLACE TYPE person_typ1 as OBJECT( name varchar2(10),gender varchar2(4),birthdate date ); drop type p
【Linux命令二】文本处理命令awk bit1129 linux命令
awk是Linux用来进行文本处理的命令，在日常工作中，广泛应用于日志分析。awk是一门解释型编程语言，包含变量，数组，循环控制结构，条件控制结构等。它的语法采用类C语言的语法。 awk命令用来做什么？ 1.awk适用于具有一定结构的文本行，对其中的列进行提取信息 2.awk可以把当前正在处理的文本行提交给Linux的其它命令处理，然后把直接结构返回给awk 3.awk实际工
JAVA(ssh2框架)+Flex实现权限控制方案分析白糖_ java
目前项目使用的是Struts2+Hibernate+Spring的架构模式，目前已经有一套针对SSH2的权限系统，运行良好。但是项目有了新需求：在目前系统的基础上使用Flex逐步取代JSP，在取代JSP过程中可能存在Flex与JSP并存的情况，所以权限系统需要进行修改。【SSH2权限系统的实现机制】权限控制分为页面和后台两块：不同类型用户的帐号分配的访问权限是不同的，用户使
angular.forEach boyitech AngularJS AngularJS API angular.forEach
angular.forEach 描述: 循环对obj对象的每个元素调用iterator, obj对象可以是一个Object或一个Array. Iterator函数调用方法: iterator(value, key, obj), 其中obj是被迭代对象，key是obj的property key或者是数组的index，value就是相应的值啦. (此函数不能够迭代继承的属性.)
java-谷歌面试题-给定一个排序数组，如何构造一个二叉排序树 bylijinnan 二叉排序树
import java.util.LinkedList; public class CreateBSTfromSortedArray { /** * 题目:给定一个排序数组，如何构造一个二叉排序树 * 递归 */ public static void main(String[] args) { int[] data = { 1, 2, 3, 4,
action执行2次 Chen.H JavaScript jsp XHTML css Webwork
xwork 写道 <action name="userTypeAction" class="com.ekangcount.website.system.view.action.UserTypeAction"> <result name="ssss" type="dispatcher">
[时空与能量]逆转时空需要消耗大量能源 comsci 能源
无论如何,人类始终都想摆脱时间和空间的限制....但是受到质量与能量关系的限制,我们人类在目前和今后很长一段时间内,都无法获得大量廉价的能源来进行时空跨越..... 在进行时空穿梭的实验中,消耗超大规模的能源是必然
oracle的正则表达式(regular expression)详细介绍 daizj oracle 正则表达式
正则表达式是很多编程语言中都有的。可惜oracle8i、oracle9i中一直迟迟不肯加入，好在oracle10g中终于增加了期盼已久的正则表达式功能。你可以在oracle10g中使用正则表达式肆意地匹配你想匹配的任何字符串了。正则表达式中常用到的元数据(metacharacter)如下： ^ 匹配字符串的开头位置。 $ 匹配支付传的结尾位置。 *
报表工具与报表性能的关系 datamachine 报表工具 birt 报表性能润乾报表
在选择报表工具时，性能一直是用户关心的指标，但是，报表工具的性能和整个报表系统的性能有多大关系呢？要回答这个问题，首先要分析一下报表的处理过程包含哪些环节，哪些环节容易出现性能瓶颈，如何优化这些环节。一、报表处理的一般过程分析 1、用户选择报表输入参数后，报表引擎会根据报表模板和输入参数来解析报表，并将数据计算和读取请求以SQL的方式发送给数据库。 2、
初一上学期难记忆单词背诵第一课 dcj3sjt126com word english
what 什么 your 你 name 名字 my 我的 am 是 one 一 two 二 three 三 four 四 five 五 class 班级，课 six 六 seven 七 eight 八 nince 九 ten 十 zero 零 how 怎样 old 老的 eleven 十一 twelve 十二 thirteen
我学过和准备学的各种技术 dcj3sjt126com 技术
语言VB https://msdn.microsoft.com/zh-cn/library/2x7h1hfk.aspxJava http://docs.oracle.com/javase/8/C# https://msdn.microsoft.com/library/vstudioPHP http://php.net/manual/en/Html
struts2中token防止重复提交表单蕃薯耀重复提交表单 struts2中token
struts2中token防止重复提交表单 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月12日 11:52:32 星期日 ht
线性查找二维数组 hao3100590 二维数组
1.算法描述有序（行有序，列有序，且每行从左至右递增，列从上至下递增）二维数组查找，要求复杂度O(n) 2.使用到的相关知识：结构体定义和使用，二维数组传递（http://blog.csdn.net/yzhhmhm/article/details/2045816） 3.使用数组名传递这个的不便之处很明显，一旦确定就是不能设置列值 //使
spring security 3中推荐使用BCrypt算法加密密码 jackyrong Spring Security
spring security 3中推荐使用BCrypt算法加密密码了，以前使用的是md5， Md5PasswordEncoder 和 ShaPasswordEncoder，现在不推荐了，推荐用bcrpt Bcrpt中的salt可以是随机的，比如： int i = 0; while (i < 10) { String password = "1234
学习编程并不难,做到以下几点即可! lampcy java html 编程语言
不论你是想自己设计游戏，还是开发iPhone或安卓手机上的应用，还是仅仅为了娱乐，学习编程语言都是一条必经之路。编程语言种类繁多，用途各异，然而一旦掌握其中之一，其他的也就迎刃而解。作为初学者，你可能要先从Java或HTML开始学，一旦掌握了一门编程语言，你就发挥无穷的想象，开发各种神奇的软件啦。 1、确定目标学习编程语言既充满乐趣，又充满挑战。有些花费多年时间学习一门编程语言的大学生到
架构师之mysql----------------用group+inner join,left join ,right join 查重复数据（替代in) nannan408 right join
1.前言。如题。 2.代码 (1)单表查重复数据,根据a分组 SELECT m.a,m.b, INNER JOIN （select a,b,COUNT(*) AS rank FROM test.`A` A GROUP BY a HAVING rank>1 )k ON m.a=k.a （2）多表查询，使用改为le
jQuery选择器小结 VS 节点查找（附css的一些东西） Everyday都不同 jquery css name选择器追加元素查找节点
最近做前端页面，频繁用到一些jQuery的选择器，所以特意来总结一下：测试页面： <html> <head> <script src="jquery-1.7.2.min.js"></script> <script> /*$(function() { $(documen
关于EXT tntxia ext
ExtJS是一个很不错的Ajax框架，可以用来开发带有华丽外观的富客户端应用，使得我们的b/s应用更加具有活力及生命力。ExtJS是一个用 javascript编写，与后台技术无关的前端ajax框架。因此，可以把ExtJS用在.Net、Java、Php等各种开发语言开发的应用中。 ExtJs最开始基于YUI技术，由开发人员Jack
一个MIT计算机博士对数学的思考 xjnine Math
在过去的一年中，我一直在数学的海洋中游荡，research进展不多，对于数学世界的阅历算是有了一些长进。为什么要深入数学的世界？作为计算机的学生，我没有任何企图要成为一个数学家。我学习数学的目的，是要想爬上巨人的肩膀，希望站在更高的高度，能把我自己研究的东西看得更深广一些。说起来，我在刚来这个学校的时候，并没有预料到我将会有一个深入数学的旅程。我的导师最初希望我去做的题目，是对appe