JianqiuChen

【YOLO V4】速度和准确度更优的目标检测并附源码

从图中可以看到，最新的YOLO V4 版本的速度比EfficientDet 快了 2倍在大致相同的AP 表现下。相比之前的YOLO V3 AP和FPS 分别提升了 10% 和 12%。

摘要：

据说有许多功能可以提高卷积神经网络（CNN）的准确性。需要在大型数据集上对这些特征的组合进行实际测试，并对结果进行理论证明。某些功能仅在某些模型上运行，并且仅在某些问题上运行，或者仅在小型数据集上运行；而某些功能（例如批归一化和残差连接）适用于大多数模型，任务和数据集。我们假设此类通用功能包括加权残差连接（WRC），跨阶段部分连接（CSP），跨小批量标准化（CmBN），自对抗训练（SAT）和Mish激活。我们使用新功能：WRC，CSP，CmBN，SAT，Mish激活，马赛克数据增强，CmBN，DropBlock正则化和CIoU丢失，并结合其中的一些来达到最先进的结果：在MS VCO数据集上，Tesla V100的实时速度为〜65 FPS时为43.5％AP（65.7％AP50）。
论文的源码链接：https://github.com/JianqiuChen/darknet

Related work

目标检测模型

现代的检测器通常由两部分组成，一个是在ImageNet上预训练的骨架，另一个是用来预测对象的类别和边界框的主要部分。对于在GPU平台上运行的那些检测器，其主干可能是VGG [68]，ResNet [26]，ResNeXt [86]或DenseNet [30]。对于在CPU平台上运行的那些检测器，其主干可以是SqueezeNet [31]，MobileNet [28、66、27、74]或ShuffleNet [97、53]。至于头部，通常分为两类，即一级目标检测器和二级目标检测器。最具有代表性的两级对象检测器是R-CNN [19]系列，包括快速R-CNN [18]，更快的R-CNN [64]，R-FCN [9]和Libra R-CNN [ 58]。也可以使两阶段物体检测器成为无锚物体检测器，例如RepPoints [87]。对于一级目标检测器，最具代表性的模型是YOLO [61、62、63]，SSD [50]和RetinaNet [45]。近年来，开发了无锚的一级物体检测器。这种检测器是CenterNet [13]，CornerNet [37、38]，FCOS [78]等。近年来开发的对象检测器通常在骨架和头部之间插入一些层，通常使用这些层。收集不同阶段的要素地图。我们可以称其为对象检测器的颈部。通常，颈部由几个自下而上的路径和几个自上而下的路径组成。配备此机制的网络包括功能金字塔网络（FPN）[44]，路径聚集网络（PAN）[49]，BiFPN [77]和NAS-FPN [17]。
除上述模型外，一些研究人员还着重于直接构建用于对象检测的新主干网（DetNet [43]，DetNAS [7]）或新的整个模型（SpineNet [12]，HitDeector [20]）。。
综上所述，普通的物体检测器由以下几部分组成：

Bag of freebies

通常，传统的物体检测器是离线训练的。因此，研究人员总是喜欢利用这一优势，并开发出更好的训练方法，这些方法可以使目标检测器获得更好的精度而又不会增加推理成本。我们称这些方法为“免费赠品”，仅改变培训策略或仅增加培训成本。物体检测方法经常采用并且符合自由袋定义的是数据增强。数据增强的目的是增加输入图像的可变性，从而使设计的物体检测模型对从不同环境获得的图像具有更高的鲁棒性。例如，光度畸变和几何畸变是两种常用的数据增强方法，它们无疑有益于物体检测任务。在处理光度失真时，我们会调整图像的亮度，对比度，色相，饱和度和噪点。对于几何失真，我们添加了随机缩放，裁剪，翻转和旋转。

上面提到的数据扩充方法都是逐像素调整，并且保留了调整区域中的所有原始像素信息。此外，一些从事数据增强的研究人员将重点放在模拟对象遮挡问题上。他们在图像分类和目标检测中取得了良好的效果。例如，随机擦除[100]和CutOut [11]可以随机选择图像中的矩形区域，并填充零的随机或互补值。至于捉迷藏[69]和网格遮罩[6]，他们随机或均匀地选择图像中的多个矩形区域，并将它们替换为所有的zeros。如果类似的概念应用于特征图，则有DropOut [71]，DropConnect [80]和DropBlock [16]方法。另外，一些研究人员提出了使用多个图像一起执行数据增强的方法。例如，MixUp [92]使用两个图像以不同的系数比值相乘和叠加，然后使用这些叠加的比值来调整标签。对于CutMix [91]，它是将裁切后的图像覆盖到其他图像的矩形区域，并根据混合区域的大小调整标签。除了上述方法之外，样式转移GAN [15]还用于数据扩充，这种用法可以有效地减少CNN所学习的纹理偏差。

与上面提出的各种方法不同，其他一些免费赠品方法专用于解决数据集中语义分布可能存在偏差的问题。在处理语义分布偏向问题时，一个非常重要的问题是不同类之间存在数据不平衡的问题，并且该问题通常通过硬否定示例挖掘[72]或在线硬示例挖掘来解决。 [67]在两阶段对象检测器中。

因此林等。 [45]提出了焦点损失，以解决各种类别之间存在的数据不平衡问题。另一个非常重要的问题是，很难用一键硬表示来表达不同类别之间的关联度的关系。执行标记时通常使用这种表示方案。在[73]中提出的标签平滑是将硬标签转换为软标签以进行训练，这可以使模型更健壮。为了获得更好的软标签，Islam等。 [33]介绍了知识蒸馏的概念来设计标签细化网络。
最后一袋免费赠品是边界框（BBox）回归的目标函数。传统的物体检测器通常使用均方误差（MSE）对BBox的中心点坐标以及高度和宽度直接执行回归，即{xcenter，ycenter，w，h}或左上点和右下点，即{xtop左，ytop左，xbottom右，ybottom右}。对于基于锚的方法，它是估计对应的偏移量，例如{fset的xcenter，fset的ycenter，woffset，hoffset}和{xtop左偏移量，ytop左偏移量，xbottom右偏移量，ybottom右偏移量偏移量}。但是，直接估计BBox的每个点的坐标值是将这些点视为自变量，但实际上并没有考虑对象本身的完整性。为了使这个问题得到更好的处理，一些研究人员最近提出了IoU损失[90]，从而将预测的BBox区域和地面真实BBox区域的覆盖范围考虑在内。 IoU损耗计算过程将通过使用基本事实执行IoU，然后将生成的结果连接到整个代码中，从而触发BBox的四个坐标点的计算。因为IoU是尺度不变表示，所以可以解决传统方法计算{x，y，w，h}的l1或l2损失时，损失会随着尺度增加的问题。最近，一些研究人员继续改善IoU损失。例如，GIoU损失[65]除了覆盖区域外还包括对象的形状和方向。他们建议找到最小面积的BBox，它可以同时覆盖预测的BBox和地面真值BBox，并使用该BBox作为分母来代替最初用于IoU损耗的分母。至于DIoU损失[99]，它还考虑了对象中心的距离，而CIoU损失[99]同时考虑了重叠区域，中心点之间的距离和纵横比。 CIoU可以在BBox回归问题上实现更好的收敛速度和准确性。

Bag of specials

对于那些插件模块和后处理方法，这些插件模块和后处理方法仅少量增加推理成本，但可以显着提高对象检测的准确性，我们称它们为“特价袋”。一般而言，这些插件模块用于增强模型中的某些属性，例如扩大感受野，引入注意机制或增强特征集成能力等，而后处理是一种筛选模型预测结果的方法。

可以用来增强接收域的通用模块是SPP [25]，ASPP [5]和RFB [47]。 SPP模块起源于空间金字塔匹配（SPM）[39]，SPM的原始方法是将特征图分割为几个d×d个相等的块，其中d可以为{1,2,3，…。 }，从而形成空间金字塔，然后提取词袋特征。 SPP将SPM集成到CNN中，并使用最大池操作而不是词袋操作。由于He等人提出的SPP模块。 [25]将输出一维特征向量，在全卷积网络（FCN）中应用是不可行的。因此，在YOLOv3 [63]的设计中，Redmon和Farhadi将SPP模块改进为内核大小为k×k的最大池输出的级联，其中k = {1、5、9、13}，步幅等于1。在这种设计下，较大的k×k最大池有效地增加了主干特征的接收场。在添加了改进版本的SPP模块之后，YOLOv3-608在MS COCO对象检测任务上将AP50升级了2.7％，而额外的计算费用为0.5％。 ASPP [5]模块和改进的SPP模块之间在操作上的差异主要在于原始k×k内核大小，最大步幅等于1到几个3×3内核大小，扩展比率等于k和在膨胀卷积运算中，步幅等于1。 RFB模块将使用k×k核的多个膨胀卷积，膨胀比等于k，步幅等于1，以获得比ASPP更全面的空间覆盖。 RFB [47]仅花费7％的额外推理时间，即可将MS COCO上SSD的AP50提高5.7％。

通常在对象检测中使用的注意力模块主要分为通道注意和点注意，这两个注意模型的代表是挤压和激发（SE）[29]和Spa -分别注意模块（SAM）[85]。尽管SE模块可以将ImNetNet图像分类任务中的ResNet50的功能提高1％至top-1的准确性，但仅将计算工作量增加2％即可，但是通常在GPU上它将使推理时间增加大约10 ％，因此更适合在移动设备中使用。但是对于SAM，它只需要支付0.1％的额外费用，就可以在ImageNet图像分类任务上将ResNet50-SE的top-1准确性提高0.5％。最好的是，它根本不影响GPU上的推理速度。
在特征集成方面，早期的实践是使用跳过连接[51]或超列[22]将低层物理特征集成到高层语义特征。由于诸如FPN的多尺度预测方法已变得流行，因此提出了许多集成了不同特征金字塔的轻量级模块。这种模块包括SFAM [98]，ASFF [48]和BiFPN [77]。 SFAM的主要思想是使用SE模块在多尺度级联特征图上执行通道级级别的加权。对于ASFF，它使用softmax作为逐点级别权重，然后添加不同比例的特征图。在BiFPN中，提出了多输入加权残差连接以执行按比例的级别重新加权，然后添加不同比例的特征图。
在深度学习的研究中，有些人专注于寻找良好的激活功能。良好的激活函数可以使梯度更有效地传播，同时不会引起过多的额外计算成本。 Nair和Hinton [56]在2010年提出ReLU来实质上解决传统tanh和S形激活函数中经常遇到的梯度消失问题。随后，LReLU [54]，PReLU [24]，ReLU6 [28]，比例指数线性单位（SELU）[35]，Swish [59]，hard-Swish [27]和Mish [55]等。还提出了用于解决梯度消失问题的方法。 LReLU和PReLU的主要目的是解决当输出小于零时ReLU的梯度为零的问题。至于ReLU6和Hard-Swish，它们是专门为量化网络设计的。为了对神经网络进行自归一化，提出了SELU激活函数来满足这一目标。要注意的一件事是，Swish和Mish都是连续可区分的激活函数。
基于深度学习的对象检测中常用的后处理方法是NMS，它可以用来过滤那些无法预测相同对象的BBox，而仅保留具有较高响应能力的候选BBox。 NMS尝试改进的方法与优化目标函数的方法一致。 NMS提出的原始方法没有考虑上下文信息，因此Girshick等。 [19]在R-CNN中添加了分类置信度得分作为参考，并且根据置信度得分的顺序，从高分到低分的顺序执行了贪婪的NMS。对于软网络管理系统[1]，它考虑到一个问题，即物体的遮挡可能会导致带有IoU分数的贪婪的网络管理系统的置信度得分下降。 DIoU NMS [99]开发人员的思维方式是在软NMS的基础上将中心距离的信息添加到BBox筛选过程中。值得一提的是，由于上述后处理方法均未直接涉及捕获的图像功能，因此在随后的无锚定方法开发中不再需要后处理。

Methodology

在并行计算和生产系统上进行优化。

The basic aim is fast operating speed of neural network, in production systems and optimization for parallel computations, rather than the low computation volume theoreti- cal indicator (BFLOP).

We present two options of real-time neural networks:
• For GPU we use a small number of groups (1 - 8) in convolutional layers: CSPResNeXt50/CSPDarknet53
• For VPU - we use grouped-convolution, but we refrain from using Squeeze-and-excitement (SE) blocks - specifically
this includes the following models: EfficientNet-lite / MixNet [76] GhostNet [21] / Mo- bileNetV3

Selection of architecture

YOLO V4 的目标是在输入网络分辨率，卷积层数，参数数之间找到最佳平衡。 (filter size2 * filters * channel / groups), and the number of layer outputs (filters)
举个例子来说：

our numerous studies demonstrate that the CSPResNext50 is considerably better compared to CSPDarknet53 in terms of object classification on the ILSVRC2012 (ImageNet) dataset . However, conversely, theCSPDarknet53 is better compared to CSPResNext50 in terms of detecting ob- jects on the MS COCO dataset.

YOLO V4 另一个目标是针对不同的检测器水平，从不同的主干水平中选择更多的块以增加感受野和最佳参数聚集方法 比如FPN，PAN，ASFF， BiFPN

对于分类最佳的参考模型对于检测器并非总是最佳的。与分类器相比，检测器需要满足以下条件：

更高的输入网络规模（分辨率）–用于检测多个小型物体
更高的层数–更高的感受野，以覆盖输入网络不断扩大的规模
更多的参数–提高模型在单个图像中检测不同大小的多个对象的能力

假设地说，我们可以假设一个具有较大感受野的（通过大量3×3的卷积和）和大量参数的模型主干。表1显示了CSPResNeXt50，CSPDarknet53和EfficientNet B3的信息。 CSPResNext50仅包含16个3×3卷积层，一个425×425感受野和20.6 M参数，而CSPDarknet53包含29个3×3卷积层，一个725×725感受野和27.6 M参数。这种理论上的论证，再加上我们的众多实验，表明CSPDarknet53神经网络是两者作为检测器主干的最佳模型。

不同大小的感受野的影响总结如下：

Up to the object size - allows viewing the entire object
Up to networksize-allows viewing the context around
the object
Exceeding the network size - increases the number of connections between the image point and the final activation

我们将SPP块添加到CSPDarknet53上，因为它显着增加了感受野，分离出最重要的上下文特征，并且几乎没有降低网络运行速度。我们使用PANet作为针对不同检测器级别的来自不同backbone 级别的参数聚合方法，而不是YOLOv3中使用的FPN

最后，我们选择CSPDarknet53骨干网，SPP附加模块，PANet路径聚合瓶颈和YOLOv3（anchor based）作为YOLOv4的体系结构。
将来，我们计划大幅扩展检测器的赠品袋（BoF）的内容，从理论上讲，它可以解决一些问题并提高检测器的准确性，并以实验方式依次检查每个功能的影响。

YOLO V4 不使用跨GPU批量标准化（CGBN或SyncBN）或昂贵的专用设备。这样一来，任何人都可以在传统的图形处理器上重现我们的最新技术成果，例如GTX 1080Ti或RTX 2080Ti。

Selection of BoF and BoS

为了改进对象检测训练过程，CNN通常使用以下方法：

至于训练激活功能，由于PReLU和SELU更难以训练，并且ReLU6是专门为量化网络设计的，因此我们从候选列表中删除了上述激活功能。在重新量化方法中，发布DropBlock的人已将其方法与其他方法进行了详细的比较，并且其正则化方法赢得了很多。因此，我们毫不犹豫地选择了DropBlock作为我们的规范化方法。至于标准化方法的选择，由于我们专注于仅使用一个GPU的训练策略，因此不考虑syncBN。

Additional improvements

为了使设计的检测器更适合在单个GPU上进行训练，我们进行了以下附加设计和改进：

•我们引入了一种新的数据增强方法，即自我对抗训练（SAT）
•我们在应用遗传算法时选择最佳超参数
•我们修改了一些现有方法，使我们的设计适合进行有效的训练和检测-修改后的SAM，修改后的PAN和交叉小批量标准化（CmBN）

Mosaic 表示一种新的数据增强方法，该方法混合了4个训练图像。然而 CutMix 只有两个输入图像。这样就可以检测到超出其正常上下文的对象。此外，批量归一化从每层上的4张不同图像计算激活统计信息。这大大减少了对大批量生产的需求。

自我对抗训练（SAT）也代表了一项新的数据增强技术，该技术可在2个向前和向后的阶段进行操作。在第一阶段，神经网络会更改原始图像，而不是网络权重。这样，神经网络对其自身执行了对抗攻击，从而改变了原始图像，从而欺骗了图像上没有想要的物体。在第二阶段，训练神经网络以正常方式检测此修改图像上的对象。

CmBN表示CBN修改版本，如图4所示，定义为交叉微型批处理规范化（CmBN）。这仅收集单个batch中的mini-batches之间的统计信息。

我们将SAM从空间注意改为点注意，并将PAN的快捷连接替换为串联，分别如图5和图6所示。

YOLOv4 的部分细节

实验

我们测试了不同训练改进技术对ImageNet（ILSVRC 2012 val）数据集上分类器准确性的影响，然后对MS COCO（test-dev 2017）数据集上检测器的准确性进行了影响。

在ImageNet图像分类实验中，默认的超参数如下：训练步骤为8,000,000；批量大小和最小批量大小分别为128和32；采用多项式衰减学习率调度策略，初始学习率为0.1。预热步骤为1000；动量和重量偏差分别设置为0.9和0.005。我们所有的BoS实验都使用与默认设置相同的超参数，并且在BoF实验中，我们添加了额外的50％训练步骤。在BoF实验中，我们验证了MixUp，CutMix，Mosaic，模糊数据增强和标签平滑正则化方法。在BoS实验中，我们比较了LReLU，Swish和Mish激活功能的效果。所有实验均使用1080 Ti或2080 Ti GPU进行培训。
在MS COCO对象检测实验中，默认超参数如下：训练步骤为500,500；训练步骤为500,500。采用步阶衰减学习率调度策略，初始学习率为0.01，分别在40万步和45万步上乘以系数0.1。动量和重量衰减分别设置为0.9和0.0005。所有架构均使用单个GPU以64的批处理大小执行多尺度训练，而最小批处理大小为8或4则取决于架构和GPU内存限制。除了使用遗传算法进行超参数搜索实验外，所有其他实验均使用默认设置。遗传算法使用YOLOv3-SPP训练GIoU损失，并搜索300个纪元的最小值5k集。对于遗传算法实验，我们采用搜索学习率0.00261，动量0.949，IoU阈值来分配地面实况0.213，并使用损失归一化器0.07。我们已经验证了许多BoF，包括消除网格敏感性，分子数据增强，IoU阈值，遗传算法，类标签平滑，交叉小批量标准化，自对抗训练，余弦退火调度程序，动态小批量大小，DropBlock，优化锚点，不同类型的IoU损失。我们还对各种BoS进行了实验，包括Mish，SPP，SAM，RFB，BiFPN和高斯YOLO [8]。对于所有实验，我们仅使用一个GPU进行训练，因此未使用可优化多个GPU的诸如syncBN之类的技术。

结论

我们提供最先进的检测器，其速度（FPS）和准确度（MS COCO AP50 … 95和AP50）比所有可用的替代检测器都要高。所描述的检测器可以训练并在具有8-16 GB-VRAM的常规GPU上使用，这使得它的广泛使用成为可能。一阶段基于锚的探测器的原始概念已经证明了其可行性。我们已经验证了大量功能，并选择使用这些功能以提高分类器和检测器的准确性。这些功能可以用作未来研究和开发的最佳实践。

【目标检测数据集】卡车数据集1073张VOC+YOLO格式熬夜写代码的平头哥∰ 目标检测 YOLO 人工智能
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：1073标注数量(xml文件个数)：1073标注数量(txt文件个数)：1073标注类别数：1标注类别名称:["truck"]每个类别标注的框数：truck框数=1120总框数：1120使用标注工具：labelImg标注
番茄西红柿叶子病害分类数据集12882张11类别 futureflsl 数据集分类数据挖掘人工智能
数据集类型：图像分类用，不可用于目标检测无标注文件数据集格式：仅仅包含jpg图片，每个类别文件夹下面存放着对应图片图片数量(jpg文件个数)：12882分类类别数：11类别名称:["Bacterial_Spot_Bacteria","Early_Blight_Fungus","Healthy","Late_Blight_Water_Mold","Leaf_Mold_Fungus","Powdery
[数据集][目标检测]汽车头部尾部检测数据集VOC+YOLO格式5319张3类别 FL1623863129 数据集目标检测汽车 YOLO
数据集制作单位：未来自主研究中心(FIRC)版权单位：未来自主研究中心(FIRC)版权声明：数据集仅仅供个人使用，不得在未授权情况下挂淘宝、咸鱼等交易网站公开售卖,由此引发的法律责任需自行承担数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：5319标注数量(xml文件
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
【目标检测数据集】番茄叶片病害数据集13940张9类VOC+YOLO格式熬夜写代码的平头哥∰ 数据集目标检测 YOLO 目标跟踪
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：13946标注数量(xml文件个数)：13946标注数量(txt文件个数)：13946标注类别数：9标注类别名称:["EarlyBlight","Healthy","LateBlight","LeafMiner","Le
[数据集][目标检测]血细胞检测数据集VOC+YOLO格式2757张4类别 FL1623863129 数据集目标检测 YOLO 人工智能
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：2757标注数量(xml文件个数)：2757标注数量(txt文件个数)：2757标注类别数：4标注类别名称:["Platelets","RBC","WBC","sicklecell"]每个类别标注的框数：Platelet
目标检测YOLO系列从入门到精通技术详解100篇-【目标检测】工业相机格图素书数码相机目标检测人工智能
目录知识储备深度相机1TOF2双目视觉3结构光4智能门锁应用5手机应用算法原理相机的成像与标定模型相机标定的实施·标定过程的算法实施相机标定的扩展CCD工业相机、镜头倍率及相关参数计算方法知识储备深度相机1TOF1.1Kinectv2Kinectv2是Microsoft在2014年发售的，如图1-1所示。相比于Kinectv1在硬件和软件上作出了很大的进化，且在深度测量的系统和非系统误差方面表现出
【小贪】项目实战——Zero-shot根据文字提示分割出图片目标掩码贪钱算法还我头发 #Deep Learning #Computer Vision AI 目标检测深度学习 python 语义分割 Zero-shot
目标描述给定RGB视频或图片，目标是分割出图像中的指定目标掩码。我们需要复现两个Zero-shot的开源项目，分别为IDEA研究院的GroundingDINO和Facebook的SAM。首先使用目标检测方法GroundingDINO，输入想检测目标的文字提示，可以获得目标的anchorbox。将上一步获得的box信息作为SAM的提示，分割出目标mask。具体效果如下（测试数据来自VolumeDef
yolov5 +gui界面+单目测距实现对图片视频摄像头的测距毕设宇航 QQ767172261 yolov5 单目测距
可实现对图片，视频，摄像头的检测项目概述本项目旨在实现一个集成了YOLOv5目标检测算法、图形用户界面（GUI）以及单目测距功能的系统。该系统能够对图片、视频或实时摄像头输入进行目标检测，并估算目标的距离。通过结合YOLOv5的强大检测能力和单目测距技术，系统能够在多种应用场景中提供高效、准确的目标检测和测距功能。技术栈YOLOv5：用于目标检测的深度学习模型。OpenCV：用于图像处理和单目测距
目标检测-YOLOv3 wydxry 深度学习目标检测 YOLO 深度学习
YOLOv3介绍YOLOv3(YouOnlyLookOnce,Version3)是YOLO系列目标检测模型的第三个版本，相较于YOLOv2有了显著的改进和增强，尤其在检测速度和精度上表现优异。YOLOv3的设计目标是在保持高速的前提下提升检测的准确性和稳定性。下面是对YOLOv3改进和优势的介绍，以及YOLOv3核心部分的代码展示。相比YOLOv2的改进与优势多尺度特征金字塔YOLOv3引入了FP
SSD目标检测系统月见樽
首发于个人博客系统结构system.pngSSD识别系统也是一种单步物体识别系统，即将提取物体位置和判断物体类别融合在一起进行，其最主要的特点是识别器用于判断物体的特征不仅仅来自于神经网络的输出，还来自于神经网络的中间结果。该系统分为以下几个部分：神经网络部分：用作特征提取器，提取图像特征识别器：根据神经网络提取的特征，生成包含物品位置和类别信息的候选框（使用卷积实现）后处理：对识别器提取出的候选
深度学习目标检测入门COCO数据集日暮途远z 深度学习目标检测人工智能
常见数据集类型：COCO数据集：Pytorch加载COCO数据集：COCO数据集的读取COCO_dataset=torchvision.datasets.CocoDetection(root="./dataset/val2017",annFile="./instances_val2017/instances_val2017.json")root(strorpathlib.Path)–Rootdir
[数据集][目标检测]街道乱堆垃圾检测数据集VOC+YOLO格式94张1类别 FL1623863129 数据集目标检测 YOLO 人工智能
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：94标注数量(xml文件个数)：94标注数量(txt文件个数)：94标注类别数：1标注类别名称:["baolu"]每个类别标注的框数：baolu框数=107总框数：107使用标注工具：labelImg标注规则：对类别进行
YOLOv8改进 | 检测头篇 | YOLOv8引入DynamicHead检测头小李学AI YOLOv8有效涨点专栏 YOLO 深度学习目标检测计算机视觉机器学习人工智能
1.DynamicHead描述1.1摘要：在目标检测中，定位和分类相结合的复杂性导致了各种方法的蓬勃发展。以往的工作试图提高各种目标检测头的性能，但未能呈现出统一的观点。本文根据目标检测的特点，推导了一种新的动态头部框架，将目标检测头部与注意力统一起来。该方法通过在特征层次间、空间位置间和输出通道内协调组合多种自注意机制，在不增加计算开销的情况下显著提高了目标检测头的表示能力。进一步的实验表明，本
目标检测-YOLOv1 wydxry 深度学习目标检测 YOLO 人工智能
YOLOv1介绍YOLOv1（YouOnlyLookOnceversion1）是一种用于目标检测的深度学习算法，由JosephRedmon等人于2016年提出。它基于单个卷积神经网络，将目标检测任务转化为一个回归问题，通过在图像上划分网格并预测每个网格中是否包含目标以及目标的位置和类别来实现目标检测。YOLOv1的主要特点包括：快速的检测速度：相比于传统的目标检测算法，YOLOv1具有更快的检测速
[数据集][目标检测]人脸口罩佩戴目标检测数据集VOC+YOLO格式8068张3类别 FL1623863129 数据集目标检测 YOLO 目标跟踪
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：8068标注数量(xml文件个数)：8068标注数量(txt文件个数)：8068标注类别数：3标注类别名称:["face_with_mask","face_without_mask","mask"]每个类别标注的框数：f
葡萄检测-目标检测数据集（包括VOC格式、YOLO格式）数据集_深度学习目标检测 YOLO 人工智能计算机视觉葡萄
葡萄检测-目标检测数据集（包括VOC格式、YOLO格式）数据集：链接：https://pan.baidu.com/s/1YMwAaSJc8H5SI0f8RVSidw?pwd=iygs提取码：iygs数据集信息介绍：共有1646张图像和一一对应的标注文件标注文件格式提供了两种，包括VOC格式的xml文件和YOLO格式的txt文件。标注的对象共有以下几种：[‘grape’]标注框的数量信息如下：（标注
OpenCV项目实战-深度学习去阴影-图像去阴影阿利同学 opencv 深度学习人工智能阴影去除图像去阴影
往期热门博客项目回顾：计算机视觉项目大集合改进的yolo目标检测-测距测速路径规划算法图像去雨去雾+目标检测+测距项目交通标志识别项目yolo系列-重磅yolov9界面-最新的yolo姿态识别-3d姿态识别深度学习小白学习路线//正文开始！图像去阴影算法旨在改善图像质量并恢复阴影下物体的真实颜色与亮度这对于许多计算机视觉任务如物体识别、跟踪以及增强现实等至关重要。以下是一些图像去阴影算法的基本概述
目标检测-YOLOv4 wydxry 深度学习目标检测 YOLO 目标跟踪
YOLOv4介绍YOLOv4是YOLO系列的第四个版本，继承了YOLOv3的高效性，并通过大量优化和改进，在目标检测任务中实现了更高的精度和速度。相比YOLOv3，YOLOv4在框架设计、特征提取、训练策略等方面进行了全面升级。它在保持实时检测的同时，显著提升了检测性能，尤其在复杂场景中的表现尤为出色。相比YOLOv3的改进与优势改进的Backbone(CSPDarknet-53)YOLOv4使用
[数据集][目标检测]井盖丢失未盖破损检测数据集VOC+YOLO格式2890张5类别 FL1623863129 数据集目标检测 YOLO 人工智能
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：2890标注数量(xml文件个数)：2890标注数量(txt文件个数)：2890标注类别数：5标注类别名称:["broke","circle","good","lose","uncovered"]每个类别标注的框数：br
YOLOv8改进更换轻量级网络结构学yolo的小白 Upgrade YOLOv8进阶 YOLO 目标检测深度学习
一、GhostNet论文论文地址：1911.11907.pdf(arxiv.org)二、GhostNet结构GhostNet是一种高效的目标检测网络，具有较低的计算复杂度和较高的准确性。该网络采用了轻量级的架构，可以在计算资源有限的设备上运行，并能够快速地实时检测图像中的目标物体。GhostNet基于MobileNetV3的设计思路，采用了Ghost模块来减少网络参数数量，从而减少计算量并提高模型
【Python】成功解决TypeError: list indices must be integers or slices, not str 高斯小哥 BUG解决方案合集 python list 新手入门学习 debug
【Python】成功解决TypeError:listindicesmustbeintegersorslices,notstr欢迎进入我的个人主页，我是高斯小哥！博主档案：广东某985本硕，SCI顶刊一作，深耕深度学习多年，熟练掌握PyTorch框架。技术专长：擅长处理各类深度学习任务，包括但不限于图像分类、图像重构(去雾\去模糊\修复)、目标检测、图像分割、人脸识别、多标签分类、重识别(行人\车辆
LeYOLO 用于目标检测的新型可扩展和高效CNN架构 | 最新轻量化SOTA! 5GFLOP下无对手！迪菲赫尔曼 YOLOv8改进实战目标检测 cnn 架构 pytorch 深度学习轻量化
本改进已集成到YOLOv8-Magic框架。论文地址：https://arxiv.org/pdf/2406.14239代码地址：https://github.com/LilianHollard/LeYOLO/tree/main在深度神经网络中，计算效率对于目标检测至关重要，尤其是在新型模型更倾向于速度而非计算效率（浮点运算次数，FLOP）的情况下。这种演变在一定程度上忽视了嵌入式和面向移动的AI目
Python 使用 Detectron2 进行目标检测 (Detectron2, CenterNet2, Detic) Eric Woo X Python AI Ubuntu python 目标检测开发语言
代码说明代码主要是一个用来演示如何使用Detectron2进行目标检测的脚本。它可以从摄像头或视频文件中读取图像，并应用指定的配置文件进行目标检测。其中，Detectron2结合了CenterNet2和Detic进行目标检测。主要库介绍Detectron2Detectron2是由FacebookAIResearch开发的一个用于目标检测和实例分割的开源库。它提供了一系列预训练模型和灵活的配置系统，
Transformer+目标检测，这一篇入门就够了 BIT可达鸭 ▶深度学习-计算机视觉 transformer 深度学习目标检测计算机视觉自然语言处理
VisionTransformerforObjectDetection本文作者：Encoder-Decoder简介：Encoder-Decoder的缺陷：Attention机制：Self-Attention机制：Multi-HeadAttention：Transformer结构：图像分类之ViT：图像分类之PyramidViT：目标检测之DETR：目标检测之DeformableDETR：本文作者：
目标检测-YOLOv2 wydxry 深度学习目标检测 YOLO 人工智能
YOLOv2介绍YOLOv2（YouOnlyLookOnceversion2）是一种用于目标检测的深度学习模型，由JosephRedmon等人于2016年提出，并详细论述在其论文《YOLO9000:Better,Faster,Stronger》中。YOLOv2在保持高速检测的同时，显著提升了检测的精度和泛化能力，成为实时目标检测领域的重要算法之一。核心原理YOLOv2的核心原理是将目标检测问题转化
【计算机视觉前沿研究热点顶会】ECCV 2024中目标检测有关的论文平安顺遂事事如意顶刊顶会论文合集计算机视觉目标检测人工智能 3d 目标跟踪
整值训练和尖峰驱动推理脉冲神经网络用于高性能和节能的目标检测与人工神经网络(ANN)相比，脑激励的脉冲神经网络(SNN)具有生物合理性和低功耗的优势。由于SNN的性能较差，目前的应用仅限于简单的分类任务。在这项工作中，我们专注于弥合人工神经网络和神经网络在目标检测方面的性能差距。我们的设计围绕着网络架构和尖峰神经元。当行人检测遇到多模态学习时：通才模型和基准数据集近年来，利用不同传感器模态(如RG
目标检测——YOLOv8模型预测结果张飞飞飞飞飞目标检测 YOLO 人工智能
fromultralyticsimportYOLOmodel_path=r'/home/zhangh/project1/workproject/YOLOv8/ultralytics/runs/train/2024723_yolov8n5/weights/best.pt'img_path=r'worker_data/images/val/%E9%93%B2%E6%96%97%E5%9D%90%E4%
基于yolov8的口罩佩戴检测系统python源码+onnx模型+评估指标曲线+精美GUI界面 FL1623863129 深度学习 python
【算法介绍】基于YOLOv8的口罩佩戴检测系统是一款利用深度学习技术，特别是YOLOv8算法，实现高效、准确检测人脸是否佩戴口罩的系统。YOLOv8作为YOLO系列算法的最新版本，在检测速度和准确性上进行了显著优化，能够实时处理图像和视频数据。该系统通过训练大量标注了人脸和口罩状态（包括戴口罩、未戴口罩）的图片数据，构建了一个强大的目标检测模型。在实际应用中，该系统可以部署在公共场所如机场、车站、
[数据集][目标检测]卫星遥感舰船检测数据集VOC+YOLO格式2238张17类别 FL1623863129 数据集目标检测 YOLO 人工智能
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：2238标注数量(xml文件个数)：2238标注数量(txt文件个数)：2238标注类别数：17标注类别名称:[“AircraftCarrier”,“AuxiliaryShips”,“Cargo”,“Commander”
JAVA中的Enum 周凡杨 java enum 枚举
Enum是计算机编程语言中的一种数据类型---枚举类型。在实际问题中，有些变量的取值被限定在一个有限的范围内。例如，一个星期内只有七天我们通常这样实现上面的定义： public String monday; public String tuesday; public String wensday; public String thursday
赶集网mysql开发36条军规 Bill_chen mysql 业务架构设计 mysql调优 mysql性能优化
(一)核心军规 (1)不在数据库做运算 cpu计算务必移至业务层； (2)控制单表数据量 int型不超过1000w，含char则不超过500w；合理分表；限制单库表数量在300以内； (3)控制列数量字段少而精，字段数建议在20以内
Shell test命令 daizj shell 字符串 test 数字文件比较
Shell test命令 Shell中的 test 命令用于检查某个条件是否成立，它可以进行数值、字符和文件三个方面的测试。数值测试参数说明 -eq 等于则为真 -ne 不等于则为真 -gt 大于则为真 -ge 大于等于则为真 -lt 小于则为真 -le 小于等于则为真实例演示： num1=100 num2=100if test $[num1]
XFire框架实现WebService(二) 周凡杨 java webservice
有了XFire框架实现WebService(一)，就可以继续开发WebService的简单应用。 Webservice的服务端(WEB工程)：两个java bean类： Course.java package cn.com.bean; public class Course { private
重绘之画图板朱辉辉33 画图板
上次博客讲的五子棋重绘比较简单，因为只要在重写系统重绘方法paint（）时加入棋盘和棋子的绘制。这次我想说说画图板的重绘。画图板重绘难在需要重绘的类型很多，比如说里面有矩形，园，直线之类的，所以我们要想办法将里面的图形加入一个队列中，这样在重绘时就
Java的IO流西蜀石兰 java
刚学Java的IO流时，被各种inputStream流弄的很迷糊，看老罗视频时说想象成插在文件上的一根管道，当初听时觉得自己很明白，可到自己用时，有不知道怎么代码了。。。每当遇到这种问题时，我习惯性的从头开始理逻辑，会问自己一些很简单的问题，把这些简单的问题想明白了，再看代码时才不会迷糊。 IO流作用是什么？答：实现对文件的读写，这里的文件是广义的； Java如何实现程序到文件
No matching PlatformTransactionManager bean found for qualifier 'add' - neither 林鹤霄
java.lang.IllegalStateException: No matching PlatformTransactionManager bean found for qualifier 'add' - neither qualifier match nor bean name match! 网上找了好多的资料没能解决，后来发现：项目中使用的是xml配置的方式配置事务，但是
Row size too large (> 8126). Changing some columns to TEXT or BLOB aigo column
原文：http://stackoverflow.com/questions/15585602/change-limit-for-mysql-row-size-too-large 异常信息： Row size too large (> 8126). Changing some columns to TEXT or BLOB or using ROW_FORMAT=DYNAM
JS 格式化时间 alxw4616 JavaScript
/** * 格式化时间 2013/6/13 by 半仙 [email protected] * 需要 pad 函数 * 接收可用的时间值. * 返回替换时间占位符后的字符串 * * 时间占位符:年 Y 月 M 日 D 小时 h 分 m 秒 s 重复次数表示占位数 * 如 YYYY 4占4位 YY 占2位<p></p> * MM DD hh mm
队列中数据的移除问题百合不是茶队列移除
队列的移除一般都是使用的remov();都可以移除的,但是在昨天做线程移除的时候出现了点问题,没有将遍历出来的全部移除, 代码如下; // package com.Thread0715.com; import java.util.ArrayList; public class Threa
Runnable接口使用实例 bijian1013 java thread Runnable java多线程
Runnable接口 a. 该接口只有一个方法：public void run(); b. 实现该接口的类必须覆盖该run方法 c. 实现了Runnable接口的类并不具有任何天
oracle里的extend详解 bijian1013 oracle 数据库 extend
扩展已知的数组空间，例： DECLARE TYPE CourseList IS TABLE OF VARCHAR2(10); courses CourseList; BEGIN -- 初始化数组元素，大小为3 courses := CourseList('Biol 4412 ', 'Psyc 3112 ', 'Anth 3001 '); --
【httpclient】httpclient发送表单POST请求 bit1129 httpclient
浏览器Form Post请求浏览器可以通过提交表单的方式向服务器发起POST请求，这种形式的POST请求不同于一般的POST请求 1. 一般的POST请求，将请求数据放置于请求体中，服务器端以二进制流的方式读取数据，HttpServletRequest.getInputStream()。这种方式的请求可以处理任意数据形式的POST请求，比如请求数据是字符串或者是二进制数据 2. Form
【Hive十三】Hive读写Avro格式的数据 bit1129 hive
1. 原始数据 hive> select * from word; OK 1 MSN 10 QQ 100 Gtalk 1000 Skype 2. 创建avro格式的数据表 hive> CREATE TABLE avro_table(age INT, name STRING)STORE
nginx+lua+redis自动识别封解禁频繁访问IP ronin47
在站点遇到攻击且无明显攻击特征，造成站点访问慢，nginx不断返回502等错误时，可利用nginx+lua+redis实现在指定的时间段内，若单IP的请求量达到指定的数量后对该IP进行封禁，nginx返回403禁止访问。利用redis的expire命令设置封禁IP的过期时间达到在指定的封禁时间后实行自动解封的目的。一、安装环境： CentOS x64 release 6.4(Fin
java-二叉树的遍历-先序、中序、后序（递归和非递归）、层次遍历 bylijinnan java
import java.util.LinkedList; import java.util.List; import java.util.Stack; public class BinTreeTraverse { //private int[] array={ 1, 2, 3, 4, 5, 6, 7, 8, 9 }; private int[] array={ 10,6,
Spring源码学习-XML 配置方式的IoC容器启动过程分析 bylijinnan java spring IOC
以FileSystemXmlApplicationContext为例，把Spring IoC容器的初始化流程走一遍： ApplicationContext context = new FileSystemXmlApplicationContext ("C:/Users/ZARA/workspace/HelloSpring/src/Beans.xml&q
[科研与项目]民营企业请慎重参与军事科技工程 comsci 企业
军事科研工程和项目并非要用最先进，最时髦的技术，而是要做到“万无一失” 而民营科技企业在搞科技创新工程的时候，往往考虑的是技术的先进性，而对先进技术带来的风险考虑得不够，在今天提倡军民融合发展的大环境下，这种“万无一失”和“时髦性”的矛盾会日益凸显。。。。。。所以请大家在参与任何重大的军事和政府项目之前，对
spring 定时器-两种方式 cuityang spring quartz 定时器
方式一：间隔一定时间运行 <bean id="updateSessionIdTask" class="com.yang.iprms.common.UpdateSessionTask" autowire="byName" /> <bean id="updateSessionIdSchedule
简述一下关于BroadView站点的相关设计 damoqiongqiu view
终于弄上线了，累趴，戳这里http://www.broadview.com.cn 简述一下相关的技术点前端：jQuery+BootStrap3.2+HandleBars，全站Ajax（貌似对SEO的影响很大啊！怎么破？），用Grunt对全部JS做了压缩处理，对部分JS和CSS做了合并（模块间存在很多依赖，全部合并比较繁琐，待完善）。后端：U
运维 PHP问题汇总 dcj3sjt126com windows2003
1、Dede(织梦)发表文章时,内容自动添加关键字显示空白页解决方法：后台>系统>系统基本参数>核心设置>关键字替换（是/否），这里选择“是”。后台>系统>系统基本参数>其他选项>自动提取关键字，这里选择“是”。 2、解决PHP168超级管理员上传图片提示你的空间不足网站是用PHP168做的，反映使用管理员在后台无法
mac 下安装php扩展 - mcrypt dcj3sjt126com PHP
MCrypt是一个功能强大的加密算法扩展库，它包括有22种算法，phpMyAdmin依赖这个PHP扩展，具体如下：下载并解压libmcrypt-2.5.8.tar.gz。在终端执行如下命令： tar zxvf libmcrypt-2.5.8.tar.gz cd libmcrypt-2.5.8/ ./configure --disable-posix-threads --
MongoDB更新文档 [四] eksliang mongodb Mongodb更新文档
MongoDB更新文档转载请出自出处：http://eksliang.iteye.com/blog/2174104 MongoDB对文档的CURD，前面的博客简单介绍了，但是对文档更新篇幅比较大，所以这里单独拿出来。语法结构如下： db.collection.update( criteria, objNew, upsert, multi) 参数含义参数
Linux下的解压，移除，复制，查看tomcat命令 y806839048 tomcat
重复myeclipse生成webservice有问题删除以前的，干净 1、先切换到：cd usr/local/tomcat5/logs 2、tail -f catalina.out 3、这样运行时就可以实时查看运行日志了 Ctrl+c 是退出tail命令。有问题不明的先注掉 cp /opt/tomcat-6.0.44/webapps/g
Spring之使用事务缘由(3-XML实现) ihuning spring
用事务通知声明式地管理事务事务管理是一种横切关注点。为了在 Spring 2.x 中启用声明式事务管理，可以通过 tx Schema 中定义的 <tx:advice> 元素声明事务通知，为此必须事先将这个 Schema 定义添加到 <beans> 根元素中去。声明了事务通知后，就需要将它与切入点关联起来。由于事务通知是在 <aop:
GCD使用经验与技巧浅谈啸笑天 GC
前言 GCD(Grand Central Dispatch)可以说是Mac、iOS开发中的一大“利器”，本文就总结一些有关使用GCD的经验与技巧。 dispatch_once_t必须是全局或static变量这一条算是“老生常谈”了，但我认为还是有必要强调一次，毕竟非全局或非static的dispatch_once_t变量在使用时会导致非常不好排查的bug，正确的如下： 1
linux（Ubuntu）下常用命令备忘录1 macroli linux 工作 ubuntu
在使用下面的命令是可以通过--help来获取更多的信息1,查询当前目录文件列表：ls ls命令默认状态下将按首字母升序列出你当前文件夹下面的所有内容，但这样直接运行所得到的信息也是比较少的，通常它可以结合以下这些参数运行以查询更多的信息： ls / 显示/.下的所有文件和目录 ls -l 给出文件或者文件夹的详细信息 ls -a 显示所有文件，包括隐藏文
nodejs同步操作mysql qiaolevip 学习永无止境每天进步一点点 mysql nodejs
// db-util.js var mysql = require('mysql'); var pool = mysql.createPool({ connectionLimit : 10, host: 'localhost', user: 'root', password: '', database: 'test', port: 3306 });
一起学Hive系列文章 superlxw1234 hive Hive入门
[一起学Hive]系列文章目录贴，入门Hive，持续更新中。 [一起学Hive]之一—Hive概述，Hive是什么 [一起学Hive]之二—Hive函数大全-完整版 [一起学Hive]之三—Hive中的数据库(Database)和表(Table) [一起学Hive]之四-Hive的安装配置 [一起学Hive]之五-Hive的视图和分区 [一起学Hive
Spring开发利器：Spring Tool Suite 3.7.0 发布 wiselyman spring
Spring Tool Suite(简称STS)是基于Eclipse，专门针对Spring开发者提供大量的便捷功能的优秀开发工具。在3.7.0版本主要做了如下的更新：将eclipse版本更新至Eclipse Mars 4.5 GA Spring Boot(JavaEE开发的颠覆者集大成者，推荐大家学习)的配置语言YAML编辑器的支持(包含自动提示，

【YOLO V4】 速度和准确度更优的目标检测并附源码

摘要：