迪菲赫尔曼

YOLOv6: 面向工业应用的单阶段目标检测框架

论文地址：https://arxiv.org/pdf/2209.02976

代码地址：https://github.com/meituan/YOLOv6

多年来，YOLO 系列一直是高效目标检测的行业标准。 YOLO 社区蓬勃发展，丰富了其在众多硬件平台和丰富场景中的使用。在这份技术报告力求将其极限推向新的高度，以坚定不移的行业应用心态向前迈进。
考虑到真实环境中对速度和准确性的不同要求，作者广泛研究了来自工业界或学术界的最新目标检测进展。具体来说，从最近的网络设计、训练策略、测试技术、量化和优化方法中大量吸收了一些想法。最重要的是，整合思想和实践，构建了一套不同规模的部署网络，以适应多样化的用例。
在 YOLO 作者的慷慨许可下，作者将其命名为 YOLOv6。作者也热烈欢迎用户和贡献者进一步增强。YOLOv6-N 在 NVIDIA Tesla T4 GPU 上以 1234 FPS 的吞吐量在 COCO 数据集上达到 35.9% 的 AP。 YOLOv6-S 以 495 FPS 的速度达到 43.5% 的 AP，优于同规模的其他主流检测器（YOLOv5-S、YOLOX-S 和 PPYOLOE-S）。
YOLOv6-S 量化版本甚至带来了 869 FPS 的最新 43.3% AP。此外，与具有相似推理速度的其他检测器相比，YOLOv6-M/L 还实现了更好的准确度性能（即 49.5%/52.3%）。

1、简介

YOLO 系列因其在速度和准确性之间的出色平衡而成为工业应用中最流行的检测框架。 YOLO 系列的开创性作品是YOLOv1-3，随着后期的实质性改进，开创了单阶段检测器的新路。 YOLOv4 将检测框架重组为几个独立的部分（backbone、neck 和 head），并验证了当时的 bag-of-freebies 和 bag-of-specials，设计了一个适合在单 GPU 上训练的框架。目前，YOLOv5、YOLOX、PPYOLOE 和 YOLOv7 都是高效检测器部署的竞争候选者。不同大小的模型通常通过缩放技术获得。

在本报告中，作者凭经验观察了几个促使更新 YOLO 框架的重要因素：

RepVGG 的重参化是一种高级技术，尚未在检测中得到很好的利用。作者还注意到 RepVGG Block 的简单模型缩放变得不切实际，为此作者认为小型和大型网络之间的网络设计的优雅一致性是不必要的。普通的单路径架构对于小型网络是更好的选择，但对于较大的模型，参数的指数增长和单路径架构的计算成本使其不可行；
基于重参化的检测器的量化也需要细致处理，否则由于其在训练和推理过程中的异构配置，将难以处理性能下降。
以前的工作往往不太关注部署，其延迟通常在 V100 等高成本机器上进行比较。在实际服务环境方面存在硬件差距。通常，像 Tesla T4 这样的低功耗 GPU 成本更低，并且提供相当好的推理性能。
考虑到架构差异，标签分配和损失函数设计等高级特定领域策略需要进一步验证；
对于部署，可以容忍训练策略的调整，提高准确度性能但不增加推理成本，例如知识蒸馏。

考虑到上述观察，带来了 YOLOv6 的诞生，它在准确性和速度方面实现了迄今为止最好的权衡。在图 1 中展示了 YOLOv6 与其他类似规模的同行的比较。为了在不大幅降低性能的情况下提高推理速度，研究了包括训练后量化 (PTQ) 和量化感知训练 (QAT) 在内的尖端量化方法，并将它们纳入 YOLOv6 以实现部署就绪网络的目标。

将 YOLOv6 的主要方面总结如下：

针对不同场景中的工业应用重新设计了一系列不同规模的网络。不同规模的架构各不相同，以实现最佳的速度和准确性权衡，其中小型模型具有简单的单路径主干，大型模型建立在高效的多分支块上。
为 YOLOv6 注入了一种self-distillation策略，在分类任务和回归任务上都执行。同时，动态调整来自教师和标签的知识，以帮助学生模型在所有训练阶段更有效地学习知识。
广泛验证标签分配、损失函数和数据增强技术的先进检测技术，并有选择地采用它们以进一步提高性能。
在 RepOptimizer 和通道蒸馏的帮助下改进了检测的量化方案，这带来了具有 43.3% 的 COCO AP 和 869 FPS 的吞吐量的快速准确的检测器，批量大小为 32。

2、YOLOv6方法全解

YOLOv6 的改造设计包括以下组件，网络设计、标签分配、损失函数、数据增强、行业便利改进以及量化和部署：

网络设计：

Backbone：与其他主流架构相比， RepVGG 主干在相似的推理速度下在小型网络中具有更强的特征表示能力，但由于参数和计算成本的爆炸式增长，它很难扩展以获得更大的模型。在这方面，将 RepBlock 作为小型网络的构建块。对于大型模型，修改了一个更高效的 CSP Block，名为 CSPStackRep 块。
Neck：YOLOv6 的 Neck 采用 YOLOv4 和 YOLOv5 之后的 PAN。使用 RepBlocks 或 CSPStackRep Blocks 增强 Neck 以获得 Rep-PAN。
Head：简化了 Decoupled Head，使其更高效，称为Efficient Decoupled Head。

标签分配：

通过大量实验评估了 YOLOv6 上标签分配策略的最新进展，结果表明 TAL 更有效且对训练更友好。

损失函数：

主流的Anchor-Free检测器的损失函数包括分类损失、框回归损失和目标损失。对于每个损失，用所有可用的技术系统地对其进行试验，最后选择 VariFocal Loss 分类损失,SIoU/GIoU 损失作为回归损失。

行业便利的改进：

引入了额外的常见实践和技巧来提高性能，包括self-distillation和更多的训练时期。对于self-distillation，分类和框回归分别由教师模型监督。多亏了 DFL使得框回归的蒸馏成为可能。此外，来自Soft Label和Hard Label的信息比例通过余弦衰减动态下降，这有助于学生在训练过程中的不同阶段选择性地获取知识。此外，作者遇到了性能受损的问题，而在评估时没有添加额外的灰色边框，为此提供了一些补救措施。

量化和部署：

为了解决量化基于重参化模型的性能下降问题，使用 RepOptimizer 训练 YOLOv6 以获得对 PTQ 友好的权重。进一步采用 QAT 和通道蒸馏和图优化来追求极致性能。量化 YOLOv6-S 达到了最新的技术水平，AP 为 42.3%，吞吐量为 869 FPS（batch size=32）。

2.1、网络设计

单阶段目标检测器一般由以下部分组成：Backbone、Neck和Head。Backbone主要决定特征表示能力，同时，它的设计对推理效率有至关重要的影响，因为它承载了很大一部分计算成本。Neck用于将低层次的物理特征与高层次的语义特征进行聚合，然后构建各个层次的金字塔特征图。Head由几个卷积层组成，它根据Neck融合的多级特征预测最终检测结果。从结构的角度来看，它可以分为Anchor-Base和Anchor-Free，或者更确切地说是参数耦合Head和参数解耦Head。

在 YOLOv6 中，基于硬件友好的网络设计原则，提出了两个可缩放的可重参数Backbone和Neck以适应不同大小的模型，以及一个具有混合通道策略的高效解耦Head。 YOLOv6 的整体架构如图 2 所示。

1、Backbone

如上所述，Backbone网络的设计对检测模型的有效性和效率有很大的影响。以前，已经表明多分支网络通常可以比单路径网络实现更好的分类性能，但它通常伴随着并行度的降低并导致推理延迟的增加。相反，像 VGG 这样的普通单路径网络具有高并行性和更少内存占用的优势，从而带来更高的推理效率。最近在 RepVGG 中，提出了一种结构重参化方法，将训练时多分支拓扑与推理时普通架构解耦，以实现更好的速度-准确度权衡。

受上述工作的启发，设计了一个高效的可重参化Backbone，表示为 EfficientRep。对于小型模型，Backbone的主要组成部分是训练阶段的 RepBlock，如图 3（a）所示。并且每个 RepBlock 在推理阶段被转换为具有 ReLU 激活函数的 3×3 卷积层（表示为 RepConv）的堆栈，如图 3（b）所示。通常，3×3 卷积在主流 GPU 和 CPU 上进行了高度优化，并且具有更高的计算密度。因此，EfficientRep Backbone 充分利用了硬件的计算能力，在显着降低推理延迟的同时增强了表示能力。

然而，作者注意到随着模型容量的进一步扩大，单路径普通网络中的计算成本和参数数量呈指数增长。为了在计算负担和准确性之间取得更好的平衡，修改了一个 CSPStackRep Block 来构建中型和大型网络的Backbone。如图 3© 所示，CSPStackRep Block 由3个 1×1 卷积层和一堆子块组成，该子块由两个 RepVGG Block 或 RepConv（分别在训练或推理时）和一个残差连接组成。此外，采用跨级部分（CSP）连接来提高性能，而不会产生过多的计算成本。与 CSPRepResStage 相比，它的外观更加简洁，并考虑了准确性和速度之间的平衡。

2、Neck

在实践中，多尺度的特征集成已被证明是目标检测的关键和有效部分。采用来自 YOLOv4 和 YOLOv5 的修改后的 PAN 拓扑作为检测Neck的基础。此外，将 YOLOv5 中使用的 CSPBlock 替换为 RepBlock（适用于小型模型）或 CSPStackRep Block（适用于大型模型），并相应调整宽度和深度。 YOLOv6 的Neck表示为 Rep-PAN。

3、Head

Efficient decoupled head

YOLOv5 的检测头是一个耦合Head，在分类和定位分支之间共享参数，而 FCOS 和 YOLOX 中的检测头将两个分支解耦，并且在每个分支中引入了额外的两个 3×3 卷积层以提高性能。

在 YOLOv6 中采用混合通道策略来构建更高效的解耦Head。具体来说，将中间 3×3 卷积层的数量减少到只有一个。头部的宽度由Backbone和Neck的宽度乘数共同缩放。这些修改进一步降低了计算成本，以实现更低的推理延迟。

Anchor-free

Anchor-free检测器因其更好的泛化能力和解码预测结果的简单性而脱颖而出。其后处理的时间成本大大降低。有两种类型的Anchor-free检测器：基于Anchor和基于关键点。在 YOLOv6 中，我们采用了基于Anchor点的范式，其框回归分支实际上预测了Anchor点到边界框4个边的距离。

2.2、Label Assignment

标签分配负责在训练阶段为预定义的Anchor分配标签。以前的工作已经提出了各种标签分配策略，从简单的基于 IoU 的策略和内部真实方法到其他更复杂的方案。

SimOTA OTA 将目标检测中的标签分配视为最佳传输问题。它从全局角度为每个真实对象定义了正/负训练样本。 SimOTA 是 OTA 的简化版本，它减少了额外的超参数并保持了性能。在 YOLOv6 的早期版本中使用 SimOTA 作为标签分配方法。然而，在实践中，作者发现引入 SimOTA 会减慢训练过程。而且陷入不稳定训练的情况并不少见。因此，希望更换 SimOTA。

任务对齐学习任务对齐学习（Task Alignment Learning，TAL）最早是在TOOD中提出的，其中设计了一个分类分数和预测框质量的统一度量。 IoU 被这个指标替换以分配对象标签。在一定程度上缓解了任务错位（分类和框回归）的问题。 TOOD 的另一个主要贡献是关于任务对齐的头部（T-head）。 T-head 堆叠卷积层以构建交互式特征，在其之上使用任务对齐预测器 (TAP)。 PP-YOLOE 改进了 T-head，将 T-head 中的 layer attention 替换为轻量级的 ESE attention，形成 ET-head。然而，我们发现 ET-head 会降低模型中的推理速度，并且没有准确度增益。因此，保留了高效解耦头的设计。

此外，作者观察到 TAL 可以带来比 SimOTA 更多的性能提升并稳定训练。因此，采用 TAL 作为 YOLOv6 中的默认标签分配策略。

2.3、损失函数

1、Classification Loss

提高分类器的性能是优化检测器的关键部分。 Focal Loss 修改了传统的交叉熵损失，以解决正负样本之间或难易样本之间的类别不平衡问题。为了解决训练和推理之间质量估计和分类的不一致使用，Quality Focal Loss（QFL）进一步扩展了Focal Loss，联合表示分类分数和分类监督的定位质量。而 VariFocal Loss (VFL) 源于 Focal Loss，但它不对称地对待正样本和负样本。通过考虑不同重要性的正负样本，它平衡了来自两个样本的学习信号。 Poly Loss 将常用的分类损失分解为一系列加权多项式基。它在不同的任务和数据集上调整多项式系数，通过实验证明比交叉熵损失和Focal Loss损失更好。

在 YOLOv6 上评估所有这些高级分类损失，最终采用 VFL。

2、Box Regression Loss

框回归损失提供了精确定位边界框的重要学习信号。 L1 Loss 是早期作品中的原始框回归损失。逐渐地，各种精心设计的框回归损失如雨后春笋般涌现，例如 IoU-series 损失和概率损失。

IoU-series Loss IoU loss 将预测框的四个边界作为一个整体进行回归。它已被证明是有效的，因为它与评估指标的一致性。 IoU的变种有很多，如GIoU、DIoU、CIoU、α-IoU和SIoU等，形成了相关的损失函数。我们在这项工作中对 GIoU、CIoU 和 SIoU 进行了实验。并且SIoU应用于YOLOv6-N和YOLOv6-T，而其他的则使用GIoU。

Probability Loss Distribution Focal Loss (DFL) 将框位置的基本连续分布简化为离散化的概率分布。它在不引入任何其他强先验的情况下考虑了数据中的模糊性和不确定性，这有助于提高框定位精度，尤其是在ground-truth框的边界模糊时。在 DFL 上，DFLv2 开发了一个轻量级的子网络，以利用分布统计数据与真实定位质量之间的密切相关性，进一步提高了检测性能。然而，DFL 输出的回归值通常比一般框回归多 17 倍，从而导致大量开销。额外的计算成本阻碍了小型模型的训练。而 DFLv2 由于额外的子网络，进一步增加了计算负担。在实验中，DFLv2 在模型上为 DFL 带来了类似的性能提升。因此，只在 YOLOv6-M/L 中采用 DFL。

3、Object Loss

Object loss 最早是在 FCOS 中提出的，用于降低低质量边界框的得分，以便在后处理中将其过滤掉。它还被用于 YOLOX 以加速收敛并提高网络精度。作为像 FCOS 和 YOLOX 这样的Anchor-free框架，在 YOLOv6 中尝试过 object loss。不幸的是，它并没有带来很多积极的影响。

2.4、行业便利的改进

1、More training epochs

经验结果表明，检测器的性能随着训练时间的增加而不断进步。作者将训练持续时间从 300 个 epoch 延长到 400 个 epoch，以达到更好的收敛性。

2、Self-distillation

为了在不引入太多额外计算成本的情况下进一步提高模型精度，应用了经典的知识蒸馏技术，最小化了教师和学生预测之间的 KL-divergence。将老师限制为学生本身，但经过预训练，因此称之为自我蒸馏。

请注意，KL-divergence通常用于衡量数据分布之间的差异。然而，目标检测中有两个子任务，其中只有分类任务可以直接利用基于 KL-divergence的知识蒸馏。由于 DFL 损失，也可以在框回归上执行它。知识蒸馏损失可以表示为：

$L_{K D}=K L\left(p_{t}^{c l s} \| p_{s}^{c l s}\right)+K L\left(p_{t}^{r e g} \| p_{s}^{r e g}\right)$
其中 $p^{cls}_t$ 和 $p^{cls}_s$ 分别是教师模型和学生模型的类预测，因此 $p^{reg}_t$ 和 $p^{reg}_s$ 是框回归预测。整体损失函数现在公式化为：
$L_{\text {total }}=L_{\text {det }}+\alpha L_{K D}$
其中 $L_{det}$ 是使用预测和标签计算的检测损失。引入超参数α来平衡两个损失。在训练的早期阶段，来自老师的软标签更容易学习。随着训练的继续，学生的表现将与老师相匹配，因此硬标签将更多地帮助学生。在此基础上，将余弦权重衰减应用于 α，以动态调整来自硬标签和来自教师的软标签的信息。

3、Gray border of images

作者注意到在 YOLOv5 和 YOLOv7 的实现中评估模型性能时，每个图像周围都有一个半步长的灰色边框。虽然没有添加有用的信息，但它有助于检测图像边缘附近的对象。这个技巧也适用于 YOLOv6。

然而，额外的灰色像素明显降低了推理速度。没有灰色边框，YOLOv6 的性能会变差。假设该问题与马赛克增强中的灰色边框填充有关。进行了在最后一个时期关闭马赛克增强的实验（也称为淡入淡出策略）以进行验证。对此，改变了灰色边框的区域，将带有灰色边框的图像直接调整为目标图像大小。结合这两种策略，模型可以在不降低推理速度的情况下保持甚至提高性能。

2.5、量化与部署

对于工业部署，通常的做法是采用量化来进一步加快运行时间而不会对性能造成太大影响。训练后量化（PTQ）直接量化模型，只需要一个小的校准集。而量化感知训练（QAT）通过访问训练集进一步提高了性能，这通常与蒸馏结合使用。然而，由于在 YOLOv6 中大量使用了重参化块，以前的 PTQ 技术无法产生高性能，而在训练和推理期间在匹配假量化器时很难结合 QAT。

1、Reparameterizing Optimizer

RepOptimizer 在每个优化步骤提出梯度重参化。该技术也很好地解决了基于重参化模型的量化问题。因此，以这种方式重建 YOLOv6 的重参化块，并使用 RepOptimizer 对其进行训练以获得对 PTQ 友好的权重。特征图的分布在很大程度上变窄了，这极大地有利于量化过程。

2、Sensitivity Analysis

通过将量化敏感操作部分转换为浮点计算来进一步提高 PTQ 性能。为了获得灵敏度分布，通常使用几个指标，均方误差 (MSE)、信噪比 (SNR) 和余弦相似度。通常为了比较，可以选择输出特征图（在激活某个层之后）来计算这些带有和不带量化的指标。作为替代方案，通过打开和关闭特定层的量化来计算验证 AP 也是可行的。

在使用 RepOptimizer 训练的 YOLOv6-S 模型上计算所有这些指标，并选择前 6 个敏感层以浮动运行。

3、使用 Channel-wise Distillation 进行量化感知训练

如果 PTQ 不足，建议使用量化感知训练 (QAT) 来提高量化性能。为了解决训练和推理过程中假量化器不一致的问题，有必要在 RepOptimizer 上构建 QAT。此外，通道蒸馏（后来称为 CW Distill）适用于 YOLOv6 框架，如图 5 所示。这也是一种自我蒸馏方法，其中教师网络是 FP32 精度的学生本身。

实验

消融实验

1、label assignment

2、损失函数

3、自蒸馏

4、Gray border of images

5、PTQ

6、QAT

SOTA对比

TensorRT部署实践对比

T4 GPU

V100 GPU

参考

[1] YOLOv6: A Single-Stage Object Detection Framework for Industrial Applications

你可能感兴趣的:(目标检测,目标检测,计算机视觉,深度学习)

YOLOv10全网最新创新点改进系列：YOLOv10融合SwinTransformer模块，分辨率每层变成一半，而通道数变成两倍,有效提升小目标检测效果！ AI棒棒牛 YOLO 目标检测人工智能模型改进 yolov10 创新 sci写作
YOLOv10全网最新创新点改进系列：YOLOv10融合SwinTransformer模块，分辨率每层变成一半，而通道数变成两倍,有效提升小目标检测效果！所有改进代码均经过实验测试跑通！截止发稿时YOLOv10已改进40+！自己排列组合2-4种后，考虑位置不同后可排列组合上千万种！改进不重样！！专注AI学术，关注B站up主：Ai学术叫叫兽er！购买相关资料后畅享一对一答疑！YOLOv10全网最新创
中科曙光C/C++研发工程师二面 TrustZone_ ARM/Linux嵌入式面试 c语言 c++开发语言
自我介绍；针对项目：CNN模型、损失函数、评价指标、改进方向、计算加速；CNN模型CNN，即卷积神经网络，是一种专门用于处理具有类似网格结构数据的深度学习模型。它通过卷积层和池化层提取图像特征，并通过全连接层进行分类或回归预测。CNN在图像识别、目标检测和图像生成等领域取得了巨大成功。具体来说，CNN的模型结构包括输入层、卷积层、激活函数、池化层、全连接层和输出层。输入层接收图像数据，并将其转换为
改进yolov8工业缺陷检测+swin+transformer qq1309399183 计算机视觉实战项目集合 YOLO transformer 深度学习人工智能计算机视觉机器学习神经网络
使用NEU-DET数据集进行缺陷检测的YOLOv8改进模型应用详解在现代工业生产过程中，质量控制是至关重要的一个环节。随着机器视觉技术和人工智能算法的发展，基于深度学习的方法已经成为自动化缺陷检测的重要工具。本篇将介绍一种基于NEU-DET数据集，利用YOLOv8及其改进版本（包含坐标注意力机制和SwinTransformer）进行缺陷检测的应用开发过程。我们将详细探讨从数据准备到模型训练，再到最
改进yolov8缺陷检测+swin+transformer QQ_1309399183 计算机视觉实战项目集锦 YOLO transformer 深度学习人工智能计算机视觉 opencv 机器学习
使用NEU-DET数据集进行缺陷检测的YOLOv8改进模型应用详解在现代工业生产过程中，质量控制是至关重要的一个环节。随着机器视觉技术和人工智能算法的发展，基于深度学习的方法已经成为自动化缺陷检测的重要工具。本篇将介绍一种基于NEU-DET数据集，利用YOLOv8及其改进版本（包含坐标注意力机制和SwinTransformer）进行缺陷检测的应用开发过程。我们将详细探讨从数据准备到模型训练，再到最
【Python】成功解决ValueError: zero-size array to reduction operation minimum which has no identity 高斯小哥 BUG解决方案合集 python 新手入门学习 debug
【Python】成功解决ValueError:zero-sizearraytoreductionoperationminimumwhichhasnoidentity个人主页：高斯小哥高质量专栏：Matplotlib之旅：零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程希望得到您的订阅和支持~创作高质量博文(平均质量分92+)，分享更多关于深度学习、PyTorch、
开源AI图像工具—Stable Diffusion 蚂蚁在飞- 人工智能 stable diffusion
StableDiffusion是一种基于深度学习的生成式模型，用于图像生成、图像修复和风格转换等任务。它是由StabilityAI和CompVis团队联合开发的。StableDiffusion在生成高质量图像方面表现出色，并且是开源的，可以自由使用和扩展。StableDiffusion的核心技术1.扩散模型(DiffusionModels):•基于概率生成模型。•从噪声中逐步反向生成清晰的图像。•
机器学习：scikit-learn 和 Jupyter Notebook（推荐初学者使用google colab） wyc9999ww 机器学习 scikit-learn jupyter 人工智能 python
对于初学者来说，scikit-learn是一个理想的机器学习入门工具。不仅提供了丰富的算法和功能，还通过一致的API设计，确保能够快速上手并进行各种机器学习任务。通过使用scikit-learn，可以专注于理解和实践机器学习的核心概念，而不必过多担心底层实现细节。所以scikit-learn能轻松实现从数据预处理到模型训练和评估的完整流程。此外在推荐一个适合初学者的深度学习平台工具googleco
【深度学习】CrossEntropyLoss需要手动softmax吗？ zz的学习笔记本深度学习深度学习人工智能
【深度学习】CrossEntropyLoss需要手动softmax吗？问题：CrossEntropyLoss需要手动softmax吗？答案：不需要官方文档代码解释问题：CrossEntropyLoss需要手动softmax吗？之前用pytorch实现自己的网络时，使用CrossEntropyLoss的时候将网路输出经softmax激活层后再计算CrossEntropyLoss。答案：不需要调用了损
有趣的python代码实例_Python之路：200个Python有趣的小例子一网打尽 weixin_39845406 有趣的python代码实例
概述博主最近在学习python，看完了一整套学习视频，然后呃呃呃，还是用不太流畅。碰巧在全球最大的同性交友论坛GayHub(呸！是开源代码托管平台Github)上面发现了一个项目，该项目列举了200多个Python小例子，Python基础、Python坑点、Python字符串和正则、Python绘图、Python日期和文件、Web开发、数据科学、机器学习、深度学习、TensorFlow、Pytor
迁移学习与RBF神经网络 fanxbl957 人工智能理论与实践迁移学习神经网络人工智能
迁移学习与RBF神经网络一、引言在机器学习和深度学习领域，迁移学习和神经网络都是备受关注的重要技术。迁移学习旨在将从一个或多个源任务中学习到的知识应用到目标任务中，以加快目标任务的学习过程，提高学习效果，尤其在数据稀缺或训练资源有限的情况下展现出显著优势。而RBF（径向基函数）神经网络作为一种经典的神经网络结构，以其独特的函数逼近能力和良好的局部逼近特性，在众多领域取得了出色的性能表现。将迁移学习
AIGC视频生成国产之光：ByteDance的PixelDance模型好评笔记 AIGC-视频补档 AIGC 计算机视觉人工智能深度学习机器学习论文阅读面试
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文详细介绍ByteDance的视频生成模型PixelDance，论文于2023年11月发布，模型上线于2024年9月，同时期上线的模型还有Seaweed（论文未发布）。优质专栏回顾：机器学习笔记深度学习笔记多模态论文笔记AIGC—图像文章目录论文摘要引言输入训练和推理时的数据处理总结相关工作视频生成长视频生成方法模型架构
PyTorch 基础数据集：从理论到实践的深度学习基石那年一路北 Pytorch理论+实践深度学习 pytorch 人工智能
一、引言深度学习作为当今人工智能领域的核心技术，在图像识别、自然语言处理、语音识别等众多领域取得了令人瞩目的成果。而在深度学习的体系中，数据扮演着举足轻重的角色，它是模型训练的基础，如同建筑的基石，决定了模型的性能和泛化能力。PyTorch作为当下最流行的深度学习框架之一，为开发者提供了丰富且强大的工具来处理数据集。本文将深入探讨PyTorch中的基础数据集，从深度学习中数据的重要性出发，详细介绍
机器视觉在医疗影像分析中的应用：助力放射科医生精准诊断人工智能专属驿站大数据人工智能计算机视觉
在现代医疗领域，影像学检查如X光、CT扫描和MRI等是诊断疾病的重要手段。随着技术的不断发展，机器视觉算法在医疗影像分析中的应用日益广泛，为放射科医生提供了强大的辅助工具，极大地提高了诊断的准确性和效率。本文将探讨机器视觉在医疗影像分析中的具体应用及其对医疗诊断带来的变革。一、机器视觉算法简介机器视觉是一种模拟人类视觉的科学技术，通过图像处理、模式识别和计算机视觉等技术，使计算机能够“看”懂图像中
【深度学习】Pytorch：导入导出模型参数 T0uken 深度学习 pytorch 人工智能
PyTorch是深度学习领域中广泛使用的框架，熟练掌握其模型参数的管理对于模型训练、推理以及部署非常重要。本文将全面讲解PyTorch中关于模型参数的操作，包括如何导出、导入以及如何下载模型参数。什么是模型参数模型参数是指深度学习模型中需要通过训练来优化的变量，如神经网络中的权重和偏置。这些参数存储在PyTorch的torch.nn.Module对象中，通过以下方式访问：importtorchim
matlab程序代编程写做代码图像处理BP神经网络机器深度学习python matlabgoodboy 深度学习 matlab 图像处理
1.安装必要的库首先，确保你已经安装了必要的Python库。如果没有安装，请运行以下命令：bash复制代码pipinstallnumpymatplotlibtensorflowopencv-python2.图像预处理我们将使用OpenCV来加载和预处理图像数据。假设你有一个图像数据集，每个类别的图像存放在单独的文件夹中。python复制代码importosimportcv2importnumpya
Python气象数据分析：风速预报订正、台风预报数据智能订正、机器学习预测风电场的风功率、浅水模型、预测ENSO等小艳加油大气科学 python 人工智能气象机器学习
目录专题一Python和科学计算基础专题二机器学习和深度学习基础理论和实操专题三气象领域中的机器学习应用实例专题四气象领域中的深度学习应用实例更多应用Python是功能强大、免费、开源，实现面向对象的编程语言，在数据处理、科学计算、数学建模、数据挖掘和数据可视化方面具备优异的性能，这些优势使得Python在气象、海洋、地理、气候、水文和生态等地学领域的科研和工程项目中得到广泛应用。可以预见未来Py
RT-DETR改进策略【Neck】| PRCV 2023，SBA（Selective Boundary Aggregation）：特征融合模块，描绘物体轮廓重新校准物体位置，解决边界模糊问题 Limiiiing RT-DETR改进专栏人工智能计算机视觉深度学习 RT-DETR
一、本文介绍本文主要利用DuAT中的SBA模块优化RT-DETR的目标检测网络模型。SBA模块借鉴了医疗图像分割中处理边界信息的独特思路，通过创新性的结构设计，在维持合理计算复杂度的基础上，巧妙融合浅层的边界细节特征与深层的语义信息，实现边界特征的精准提取与语义信息的有效整合。将其应用于RT-DETR的改进过程中，能够使模型着重聚焦于目标物体的边界区域，降低背景及其他无关信息的影响，强化目标物体的
深度学习笔记——模型部署好评笔记深度学习笔记深度学习笔记人工智能 transformer 模型部署大模型部署大模型
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文简要概括模型部署的知识点，包括步骤和部署方式。文章目录模型部署模型部署的关键步骤常见的模型部署方式优势与挑战总结边缘端部署方案总结历史文章机器学习深度学习模型部署模型部署是指将训练好的机器学习或深度学习模型集成到生产环境中，使其能够在实际应用中处理实时数据和提供预测服务。模型部署的流程涉及模型的封装、部署环境的选择、部
基于Python机器学习、深度学习技术提升气象、海洋、水文领域实践应用 KY_chenzhao python 机器学习深度学习气象
1.背景与目标ENSO（ElNiño-SouthernOscillation）是全球气候系统中最显著的年际变率现象之一，对全球气候、农业、渔业等有着深远的影响。准确预测ENSO事件的发生和发展对于减灾防灾具有重要意义。近年来，深度学习技术在气象领域得到了广泛应用，其中长短期记忆网络（LSTM）因其在处理时间序列数据方面的优势，被广泛用于ENSO预测。2.数据准备数据来源包括NOAA（美国国家海洋和
【计算机视觉】人脸识别油泼辣子多加计算机视觉计算机视觉 opencv 人工智能
一、简介人脸识别是将图像或者视频帧中的人脸与数据库中的人脸进行对比，判断输入人脸是否与数据库中的某一张人脸匹配，即判断输入人脸是谁或者判断输入人脸是否是数据库中的某个人。人脸识别属于1：N的比对，输入人脸身份是1，数据库人脸身份数量为N，一般应用在办公室门禁，疑犯追踪；人脸验证属于1:1的比对，输入人脸身份为1，数据库中为同一人的数据，在安全领域应用比较多。一个完整的人脸识别流程主要包括人脸检测、
基于深度学习的极端天气预测全解析与实战指南：基于MetNet 模型 AI_DL_CODE 深度学习人工智能 MetNet 天气预测 python
摘要：本文全面解析了基于深度学习的极端天气预测，重点介绍了MetNet模型。首先，文章阐述了极端天气预测的重要性和传统天气预报的局限性。接着，详细介绍了MetNet模型的基本架构、特点以及与其他气象预测模型的对比。然后，通过实战案例展示了MetNet模型在极端降雨天气预测中的应用，包括数据准备、模型搭建与训练、模型评估与预测。最后，文章总结了MetNet模型的优势与挑战，并展望了深度学习在气象领域
国自然青年项目｜基于多模态影像组学的乳腺癌分子分型预测研究｜基金申请·25-01-20 罗小罗同学基金申请医学人工智能人工智能国自然
小罗碎碎念今天和大家分享一份国自然青年项目，项目执行期为2021-2023年，直接费用为24万。项目聚焦乳腺癌分子分型预测，综合运用多模态组学数据、影像组学技术和深度学习技术。研究内容包括跨模态医学图像分割、多模态特征提取与融合、模型设计与系统研发。通过提出一系列创新算法，如基于类别中心原型对齐器的图像分割算法、基于自注意力机制与生成对抗网络的聚类算法等，实现了对乳腺癌分子分型的高精度预测，并开发
深度学习乐园智能零售柜商品识别 Java先进事迹深度学习零售人工智能
1.项目简介本项目专注于智能零售柜商品识别，是为第六届信也科技杯图像算法大赛设计的方案。其核心目标是利用深度学习技术，实现对顾客选购商品的精准识别和自动化结算。当商品被放置在指定区域时，系统应自动检测并识别每件商品，生成购物清单并计算总价格，提升零售柜的自动化与便利性。此类智能系统在不需要售货员的情况下即可进行商品识别和结算，相较于传统的硬件分隔、重量判断、顾客行为监测、或射频识别技术，这种方法不
YOLOv8改进，YOLOv8检测头融合DiverseBranchBlock，并添加小目标检测层（四头检测），适合目标检测、分割等挂科边缘 YOLOv8改进 YOLO 目标检测人工智能计算机视觉深度学习
摘要一种卷积神经网络（ConvNet）的通用构建模块，以在不增加推理时间成本的情况下提高性能。该模块被命名为多样分支块（DiverseBranchBlock，DBB），通过结合不同尺度和复杂度的多样分支来丰富特征空间，包括卷积序列、多尺度卷积和平均池化，从而增强单个卷积的表示能力。在训练后，DBB可以等效地转换为一个单独的卷积层以进行部署。与新型ConvNet架构的进步不同，DBB在保持宏观架构的
【YOLOv8改进】 YOLOv8 更换骨干网络之 GhostNet ：通过低成本操作获得更多特征 (论文笔记+引入代码) YOLO大师 YOLO 论文阅读
YOLO目标检测创新改进与实战案例专栏专栏目录：YOLO有效改进系列及项目实战目录包含卷积，主干注意力，检测头等创新机制以及各种目标检测分割项目实战案例专栏链接:YOLO基础解析+创新改进+实战案例介绍摘要在嵌入式设备上部署卷积神经网络（CNNs）由于有限的内存和计算资源而变得困难。特征图中的冗余是那些成功的CNNs的一个重要特性，但在神经架构设计中很少被研究。本文提出了一种新颖的Ghost模块，
在PyTorch框架上训练ImageNet时，Dataloader加载速度慢怎么解决？ cda2024 pytorch 人工智能 python
在深度学习领域，PyTorch因其灵活性和易用性而受到广泛欢迎。然而，在实际应用中，特别是在处理大规模数据集如ImageNet时，Dataloader的加载速度往往成为瓶颈。本文将深入探讨这一问题，并提供多种解决方案，帮助你在PyTorch框架上高效地训练ImageNet。1.问题背景ImageNet是一个包含超过1400万张图像的大规模数据集，被广泛用于图像分类任务的研究。在PyTorch中，D
Python从0到100（七十三）：Python OpenCV-OpenCV实现手势虚拟拖拽是Dream呀 python opencv 开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
ACNet：深度学习中的自适应卷积网络新星郎轶诺
ACNet：深度学习中的自适应卷积网络新星项目地址:https://gitcode.com/gh_mirrors/ac/ACNet在深度学习领域，卷积神经网络（CNN）一直是图像处理和计算机视觉任务的核心技术。然而，传统的固定大小的卷积核无法灵活适应不同区域的信息密度。针对这一问题，ACNet（AdaptiveConvolutionNetwork）项目应运而生，它引入了一种新型的自适应卷积层，旨在
自适应神经网络架构：原理解析与代码示例 chian-ocean 机器学习神经网络人工智能深度学习
个人主页：chian-ocean文章专栏自适应神经网络结构：深入探讨与代码实现1.引言随着深度学习的不断发展，传统神经网络模型在处理复杂任务时的局限性逐渐显现。固定的网络结构和参数对于动态变化的环境和多样化的数据往往难以适应，导致了过拟合或欠拟合的问题。自适应神经网络（AdaptiveNeuralNetworks,ANN）为此提供了一种新的解决方案，它可以根据数据特征和训练情况自动调整网络结构，从
全面解析NVIDIA显卡：从入门级到旗舰级显卡详解花千树-010 大模型人工智能算法智能电视
在选择显卡时，了解不同显卡的性能和适用场景是非常重要的。无论你是预算有限的入门用户，还是追求极致性能的游戏玩家，亦或是专业的内容创作者和深度学习研究人员，NVIDIA都有适合你的显卡。本篇博文将详细列举NVIDIA显卡的各项配置，从低到高逐一整理，并给出适用的使用场景。入门级显卡NVIDIAGeForceGT1030CUDA核心数:384基础频率:1227MHz加速频率:1468MHz显存:2GB
Js函数返回值 _wy_ js return
一、返回控制与函数结果，语法为：return 表达式;作用: 结束函数执行，返回调用函数，而且把表达式的值作为函数的结果二、返回控制语法为：return;作用: 结束函数执行，返回调用函数，而且把undefined作为函数的结果在大多数情况下,为事件处理函数返回false,可以防止默认的事件行为.例如,默认情况下点击一个<a>元素,页面会跳转到该元素href属性
MySQL 的 char 与 varchar bylijinnan mysql
今天发现，create table 时，MySQL 4.1有时会把 char 自动转换成 varchar 测试举例： CREATE TABLE `varcharLessThan4` ( `lastName` varchar(3) ) ; mysql> desc varcharLessThan4; +----------+---------+------+-
Quartz——TriggerListener和JobListener eksliang TriggerListener JobListener quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208624 一.概述 listener是一个监听器对象，用于监听scheduler中发生的事件，然后执行相应的操作；你可能已经猜到了，TriggerListeners接受与trigger相关的事件，JobListeners接受与jobs相关的事件。二.JobListener监听器 j
oracle层次查询 18289753290 oracle；层次查询；树查询
.oracle层次查询(connect by) oracle的emp表中包含了一列mgr指出谁是雇员的经理，由于经理也是雇员，所以经理的信息也存储在emp表中。这样emp表就是一个自引用表，表中的mgr列是一个自引用列，它指向emp表中的empno列，mgr表示一个员工的管理者， select empno,mgr,ename,sal from e
通过反射把map中的属性赋值到实体类bean对象中酷的飞上天空 javaee 泛型类型转换
使用过struts2后感觉最方便的就是这个框架能自动把表单的参数赋值到action里面的对象中但现在主要使用Spring框架的MVC，虽然也有@ModelAttribute可以使用但是明显感觉不方便。好吧，那就自己再造一个轮子吧。原理都知道，就是利用反射进行字段的赋值，下面贴代码主要类如下： import java.lang.reflect.Field; imp
SAP HANA数据存储：传统硬盘的瓶颈问题蓝儿唯美 HANA
SAPHANA平台有各种各样的应用场景，这也意味着客户的实施方法有许多种选择，关键是如何挑选最适合他们需求的实施方案。在《Implementing SAP HANA》这本书中，介绍了SAP平台在现实场景中的运作原理，并给出了实施建议和成功案例供参考。本系列文章节选自《Implementing SAP HANA》，介绍了行存储和列存储的各自特点，以及SAP HANA的数据存储方式如何提升空间压
Java Socket 多线程实现文件传输随便小屋 java socket
高级操作系统作业，让用Socket实现文件传输，有些代码也是在网上找的，写的不好，如果大家能用就用上。客户端类： package edu.logic.client; import java.io.BufferedInputStream; import java.io.Buffered
java初学者路径 aijuans java
学习Java有没有什么捷径?要想学好Java，首先要知道Java的大致分类。自从Sun推出Java以来，就力图使之无所不包，所以Java发展到现在，按应用来分主要分为三大块：J2SE,J2ME和J2EE,这也就是Sun ONE(Open Net Environment)体系。J2SE就是Java2的标准版，主要用于桌面应用软件的编程；J2ME主要应用于嵌入是系统开发，如手机和PDA的编程；J2EE
APP推广 aoyouzi APP 推广
一，免费篇 1，APP推荐类网站自主推荐最美应用、酷安网、DEMO8、木蚂蚁发现频道等,如果产品独特新颖，还能获取最美应用的评测推荐。PS：推荐简单。只要产品有趣好玩，用户会自主分享传播。例如足迹APP在最美应用推荐一次，几天用户暴增将服务器击垮。 2，各大应用商店首发合作老实盯着排期，多给应用市场官方负责人献殷勤。 3，论坛贴吧推广百度知道，百度贴吧，猫扑论坛，天涯社区，豆瓣（
JSP转发与重定向百合不是茶 jsp servlet Java Web jsp转发
在servlet和jsp中我们经常需要请求,这时就需要用到转发和重定向; 转发包括;forward和include 例子;forwrad转发; 将请求装法给reg.html页面关键代码; req.getRequestDispatcher("reg.html
web.xml之jsp-config bijian1013 java web.xml servlet jsp-config
1.作用：主要用于设定JSP页面的相关配置。 2.常见定义： <jsp-config> <taglib> <taglib-uri>URI(定义TLD文件的URI,JSP页面的tablib命令可以经由此URI获取到TLD文件)</tablib-uri> <taglib-location> TLD文件所在的位置
JSF2.2 ViewScoped Using CDI sunjing CDI JSF 2.2 ViewScoped
JSF 2.0 introduced annotation @ViewScoped; A bean annotated with this scope maintained its state as long as the user stays on the same view(reloads or navigation - no intervening views). One problem w
【分布式数据一致性二】Zookeeper数据读写一致性 bit1129 zookeeper
很多文档说Zookeeper是强一致性保证，事实不然。关于一致性模型请参考http://bit1129.iteye.com/blog/2155336 Zookeeper的数据同步协议 Zookeeper采用称为Quorum Based Protocol的数据同步协议。假如Zookeeper集群有N台Zookeeper服务器(N通常取奇数，3台能够满足数据可靠性同时
Java开发笔记白糖_ java开发
1、Map<key,value>的remove方法只能识别相同类型的key值 Map<Integer,String> map = new HashMap<Integer,String>(); map.put(1,"a"); map.put(2,"b"); map.put(3,"c"
图片黑色阴影 bozch 图片
.event{ padding:0; width:460px; min-width: 460px; border:0px solid #e4e4e4; height: 350px; min-heig
编程之美-饮料供货-动态规划 bylijinnan 动态规划
import java.util.Arrays; import java.util.Random; public class BeverageSupply { /** * 编程之美饮料供货 * 设Opt（V’，i）表示从i到n-1种饮料中，总容量为V’的方案中，满意度之和的最大值。 * 那么递归式就应该是：Opt（V’，i）=max{ k * Hi+Op
ajax大参数（大数据）提交性能分析 chenbowen00 Web Ajax 框架浏览器 prototype
近期在项目中发现如下一个问题项目中有个提交现场事件的功能，该功能主要是在web客户端保存现场数据（主要有截屏，终端日志等信息）然后提交到服务器上方便我们分析定位问题。客户在使用该功能的过程中反应点击提交后反应很慢，大概要等10到20秒的时间浏览器才能操作，期间页面不响应事件。根据客户描述分析了下的代码流程，很简单，主要通过OCX控件截屏，在将前端的日志等文件使用OCX控件打包，在将之转换为
[宇宙与天文]在太空采矿,在太空建造 comsci
我们在太空进行工业活动...但是不太可能把太空工业产品又运回到地面上进行加工,而一般是在哪里开采,就在哪里加工,太空的微重力环境,可能会使我们的工业产品的制造尺度非常巨大.... 地球上制造的最大工业机器是超级油轮和航空母舰,再大些就会遇到困难了,但是在空间船坞中,制造的最大工业机器,可能就没
ORACLE中CONSTRAINT的四对属性 daizj oracle CONSTRAINT
ORACLE中CONSTRAINT的四对属性 summary:在data migrate时,某些表的约束总是困扰着我们,让我们的migratet举步维艰,如何利用约束本身的属性来处理这些问题呢?本文详细介绍了约束的四对属性: Deferrable/not deferrable, Deferred/immediate, enalbe/disable, validate/novalidate,以及如
Gradle入门教程 dengkane gradle
一、寻找gradle的历程一开始的时候，我们只有一个工程，所有要用到的jar包都放到工程目录下面，时间长了，工程越来越大，使用到的jar包也越来越多，难以理解jar之间的依赖关系。再后来我们把旧的工程拆分到不同的工程里，靠ide来管理工程之间的依赖关系，各工程下的jar包依赖是杂乱的。一段时间后，我们发现用ide来管理项程很不方便，比如不方便脱离ide自动构建，于是我们写自己的ant脚本。再后
C语言简单循环示例 dcj3sjt126com c
# include <stdio.h> int main(void) { int i; int count = 0; int sum = 0; float avg; for (i=1; i<=100; i++) { if (i%2==0) { count++; sum += i; } } avg
presentModalViewController 的动画效果 dcj3sjt126com controller
系统自带(四种效果)： presentModalViewController模态的动画效果设置： [cpp] view plain copy UIViewController *detailViewController = [[UIViewController al
java 二分查找 shuizhaosi888 二分查找 java二分查找
需求：在排好顺序的一串数字中，找到数字T 一般解法：从左到右扫描数据，其运行花费线性时间O(N)。然而这个算法并没有用到该表已经排序的事实。 /** * * @param array * 顺序数组 * @param t * 要查找对象 * @return */ public stati
Spring Security（07）——缓存UserDetails 234390216 ehcache 缓存 Spring Security
Spring Security提供了一个实现了可以缓存UserDetails的UserDetailsService实现类，CachingUserDetailsService。该类的构造接收一个用于真正加载UserDetails的UserDetailsService实现类。当需要加载UserDetails时，其首先会从缓存中获取，如果缓存中没
Dozer 深层次复制 jayluns VO maven po
最近在做项目上遇到了一些小问题，因为架构在做设计的时候web前段展示用到了vo层，而在后台进行与数据库层操作的时候用到的是Po层。这样在业务层返回vo到控制层，每一次都需要从po-->转化到vo层，用到BeanUtils.copyProperties(source, target)只能复制简单的属性，因为实体类都配置了hibernate那些关联关系，所以它满足不了现在的需求，但后发现还有个很
CSS规范整理（摘自懒人图库） a409435341 html UI css 浏览器
刚没事闲着在网上瞎逛，找了一篇CSS规范整理，粗略看了一下后还蛮有一定的道理，并自问是否有这样的规范，这也是初入前端开发的人一个很好的规范吧。一、文件规范 1、文件均归档至约定的目录中。具体要求通过豆瓣的CSS规范进行讲解：所有的CSS分为两大类：通用类和业务类。通用的CSS文件，放在如下目录中：基本样式库 /css/core
C++动态链接库创建与使用你不认识的休道人 C++dll
一、创建动态链接库 1.新建工程test中选择”MFC [dll]”dll类型选择第二项"Regular DLL With MFC shared linked"，完成 2.在test.h中添加 extern “C” 返回类型 _declspec(dllexport)函数名(参数列表); 3.在test.cpp中最后写 extern “C” 返回类型 _decls
Android代码混淆之ProGuard rensanning ProGuard
Android应用的Java代码，通过反编译apk文件（dex2jar、apktool）很容易得到源代码，所以在release版本的apk中一定要混淆一下一些关键的Java源码。 ProGuard是一个开源的Java代码混淆器（obfuscation）。ADT r8开始它被默认集成到了Android SDK中。官网： http://proguard.sourceforge.net/
程序员在编程中遇到的奇葩弱智问题 tomcat_oracle jquery 编程 ide
　　现在收集一下：　　排名不分先后，按照发言顺序来的。 1、Jquery插件一个通用函数一直报错，尤其是很明显是存在的函数，很有可能就是你没有引入jquery。。。或者版本不对 2、调试半天没变化：不在同一个文件中调试。这个很可怕，我们很多时候会备份好几个项目，改完发现改错了。有个群友说的好：在汤匙
解决maven-dependency-plugin (goals "copy-dependencies","unpack") is not supported xp9802 dependency
解决办法：在plugins之前添加如下pluginManagement，二者前后顺序如下： [html] view plain copy <build> <pluginManagement