邱L宁X

PE-YOLO: Pyramid Enhancement Network for Dark Object Detection——论文笔记

论文地址：https://arxiv.org/abs/2307.10953

代码地址：GitHub - XiangchenYin/PE-YOLO

摘要（Abstract）：

当前，目标检测模型在许多基准数据集上取得了良好的结果，但是在暗光条件下检测物体仍然是一大挑战。为解决这一问题，我们提出了一个金字塔增强网络（pyramid enhanced network, PENet），将其与YOLOv3结合，建立了一个名为PE-YOLO的暗目标检测框架。首先，PENet使用拉普拉斯金字塔（Laplacian pyramid）从图片中分解出四个不同分辨率的分量。值得一提的是，我们提出了一个细节处理模块（detail processing module, DPM）去提升图像的细节，其由上下文分支（context branch）和边缘分支（edge branch）两个分支组成。此外，我们还提出了一个低频增强滤波器（low-frequency enhancement filter, LEF）来获取低频语义信息和避免高频噪声。PE-YOLO采用端到端的训练模式并只使用普通的检测损失，以简化训练过程。我们通过在低照度目标检测数据集ExDark上实验，证明了所提出方法的有效性。实验结果表明，与其他的暗光检测器和低照度增强模型相比，PE-YOLO实现了最优的结果——78.0%mAP和53.6FPS，并可以适应各种不同低照度环境下的目标检测。

Keywords: Object detection; Low-light perception; Pyramid enhancement

关键词：目标检测；低照度感知；金字塔增强

filter和kernel的区别：https://blog.csdn.net/weixin_38481963/article/details/109906338

1、引言（Introduction）

近年来，卷积神经网络的出现促进了目标检测的发展。大量的检测器被提出，并且在基准数据集上取得了良好的结果。然而，现有目标检测器的研究对象多为正常环境下的高质量图片。在真实环境下，经常会存在诸如夜晚、暗光和曝光等光照条件不好的情况，导致图片的质量下降从而影响检测器的性能。视觉感知模型使得自动系统能够理解环境，并为诸如路径规划等下游任务奠定基础，但这需要一个鲁棒的目标检测或语义分割模型。图1为暗目标检测的样例。由图可知，如果适当地增强图片，并根据环境状况重建更多原本模糊物体的潜在信息，则目标检测模型可被应用于不同的低照度场景，这也是模型在实际应用中的一个巨大挑战。

图1：暗目标检测示例。在暗光条件下，PE-YOLO可以恢复目标的更多潜在信息以获得更好的检测结果。

当前，许多方法被提出以解决暗光场景下的鲁棒性问题。许多低照度增强模型被提出用于重建图片细节并减少暗光带来的影响。然而，低照度增强模型的网络结构复杂，在增强图片后降低了检测器的实时性。此外，大多数方法无法与检测器一起进行端到端的训练，并且有监督学习需要配对的暗光-正常光图像对。暗光条件下的目标检测也可以被看作为域适应问题。一些研究者使用对抗学习将模型域从正常光迁移到暗光。但是，他们专注于匹配域间的数据分布，而忽略了包含在低照度图像中的潜在信息。在过去的几年里，有些研究者提出了使用可微图像处理模块（differentiable image processing, DIP）的方法去增强图像和以端到端的形式训练检测器。然而，DIP是诸如白平衡这样的传统方法，对图像的增强效果有限。

域适应（domain adaptation）：域自适应的理解（简单易懂）_疯狂java杰尼龟的博客-CSDN博客

可微图像处理模块（differentiable image processing, DIP）:

为解决上述问题，我们提出了一种金字塔增强网络（PENet），可用于增强低照度图像和获取目标的潜在信息。我们联合PENet和YOLOv3以建立一个端到端的暗目标检测框架PE-YOLO。在PENet 中，我们首先使用拉普拉斯金字塔（Laplacian pyramid）从图像中分解出多个不同分辨率的分量。针对金字塔中每一个尺度的分量，我们提出了细节处理模块（DPM）和低频增强滤波器（LEF）以增强这些分量。细节处理模块（DPM）由上下文分支和边缘分支组成。上下文分支通过获取远距离依赖来从全局增强分量，而边缘分支则是增强分量的纹理特征。LEF使用动态低通滤波器来获取低频语义信息和防止高频噪声，从而丰富特征信息。在训练过程中，我们仅仅使用普通的检测损失函数以简化训练过程，并且不需要图像的ground truth。我们在低照度目标检测数据集ExDark上验证了我们方法的有效性，结果表明，与其他的暗光检测器和低照度增强模型相比，PE-YOLO实现了最优的结果，达到了78.0%mAP和53.6FPS，可以在暗光条件下进行目标检测。

低通滤波器（low-pass filter）：【计算机视觉】图像分割与特征提取——频域增强（低通滤波&高通滤波）_赵四司机的博客-CSDN博客

我们的贡献如下：

1、我们建立了金字塔增强网络（PENet）用于增强不同的低照度图像。并提出了细节处理模块（DPM）和低频增强滤波器用于增强分量。

2、通过联合PENet和YOLOv3，我们提出了一个端到端训练的暗目标检测框架PE-YOLO，以适应暗光环境。在训练中，我们只使用了普通的检测损失函数。

3、与其他的暗检测器和低照度增强模型相比，PE-YOLO在ExDark数据集上实现了最优的结果和可观的准确率及速度。

2、相关工作（Related Work）

2.1 目标检测（Object Detection）

目标检测模型可以分为三类：单阶段模型、两阶段模型和基于anchor-free的模型。Faster RCNN没有通过选择性搜索来获得推荐区域，而是通过区域推荐网络。它能使候选区域推荐、特征提取、分类和回归在同一个网络中进行端到端的训练。蔡等人提出了Cascade RCNN，它级联多个检测头，并且当前级别可以改善上一级的回归、分类结果。YOLOv3提出了新的特征提取网络DarkNet-53。受特征金字塔网络启发（FPN），YOLOv3采用多尺度特征融合。此外，最近基于anchor-free的检测器出现，他们放弃了锚点，改为基于关键点检测。

2.2 低照度增强（Low-light Enhancement）

低照度增强任务的目标是通过重建图像细节和校正色彩失真以提升人们的视觉感知以及为诸如目标检测这样的高级视觉任务提供高质量的图像。张等人提出了Kind，它可以通过不同照明等级的图像对进行训练，不需要ground truth。郭等人提出了Zero DCE，它将低照度增强任务转换为特定图像曲线估计问题。吕等人提出了多分支低照度增强网络——MBLLEN，它可以提取不同层级的特征，并通过多分支融合来生成输出图片。崔等人提出照明适应Transformer（IAT），通过动态查询学习来构建了一个端到端的Transformer。通过低照度增强模型重建图像细节后，检测器的效果得到了提升。然而，大部分的低照度增强模型是复杂的，它们对检测器的实时性能有极大的影响。

2.3 恶劣环境下的目标检测（Object Detection in Adverse Condition）

在恶劣条件下进行目标检测对机器人的鲁棒感知是至关重要的。针对某些恶劣条件下的鲁棒目标检测模型已经提出。有些研究者通过无监督的域适应将检测器从源域转换到目标域，以让模型适应恶劣的环境。刘等人提出IA-YOLO，它可以自适应地增强图片以提升检测性能。他们针对恶劣环境提出了可微图像处理（DIP）模块并使用一个小的卷积神经网络（CNN-PP）来调节DIP的参数。基于IA-YOLO，Kalwar等人提出了GDIP-YOLO。GDIP通过门控机制实现多个DIP进行并行操作。秦等人提出了检测驱动的增强网络（DENet）用于在恶劣天气下进行目标检测。崔等人针对暗目标检测提出了多任务自动编码转换，探索照明变化后的潜在空间。

3、方法（Method）

由于受暗光干扰，低照度图片具有低可见度。为解决这一问题，我们提出了金字塔增强网络（PENet）并联合YOLOv3建立了暗目标检测框架PE-YOLO，其整体框架如图2。

图2：PE-YOLO框架。我们使用细节处理模块（DPM）和低频增强滤波器（LEF）来增强图像。

3.1 PE-YOLO概述

PENet通过拉普拉斯金字塔将图像分解为不同分辨率的分量。在PENet中，我们通过DPM和LEF增强不同尺度的分量。

定义图像 $I\in R^{^{h\times w\times 3}}$ 作为输入，我们可以通过高斯金字塔来获得不同分辨率的子图像。

$G\left ( x \right )= Down\left ( Gaussian\left ( x \right ) \right )$ （1）

其中，Down 为下采样，Gaussian 为高斯滤波器，高斯核的尺寸为5*5。在经过每一次高斯金字塔操作后，图像的宽高都会减半，也意味着图像的分辨率会下降为原始的1/4。显而易见，高斯金字塔的下采样操作是不可逆的。为能在下采样后恢复原始的高分辨率图像，需要这些丢失的信息，而这些丢失的信息构成了拉普拉斯金字塔（Laplacian pyramid）。拉普拉斯金字塔可定义为：

$L_{i}= G_{i}-Up(G_{i+1})$ （2）

$L_{i}$ 为拉普拉斯金字塔的第层， $G_{i}$ 为拉普拉斯金字塔的第层，Up 为双边上采样操作。当需要重建图片时，我们只需要执行公式（2）的逆操作即可重建高分辨率的图片。

如图3所示，我们可以通过拉普拉斯金字塔来获得不同尺度的四个分量。我们发现拉普拉斯金字塔自底向上会将更多的注意力放在全局的信息上，相反自顶向下会更专注于局部的细节。这四个分量是图片下采样过程中丢失的全部信息，也是我们PENet增强的目标。我们通过DPM和LEF对这些分量进行增强，DPM和LEF的操作是并行的。我们将会在下一部分对DPM和LEF进行介绍。通过分解和重建拉普拉斯金字塔，PENet可以做到轻量但有效，有助于提升PE-YOLO的性能。

图3：拉普拉斯金字塔每一层的可视化结果。第二至第五列为拉普拉斯金字塔的组件，从左往右分辨率递减。

疑问：

重建高分辨率图像为公式（2）的逆过程，即：

$G_{0}=L_{0}+Up\left ( G_{1} \right ) \newline= L_{0}+Up\left (L_{1}+Up\left ( G_{2} \right ) \right ) \newline=L_{0}+Up\left (L_{1}+Up\left (L_{2}+Up\left ( G_{3} \right ) \right ) \right ) \newline=L_{0}+Up\left (L_{1}+Up\left (L_{2}+Up\left (L_{3}+G_{4} \right ) \right ) \right )$

图2中，拉普拉斯金字塔将 $L_{i}$ 作为输入，进行增强、上采样和拼接，是否是未显式画出将 $G_{4}$ 进行拼接的过程。

3.2 细节增强（Detail Enhancement）

我们提出了细节处理模块（DPM）去增强拉普拉斯金字塔中的各分辨率的分量（ $L_{i}$ ），DPM可分为上下文分支和边缘分支。DPM的细节如图4所示。上下文分支通过捕获远距离依赖以获得上下文信息，从而从全局增强各分量。边缘分支使用两个Sobel算子计算图像不同方向的梯度以获取边缘信息和增强各分量的纹理特征。

上下文分支（Context branch）：

在获取远距离依赖前后，我们使用残差块来处理特征，残差块学习可以使得丰富的低频信息通过跳跃连接传递。第一个残差块将特征通道数由3改为32，第二个残差块将特征通道数由32改为3。获取全局信息被证实对诸如低照度增强这样的低级视觉任务是有益的。图4展示了上下文分支的结构，其定义如下：

$CB\left ( x \right )=x+\gamma \left ( F_{1}\left ( \hat{x} \right ) \right )$ （3）

其中， $\hat{x}=\sigma \left ( F_{2}\left ( x \right ) \right )\cdot x$ ,是卷积核为3*3的卷积层， $\gamma$ 是Leaky ReLU， $\sigma$ 是Softmax函数。

图4：DPM细节，包含上下文分支和边缘分支。

边缘分支（Edge branch）：

Sobel算子是一个同时使用高斯滤波器和微分推导的可分离算子，可以通过计算梯度的近似值来找到图像中物体的边缘。我们在水平和垂直两个方向上使用Sobel算子并通过卷积滤波器以再次提取边缘信息，且通过残差来增强信息流。这一过程可以表示为：

$EB\left ( x \right )=F_{3}\left ( Sobel_{h}(x)+Sobel_{w}(x) \right )+x$ （4）

其中， $Sobel_{h}$ 、 $Sobel_{w}$ 分别代表垂直和水平方向上的Sobel算子。

Sobel算子（Sobel operator）：https://baike.baidu.com/item/%E7%B4%A2%E8%B4%9D%E5%B0%94%E7%AE%97%E5%AD%90/15805328

3.3 低频增强滤波器（low-frequency enhancement filter, LEF）

在每个尺度的分量中，低频分量包含最多的图像语义信息，它们是检测器预测的关键信息。为丰富重建图像中的语义信息，我们提出低频增强滤波器来获取分量中的低频信息。LEF的细节如图5所示。假设分量 $f\epsilon R^{h\times w\times3}$ ，我们首先通过卷积层将其转换为 $f\epsilon R^{h\times w\times32}$ 。我们使用动态低通滤波器来获取低频信息，然后通过平均池化来过滤特征，使得低于阈值的信息可以通过。不同语义信息的低频阈值是不同的。借鉴Inception的多尺度结构，我们使用1*1,2*2,3*3,6*6的自适应池化，并在不同尺度分支的最后使用上采样，以将特征重建至原始尺寸。使用不同尺的寸卷积核进行平均池化，就形成了低通滤波器。我们通过通道分离，将分为四部分，名为 $\left \{ f_{1}, f_{2}, f_{3}, f_{4}\right \}$ 。每部分由不同尺度的池化层处理，定义为：

$Filter\left ( f_{i} \right )=Up\left ( \beta _{s}\left ( f_{i} \right ) \right )$ （5）

其中， $f_{i}$ 是进行通道分离后的某一部分，Up 是双边插值采样， $\beta _{s}$ 是s*s大小尺寸的自适应平均池化层。最后，在对 $\left \{ f_{i},i=1,2,3,4\right \}$ 进行张量拼接后，我们将其重建为 $f\epsilon R^{h\times w\times3}$ 。

图5：LEF细节。LEF由不同尺寸的自适应平均池化层组成以截取低频分量。

4、实验（Experiments）

4.1 数据集和实施细节

数据集：

我们使用ExDark来验证PE-YOLO的有效性。ExDark是用于研究目标检测和图像增强的低照度目标检测数据集。它总共收集了10种不同照明条件下（从极暗的光到黄昏）的共7363张图像，图像中有12个物体的边界框标注。我们将数据集的80%用于训练，20%用于测试。具体的划分与IAT和MAET保持一致。

IAT论文地址：https://arxiv.org/abs/2205.14871

MAET论文地址：https://arxiv.org/abs/2205.03346

细节：

所有的训练、测试图像被裁剪为608*608大小，在训练中采用了诸如随机裁剪、翻转和多尺度裁剪的数据增广方法。批处理大小设置为8，优化器采用SGD，初始学习率设置为0.001，权重衰减设置为0.0005。在单张RTX3090GPU上训练30个epoch。深度学习框架采用Pytorch，我们使用mmdetection来完成我们的模型。

评价指标：

我们使用mAP和FPS作为验证模型有效性的评价指标。mAP是检测模型中所有类别的平均检测精度，值越大意味着模型的准确率越高。mAP可表示为：

$mAP=\frac{\sum_{i=1}^{C}AP_{i}}{C}$ （6）

其中，是所有种类的数量，是每个种类的平均准确率，由Precision Recall曲线的面积计算得来。FPS是模型每秒检测的图片数量，FPS越大意味着模型检测速度越快。

4.2 实验结果

为验证PE-YOLO的有效性，我们在ExDark数据集上进行了多个实验。首先，我们将PE-YOLO与其他低照度增强模型进行比较。由于低照度增强模型缺乏检测能力，我们使用与PE-YOLO一致的检测器在所有的增强图片上。我们设置mAP的IoU阈值设置为0.5，对比结果如表1所示。我们发现，直接在YOLOv3前使用低照度增强模型不能显著的提高检测性能。PE-YOLO相较于MBLLEN和Zero-DCE分别高出1.2%和1.1%，达到了最优。

表1：PE-YOLO和其他低照度增强模型的性能对比。展示了mAP和每个类别的AP。加粗的数字为每列的最大值。

如图6所示，我们展示了所有低照度模型的检测结果。我们发现尽管MBLLEN和Zero DCE显著提升了图像的亮度，但同时也放大了图像噪声。PE-YOLO主要捕获了低照度图像中目标的显著信息，同时也抑制了高频分量中的噪声，因此PE-YOLO有最好的检测性能。

图6：PE-YOLO和其他低照度增强模型检测结果。

表2：PE-YOLO和其他暗检测器的性能对比。粗体为每列的最大值。

如表2所示，我们比较了PE-YOLO与其他暗检测器的性能。如图7所示，我们展示了PE-YOLO和其他暗检测器的检测结果，可直观的看出PE-YOLO具有更好的检测准确率。PE-YOLO较在LOL上进行预训练后的DENet和IAT-YOLO，在mAP上分别高出0.7%和0.2%，并且具有最高的FPS。由上述数据可知PE-YOLO更适合在暗光环境下进行目标检测

图7：PE-YOLO和其他暗检测器的检测结果。

4.3 消融实验

为分析PE-YOLO中各组件的有效性，我们进行了消融实验，结果如表3所示。采用上下文分支后，PE-YOLO的mAP由76.4%提升至77.0%，意味着获取远距离依赖对于增强是有效的。采用边缘分支后，mAP由77.0%提升至77.6%，意味着边缘分支可以增强分量的纹理特征并增强图片的细节。采用LEF后，mAP由77.6%提升至78.0%，意味着获取低频分量有利于获取图像的潜在信息，最终，我们模型在FPS仅仅降低0.4的情况下，mAP由76.4%提升至78.0%。

表3：PE-YOLO消融实验。“CB”代表上下文分支，“EB”代表边缘分支，“LEF”代表低频增强滤波器。

5、结论（Conclusion）

为实现更加鲁棒的暗目标检测，我们提出了一个金字塔增强网络（pyramid enhancement network, PENet），其可实现细节重建并获取图片中的潜在信息。通过结合PENet和YOLOv3，我们建立了一个名为PE-YOLO的暗目标检测框架。我们首先通过拉普拉斯金字塔（Laplacian pyramid）从图像中分解出四个不同分辨率的分量，然后提出一个细节处理模块（detail processing module, DPM）和低频增强滤波器（low-frequency enhancement filter, LEF）进行分量增强。另外，PE-YOLO通过端到端的方式训练，没有使用额外的损失函数。我们在ExDark数据集上进行实验，结果表明，与其他的低照度增强模型和暗检测器相比，PE-YOLO实现了最优的结果并可以有效的在暗光环境下检测。然后，我们的模型还应研究更多的检测器，使其在保持轻量的前提下进一步提升性能。

【目标检测数据集】卡车数据集1073张VOC+YOLO格式熬夜写代码的平头哥∰ 目标检测 YOLO 人工智能
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：1073标注数量(xml文件个数)：1073标注数量(txt文件个数)：1073标注类别数：1标注类别名称:["truck"]每个类别标注的框数：truck框数=1120总框数：1120使用标注工具：labelImg标注
番茄西红柿叶子病害分类数据集12882张11类别 futureflsl 数据集分类数据挖掘人工智能
数据集类型：图像分类用，不可用于目标检测无标注文件数据集格式：仅仅包含jpg图片，每个类别文件夹下面存放着对应图片图片数量(jpg文件个数)：12882分类类别数：11类别名称:["Bacterial_Spot_Bacteria","Early_Blight_Fungus","Healthy","Late_Blight_Water_Mold","Leaf_Mold_Fungus","Powdery
钢筋长度超限检测检数据集VOC+YOLO格式215张1类别 futureflsl 数据集 YOLO 深度学习机器学习
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：215标注数量(xml文件个数)：215标注数量(txt文件个数)：215标注类别数：1标注类别名称:["iron"]每个类别标注的框数：iron框数=215总框数：215使用标注工具：labelImg标注规则：对类别进
COCO 格式的数据集转化为 YOLO 格式的数据集 QYQY77 YOLO python
"""--json_path输入的json文件路径--save_path保存的文件夹名字，默认为当前目录下的labels。"""importosimportjsonfromtqdmimporttqdmimportargparseparser=argparse.ArgumentParser()parser.add_argument('--json_path',default='./instances
yolov5＞onnx＞ncnn＞apk 图像处理大大大大大牛啊 opencv实战代码讲解 yolo onnx ncnn 安卓
一.yolov5pt模型转onnx条件：colabnotebookyolov51.安装环境!pipinstallonnx>=1.7.0#forONNXexport!pipinstallcoremltools==4.0#forCoreMLexport!pipinstallonnx-simplifier2.修改common.py在classFocus下面
[数据集][目标检测]汽车头部尾部检测数据集VOC+YOLO格式5319张3类别 FL1623863129 数据集目标检测汽车 YOLO
数据集制作单位：未来自主研究中心(FIRC)版权单位：未来自主研究中心(FIRC)版权声明：数据集仅仅供个人使用，不得在未授权情况下挂淘宝、咸鱼等交易网站公开售卖,由此引发的法律责任需自行承担数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：5319标注数量(xml文件
遥感图像分割系统：融合空间金字塔池化（FocalModulation)改进YOLOv8 xuehaisj YOLO 人工智能计算机视觉 yolov8
1.研究背景与意义项目参考AAAIAssociationfortheAdvancementofArtificialIntelligence研究背景与意义遥感图像分割是遥感技术领域中的一个重要研究方向，它的目标是将遥感图像中的不同地物或地物类别进行有效的分割和识别。随着遥感技术的不断发展和遥感图像数据的大规模获取，遥感图像分割在农业、城市规划、环境监测等领域具有广泛的应用前景。然而，由于遥感图像的特
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
如何理解深度学习的训练过程奋斗的草莓熊深度学习人工智能 python scikit-learn virtualenv numpy pandas
文章目录1.训练是干什么？2.预训练模型进行训练，主要更改的是预训练模型的什么东西？1.训练是干什么？以yolov5为例子，训练的目的是把一组输入猫狗图像放到神经网络中，得到一个输出模型，这个模型下次可以直接用来识别哪个是猫，哪个是狗2.预训练模型进行训练，主要更改的是预训练模型的什么东西？超参数（Hyperparameters）：这是模型结构中定义的参数，比如：卷积核大小（kernel_size
基于YOLOV5人脸检测打上码赛克 Deep-white YOLO 人工智能深度学习
还在为自己的隐私而烦恼吗，还在为拍摄的视频因不想露脸而无法发布吗。yolov5检测人脸，并打上马赛克，保护自己的隐私。只需下载代码，解压缩后就可以传入你想要打马赛克的视频或者图片了。这个是需要你对代码有一些了解的，等我开发一下使大家都可以用。里面权重已经训练好了，也有一些人脸的数据集，数据量不多，训练完的权重不是很好，但是给自己的视频打上马赛克足够了。大家要是想去增加数据集，可以使用里面的权重利用
yolov5单目测距+速度测量+目标跟踪 cv_2025 YOLO 目标跟踪人工智能计算机视觉机器学习图像处理 opencv
要在YOLOv5中添加测距和测速功能，您需要了解以下两个部分的原理：单目测距算法单目测距是使用单个摄像头来估计场景中物体的距离。常见的单目测距算法包括基于视差的方法（如立体匹配）和基于深度学习的方法（如神经网络）。基于深度学习的方法通常使用卷积神经网络（CNN）来学习从图像到深度图的映射关系。单目测距代码单目测距涉及到坐标转换，代码如下：defconvert_2D_to_3D(point2D,R,
粉尘识别数据集——工地/矿下粉尘数据识别，数据集已划分，YOLO格式-有权重，相关指数，map相当高毕设宇航 YOLO 机器学习目标跟踪
数据集名称粉尘识别数据集数据集描述这是一个专门针对工地或矿下粉尘识别设计的数据集，包含了大量的高清图像，用于识别施工或采矿环境中产生的粉尘。数据集已经按照标准的数据划分方法分为训练集、验证集和测试集，并且以YOLO格式进行了标注。此外，数据集中还包含了预训练的模型权重和相关性能指标，如mAP（MeanAveragePrecision），表明模型在粉尘识别任务上的表现优异。数据集特点高清图像：所有图
YOLOV8改进-C2f添加Deformable Conv V2 森爱。 YOLOV8改进 YOLO
目录1DeformableConvV2介绍2YOLOV8添加DeformableConvV22.1代码添加到Blocks2.1.1C2f_DCN代码2.1.2加入_all_导入2.1.3加入modules导入2.2添加至运行模块tasks2.2.1导入包2.2.2解析参数添加2.3在_init_中增加名称2.4模型配置文件yaml替换1DeformableConvV2介绍论文地址:https://
《互联网时代教师自主成长的模式研究》论文阅读与思考2 宁超群
2.第二部分教师自主成长的模式建构，实质上是对新网师底层逻辑的描述。你认为，新网师的培训模式与传统常见的培训模式有哪些区别？这些区别有什么意义或价值？读完第二部分后，你对新网师有哪些新的认识或理解？你认为新网师目前哪些方面做得好，哪些方面做得还不够？答：我认为新网师的培训模式与传统常见的培训模式有以下区别：（1）培训对象的参与动机不同。新网师学员的参与是自觉自愿、积极主动，而传统培训更多是被迫参与
结合YOLOv8和OpenCV WeChat QRCode打造一款二维码识别器搜狐技术产品小编2023 YOLO opencv 微信人工智能计算机视觉
本文字数：3876字预计阅读时间：25分钟01引言二维码（QRCode）在现代生活中有广泛应用，从支付系统到信息传递，它们无处不在。本文提出了一种如何识别二维码的方法，主要贡献在于优化处理分辨率较高的图像时，由于二维码在整张图片中占据的比例较小，传统的OpenCVWeChatQRCode的识别方法表现不佳的问题。下面描述详细的优化过程。02OpenCVWeChatQRCodeWeChatQRCod
【目标检测数据集】番茄叶片病害数据集13940张9类VOC+YOLO格式熬夜写代码的平头哥∰ 数据集目标检测 YOLO 目标跟踪
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：13946标注数量(xml文件个数)：13946标注数量(txt文件个数)：13946标注类别数：9标注类别名称:["EarlyBlight","Healthy","LateBlight","LeafMiner","Le
YOLOv8数据增强热心小张研究生 yolov8
1.找到augment.py（ultralytics/data/augment.py），修改对应内容#TransformsT=[A.Blur(p=0.01),A.MedianBlur(p=0.01),A.ToGray(p=0.01),A.CLAHE(p=0.01),A.RandomBrightnessContrast(p=0.0),A.RandomGamma(p=0.0),A.ImageCompr
[数据集][目标检测]血细胞检测数据集VOC+YOLO格式2757张4类别 FL1623863129 数据集目标检测 YOLO 人工智能
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：2757标注数量(xml文件个数)：2757标注数量(txt文件个数)：2757标注类别数：4标注类别名称:["Platelets","RBC","WBC","sicklecell"]每个类别标注的框数：Platelet
目标检测YOLO系列从入门到精通技术详解100篇-【目标检测】工业相机格图素书数码相机目标检测人工智能
目录知识储备深度相机1TOF2双目视觉3结构光4智能门锁应用5手机应用算法原理相机的成像与标定模型相机标定的实施·标定过程的算法实施相机标定的扩展CCD工业相机、镜头倍率及相关参数计算方法知识储备深度相机1TOF1.1Kinectv2Kinectv2是Microsoft在2014年发售的，如图1-1所示。相比于Kinectv1在硬件和软件上作出了很大的进化，且在深度测量的系统和非系统误差方面表现出
【小贪】项目实战——Zero-shot根据文字提示分割出图片目标掩码贪钱算法还我头发 #Deep Learning #Computer Vision AI 目标检测深度学习 python 语义分割 Zero-shot
目标描述给定RGB视频或图片，目标是分割出图像中的指定目标掩码。我们需要复现两个Zero-shot的开源项目，分别为IDEA研究院的GroundingDINO和Facebook的SAM。首先使用目标检测方法GroundingDINO，输入想检测目标的文字提示，可以获得目标的anchorbox。将上一步获得的box信息作为SAM的提示，分割出目标mask。具体效果如下（测试数据来自VolumeDef
ERROR: Could not install packages due to an OSError: [Errno 2] No such file or directory:错误解决 nomoremorphine python pip 计算机视觉目标检测
安装yolov8时(pipinstallultralytics)报错：ERROR:CouldnotinstallpackagesduetoanOSError:[Errno2]没有那个文件或目录:‘xxxx/anaconda3/envs/v8-test/lib/python3.7/site-packages/numpy-1.21.6.dist-info/METADATA’问题原因：安装环境里对应的安
【定位系列论文阅读】-Patch-NetVLAD: Multi-Scale Fusion of Locally-Global Descriptors for Place Recognition（一）醉酒柴柴论文阅读学习笔记
这里写目录标题概述研究内容Abstract第一段（介绍本文算法大致结构与优点）1.Introduction介绍第一段（介绍视觉位置识别的重要性）第二段（VPR的两种常见方法，本文方法结合了两种方法）第三段（本文贡献）第四段（为证明本文方法优越性，进行的测试以及比较）2.RelatedWork相关工作第一段（介绍早期与深度学习的全局图像描述符）第二段（介绍局部关键点描述符）第三段（局部描述符可以进一
论文阅读笔记（十九）：YOLO9000: Better, Faster, Stronger __Sunshine__ 笔记 YOLO9000 detection classification
WeintroduceYOLO9000,astate-of-the-art,real-timeobjectdetectionsystemthatcandetectover9000objectcategories.FirstweproposevariousimprovementstotheYOLOdetectionmethod,bothnovelanddrawnfrompriorwork.Theim
Yolo-v3利用GPU训练make时发生错误：/usr/bin/ld: cannot find -lcuda 徐小妞66666
一.利用GPU训练Yolov3时，首先要修改MakeFile文件，修改格式如下：GPU=1(原来为0)CUDNN=1(原来为0)NVCC=/usr/local/cuda/bin/nvcc(新建,注意自己本机的地址)二.此时make产生错误/usr/bin/ld:cannotfind-lcuda1.查看MakeFile文件找到该行代码：LDFLAGS+=-L/usr/local/cuda/lib64
论文阅读笔记: DINOv2: Learning Robust Visual Features without Supervision 小夏refresh 论文计算机视觉深度学习论文阅读笔记深度学习计算机视觉人工智能
DINOv2:LearningRobustVisualFeatureswithoutSupervision论文地址:https://arxiv.org/abs/2304.07193代码地址:https://github.com/facebookresearch/dinov2摘要大量数据上的预训练模型在NLP方面取得突破，为计算机视觉中的类似基础模型开辟了道路。这些模型可以通过生成通用视觉特征(即无
yolov5 +gui界面+单目测距实现对图片视频摄像头的测距毕设宇航 QQ767172261 yolov5 单目测距
可实现对图片，视频，摄像头的检测项目概述本项目旨在实现一个集成了YOLOv5目标检测算法、图形用户界面（GUI）以及单目测距功能的系统。该系统能够对图片、视频或实时摄像头输入进行目标检测，并估算目标的距离。通过结合YOLOv5的强大检测能力和单目测距技术，系统能够在多种应用场景中提供高效、准确的目标检测和测距功能。技术栈YOLOv5：用于目标检测的深度学习模型。OpenCV：用于图像处理和单目测距
目标检测-YOLOv3 wydxry 深度学习目标检测 YOLO 深度学习
YOLOv3介绍YOLOv3(YouOnlyLookOnce,Version3)是YOLO系列目标检测模型的第三个版本，相较于YOLOv2有了显著的改进和增强，尤其在检测速度和精度上表现优异。YOLOv3的设计目标是在保持高速的前提下提升检测的准确性和稳定性。下面是对YOLOv3改进和优势的介绍，以及YOLOv3核心部分的代码展示。相比YOLOv2的改进与优势多尺度特征金字塔YOLOv3引入了FP
SSD目标检测系统月见樽
首发于个人博客系统结构system.pngSSD识别系统也是一种单步物体识别系统，即将提取物体位置和判断物体类别融合在一起进行，其最主要的特点是识别器用于判断物体的特征不仅仅来自于神经网络的输出，还来自于神经网络的中间结果。该系统分为以下几个部分：神经网络部分：用作特征提取器，提取图像特征识别器：根据神经网络提取的特征，生成包含物品位置和类别信息的候选框（使用卷积实现）后处理：对识别器提取出的候选
使用TensorRT对YOLOv8模型进行加速推理 fengbingchun Deep Learning CUDA/TensorRT YOLOv8 TensorRT
这里使用GitHub上shouxieai的infer框架对YOLOv8模型进行加速推理，操作过程如下所示：1.配置环境，依赖项，包括：(1).CUDA:11.8(2).cuDNN:8.7.0(3).TensorRT:8.5.3.1(4).ONNX:1.16.0(5).OpenCV:4.10.02.cloneinfer代码：https://github.com/shouxieai/infer3.使用
使用yolov8识别+深度相机+机械臂实现垃圾分拣机械臂（代码分享）调包侠@ YOLO 数码相机毕业设计
文章目录垃圾分拣机械臂总体介绍主要功能与特色视频演示文件目录程序主代码完整代码链接垃圾分拣机械臂总体介绍本作品将视觉识别技术部署在嵌入式设备，自动控制机械臂进行分拣任务，在我们的设计中，首先使用深度相机将图像信息发送到嵌入式设备，视觉识别算法进行分类检测，将垃圾分为感染性，损失性，病理性，药物性，化学性，并根据相机的深度值计算出目标的三维坐标，由于系统使用眼在手外的结构，根据手眼标定的结果，将坐标
[星球大战]阿纳金的背叛 comsci
本来杰迪圣殿的长老是不同意让阿纳金接受训练的......... 但是由于政治原因,长老会妥协了...这给邪恶的力量带来了机会所以......现代的地球联邦接受了这个教训...绝对不让某些年轻人进入学院
看懂它，你就可以任性的玩耍了！ aijuans JavaScript
javascript作为前端开发的标配技能，如果不掌握好它的三大特点：1.原型 2.作用域 3. 闭包 ,又怎么可以说你学好了这门语言呢？如果标配的技能都没有撑握好，怎么可以任性的玩耍呢？怎么验证自己学好了以上三个基本点呢，我找到一段不错的代码，稍加改动，如果能够读懂它，那么你就可以任性了。 function jClass(b
Java常用工具包 Jodd Kai_Ge java jodd
Jodd 是一个开源的 Java 工具集，包含一些实用的工具类和小型框架。简单，却很强大！写道 Jodd = Tools + IoC + MVC + DB + AOP + TX + JSON + HTML < 1.5 Mb Jodd 被分成众多模块，按需选择，其中工具类模块有： jodd-core &nb
SpringMvc下载 120153216 springMVC
@RequestMapping(value = WebUrlConstant.DOWNLOAD) public void download(HttpServletRequest request,HttpServletResponse response,String fileName) { OutputStream os = null; InputStream is = null;
Python 标准异常总结 2002wmj python
Python标准异常总结 AssertionError 断言语句（assert）失败 AttributeError 尝试访问未知的对象属性 EOFError 用户输入文件末尾标志EOF（Ctrl+d） FloatingPointError 浮点计算错误 GeneratorExit generator.close()方法被调用的时候 ImportError 导入模块失
SQL函数返回临时表结构的数据用于查询 357029540 SQL Server
这两天在做一个查询的SQL，这个SQL的一个条件是通过游标实现另外两张表查询出一个多条数据，这些数据都是INT类型，然后用IN条件进行查询，并且查询这两张表需要通过外部传入参数才能查询出所需数据，于是想到了用SQL函数返回值，并且也这样做了，由于是返回多条数据，所以把查询出来的INT类型值都拼接为了字符串，这时就遇到问题了，在查询SQL中因为条件是INT值，SQL函数的CAST和CONVERST都
java 时间格式化 | 比较大小| 时区个人笔记 7454103 java eclipse tomcat c MyEclipse
个人总结！不当之处多多包含！引用 1.0 如何设置 tomcat 的时区：位置：(catalina.bat---JAVA_OPTS 下面加上) set JAVA_OPT
时间获取Clander的用法 adminjun Clander 时间
/** * 得到几天前的时间 * @param d * @param day * @return */ public static Date getDateBefore(Date d,int day){ Calend
JVM初探与设置 aijuans java
JVM是Java Virtual Machine（Java虚拟机）的缩写，JVM是一种用于计算设备的规范，它是一个虚构出来的计算机，是通过在实际的计算机上仿真模拟各种计算机功能来实现的。Java虚拟机包括一套字节码指令集、一组寄存器、一个栈、一个垃圾回收堆和一个存储方法域。 JVM屏蔽了与具体操作系统平台相关的信息，使Java程序只需生成在Java虚拟机上运行的目标代码（字节码）,就可以在多种平台
SQL中ON和WHERE的区别 avords
SQL中ON和WHERE的区别数据库在通过连接两张或多张表来返回记录时，都会生成一张中间的临时表，然后再将这张临时表返回给用户。 www.2cto.com 在使用left jion时，on和where条件的区别如下： 1、 on条件是在生成临时表时使用的条件，它不管on中的条件是否为真，都会返回左边表中的记录。
说说自信 houxinyou 工作生活
自信的来源分为两种,一种是源于实力,一种源于头脑.实力是一个综合的评定,有自身的能力,能利用的资源等.比如我想去月亮上,要身体素质过硬,还要有飞船等等一系列的东西.这些都属于实力的一部分.而头脑不同,只要你头脑够简单就可以了!同样要上月亮上,你想,我一跳,1米,我多跳几下,跳个几年,应该就到了!什么?你说我会往下掉?你笨呀你!找个东西踩一下不就行了吗? 无论工作还
WEBLOGIC事务超时设置 bijian1013 weblogic jta 事务超时
系统中统计数据，由于调用统计过程，执行时间超过了weblogic设置的时间，提示如下错误：统计数据出错! 原因：The transaction is no longer active - status: 'Rolling Back. [Reason=weblogic.transaction.internal
两年已过去，再看该如何快速融入新团队 bingyingao java 互联网融入架构新团队
偶得的空闲，翻到了两年前的帖子该如何快速融入一个新团队，有所感触，就记下来，为下一个两年后的今天做参考。时隔两年半之后的今天，再来看当初的这个博客，别有一番滋味。而我已经于今年三月份离开了当初所在的团队，加入另外的一个项目组，2011年的这篇博客之后的时光，我很好的融入了那个团队，而直到现在和同事们关系都特别好。大家在短短一年半的时间离一起经历了一
【Spark七十七】Spark分析Nginx和Apache的access.log bit1129 apache
Spark分析Nginx和Apache的access.log，第一个问题是要对Nginx和Apache的access.log文件进行按行解析，按行解析就的方法是正则表达式： Nginx的access.log解析正则表达式 val PATTERN = """([^ ]*) ([^ ]*) ([^ ]*) (\\[.*\\]) (\&q
Erlang patch bookjovi erlang
Totally five patchs committed to erlang otp, just small patchs. IMO, erlang really is a interesting programming language, I really like its concurrency feature. but the functional programming style
log4j日志路径中加入日期 bro_feng java log4j
要用log4j使用记录日志，日志路径有每日的日期，文件大小5M新增文件。实现方式 log4j: <appender name="serviceLog" class="org.apache.log4j.RollingFileAppender"> <param name="Encoding" v
读《研磨设计模式》-代码笔记-桥接模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 个人觉得关于桥接模式的例子，蜡笔和毛笔这个例子是最贴切的：http://www.cnblogs.com/zhenyulu/articles/67016.html * 笔和颜色是可分离的，蜡笔把两者耦合在一起了：一支蜡笔只有一种
windows7下SVN和Eclipse插件安装 chenyu19891124 eclipse插件
今天花了一天时间弄SVN和Eclipse插件的安装，今天弄好了。svn插件和Eclipse整合有两种方式，一种是直接下载插件包，二种是通过Eclipse在线更新。由于之前Eclipse版本和svn插件版本有差别，始终是没装上。最后在网上找到了适合的版本。所用的环境系统：windows7JDK：1.7svn插件包版本：1.8.16Eclipse：3.7.2工具下载地址：Eclipse下在地址：htt
[转帖]工作流引擎设计思路 comsci 设计模式工作应用服务器 workflow 企业应用
作为国内的同行，我非常希望在流程设计方面和大家交流，刚发现篇好文(那么好的文章，现在才发现，可惜)，关于流程设计的一些原理，个人觉得本文站得高，看得远，比俺的文章有深度，转载如下 ================================================================================= 自开博以来不断有朋友来探讨工作流引擎该如何
Linux 查看内存，CPU及硬盘大小的方法 daizj linux cpu 内存硬盘大小
一、查看CPU信息的命令 [root@R4 ~]# cat /proc/cpuinfo |grep "model name" && cat /proc/cpuinfo |grep "physical id" model name : Intel(R) Xeon(R) CPU X5450 @ 3.00GHz model name :
linux 踢出在线用户 dongwei_6688 linux
两个步骤： 1.用w命令找到要踢出的用户，比如下面： [root@localhost ~]# w 18:16:55 up 39 days, 8:27, 3 users, load average: 0.03, 0.03, 0.00 USER TTY FROM LOGIN@ IDLE JCPU PCPU WHAT
放手吧,就像不曾拥有过一样 dcj3sjt126com
内容提要：静悠悠编著的《放手吧就像不曾拥有过一样》集结“全球华语世界最舒缓心灵”的精华故事，触碰生命最深层次的感动，献给全世界亿万读者。《放手吧就像不曾拥有过一样》的作者衷心地祝愿每一位读者都给自己一个重新出发的理由，将那些令你痛苦的、扛起的、背负的，一并都放下吧！把憔悴的面容换做一种清淡的微笑，把沉重的步伐调节成春天五线谱上的音符，让自己踏着轻快的节奏，在人生的海面上悠然漂荡，享受宁静与
php二进制安全的含义 dcj3sjt126com PHP
PHP里，有string的概念。 string里，每个字符的大小为byte（与PHP相比，Java的每个字符为Character，是UTF8字符，C语言的每个字符可以在编译时选择）。 byte里，有ASCII代码的字符，例如ABC，123，abc，也有一些特殊字符，例如回车，退格之类的。特殊字符很多是不能显示的。或者说，他们的显示方式没有标准，例如编码65到哪儿都是字母A，编码97到哪儿都是字符
Linux下禁用T440s，X240的一体化触摸板(touchpad) gashero linux ThinkPad 触摸板
自打1月买了Thinkpad T440s就一直很火大，其中最让人恼火的莫过于触摸板。 Thinkpad的经典就包括用了小红点(TrackPoint)。但是小红点只能定位，还是需要鼠标的左右键的。但是自打T440s等开始启用了一体化触摸板，不再有实体的按键了。问题是要是好用也行。实际使用中，触摸板一堆问题，比如定位有抖动，以及按键时会有飘逸。这就导致了单击经常就
graph_dfs hcx2013 Graph
package edu.xidian.graph; class MyStack { private final int SIZE = 20; private int[] st; private int top; public MyStack() { st = new int[SIZE]; top = -1; } public void push(i
Spring4.1新特性——Spring核心部分及其他 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
配置HiveServer2的安全策略之自定义用户名密码验证 liyonghui160com
具体从网上看 http://doc.mapr.com/display/MapR/Using+HiveServer2#UsingHiveServer2-ConfiguringCustomAuthentication LDAP Authentication using OpenLDAP Setting
一位30多的程序员生涯经验总结 pda158 编程工作生活咨询
1.客户在接触到产品之后，才会真正明白自己的需求。　　这是我在我的第一份工作上面学来的。只有当我们给客户展示产品的时候，他们才会意识到哪些是必须的。给出一个功能性原型设计远远比一张长长的文字表格要好。 2.只要有充足的时间，所有安全防御系统都将失败。　　安全防御现如今是全世界都在关注的大课题、大挑战。我们必须时时刻刻积极完善它，因为黑客只要有一次成功，就可以彻底打败你。 3.
分布式web服务架构的演变自由的奴隶 linux Web 应用服务器互联网
最开始，由于某些想法，于是在互联网上搭建了一个网站，这个时候甚至有可能主机都是租借的，但由于这篇文章我们只关注架构的演变历程，因此就假设这个时候已经是托管了一台主机，并且有一定的带宽了，这个时候由于网站具备了一定的特色，吸引了部分人访问，逐渐你发现系统的压力越来越高，响应速度越来越慢，而这个时候比较明显的是数据库和应用互相影响，应用出问题了，数据库也很容易出现问题，而数据库出问题的时候，应用也容易
初探Druid连接池之二——慢SQL日志记录 xingsan_zhang 日志连接池 druid 慢SQL
由于工作原因，这里先不说连接数据库部分的配置，后面会补上，直接进入慢SQL日志记录。 1.applicationContext.xml中增加如下配置： <bean abstract="true" id="mysql_database" class="com.alibaba.druid.pool.DruidDataSourc