Memory逆光

【目标检测】2020年遥感图像目标检测综述

本文禁止转载
1. DOTA数据集：
2. 待解决的问题：

2.1 目标小而密集：
2.2 任意旋转角：
2.3 Anchor匹配问题：
2.4 回归任务的边界问题：
2.5 实例级噪声：

3. $B a s e l i n e$ ：
4. 几个经典模型：

4.1 $R^2CNN$ ：

4.1.1 论文地址：
4.1.2 模型结构：

4.2 $S C R D e t$ ：

4.2.1 论文地址：
4.2.2 模型结构：

SF-Net：
MDA-Net：
Rotation Branch：

4.3 $S C R D e t + +$ ：

4.3.1 论文地址：
4.3.2 模型结构：

InLD：
ImLD：
IoU-smooth L1 loss：

4.4 $G l i d i n g$ $V e r t e x$ ：

4.4.1 论文地址：
4.4.2 模型结构：

4.5 $R o I$ $T r a n s f o r m e r$ ：

4.5.1 论文地址：
4.5.2 模型结构：

4.6 $C A D - N e t$ ：

4.6.1 论文地址：
4.6.2 模型结构：

GCNet：
SAM：
PCLNet：

5. 易迁移的Tricks：

5.1 $F e a t u r e$ $P y r a m i d$ ：
5.2 $C a s c a d e$ $R C N N$ ：
5.3 $L e n g t h$ $I n d e p e n d e n t$ $I o U$ ：

本文禁止转载

1. DOTA数据集：

论文地址：https://arxiv.org/pdf/1711.10398.pdf
官网地址：https://captain-whu.github.io/DOTA/dataset.html

目标检测是计算机视觉中的一个重要而富有挑战性的问题。尽管过去十年已经见证了目标检测的主要进步的自然场景，但由于缺乏好的注释数据集对象的空中场景，遥感目标检测领域进展缓慢。为了推进对地观测和遥感中目标检测的研究，作者引入了一个用于航空图像中目标检测的大数据集(DOTA)。

作者从不同的传感器和平台上收集了2806幅航拍图像。每幅图像的大小约为4000×4000像素，包含了各种尺度、方向和形状的对象。这些DOTA图像然后由航拍图像判读专家使用15种常见的目标类别进行注释。

完整注释的DOTA图像包含188,282个实例，每个实例都由一个任意四边形标记。其中真值框大部分为矩形，训练时往往也将任意四边形近似看作一个矩形。

图片张数：2806

图片大小：4000*4000

分类数：15

包含物体数：188,282

数据集大小：35G

2. 待解决的问题：

2.1 目标小而密集：

主要指的是图像中可能出现较多密集而且较小的目标（如停车场密集车辆）。同时遥感图像数据也存在着尺度差异大的问题，即图像中也可能同时出现较大的目标（如广场等标志建筑）。这就使得Anchor的大小设计需要包含较大范围。

2.2 任意旋转角：

主要指的是检测任务中的目标框有一个旋转角，那么如何有效表示带有旋转角的任意矩形，以及如何定量确定表示检测框的回归目标也是一个有待研究的问题。

2.3 Anchor匹配问题：

一些目标横纵比非常大（比如桥梁），这些类别的目标在RPN阶段很难匹配到合适的正样本Anchor，从而较少参与Loss的计算，导致这些类别AP较低。而且横纵比变化较大也导致难以进行有效的Anchor设计。如上图所示，即使图中Anchor已经达到最佳匹配位置，但是实际IOU也只有0.33。

2.4 回归任务的边界问题：

由于角的周期性(PoA)和边缘的互换性(EoE)，损失函数可能非常大。因此，需要对模型进行其他复杂形式的回归。如上图所示，如果w和h互换，那么即使预测框和真值框IOU很高，他们的回归Loss也会很大。

2.5 实例级噪声：

实例级噪声一般是指物体之间的相互干扰，也指来自背景的干扰。例如上图：

第一行：形状类似目标的非目标在特征图中的响应较高；
第二行：密集目标存在类间特征耦合和类内特征边界模糊的问题；
第三行：被背景包围的对象响应不够突出。

3. $B a s e l i n e$ ：

Baseline是DOTA在公开比赛中提供的基线模型，基本结构为经典的 Faster-RCNN 模型，只是在回归任务中添加了一个额外的回归目标 $t_{\theta}$ 用于旋转目标的表示。该模型被称为 FR-O，即 Faster R-CNN trained on Oriented bounding boxes。

源码地址：https://github.com/jessemelpolio/Faster_RCNN_for_DOTA

4. 几个经典模型：

4.1 $R^2CNN$ ：

4.1.1 论文地址：

论文地址：https://arxiv.org/abs/1706.09579
源码地址：https://github.com/DetectionTeamUCAS/R2CNN_Faster-RCNN_Tensorflow
（注意这一篇论文提出时是用于OCR任务的）

4.1.2 模型结构：

主要特点为：

ROI Pooling添加了311和113两种scale以解决纵横比较大目标的检测。然后将提取到的ROI特征做cancat操作进行融合；
预测输出有3个分支，分别预测景和背景二分类，水平框（axis-aligned box）和倾斜框（inclined box）；
损失函数包括3部分：二分类损失，水平框和倾斜框的回归损失。回归均使用smooth L1损失函数。

坐标表示：
使用粗略的矩形框表示，每个水平真值框表示为 $[x, y, w, h]$ ，每个倾斜框表示为 $[x 1, y 1, x 2, y 2, h]$ 。

缺点和不足：

未考虑旋转坐标框的边界问题。
主要结构为 Faster-RCNN，对小目标检测效果较差。

4.2 $S C R D e t$ ：

4.2.1 论文地址：

论文地址：https://arxiv.org/abs/1811.07126
源码地址：https://github.com/DetectionTeamUCAS/R2CNN-Plus-Plus_Tensorflow

4.2.2 模型结构：

主要特点：

设计了一种采样融合网络，它将多层特征融合到有效的anchor采样中，以提高对于小型目标的检测灵敏度。
通过抑制噪声和突出物体的特征，使用有监督的像素注意力网络和通道注意力网络，用于小而杂乱的目标检测。
为了更准确地进行旋转估计，将IoU常数因子添加到smooth L1 loss中，用来解决旋转边界框的边界问题。

SF-Net：

该模块主要是通过加入带有Inception结构的残差项，来融合low-level的特征和high-level特征进行目标信息保留和采样点密度的平衡。

MDA-Net：

为了在复杂背景下更有效地捕获小物体的目标性，作者还设计了一个监督的多维注意力模块 (MDA-Net)。（监督指的是根据ground truth得到一个二值映射作为标签，然后利用二值映射和显著性映射的交叉熵损失作为注意力损失），并使用SENet作为信道注意网络作为辅助。

Rotation Branch：

作者使用五个参数(x, y, w, h，θ)来表示任意方向的矩形，并提出了一种基于三角剖分思想的斜IOU计算的实现方案。最后使用旋转非最大抑制(R-NMS)作为基于倾斜IOU计算的后处理操作。对于数据集中形状的多样性，作者还设置了不同的R-NMS阈值。

4.3 $S C R D e t + +$ ：

4.3.1 论文地址：

论文地址：https://arxiv.org/abs/2004.13316
源码地址：https://github.com/SJTU-Thinklab-Det/DOTA-DOAI/tree/master/FPN_Tensorflow_Rotation
（注意该论文的模型并未开源，上面的链接只是一个论文中实例级去噪的实现，而且似乎实现的也有问题，我提了issue等待作者回复ing）

4.3.2 模型结构：

主要特点：
本文主要探讨了进行实例级去噪（InLD）的方法，特别是在特征映射(即潜在层的输出由CNNs)中，以实现鲁棒检测。希望是减少类间特征耦合和类内干扰，同时阻止背景干扰。为此，指定了一种新颖的InLD组件以将不同目标类别的特征近似解耦到它们各自的通道中。

InLD：

核心思想是将不同目标类别的特征分离到各自的通道中，同时在空间域中分别增强和减弱物体和背景的特征。因此，SCRDet的新公式如图所示，其中考虑了对象类别的总数I，并为背景增加了一个类别。并且DInLD(X)可以近似为多个Ai(Xi)的组合，表示类别i的注意力函数。

“HA”，“SP”，“SH”和“SV”分别表示不同类别。“Ohters”包括背景和未显示在图片中的类别。该算法将不同类别的特征解耦到各自的信道中(上、中)，并在空间域内分别对目标和背景特征进行增强和抑制(下)。

ImLD：

作者利用卷积层来模拟不同类型的差分滤波器，如非局部均值、双边滤波、均值滤波和中值滤波。受这些在对抗性攻击中成功操作的启发，作者对这些用于目标检测的差异操作进行了迁移和扩展。ImLD通过去噪操作处理输入特征（例如非局部均值或其他变体）。去噪后的表示首先由1×1卷积层处理，然后通过残差连接添加到模块输入中。

IoU-smooth L1 loss：

在边界情况下，损失函数∣−log(IoU)∣≈0，消除了由∣Lreg(v′j,vj)∣引起的损失的突然增加。

4.4 $G l i d i n g$ $V e r t e x$ ：

4.4.1 论文地址：

论文地址：https://arxiv.org/abs/1911.09358
源码地址：https://github.com/MingtaoFu/gliding_vertex

4.4.2 模型结构：

主要特点：
举一个简单的例子，如果一个四边形的真值框是（x1,y1,x2,y2,x3,y3,x4,y4），那么检测器有可能给出的预测结果是（x2,y2,x3,y3,x4,y4,x1,y1）。其实这两个是框是完全重合的，但是网络训练算损失的时候并不知道，它会按对应位置计算损失，此时的损失值并不为0甚至很大。

因此本文提出可以通过学习四个点在非旋转矩形上的偏移来定位出一个四边形，从而表示一个物体。

即对于一个给定的面向对象O（图中蓝色框—）和其相应的横向边界框，作者建议用 (x, y, w, h, α1, α2, α3, α4)来表示，以取代（x1,y1,x2,y2,x3,y3,x4,y4）的表示方法。

4.5 $R o I$ $T r a n s f o r m e r$ ：

4.5.1 论文地址：

论文地址：https://arxiv.org/abs/1812.00155
源码地址：https://github.com/dingjiansw101/AerialDetection

4.5.2 模型结构：

主要特点：

RRoI Learner：在RPN阶段通过全连接层学习得到旋转ROI，回归目标定义如下：
Rotated Position Sensitive RoI Align：该模块用来提取ROI的旋转不变特征；

坐标表示：
使用[x, y, w, h, θ]表示一个实例。

旋转IOU计算：
倾斜框的IOU计算方法如图。

4.6 $C A D - N e t$ ：

4.6.1 论文地址：

论文地址：https://arxiv.org/abs/1903.00857
源码地址：暂无开源代码

4.6.2 模型结构：

主要特点：
CAD-Net基于RCNN和FPN结构进行改进。设计并融合了全局上下文网络(GCNet)和金字塔局部上下文网络(PLCNet)，分别在全局场景级和局部目标级提取上下文信息。并且作者也设计了空间感知注意模块，引导网络关注信息更丰富的区域和更合适的图像特征尺度。

GCNet：

GCNet主要是考虑到而场景级语义通常对目标检测有一定的帮助（比如湖泊里面的船），因此加入了全局特征。

其中Λ(I)表示特征提取网络的最后一层，ΦG(·)是由卷积层提取全局特征，ψ(·)表示Global Pooling层；

SAM：

作者还设计了一个空间感知和尺度感知的注意模块，有助于处理纹理稀疏、背景对比度较低的目标。该模块建立在FPN生成的特征金字塔上，提取P2到P5的特征图。对于一个特定尺度Pi(i∈[2,5])的特征，attention-modulated feature定义如下:

PCLNet：

PCLNet主要是考虑到局部上下文也可以捕获有用的信息，因此作者设计了一个金字塔局部上下文网络(PLCNet)来学习对象/特征与其局部上下文之间的相关性；

即通过将FPN中不同层的特征融合，作为新的特征（带有相邻目标信息）进行预测。

5. 易迁移的Tricks：

5.1 $F e a t u r e$ $P y r a m i d$ ：

特征/图像金字塔被广泛用于不同大小的目标检测；

（a）方法（如R-CNN）使用了图像金字塔，使用不同大小的图像来生产不同大小的特征层，从而对不同大小的目标进行检测，计算消耗非常大；
（b）方法（如Faster-RCNN）为了节省计算时间，使用了具有高度语义信息的单层特征层，通过生成不同大小的anchors（预选框）来对不同大小的目标进行检测，对小目标检测效果不佳；
（c）方法（如SSD）为了解决不同大小目标特征不同的问题，重复使用了不同大小的特征层，分别对不同大小目标进行检测，但是由于底层特征并不具有高度的语义信息，导致对小目标检测的结果仍不理想；

这是因为目标分类需要的一般是深层的语义特征，而目标检测需要的一般是底层的特征（如颜色、拐角等）；

因此，作者提出了一种新的特征金字塔检测方法——FPN；

如图（d），作者使用了具有高度语义信息的深层特征层，通过上采样（最邻近插值）的方式生成新的特征金字塔，从而使得不同大小的特征层都具有了高度的语义信息；同时也通过求和（类似残差）的方式融合底层特征。

5.2 $C a s c a d e$ $R C N N$ ：

在基于anchor的检测方法中，我们一般会设置训练的正负样本，通常规定IOU>0.5的作为正样本，IOU<0.3作为负样本等。但是作者通过实验发现：（1）设置不同阈值，阈值越高，其网络对准确度较高的候选框的作用效果越好。（2）不论阈值设置多少，训练后的网络对输入的proposal都有一定的优化作用。

基于上述两点，作者设计了Cascade R-CNN网络。如图所示，即通过级联的R-CNN网络，每个级联的R-CNN设置不同的IOU阈值，这样每个网络输出的准确度提升一点，用作下一个更高精度的网络的输入，逐步将网络输出的准确度进一步提高。

5.3 $L e n g t h$ $I n d e p e n d e n t$ $I o U$ ：

LIIoU沿着真值框的长边拦截部分真值框，并使拦截后得到的坐标框的长度与Anchor的长度相同。如图所示，传统的IoU只有0.3，而作者提出的LIIoU接近1。具体的LIIoU计算如图所示，其中AB为目标框的中心线，C点为所提出框的中心线。从而解决的Anchor匹配问题。

【目标检测数据集】卡车数据集1073张VOC+YOLO格式熬夜写代码的平头哥∰ 目标检测 YOLO 人工智能
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：1073标注数量(xml文件个数)：1073标注数量(txt文件个数)：1073标注类别数：1标注类别名称:["truck"]每个类别标注的框数：truck框数=1120总框数：1120使用标注工具：labelImg标注
番茄西红柿叶子病害分类数据集12882张11类别 futureflsl 数据集分类数据挖掘人工智能
数据集类型：图像分类用，不可用于目标检测无标注文件数据集格式：仅仅包含jpg图片，每个类别文件夹下面存放着对应图片图片数量(jpg文件个数)：12882分类类别数：11类别名称:["Bacterial_Spot_Bacteria","Early_Blight_Fungus","Healthy","Late_Blight_Water_Mold","Leaf_Mold_Fungus","Powdery
[数据集][目标检测]汽车头部尾部检测数据集VOC+YOLO格式5319张3类别 FL1623863129 数据集目标检测汽车 YOLO
数据集制作单位：未来自主研究中心(FIRC)版权单位：未来自主研究中心(FIRC)版权声明：数据集仅仅供个人使用，不得在未授权情况下挂淘宝、咸鱼等交易网站公开售卖,由此引发的法律责任需自行承担数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：5319标注数量(xml文件
遥感图像分割系统：融合空间金字塔池化（FocalModulation)改进YOLOv8 xuehaisj YOLO 人工智能计算机视觉 yolov8
1.研究背景与意义项目参考AAAIAssociationfortheAdvancementofArtificialIntelligence研究背景与意义遥感图像分割是遥感技术领域中的一个重要研究方向，它的目标是将遥感图像中的不同地物或地物类别进行有效的分割和识别。随着遥感技术的不断发展和遥感图像数据的大规模获取，遥感图像分割在农业、城市规划、环境监测等领域具有广泛的应用前景。然而，由于遥感图像的特
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
【目标检测数据集】番茄叶片病害数据集13940张9类VOC+YOLO格式熬夜写代码的平头哥∰ 数据集目标检测 YOLO 目标跟踪
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：13946标注数量(xml文件个数)：13946标注数量(txt文件个数)：13946标注类别数：9标注类别名称:["EarlyBlight","Healthy","LateBlight","LeafMiner","Le
[数据集][目标检测]血细胞检测数据集VOC+YOLO格式2757张4类别 FL1623863129 数据集目标检测 YOLO 人工智能
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：2757标注数量(xml文件个数)：2757标注数量(txt文件个数)：2757标注类别数：4标注类别名称:["Platelets","RBC","WBC","sicklecell"]每个类别标注的框数：Platelet
目标检测YOLO系列从入门到精通技术详解100篇-【目标检测】工业相机格图素书数码相机目标检测人工智能
目录知识储备深度相机1TOF2双目视觉3结构光4智能门锁应用5手机应用算法原理相机的成像与标定模型相机标定的实施·标定过程的算法实施相机标定的扩展CCD工业相机、镜头倍率及相关参数计算方法知识储备深度相机1TOF1.1Kinectv2Kinectv2是Microsoft在2014年发售的，如图1-1所示。相比于Kinectv1在硬件和软件上作出了很大的进化，且在深度测量的系统和非系统误差方面表现出
【小贪】项目实战——Zero-shot根据文字提示分割出图片目标掩码贪钱算法还我头发 #Deep Learning #Computer Vision AI 目标检测深度学习 python 语义分割 Zero-shot
目标描述给定RGB视频或图片，目标是分割出图像中的指定目标掩码。我们需要复现两个Zero-shot的开源项目，分别为IDEA研究院的GroundingDINO和Facebook的SAM。首先使用目标检测方法GroundingDINO，输入想检测目标的文字提示，可以获得目标的anchorbox。将上一步获得的box信息作为SAM的提示，分割出目标mask。具体效果如下（测试数据来自VolumeDef
论文阅读笔记（十九）：YOLO9000: Better, Faster, Stronger __Sunshine__ 笔记 YOLO9000 detection classification
WeintroduceYOLO9000,astate-of-the-art,real-timeobjectdetectionsystemthatcandetectover9000objectcategories.FirstweproposevariousimprovementstotheYOLOdetectionmethod,bothnovelanddrawnfrompriorwork.Theim
论文阅读笔记: DINOv2: Learning Robust Visual Features without Supervision 小夏refresh 论文计算机视觉深度学习论文阅读笔记深度学习计算机视觉人工智能
DINOv2:LearningRobustVisualFeatureswithoutSupervision论文地址:https://arxiv.org/abs/2304.07193代码地址:https://github.com/facebookresearch/dinov2摘要大量数据上的预训练模型在NLP方面取得突破，为计算机视觉中的类似基础模型开辟了道路。这些模型可以通过生成通用视觉特征(即无
yolov5 +gui界面+单目测距实现对图片视频摄像头的测距毕设宇航 QQ767172261 yolov5 单目测距
可实现对图片，视频，摄像头的检测项目概述本项目旨在实现一个集成了YOLOv5目标检测算法、图形用户界面（GUI）以及单目测距功能的系统。该系统能够对图片、视频或实时摄像头输入进行目标检测，并估算目标的距离。通过结合YOLOv5的强大检测能力和单目测距技术，系统能够在多种应用场景中提供高效、准确的目标检测和测距功能。技术栈YOLOv5：用于目标检测的深度学习模型。OpenCV：用于图像处理和单目测距
目标检测-YOLOv3 wydxry 深度学习目标检测 YOLO 深度学习
YOLOv3介绍YOLOv3(YouOnlyLookOnce,Version3)是YOLO系列目标检测模型的第三个版本，相较于YOLOv2有了显著的改进和增强，尤其在检测速度和精度上表现优异。YOLOv3的设计目标是在保持高速的前提下提升检测的准确性和稳定性。下面是对YOLOv3改进和优势的介绍，以及YOLOv3核心部分的代码展示。相比YOLOv2的改进与优势多尺度特征金字塔YOLOv3引入了FP
SSD目标检测系统月见樽
首发于个人博客系统结构system.pngSSD识别系统也是一种单步物体识别系统，即将提取物体位置和判断物体类别融合在一起进行，其最主要的特点是识别器用于判断物体的特征不仅仅来自于神经网络的输出，还来自于神经网络的中间结果。该系统分为以下几个部分：神经网络部分：用作特征提取器，提取图像特征识别器：根据神经网络提取的特征，生成包含物品位置和类别信息的候选框（使用卷积实现）后处理：对识别器提取出的候选
深度学习目标检测入门COCO数据集日暮途远z 深度学习目标检测人工智能
常见数据集类型：COCO数据集：Pytorch加载COCO数据集：COCO数据集的读取COCO_dataset=torchvision.datasets.CocoDetection(root="./dataset/val2017",annFile="./instances_val2017/instances_val2017.json")root(strorpathlib.Path)–Rootdir
[数据集][目标检测]街道乱堆垃圾检测数据集VOC+YOLO格式94张1类别 FL1623863129 数据集目标检测 YOLO 人工智能
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：94标注数量(xml文件个数)：94标注数量(txt文件个数)：94标注类别数：1标注类别名称:["baolu"]每个类别标注的框数：baolu框数=107总框数：107使用标注工具：labelImg标注规则：对类别进行
YOLOv8改进 | 检测头篇 | YOLOv8引入DynamicHead检测头小李学AI YOLOv8有效涨点专栏 YOLO 深度学习目标检测计算机视觉机器学习人工智能
1.DynamicHead描述1.1摘要：在目标检测中，定位和分类相结合的复杂性导致了各种方法的蓬勃发展。以往的工作试图提高各种目标检测头的性能，但未能呈现出统一的观点。本文根据目标检测的特点，推导了一种新的动态头部框架，将目标检测头部与注意力统一起来。该方法通过在特征层次间、空间位置间和输出通道内协调组合多种自注意机制，在不增加计算开销的情况下显著提高了目标检测头的表示能力。进一步的实验表明，本
目标检测-YOLOv1 wydxry 深度学习目标检测 YOLO 人工智能
YOLOv1介绍YOLOv1（YouOnlyLookOnceversion1）是一种用于目标检测的深度学习算法，由JosephRedmon等人于2016年提出。它基于单个卷积神经网络，将目标检测任务转化为一个回归问题，通过在图像上划分网格并预测每个网格中是否包含目标以及目标的位置和类别来实现目标检测。YOLOv1的主要特点包括：快速的检测速度：相比于传统的目标检测算法，YOLOv1具有更快的检测速
[数据集][目标检测]人脸口罩佩戴目标检测数据集VOC+YOLO格式8068张3类别 FL1623863129 数据集目标检测 YOLO 目标跟踪
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：8068标注数量(xml文件个数)：8068标注数量(txt文件个数)：8068标注类别数：3标注类别名称:["face_with_mask","face_without_mask","mask"]每个类别标注的框数：f
葡萄检测-目标检测数据集（包括VOC格式、YOLO格式）数据集_深度学习目标检测 YOLO 人工智能计算机视觉葡萄
葡萄检测-目标检测数据集（包括VOC格式、YOLO格式）数据集：链接：https://pan.baidu.com/s/1YMwAaSJc8H5SI0f8RVSidw?pwd=iygs提取码：iygs数据集信息介绍：共有1646张图像和一一对应的标注文件标注文件格式提供了两种，包括VOC格式的xml文件和YOLO格式的txt文件。标注的对象共有以下几种：[‘grape’]标注框的数量信息如下：（标注
OpenCV项目实战-深度学习去阴影-图像去阴影阿利同学 opencv 深度学习人工智能阴影去除图像去阴影
往期热门博客项目回顾：计算机视觉项目大集合改进的yolo目标检测-测距测速路径规划算法图像去雨去雾+目标检测+测距项目交通标志识别项目yolo系列-重磅yolov9界面-最新的yolo姿态识别-3d姿态识别深度学习小白学习路线//正文开始！图像去阴影算法旨在改善图像质量并恢复阴影下物体的真实颜色与亮度这对于许多计算机视觉任务如物体识别、跟踪以及增强现实等至关重要。以下是一些图像去阴影算法的基本概述
目标检测-YOLOv4 wydxry 深度学习目标检测 YOLO 目标跟踪
YOLOv4介绍YOLOv4是YOLO系列的第四个版本，继承了YOLOv3的高效性，并通过大量优化和改进，在目标检测任务中实现了更高的精度和速度。相比YOLOv3，YOLOv4在框架设计、特征提取、训练策略等方面进行了全面升级。它在保持实时检测的同时，显著提升了检测性能，尤其在复杂场景中的表现尤为出色。相比YOLOv3的改进与优势改进的Backbone(CSPDarknet-53)YOLOv4使用
[数据集][目标检测]井盖丢失未盖破损检测数据集VOC+YOLO格式2890张5类别 FL1623863129 数据集目标检测 YOLO 人工智能
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：2890标注数量(xml文件个数)：2890标注数量(txt文件个数)：2890标注类别数：5标注类别名称:["broke","circle","good","lose","uncovered"]每个类别标注的框数：br
YOLOv8改进更换轻量级网络结构学yolo的小白 Upgrade YOLOv8进阶 YOLO 目标检测深度学习
一、GhostNet论文论文地址：1911.11907.pdf(arxiv.org)二、GhostNet结构GhostNet是一种高效的目标检测网络，具有较低的计算复杂度和较高的准确性。该网络采用了轻量级的架构，可以在计算资源有限的设备上运行，并能够快速地实时检测图像中的目标物体。GhostNet基于MobileNetV3的设计思路，采用了Ghost模块来减少网络参数数量，从而减少计算量并提高模型
【Python】成功解决TypeError: list indices must be integers or slices, not str 高斯小哥 BUG解决方案合集 python list 新手入门学习 debug
【Python】成功解决TypeError:listindicesmustbeintegersorslices,notstr欢迎进入我的个人主页，我是高斯小哥！博主档案：广东某985本硕，SCI顶刊一作，深耕深度学习多年，熟练掌握PyTorch框架。技术专长：擅长处理各类深度学习任务，包括但不限于图像分类、图像重构(去雾\去模糊\修复)、目标检测、图像分割、人脸识别、多标签分类、重识别(行人\车辆
LeYOLO 用于目标检测的新型可扩展和高效CNN架构 | 最新轻量化SOTA! 5GFLOP下无对手！迪菲赫尔曼 YOLOv8改进实战目标检测 cnn 架构 pytorch 深度学习轻量化
本改进已集成到YOLOv8-Magic框架。论文地址：https://arxiv.org/pdf/2406.14239代码地址：https://github.com/LilianHollard/LeYOLO/tree/main在深度神经网络中，计算效率对于目标检测至关重要，尤其是在新型模型更倾向于速度而非计算效率（浮点运算次数，FLOP）的情况下。这种演变在一定程度上忽视了嵌入式和面向移动的AI目
Python 使用 Detectron2 进行目标检测 (Detectron2, CenterNet2, Detic) Eric Woo X Python AI Ubuntu python 目标检测开发语言
代码说明代码主要是一个用来演示如何使用Detectron2进行目标检测的脚本。它可以从摄像头或视频文件中读取图像，并应用指定的配置文件进行目标检测。其中，Detectron2结合了CenterNet2和Detic进行目标检测。主要库介绍Detectron2Detectron2是由FacebookAIResearch开发的一个用于目标检测和实例分割的开源库。它提供了一系列预训练模型和灵活的配置系统，
Transformer+目标检测，这一篇入门就够了 BIT可达鸭 ▶深度学习-计算机视觉 transformer 深度学习目标检测计算机视觉自然语言处理
VisionTransformerforObjectDetection本文作者：Encoder-Decoder简介：Encoder-Decoder的缺陷：Attention机制：Self-Attention机制：Multi-HeadAttention：Transformer结构：图像分类之ViT：图像分类之PyramidViT：目标检测之DETR：目标检测之DeformableDETR：本文作者：
目标检测-YOLOv2 wydxry 深度学习目标检测 YOLO 人工智能
YOLOv2介绍YOLOv2（YouOnlyLookOnceversion2）是一种用于目标检测的深度学习模型，由JosephRedmon等人于2016年提出，并详细论述在其论文《YOLO9000:Better,Faster,Stronger》中。YOLOv2在保持高速检测的同时，显著提升了检测的精度和泛化能力，成为实时目标检测领域的重要算法之一。核心原理YOLOv2的核心原理是将目标检测问题转化
【计算机视觉前沿研究热点顶会】ECCV 2024中目标检测有关的论文平安顺遂事事如意顶刊顶会论文合集计算机视觉目标检测人工智能 3d 目标跟踪
整值训练和尖峰驱动推理脉冲神经网络用于高性能和节能的目标检测与人工神经网络(ANN)相比，脑激励的脉冲神经网络(SNN)具有生物合理性和低功耗的优势。由于SNN的性能较差，目前的应用仅限于简单的分类任务。在这项工作中，我们专注于弥合人工神经网络和神经网络在目标检测方面的性能差距。我们的设计围绕着网络架构和尖峰神经元。当行人检测遇到多模态学习时：通才模型和基准数据集近年来，利用不同传感器模态(如RG
Js函数返回值 _wy_ js return
一、返回控制与函数结果，语法为：return 表达式;作用: 结束函数执行，返回调用函数，而且把表达式的值作为函数的结果二、返回控制语法为：return;作用: 结束函数执行，返回调用函数，而且把undefined作为函数的结果在大多数情况下,为事件处理函数返回false,可以防止默认的事件行为.例如,默认情况下点击一个<a>元素,页面会跳转到该元素href属性
MySQL 的 char 与 varchar bylijinnan mysql
今天发现，create table 时，MySQL 4.1有时会把 char 自动转换成 varchar 测试举例： CREATE TABLE `varcharLessThan4` ( `lastName` varchar(3) ) ; mysql> desc varcharLessThan4; +----------+---------+------+-
Quartz——TriggerListener和JobListener eksliang TriggerListener JobListener quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208624 一.概述 listener是一个监听器对象，用于监听scheduler中发生的事件，然后执行相应的操作；你可能已经猜到了，TriggerListeners接受与trigger相关的事件，JobListeners接受与jobs相关的事件。二.JobListener监听器 j
oracle层次查询 18289753290 oracle；层次查询；树查询
.oracle层次查询(connect by) oracle的emp表中包含了一列mgr指出谁是雇员的经理，由于经理也是雇员，所以经理的信息也存储在emp表中。这样emp表就是一个自引用表，表中的mgr列是一个自引用列，它指向emp表中的empno列，mgr表示一个员工的管理者， select empno,mgr,ename,sal from e
通过反射把map中的属性赋值到实体类bean对象中酷的飞上天空 javaee 泛型类型转换
使用过struts2后感觉最方便的就是这个框架能自动把表单的参数赋值到action里面的对象中但现在主要使用Spring框架的MVC，虽然也有@ModelAttribute可以使用但是明显感觉不方便。好吧，那就自己再造一个轮子吧。原理都知道，就是利用反射进行字段的赋值，下面贴代码主要类如下： import java.lang.reflect.Field; imp
SAP HANA数据存储：传统硬盘的瓶颈问题蓝儿唯美 HANA
SAPHANA平台有各种各样的应用场景，这也意味着客户的实施方法有许多种选择，关键是如何挑选最适合他们需求的实施方案。在《Implementing SAP HANA》这本书中，介绍了SAP平台在现实场景中的运作原理，并给出了实施建议和成功案例供参考。本系列文章节选自《Implementing SAP HANA》，介绍了行存储和列存储的各自特点，以及SAP HANA的数据存储方式如何提升空间压
Java Socket 多线程实现文件传输随便小屋 java socket
高级操作系统作业，让用Socket实现文件传输，有些代码也是在网上找的，写的不好，如果大家能用就用上。客户端类： package edu.logic.client; import java.io.BufferedInputStream; import java.io.Buffered
java初学者路径 aijuans java
学习Java有没有什么捷径?要想学好Java，首先要知道Java的大致分类。自从Sun推出Java以来，就力图使之无所不包，所以Java发展到现在，按应用来分主要分为三大块：J2SE,J2ME和J2EE,这也就是Sun ONE(Open Net Environment)体系。J2SE就是Java2的标准版，主要用于桌面应用软件的编程；J2ME主要应用于嵌入是系统开发，如手机和PDA的编程；J2EE
APP推广 aoyouzi APP 推广
一，免费篇 1，APP推荐类网站自主推荐最美应用、酷安网、DEMO8、木蚂蚁发现频道等,如果产品独特新颖，还能获取最美应用的评测推荐。PS：推荐简单。只要产品有趣好玩，用户会自主分享传播。例如足迹APP在最美应用推荐一次，几天用户暴增将服务器击垮。 2，各大应用商店首发合作老实盯着排期，多给应用市场官方负责人献殷勤。 3，论坛贴吧推广百度知道，百度贴吧，猫扑论坛，天涯社区，豆瓣（
JSP转发与重定向百合不是茶 jsp servlet Java Web jsp转发
在servlet和jsp中我们经常需要请求,这时就需要用到转发和重定向; 转发包括;forward和include 例子;forwrad转发; 将请求装法给reg.html页面关键代码; req.getRequestDispatcher("reg.html
web.xml之jsp-config bijian1013 java web.xml servlet jsp-config
1.作用：主要用于设定JSP页面的相关配置。 2.常见定义： <jsp-config> <taglib> <taglib-uri>URI(定义TLD文件的URI,JSP页面的tablib命令可以经由此URI获取到TLD文件)</tablib-uri> <taglib-location> TLD文件所在的位置
JSF2.2 ViewScoped Using CDI sunjing CDI JSF 2.2 ViewScoped
JSF 2.0 introduced annotation @ViewScoped; A bean annotated with this scope maintained its state as long as the user stays on the same view(reloads or navigation - no intervening views). One problem w
【分布式数据一致性二】Zookeeper数据读写一致性 bit1129 zookeeper
很多文档说Zookeeper是强一致性保证，事实不然。关于一致性模型请参考http://bit1129.iteye.com/blog/2155336 Zookeeper的数据同步协议 Zookeeper采用称为Quorum Based Protocol的数据同步协议。假如Zookeeper集群有N台Zookeeper服务器(N通常取奇数，3台能够满足数据可靠性同时
Java开发笔记白糖_ java开发
1、Map<key,value>的remove方法只能识别相同类型的key值 Map<Integer,String> map = new HashMap<Integer,String>(); map.put(1,"a"); map.put(2,"b"); map.put(3,"c"
图片黑色阴影 bozch 图片
.event{ padding:0; width:460px; min-width: 460px; border:0px solid #e4e4e4; height: 350px; min-heig
编程之美-饮料供货-动态规划 bylijinnan 动态规划
import java.util.Arrays; import java.util.Random; public class BeverageSupply { /** * 编程之美饮料供货 * 设Opt（V’，i）表示从i到n-1种饮料中，总容量为V’的方案中，满意度之和的最大值。 * 那么递归式就应该是：Opt（V’，i）=max{ k * Hi+Op
ajax大参数（大数据）提交性能分析 chenbowen00 Web Ajax 框架浏览器 prototype
近期在项目中发现如下一个问题项目中有个提交现场事件的功能，该功能主要是在web客户端保存现场数据（主要有截屏，终端日志等信息）然后提交到服务器上方便我们分析定位问题。客户在使用该功能的过程中反应点击提交后反应很慢，大概要等10到20秒的时间浏览器才能操作，期间页面不响应事件。根据客户描述分析了下的代码流程，很简单，主要通过OCX控件截屏，在将前端的日志等文件使用OCX控件打包，在将之转换为
[宇宙与天文]在太空采矿,在太空建造 comsci
我们在太空进行工业活动...但是不太可能把太空工业产品又运回到地面上进行加工,而一般是在哪里开采,就在哪里加工,太空的微重力环境,可能会使我们的工业产品的制造尺度非常巨大.... 地球上制造的最大工业机器是超级油轮和航空母舰,再大些就会遇到困难了,但是在空间船坞中,制造的最大工业机器,可能就没
ORACLE中CONSTRAINT的四对属性 daizj oracle CONSTRAINT
ORACLE中CONSTRAINT的四对属性 summary:在data migrate时,某些表的约束总是困扰着我们,让我们的migratet举步维艰,如何利用约束本身的属性来处理这些问题呢?本文详细介绍了约束的四对属性: Deferrable/not deferrable, Deferred/immediate, enalbe/disable, validate/novalidate,以及如
Gradle入门教程 dengkane gradle
一、寻找gradle的历程一开始的时候，我们只有一个工程，所有要用到的jar包都放到工程目录下面，时间长了，工程越来越大，使用到的jar包也越来越多，难以理解jar之间的依赖关系。再后来我们把旧的工程拆分到不同的工程里，靠ide来管理工程之间的依赖关系，各工程下的jar包依赖是杂乱的。一段时间后，我们发现用ide来管理项程很不方便，比如不方便脱离ide自动构建，于是我们写自己的ant脚本。再后
C语言简单循环示例 dcj3sjt126com c
# include <stdio.h> int main(void) { int i; int count = 0; int sum = 0; float avg; for (i=1; i<=100; i++) { if (i%2==0) { count++; sum += i; } } avg
presentModalViewController 的动画效果 dcj3sjt126com controller
系统自带(四种效果)： presentModalViewController模态的动画效果设置： [cpp] view plain copy UIViewController *detailViewController = [[UIViewController al
java 二分查找 shuizhaosi888 二分查找 java二分查找
需求：在排好顺序的一串数字中，找到数字T 一般解法：从左到右扫描数据，其运行花费线性时间O(N)。然而这个算法并没有用到该表已经排序的事实。 /** * * @param array * 顺序数组 * @param t * 要查找对象 * @return */ public stati
Spring Security（07）——缓存UserDetails 234390216 ehcache 缓存 Spring Security
Spring Security提供了一个实现了可以缓存UserDetails的UserDetailsService实现类，CachingUserDetailsService。该类的构造接收一个用于真正加载UserDetails的UserDetailsService实现类。当需要加载UserDetails时，其首先会从缓存中获取，如果缓存中没
Dozer 深层次复制 jayluns VO maven po
最近在做项目上遇到了一些小问题，因为架构在做设计的时候web前段展示用到了vo层，而在后台进行与数据库层操作的时候用到的是Po层。这样在业务层返回vo到控制层，每一次都需要从po-->转化到vo层，用到BeanUtils.copyProperties(source, target)只能复制简单的属性，因为实体类都配置了hibernate那些关联关系，所以它满足不了现在的需求，但后发现还有个很
CSS规范整理（摘自懒人图库） a409435341 html UI css 浏览器
刚没事闲着在网上瞎逛，找了一篇CSS规范整理，粗略看了一下后还蛮有一定的道理，并自问是否有这样的规范，这也是初入前端开发的人一个很好的规范吧。一、文件规范 1、文件均归档至约定的目录中。具体要求通过豆瓣的CSS规范进行讲解：所有的CSS分为两大类：通用类和业务类。通用的CSS文件，放在如下目录中：基本样式库 /css/core
C++动态链接库创建与使用你不认识的休道人 C++dll
一、创建动态链接库 1.新建工程test中选择”MFC [dll]”dll类型选择第二项"Regular DLL With MFC shared linked"，完成 2.在test.h中添加 extern “C” 返回类型 _declspec(dllexport)函数名(参数列表); 3.在test.cpp中最后写 extern “C” 返回类型 _decls
Android代码混淆之ProGuard rensanning ProGuard
Android应用的Java代码，通过反编译apk文件（dex2jar、apktool）很容易得到源代码，所以在release版本的apk中一定要混淆一下一些关键的Java源码。 ProGuard是一个开源的Java代码混淆器（obfuscation）。ADT r8开始它被默认集成到了Android SDK中。官网： http://proguard.sourceforge.net/
程序员在编程中遇到的奇葩弱智问题 tomcat_oracle jquery 编程 ide
　　现在收集一下：　　排名不分先后，按照发言顺序来的。 1、Jquery插件一个通用函数一直报错，尤其是很明显是存在的函数，很有可能就是你没有引入jquery。。。或者版本不对 2、调试半天没变化：不在同一个文件中调试。这个很可怕，我们很多时候会备份好几个项目，改完发现改错了。有个群友说的好：在汤匙
解决maven-dependency-plugin (goals "copy-dependencies","unpack") is not supported xp9802 dependency
解决办法：在plugins之前添加如下pluginManagement，二者前后顺序如下： [html] view plain copy <build> <pluginManagement

【目标检测】2020年遥感图像目标检测综述