故沉

【学习与理解】：YOLO v1、v2、v3(未完待续……)

把不同的资料进行了整合，同时对自己在看的过程中的问题进行了记录。

引言

优点

缺点

V1、V2、V3的共同点

YOLO算法的基本思想是

YOLO v1

相关链接

1、核心思想

2、实现方法

3、网络设计

4、网络训练

5、网络预测

6、损失函数

YOLO v2

相关链接

1、网络设计-32层

2、两大方面的改进

3、精度的改进

4、速度的改进

5、分类的改进

YOLO v3

相关链接

博文里的图片均来自论文本身和部分参考博文(可能没有附完全)，如有侵权，请与我联系。

引言

目前，基于深度学习算法的一系列目标检测算法大致可以分为两大流派：

1.两步走（two-stage）算法：先产生候选区域然后再进行CNN分类(RCNN系列)，

2.一步走（one-stage）算法：直接对输入图像应用算法并输出类别和相应的定位(YOLO系列)

优点

快。one-stage算法，采用一个CNN预测不同目标的类别和位置，训练和预测都是end-to-end，算法简洁且速度快。
背景误差检率低。由于YOLO对整张图做卷积，所以在检测目标时有更大的视野，不容易对背景误判。而基于region proposal的物体检测方法（如rcnn/fast rcnn），在检测过程中，只关注候选框内的局部图像信息，当图像背景中的部分数据被包含在候选框中送入检测网络进行检测时，容易被误检测成物体。
泛化能力强。在做迁移时，模型鲁棒性高。

缺点

准确率相比基于Region Proposal的R-CNN系算法要低一些；
当各单元格仅仅预测两个边界框，且属于一个类别。一个单元格内存在多个目标，YOLO只能选择其中一种来训练，只能检测出其中的一种
对小物件，YOLO的表现不好。对于相同的误差值，大物体误差对检测的影响小于小物体，因为，相同的位置偏差占大物体的比例远小于同等偏差占小物体的比例。YOLO通过对w、h求平方根来改进，但仍不能完全解决。

V1、V2、V3的共同点

leaky ReLU
分而治之，用网格划分图片区域，每块区域独立检测目标
端到端训练，损失函数的反向传播可以贯穿整个网络，这也是one-stage检测算法的优势

YOLO算法的基本思想是

首先通过特征提取网络对输入图像提取特征，得到一定size的feature map，比如13*13，然后将输入图像分成13*13个grid cell，接着如果ground truth中某个object的中心坐标落在哪个grid cell中，那么就由该grid cell来预测该object，因为每个grid cell都会预测固定数量的bounding box（YOLO v1和v2中是2个，YOLO v3中是3个，这几个bounding box的初始size是不一样的），那么这几个bounding box中最终是由哪一个来预测该object？答案是：这几个bounding box中只有和ground truth的IOU最大的bounding box才是用来预测该object的。

可以看出预测得到的输出feature map有两个维度是提取到的特征的维度，比如13*13，还有一个维度（深度）是B*（5+C），注：YOLO v1中是（B*5+C），其中B表示每个grid cell预测的bounding box的数量，比如YOLO v1中是2个，YOLO v2中是5个，YOLO v3中是3个，C表示bounding box的类别数（没有背景类，所以对于VOC数据集是20），5表示4个坐标信息和一个置信度（objectness score）。

Q1：在哪里实现的划分网格？是直接对输入图片进行网格划分还是对经过特征提取以后进行网格的划分？

Q2：bbox是通过全连接层直接预测出来的，那么具体是怎么预测出来的？需要分析代码！

YOLO v1

1、核心思想

利用整张图作为网络的输入，直接在输出层回归 bounding box（边界框）的位置及其所属的类别

2、实现方法

A. 将一幅图像分成SxS(默认7)个网格(grid cell)，如果某个object的中心落在这个网格中，则这个网格就负责预测这个object

B. 每个单元格通过全连接层直接预测B(默认2)个bounding box值(中心坐标和宽w高h)，同时为每个bbox值预测一个置信度(confidence scores=P(objects)*IOU)，即每个单元格需要预测B×(4+1)个值

预测框的位置、大小和物体分类都通过CNN暴力predict出来

Q；怎么预测出bbox的？

Answer：不同于Faster RCNN类，每个feature map上的额每一个点对应9个anchor，每个anchor的尺寸都是固定且预先设置的；YOLO的bbox通过回归产生，标注文件是从bbox的[xmin, xmax, ymin, ymax]

计算得到中心坐标。

Q：什么是Bounding Box Regression边框回归？

Answer：微调selective search提取的region proposal，使得微调(平移+尺寸缩放)之后的窗口与Ground Truth更接近

窗口一般使用四维向量(x, y, w, h)来表示，分别表示窗口的中心点坐标和宽高

说明：

每个单元格预测bbox的四个值都归一化，bbox的高和宽是相对于整张图的占比，bbox的中心点位置是相对于单元格的offset

置信度(confidence scores=P(objects)*IOU)由两部分组成，若bbox包含物体，P(objects)=1；否则，P(objects)=0；IOU为bbox与物体真实区域的交集面积(归一化)

C. 每个单元格需要预测C(分类数)个条件概率值。条件概率定义为Pr(Classi|Object)，表示该单元格存在物体且属于第i类的概率

最后网络的输出维度为S×S×(B×5+C)。

3、网络设计

以GoogLeNet为基础改进，输入448*448，输出S×S×(B×5+C)=7*7*(2*5+20)的一个tensor，base model共有24个卷积层，2个全连接层。对于卷积层和全连接层，采用Leaky ReLU激活函数。最后一层采用线性激活函数。

4、网络训练

A. 预训练。使用ImageNet(224*224)训练前20个卷积层+平均池化+FC层

B. 用A的前20个卷积层的网络参数初始化YOLO前20个卷积层，在此基础上添加4个卷积层和2个FC层，输入resize至448*448

5、网络预测

A. 类别C(20)与每个grid(7*7)的B(2)个预测bounding box的confidence相乘，得到该bounding box为不同类的概率，共有7*7*2=98个bbox

在测试的时候，每个单元格预测最终输出的概率定义为，如下图所示，其中，(置信度confidence scores = P(objects)*IOU)

B. 设置阈值，对上一步预测得到的77*2=98个目标窗口，过滤去除低分的bbox

C. 非极大值抑制算法(NMS)，去除多余框，得到最终的bbox

D. 对每一列找到最大值，并判断score是否为目标

6、损失函数

使用均方误差，loss = coordError(预测与标定之间的坐标误差) + iouError (IOU误差)+ classError(分类误差)

对于相同的误差值，大物体误差对检测的影响小于小物体，因为，相同的位置偏差占大物体的比例远小于同等偏差占小物体的比例。YOLO通过对w、h求平方根来改进，但仍不能完全解决。

YOLO v2

1、网络设计-32层

Route：25和28是route层(作用：层的合并)，即把27和24层合并输入到下一层

Reorg：27层，类似reshape，将26*26*64输出变形到13*13*256，因为26*26*1可以变成13*13*4

说明：

最后输出13*13是169个像素点，每一个像素点都有125层的厚度。而在这一层之后就直接预测了，所以这169*125个数包含了YOLO2需要的所有信息，边框，类别等等。

125指的是25*5，其中5参考faster r-cnn中的anchor建议框，faster r-cnn是9，在YOLO2中变成了5。25=20+4+1，YOLO2在预测20类（VOC数据集），其中：

20是class的分数（probability），就是当前的某一个像素，对应的某个参考框中是某一个class的概率；

4是δ(tx)δ(tx)，δ(ty)δ(ty)，txtx，tyty，这4个数会被用来计算边框的位置和大小；

1是confidence，表示边框预测里有真正的对象的概率。

2、两大方面的改进

A. 使用一系列方法，在保持原速度的同时提高精度

B. 提出目标分类与检测的联合训练方式，YOLO9000实现9000多种物体的实时检测

联合训练算法将两种数据集混合，用分层的观点对物体进行分类。

基本思路：同时在检测数据集和分类数据集上训练物体检测器（Object Detectors），用监测数据集的数据学习物体的准确位置，用分类数据集的数据来增加分类的类别量、提升鲁棒性。

3、精度的改进

A. Batch Normalization

改善了收敛速度同时减少了对其他regularization方法的依赖(舍弃dropout优化后依然没有过拟合)

B. High Resolution Classifier高分辨率分类器

目前大部分的检测模型都会在先在ImageNet分类数据集上预训练模型的主体部分（CNN特征提取器），ImageNet分类模型基本采用大小为 224*224 的图片作为输入，分辨率相对较低，不利于检测模型。

YOLOv1在采用 224*224 分类模型预训练后，将分辨率增加至 448*448 ，直接切换分辨率，检测模型可能难以快速适应高分辨率。为了让网路更好地适应新的分辨率，YOLOv2增加了在ImageNet数据集上使用 448*448先在 ImageNet上进行微调10 epochs，这可以使得模型能更好地适用高分辨率输入。

C. Convolutional With Anchor Boxes

去掉了全连接层，引入anchor boxes来预测bounding boxes。YOLO v1只能在每张图给出98个预测框，但是使用了anchor boxes机制之后模型能预测超过1000个框。

D. Dimension clusters

box的规格通过线性回归调整，但如果一开始就选用更合适的prior的话，可以使网络学习更轻松。

使用了欧氏距离的K-means聚类方法类训练bounding boxes，找到更好的boxes宽高维度

采用IOU得分作为评判标准，这样的话，error就和box的尺度无关，

E. Direct location prediction

当在YOLO中使用anchor boxes机制的时候，模型不稳定。尤其早期迭代的时候，不稳定的因素主要来自于为box预测(x,y)位置的时候。在RPN中预测偏移量，YOLO直接预测对于网格单元的相对位置。

F. Fine-Grained Features(细粒度特征)

G. Multi-Scale Training

用多种分辨率的输入图片进行训练

4、速度的改进

使用基于Googlenet的定制网络——Darknet-19(类似于faster-rcnn使用VGG)

5、分类的改进

考虑检测数据集不像分类数据集这么成熟，用分类数据集来扩充检测数据集。

联合训练基本思路：同时在检测数据集和分类数据集上训练物体检测器（Object Detectors），用监测数据集的数据学习物体的准确位置，用分类数据集的数据来增加分类的类别量、提升鲁棒性

用 WordTree 把数据集合中的类别映射到分层树中的同义词上，混合了 ImageNet 与 COCO

YOLO v3

相关链接

论文地址：https://pjreddie.com/media/files/papers/YOLOv3.pdf

参考博文：yolo系列之yolo v3【深度解析】

tensorflow版代码：https://github.com/YunYang1994/tensorflow-yolov3

源码分析参考：https://mp.weixin.qq.com/s/cq7g1-4oFTftLbmKcpi_aQ

改进点：predictions across scales

借鉴了FPN(feature pyramid networks)，采用多尺度对不同size的目标进行检测，越精细的grid cell就可以检测出越精细的物体

yolo v3设定的是每个网格单元预测3个box，所以每个box需要有(x, y, w, h, confidence)五个基本参数，还有80个类别(COCO数据集)的概率。所以3*(5 + 80) = 255。

【目标检测数据集】卡车数据集1073张VOC+YOLO格式熬夜写代码的平头哥∰ 目标检测 YOLO 人工智能
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：1073标注数量(xml文件个数)：1073标注数量(txt文件个数)：1073标注类别数：1标注类别名称:["truck"]每个类别标注的框数：truck框数=1120总框数：1120使用标注工具：labelImg标注
番茄西红柿叶子病害分类数据集12882张11类别 futureflsl 数据集分类数据挖掘人工智能
数据集类型：图像分类用，不可用于目标检测无标注文件数据集格式：仅仅包含jpg图片，每个类别文件夹下面存放着对应图片图片数量(jpg文件个数)：12882分类类别数：11类别名称:["Bacterial_Spot_Bacteria","Early_Blight_Fungus","Healthy","Late_Blight_Water_Mold","Leaf_Mold_Fungus","Powdery
钢筋长度超限检测检数据集VOC+YOLO格式215张1类别 futureflsl 数据集 YOLO 深度学习机器学习
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：215标注数量(xml文件个数)：215标注数量(txt文件个数)：215标注类别数：1标注类别名称:["iron"]每个类别标注的框数：iron框数=215总框数：215使用标注工具：labelImg标注规则：对类别进
COCO 格式的数据集转化为 YOLO 格式的数据集 QYQY77 YOLO python
"""--json_path输入的json文件路径--save_path保存的文件夹名字，默认为当前目录下的labels。"""importosimportjsonfromtqdmimporttqdmimportargparseparser=argparse.ArgumentParser()parser.add_argument('--json_path',default='./instances
yolov5＞onnx＞ncnn＞apk 图像处理大大大大大牛啊 opencv实战代码讲解 yolo onnx ncnn 安卓
一.yolov5pt模型转onnx条件：colabnotebookyolov51.安装环境!pipinstallonnx>=1.7.0#forONNXexport!pipinstallcoremltools==4.0#forCoreMLexport!pipinstallonnx-simplifier2.修改common.py在classFocus下面
[数据集][目标检测]汽车头部尾部检测数据集VOC+YOLO格式5319张3类别 FL1623863129 数据集目标检测汽车 YOLO
数据集制作单位：未来自主研究中心(FIRC)版权单位：未来自主研究中心(FIRC)版权声明：数据集仅仅供个人使用，不得在未授权情况下挂淘宝、咸鱼等交易网站公开售卖,由此引发的法律责任需自行承担数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：5319标注数量(xml文件
遥感图像分割系统：融合空间金字塔池化（FocalModulation)改进YOLOv8 xuehaisj YOLO 人工智能计算机视觉 yolov8
1.研究背景与意义项目参考AAAIAssociationfortheAdvancementofArtificialIntelligence研究背景与意义遥感图像分割是遥感技术领域中的一个重要研究方向，它的目标是将遥感图像中的不同地物或地物类别进行有效的分割和识别。随着遥感技术的不断发展和遥感图像数据的大规模获取，遥感图像分割在农业、城市规划、环境监测等领域具有广泛的应用前景。然而，由于遥感图像的特
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
如何理解深度学习的训练过程奋斗的草莓熊深度学习人工智能 python scikit-learn virtualenv numpy pandas
文章目录1.训练是干什么？2.预训练模型进行训练，主要更改的是预训练模型的什么东西？1.训练是干什么？以yolov5为例子，训练的目的是把一组输入猫狗图像放到神经网络中，得到一个输出模型，这个模型下次可以直接用来识别哪个是猫，哪个是狗2.预训练模型进行训练，主要更改的是预训练模型的什么东西？超参数（Hyperparameters）：这是模型结构中定义的参数，比如：卷积核大小（kernel_size
基于YOLOV5人脸检测打上码赛克 Deep-white YOLO 人工智能深度学习
还在为自己的隐私而烦恼吗，还在为拍摄的视频因不想露脸而无法发布吗。yolov5检测人脸，并打上马赛克，保护自己的隐私。只需下载代码，解压缩后就可以传入你想要打马赛克的视频或者图片了。这个是需要你对代码有一些了解的，等我开发一下使大家都可以用。里面权重已经训练好了，也有一些人脸的数据集，数据量不多，训练完的权重不是很好，但是给自己的视频打上马赛克足够了。大家要是想去增加数据集，可以使用里面的权重利用
yolov5单目测距+速度测量+目标跟踪 cv_2025 YOLO 目标跟踪人工智能计算机视觉机器学习图像处理 opencv
要在YOLOv5中添加测距和测速功能，您需要了解以下两个部分的原理：单目测距算法单目测距是使用单个摄像头来估计场景中物体的距离。常见的单目测距算法包括基于视差的方法（如立体匹配）和基于深度学习的方法（如神经网络）。基于深度学习的方法通常使用卷积神经网络（CNN）来学习从图像到深度图的映射关系。单目测距代码单目测距涉及到坐标转换，代码如下：defconvert_2D_to_3D(point2D,R,
粉尘识别数据集——工地/矿下粉尘数据识别，数据集已划分，YOLO格式-有权重，相关指数，map相当高毕设宇航 YOLO 机器学习目标跟踪
数据集名称粉尘识别数据集数据集描述这是一个专门针对工地或矿下粉尘识别设计的数据集，包含了大量的高清图像，用于识别施工或采矿环境中产生的粉尘。数据集已经按照标准的数据划分方法分为训练集、验证集和测试集，并且以YOLO格式进行了标注。此外，数据集中还包含了预训练的模型权重和相关性能指标，如mAP（MeanAveragePrecision），表明模型在粉尘识别任务上的表现优异。数据集特点高清图像：所有图
YOLOV8改进-C2f添加Deformable Conv V2 森爱。 YOLOV8改进 YOLO
目录1DeformableConvV2介绍2YOLOV8添加DeformableConvV22.1代码添加到Blocks2.1.1C2f_DCN代码2.1.2加入_all_导入2.1.3加入modules导入2.2添加至运行模块tasks2.2.1导入包2.2.2解析参数添加2.3在_init_中增加名称2.4模型配置文件yaml替换1DeformableConvV2介绍论文地址:https://
《互联网时代教师自主成长的模式研究》论文阅读与思考2 宁超群
2.第二部分教师自主成长的模式建构，实质上是对新网师底层逻辑的描述。你认为，新网师的培训模式与传统常见的培训模式有哪些区别？这些区别有什么意义或价值？读完第二部分后，你对新网师有哪些新的认识或理解？你认为新网师目前哪些方面做得好，哪些方面做得还不够？答：我认为新网师的培训模式与传统常见的培训模式有以下区别：（1）培训对象的参与动机不同。新网师学员的参与是自觉自愿、积极主动，而传统培训更多是被迫参与
结合YOLOv8和OpenCV WeChat QRCode打造一款二维码识别器搜狐技术产品小编2023 YOLO opencv 微信人工智能计算机视觉
本文字数：3876字预计阅读时间：25分钟01引言二维码（QRCode）在现代生活中有广泛应用，从支付系统到信息传递，它们无处不在。本文提出了一种如何识别二维码的方法，主要贡献在于优化处理分辨率较高的图像时，由于二维码在整张图片中占据的比例较小，传统的OpenCVWeChatQRCode的识别方法表现不佳的问题。下面描述详细的优化过程。02OpenCVWeChatQRCodeWeChatQRCod
【目标检测数据集】番茄叶片病害数据集13940张9类VOC+YOLO格式熬夜写代码的平头哥∰ 数据集目标检测 YOLO 目标跟踪
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：13946标注数量(xml文件个数)：13946标注数量(txt文件个数)：13946标注类别数：9标注类别名称:["EarlyBlight","Healthy","LateBlight","LeafMiner","Le
YOLOv8数据增强热心小张研究生 yolov8
1.找到augment.py（ultralytics/data/augment.py），修改对应内容#TransformsT=[A.Blur(p=0.01),A.MedianBlur(p=0.01),A.ToGray(p=0.01),A.CLAHE(p=0.01),A.RandomBrightnessContrast(p=0.0),A.RandomGamma(p=0.0),A.ImageCompr
[数据集][目标检测]血细胞检测数据集VOC+YOLO格式2757张4类别 FL1623863129 数据集目标检测 YOLO 人工智能
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：2757标注数量(xml文件个数)：2757标注数量(txt文件个数)：2757标注类别数：4标注类别名称:["Platelets","RBC","WBC","sicklecell"]每个类别标注的框数：Platelet
目标检测YOLO系列从入门到精通技术详解100篇-【目标检测】工业相机格图素书数码相机目标检测人工智能
目录知识储备深度相机1TOF2双目视觉3结构光4智能门锁应用5手机应用算法原理相机的成像与标定模型相机标定的实施·标定过程的算法实施相机标定的扩展CCD工业相机、镜头倍率及相关参数计算方法知识储备深度相机1TOF1.1Kinectv2Kinectv2是Microsoft在2014年发售的，如图1-1所示。相比于Kinectv1在硬件和软件上作出了很大的进化，且在深度测量的系统和非系统误差方面表现出
【小贪】项目实战——Zero-shot根据文字提示分割出图片目标掩码贪钱算法还我头发 #Deep Learning #Computer Vision AI 目标检测深度学习 python 语义分割 Zero-shot
目标描述给定RGB视频或图片，目标是分割出图像中的指定目标掩码。我们需要复现两个Zero-shot的开源项目，分别为IDEA研究院的GroundingDINO和Facebook的SAM。首先使用目标检测方法GroundingDINO，输入想检测目标的文字提示，可以获得目标的anchorbox。将上一步获得的box信息作为SAM的提示，分割出目标mask。具体效果如下（测试数据来自VolumeDef
ERROR: Could not install packages due to an OSError: [Errno 2] No such file or directory:错误解决 nomoremorphine python pip 计算机视觉目标检测
安装yolov8时(pipinstallultralytics)报错：ERROR:CouldnotinstallpackagesduetoanOSError:[Errno2]没有那个文件或目录:‘xxxx/anaconda3/envs/v8-test/lib/python3.7/site-packages/numpy-1.21.6.dist-info/METADATA’问题原因：安装环境里对应的安
【定位系列论文阅读】-Patch-NetVLAD: Multi-Scale Fusion of Locally-Global Descriptors for Place Recognition（一）醉酒柴柴论文阅读学习笔记
这里写目录标题概述研究内容Abstract第一段（介绍本文算法大致结构与优点）1.Introduction介绍第一段（介绍视觉位置识别的重要性）第二段（VPR的两种常见方法，本文方法结合了两种方法）第三段（本文贡献）第四段（为证明本文方法优越性，进行的测试以及比较）2.RelatedWork相关工作第一段（介绍早期与深度学习的全局图像描述符）第二段（介绍局部关键点描述符）第三段（局部描述符可以进一
论文阅读笔记（十九）：YOLO9000: Better, Faster, Stronger __Sunshine__ 笔记 YOLO9000 detection classification
WeintroduceYOLO9000,astate-of-the-art,real-timeobjectdetectionsystemthatcandetectover9000objectcategories.FirstweproposevariousimprovementstotheYOLOdetectionmethod,bothnovelanddrawnfrompriorwork.Theim
Yolo-v3利用GPU训练make时发生错误：/usr/bin/ld: cannot find -lcuda 徐小妞66666
一.利用GPU训练Yolov3时，首先要修改MakeFile文件，修改格式如下：GPU=1(原来为0)CUDNN=1(原来为0)NVCC=/usr/local/cuda/bin/nvcc(新建,注意自己本机的地址)二.此时make产生错误/usr/bin/ld:cannotfind-lcuda1.查看MakeFile文件找到该行代码：LDFLAGS+=-L/usr/local/cuda/lib64
论文阅读笔记: DINOv2: Learning Robust Visual Features without Supervision 小夏refresh 论文计算机视觉深度学习论文阅读笔记深度学习计算机视觉人工智能
DINOv2:LearningRobustVisualFeatureswithoutSupervision论文地址:https://arxiv.org/abs/2304.07193代码地址:https://github.com/facebookresearch/dinov2摘要大量数据上的预训练模型在NLP方面取得突破，为计算机视觉中的类似基础模型开辟了道路。这些模型可以通过生成通用视觉特征(即无
yolov5 +gui界面+单目测距实现对图片视频摄像头的测距毕设宇航 QQ767172261 yolov5 单目测距
可实现对图片，视频，摄像头的检测项目概述本项目旨在实现一个集成了YOLOv5目标检测算法、图形用户界面（GUI）以及单目测距功能的系统。该系统能够对图片、视频或实时摄像头输入进行目标检测，并估算目标的距离。通过结合YOLOv5的强大检测能力和单目测距技术，系统能够在多种应用场景中提供高效、准确的目标检测和测距功能。技术栈YOLOv5：用于目标检测的深度学习模型。OpenCV：用于图像处理和单目测距
目标检测-YOLOv3 wydxry 深度学习目标检测 YOLO 深度学习
YOLOv3介绍YOLOv3(YouOnlyLookOnce,Version3)是YOLO系列目标检测模型的第三个版本，相较于YOLOv2有了显著的改进和增强，尤其在检测速度和精度上表现优异。YOLOv3的设计目标是在保持高速的前提下提升检测的准确性和稳定性。下面是对YOLOv3改进和优势的介绍，以及YOLOv3核心部分的代码展示。相比YOLOv2的改进与优势多尺度特征金字塔YOLOv3引入了FP
SSD目标检测系统月见樽
首发于个人博客系统结构system.pngSSD识别系统也是一种单步物体识别系统，即将提取物体位置和判断物体类别融合在一起进行，其最主要的特点是识别器用于判断物体的特征不仅仅来自于神经网络的输出，还来自于神经网络的中间结果。该系统分为以下几个部分：神经网络部分：用作特征提取器，提取图像特征识别器：根据神经网络提取的特征，生成包含物品位置和类别信息的候选框（使用卷积实现）后处理：对识别器提取出的候选
使用TensorRT对YOLOv8模型进行加速推理 fengbingchun Deep Learning CUDA/TensorRT YOLOv8 TensorRT
这里使用GitHub上shouxieai的infer框架对YOLOv8模型进行加速推理，操作过程如下所示：1.配置环境，依赖项，包括：(1).CUDA:11.8(2).cuDNN:8.7.0(3).TensorRT:8.5.3.1(4).ONNX:1.16.0(5).OpenCV:4.10.02.cloneinfer代码：https://github.com/shouxieai/infer3.使用
使用yolov8识别+深度相机+机械臂实现垃圾分拣机械臂（代码分享）调包侠@ YOLO 数码相机毕业设计
文章目录垃圾分拣机械臂总体介绍主要功能与特色视频演示文件目录程序主代码完整代码链接垃圾分拣机械臂总体介绍本作品将视觉识别技术部署在嵌入式设备，自动控制机械臂进行分拣任务，在我们的设计中，首先使用深度相机将图像信息发送到嵌入式设备，视觉识别算法进行分类检测，将垃圾分为感染性，损失性，病理性，药物性，化学性，并根据相机的深度值计算出目标的三维坐标，由于系统使用眼在手外的结构，根据手眼标定的结果，将坐标
插入表主键冲突做更新 a-john
有以下场景：用户下了一个订单，订单内的内容较多，且来自多表，首次下单的时候，内容可能会不全（部分内容不是必须，出现有些表根本就没有没有该订单的值）。在以后更改订单时，有些内容会更改，有些内容会新增。问题：如果在sql语句中执行update操作，在没有数据的表中会出错。如果在逻辑代码中先做查询，查询结果有做更新，没有做插入，这样会将代码复杂化。解决： mysql中提供了一个sql语
Android xml资源文件中@、@android:type、@*、？、@+含义和区别 Cb123456 @+@?@*
一.@代表引用资源 1.引用自定义资源。格式：@[package:]type/name android：text="@string/hello" 2.引用系统资源。格式：@android:type/name android:textColor="@android:color/opaque_red"
数据结构的基本介绍天子之骄数据结构散列表树、图线性结构价格标签
数据结构的基本介绍数据结构就是数据的组织形式，用一种提前设计好的框架去存取数据，以便更方便，高效的对数据进行增删查改。正确选择合适的数据结构，对软件程序的高效执行的影响作用不亚于算法的设计。此外，在计算机系统中数据结构的作用也是非同小可。例如常常在编程语言中听到的栈，堆等，就是经典的数据结构。经典的数据结构大致如下：一：线性数据结构 (1)：列表 a
通过二维码开放平台的API快速生成二维码一炮送你回车库 api
现在很多网站都有通过扫二维码用手机连接的功能，联图网(http://www.liantu.com/pingtai/)的二维码开放平台开放了一个生成二维码图片的Api,挺方便使用的。闲着无聊，写了个前台快速生成二维码的方法。 html代码如下:(二维码将生成在这div下) ? 1 &nbs
ImageIO读取一张图片改变大小 3213213333332132 java IO image BufferedImage
package com.demo; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imageio.ImageIO; /** * @Description 读取一张图片改变大小 * @author FuJianyon
myeclipse集成svn（一针见血） 7454103 eclipse SVN MyEclipse
&n
装箱与拆箱----autoboxing和unboxing darkranger J2SE
4.2　自动装箱和拆箱基本数据(Primitive)类型的自动装箱(autoboxing)、拆箱(unboxing)是自J2SE 5.0开始提供的功能。虽然为您打包基本数据类型提供了方便，但提供方便的同时表示隐藏了细节，建议在能够区分基本数据类型与对象的差别时再使用。 4.2.1　autoboxing和unboxing 在Java中，所有要处理的东西几乎都是对象(Object)
ajax传统的方式制作ajax aijuans Ajax
//这是前台的代码 <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); String basePath = request.getScheme()+
只用jre的eclipse是怎么编译java源文件的？ avords java eclipse jdk tomcat
eclipse只需要jre就可以运行开发java程序了，也能自动编译java源代码，但是jre不是java的运行环境么，难道jre中也带有编译工具？还是eclipse自己实现的？谁能给解释一下呢问题补充：假设系统中没有安装jdk or jre，只在eclipse的目录中有一个jre，那么eclipse会采用该jre，问题是eclipse照样可以编译java源文件，为什么呢？ &nb
前端模块化 bee1314 模块化
背景：前端JavaScript模块化，其实已经不是什么新鲜事了。但是很多的项目还没有真正的使用起来，还处于刀耕火种的野蛮生长阶段。 JavaScript一直缺乏有效的包管理机制，造成了大量的全局变量，大量的方法冲突。我们多么渴望有天能像Java（import），Python (import)，Ruby(require)那样写代码。在没有包管理机制的年代，我们是怎么避免所
处理百万级以上的数据处理 bijian1013 oracle sql 数据库大数据查询
一.处理百万级以上的数据提高查询速度的方法： 1.应尽量避免在 where 子句中使用!=或<>操作符，否则将引擎放弃使用索引而进行全表扫描。 2.对查询进行优化，应尽量避免全表扫描，首先应考虑在 where 及 o
mac 卸载 java 1.7 或更高版本征客丶 java OS
卸载 java 1.7 或更高 sudo rm -rf /Library/Internet\ Plug-Ins/JavaAppletPlugin.plugin 成功执行此命令后，还可以执行 java 与 javac 命令 sudo rm -rf /Library/PreferencePanes/JavaControlPanel.prefPane 成功执行此命令后，还可以执行 java
【Spark六十一】Spark Streaming结合Flume、Kafka进行日志分析 bit1129 Stream
第一步，Flume和Kakfa对接，Flume抓取日志，写到Kafka中第二部，Spark Streaming读取Kafka中的数据，进行实时分析本文首先使用Kakfa自带的消息处理（脚本）来获取消息，走通Flume和Kafka的对接 1. Flume配置 1. 下载Flume和Kafka集成的插件，下载地址：https://github.com/beyondj2ee/f
Erlang vs TNSDL bookjovi erlang
TNSDL是Nokia内部用于开发电信交换软件的私有语言，是在SDL语言的基础上加以修改而成，TNSDL需翻译成C语言得以编译执行，TNSDL语言中实现了异步并行的特点，当然要完整实现异步并行还需要运行时动态库的支持，异步并行类似于Erlang的process（轻量级进程），TNSDL中则称之为hand，Erlang是基于vm(beam)开发，
非常希望有一个预防疲劳的java软件, 预防过劳死和眼睛疲劳,大家一起努力搞一个 ljy325 企业应用
　非常希望有一个预防疲劳的java软件，我看新闻和网站，国防科技大学的科学家累死了，太疲劳，老是加班，不休息，经常吃药，吃药根本就没用，根本原因是疲劳过度。我以前做java,那会公司垃圾，老想赶快学习到东西跳槽离开，搞得超负荷，不明理。深圳做软件开发经常累死人，总有不明理的人，有个软件提醒限制很好，可以挽救很多人的生命。相关新闻：（1）IT行业成五大疾病重灾区：过劳死平均37.9岁
读《研磨设计模式》-代码笔记-原型模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * Effective Java 建议使用copy constructor or copy factory来代替clone()方法： * 1.public Product copy(Product p){} * 2.publi
配置管理---svn工具之权限配置 chenyu19891124 SVN
今天花了大半天的功夫，终于弄懂svn权限配置。下面是今天收获的战绩。安装完svn后就是在svn中建立版本库，比如我本地的是版本库路径是C:\Repositories\pepos。pepos是我的版本库。在pepos的目录结构 pepos component webapps 在conf里面的auth里赋予的权限配置为 [groups]
浅谈程序员的数学修养 comsci 设计模式编程算法面试招聘
浅谈程序员的数学修养
批量执行 bulk collect与forall用法 daizj oracle sql bulk collect forall
BULK COLLECT 子句会批量检索结果，即一次性将结果集绑定到一个集合变量中，并从SQL引擎发送到PL/SQL引擎。通常可以在SELECT INTO、 FETCH INTO以及RETURNING INTO子句中使用BULK COLLECT。本文将逐一描述BULK COLLECT在这几种情形下的用法。有关FORALL语句的用法请参考：批量SQL之 F
Linux下使用rsync最快速删除海量文件的方法 dongwei_6688 OS
1、先安装rsync：yum install rsync 2、建立一个空的文件夹：mkdir /tmp/test 3、用rsync删除目标目录：rsync --delete-before -a -H -v --progress --stats /tmp/test/ log/这样我们要删除的log目录就会被清空了，删除的速度会非常快。rsync实际上用的是替换原理，处理数十万个文件也是秒删。
Yii CModel中rules验证规格 dcj3sjt126com rules yii validate
Yii cValidator主要用法分析： yii验证rulesit 分类： Yii yii的rules验证 cValidator主要属性 attributes ,builtInValidators,enableClientValidation,message,on,safe,skipOnError
基于vagrant的redis主从实验 dcj3sjt126com vagrant
平台: Mac 工具: Vagrant 系统: Centos6.5 实验目的: Redis主从实现思路制作一个基于sentos6.5, 已经安装好reids的box, 添加一个脚本配置从机, 然后作为后面主机从机的基础box 制作sentos6.5+redis的box mkdir vagrant_redis cd vagrant_
Memcached(二)、Centos安装Memcached服务器 frank1234 centos memcached
一、安装gcc rpm和yum安装memcached服务器连接没有找到，所以我使用的是make的方式安装，由于make依赖于gcc，所以要先安装gcc 开始安装，命令如下，[color=red][b]顺序一定不能出错[/b][/color]：建议可以先切换到root用户，不然可能会遇到权限问题：su root 输入密码...... rpm -ivh kernel-head
Remove Duplicates from Sorted List hcx2013 remove
Given a sorted linked list, delete all duplicates such that each element appear only once. For example,Given 1->1->2, return 1->2.Given 1->1->2->3->3, return&
Spring4新特性——JSR310日期时间API的支持 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
浅谈enum与单例设计模式 247687009 java 单例
在JDK1.5之前的单例实现方式有两种(懒汉式和饿汉式并无设计上的区别故看做一种)，两者同是私有构造器，导出静态成员变量，以便调用者访问。第一种 package singleton; public class Singleton { //导出全局成员 public final static Singleton INSTANCE = new S
使用switch条件语句需要注意的几点 openwrt c break switch
1. 当满足条件的case中没有break，程序将依次执行其后的每种条件（包括default）直到遇到break跳出 int main() { int n = 1; switch(n) { case 1: printf("--1--\n"); default: printf("defa
配置Spring Mybatis JUnit测试环境的应用上下文 schnell18 spring mybatis JUnit
Spring-test模块中的应用上下文和web及spring boot的有很大差异。主要试下来差异有：单元测试的app context不支持从外部properties文件注入属性 @Value注解不能解析带通配符的路径字符串解决第一个问题可以配置一个PropertyPlaceholderConfigurer的bean。第二个问题的具体实例是：
Java 定时任务总结一 tuoni java spring timer quartz timertask
Java定时任务总结一.从技术上分类大概分为以下三种方式： 1.Java自带的java.util.Timer类，这个类允许你调度一个java.util.TimerTask任务; 说明： java.util.Timer定时器，实际上是个线程，定时执行TimerTask类 &
一种防止用户生成内容站点出现商业广告以及非法有害等垃圾信息的方法 yangshangchuan rank 相似度计算文本相似度词袋模型余弦相似度
本文描述了一种在ITEYE博客频道上面出现的新型的商业广告形式及其应对方法，对于其他的用户生成内容站点类型也具有同样的适用性。最近在ITEYE博客频道上面出现了一种新型的商业广告形式，方法如下： 1、注册多个账号（一般10个以上）。 2、从多个账号中选择一个账号，发表1-2篇博文

【学习与理解】：YOLO v1、v2、v3(未完待续……)

引言

优点

缺点

V1、V2、V3的共同点

YOLO算法的基本思想是

YOLO v1

相关链接

1、核心思想

2、实现方法

3、网络设计

4、网络训练

5、网络预测

6、损失函数

YOLO v2

相关链接

1、网络设计-32层

2、两大方面的改进

3、精度的改进

4、速度的改进

5、分类的改进

YOLO v3

相关链接

你可能感兴趣的:(AI_Club,论文阅读,yolo,目标检测)