python-码博士

深度学习目标检测_YOLOV1超详细解读

文章目录

YOLO背景介绍
YOLO的发家史
YOLO核心思想
YOLO实现细节
- $P r (O bj ec t)$ 的概率计算
- $Pr(Class_i ∣Object)$ 的概率计算
YOLO网络设计
归一化
30维向量含义
预测框的定位
再筛选bounding box
损失函数
- 由浅入深逐一解析损失函数（一）：
- 由浅入深逐一解析损失函数（二）：
- - bbox损失函数：
  - confidence损失函数
  - 20分类损失函数

YOLO背景介绍

YOLO(You Only Look Once)，经典的one-stage方法，把检测问题转化为回归问题，简单的CNN网络就搞定了，可以对视频进行实时检测，应用领域非常广。

YOLO的发家史

说起目标检测系统，就要先明白，图像识别、目标定位和目标检测的区别。图像识别也可以说成是目标分类，顾名思义，目的是为了分类出图像中的物体是什么类别。目标定位是不仅仅要识别出是一种什么物体，还要预测出物体的位置，并使用bounding box框出。目标检测就更为复杂，它可以看作是图像识别+多目标定位，即要在一张图片中定位并分类出多个物体。
目标检测对于人类来说极为简单，经过上万年的进化，人类天生具有复杂的感知与视觉系统，这是机器无可比拟的，我们可以只对图片看一眼，即分辨出物体的种类和它相应的位置，根据先前的知识进行归纳，适应不同图像环境都是人类专属技能。但是对于计算机来说，一张图片只是具有无数RGB像素点的矩阵，它本身并不知道猫狗动物，大小形状的概念，如果再给它一张具有复杂自然场景背景的图片，想要检测出物体更是难上加难。但是是问题，总会有解决的办法。问题是由人类提出来的，当然还要靠人类的智慧来处理。面对这样的计算机难题，很多研究学者蜂拥而至，从此目标检测领域变成了非常热门的研究方向，当然也诞生出了许多的解决方法。

图1：2015年之前目标检测方法在Pascal VOC 2007数据集上测试的FPS和mAP结果对比

传统的目标检测方法大致分为三个步骤，先使用不同的方法（滑动窗口，区域候选）提取区域的特征图，然后再使用分类器进行识别，最后回归预测。大多数方法都较为复杂，速度较慢，训练耗时。

传统的方法可以按照检测系统分为两种：

DPM，Deformatable Parts Models，采用sliding window检测
R-CNN、Fast R-CNN。采用region proposal的方法，生成一些可能包含待检测物体的potential bounding box，再通过一个classifier（SVM）判断每个bbox里是否真的包含物体，以及物体的class probability。

目前深度学习相关的目标检测方法大致可以分为两派：

基于区域提名的（regin proposal）的，比如R-CNN、SPP-Net、Fast R-CNN、Faster R-CNN、R-FCN。
基于端到端（end to end）的，无需候选区域，如YOLO、SSD。
二者发展都很迅速，区域提名准确率较好、端到端的方法速度较快。

本文着重于介绍一下目标检测系统：YOLO

YOLO核心思想

将整张图片作为网络的输入，直接在输出层对bounding box的位置和所属类别进行回归。与Faster R-CNN网络相比，虽然后者也是使用整张图片作为输入，但是它采用了RCNN那种区域预测+分类的思想，把提取proposal的步骤放在了CNN中实现，而YOLO则采用直接回归的思路，将目标定位和目标类别预测整合于单个神经网络模型中。
直接在输出层回归bbox的位置和所属类别。
按照 YOLO：Unified，Real-Time Object Detection 中所说，YOLO检测系统简单直接，可以看做只有三步：

1.输入：448 x 448 x 3，由于网络的最后需要接入两个全连接层，全连接层需要固定尺寸的输入，故需要将输入resize。
2.Conv + FC：主要使用1x1卷积来做channle reduction，然后紧跟3x3卷积。对于卷积层和全连接层，采用Leaky ReLU激活函数：max(x,0.1x) ，但是最后一层采用线性激活函数。
3.输出：最后一个FC层得到一个1470 x 1的输出，将这个输出reshap一下，得到 7 x 7 x 30 的一个tensor，即最终每个单元格都有一个30维的输出，代表预测结果。具体如下：

YOLO实现细节

1、将一幅图像分成 S×S 个网格(Grid Cell)，如果某个object的中心落在某个网格中（通过ground-truth框确定），则这个网格就负责预测这个object。

2、每个网格要预测B个bounding box，每个box除了要回归自身的位置之外，还要附带预测一个confidence值。这个值代表了所预测的bounding box中是否含有object和若有object，这个object预测得有多准的两重信息，计算方式：
$Pr(Object)∗IoU^{truth}_{pred}$

第二项是预测的边界框和ground-truth之间的IoU值。可以计算出来

$P r (O bj ec t)$ 的概率计算

然后看2个bounding box的IOU，哪个比较大（更接近对象实际的bounding box），就由哪个bounding box来负责预测该对象是否存在，即该bounding box的 $P r (O bj ec t)$ =1，同时对象真实bounding box的位置也就填入该bounding box。另一个不负责预测的bounding box的 $P r (O bj ec t) = 0$ 。

总的来说就是，与对象实际bounding box最接近的那个bounding box，其 $Confidence=IoU^{truth}_{pred}$ 该网格的其它bounding box的 $C o n f i d e n ce = 0$ 。

说人话：拿上面狗的图片举例子
首先将狗的图片分为7*7的网格，而红色的点所在的网格就是狗的标注框中心点所在的网格，因此这个框负责预测狗这个物体。
每个网格可以定义有几个anchor box，当然，这里是定义了2个anchor box。拿其中一个anchor box举例，经过与真实框的IOU计算之后就是回归出来的框Bounding Box（也就是网络输出的框（图中的黄色框），他与真实框和anchor box都有差距）（anchor box 的个数和大小由自己定义，写在配置文件中）
返回回来的Bounding Box携带5个值（x，y，w，h，c)，（x,y）为Bounding Box的中心坐标，w，h为Bounding Box的宽和高。另外还有一个c意思就是confidence，这个值反映出了两个信息，一个是这个框的IOU比较高，也就是这个框是被筛选出来的，否则也不会返回Bounding Box对吧，另一个就是这个框预测的准确度。
至于公式可以这样理解：
如果这个网格是物体框的中心点，那当然是咱们想要的，所以为1，否则就是背景呗，背景不是我们想要的所以是0。

Bounding Box与anchor box的区别可以看看这篇文章：https://blog.csdn.net/m0_54146002/article/details/120486688

3、每个网格单元针对20种类别预测bboxes属于单个类别的条件概率 $Pr(Class_i ∣Object)$ ，属于同一个网格的B个bboxes共享一个条件概率。在测试时，将条件概率分别和单个的bbox的confidence预测相乘：
$\overbrace{Pr(Class_i ∣Object)}^{conditional{\,} class{\,} prob}∗\overbrace{Pr(Object)∗IoU^{truth}_{pred}}^{bbox{\,} confidence}=Pr(Class_i)∗IoU^{truth}_{pred}$

$Pr(Class_i ∣Object)$ : 候选框预测为每一类的概率（for class in Class₂₀）
$P r (O bj ec t)$ ：候选框预测到前景的概率
更深入的了解概率：https://zhuanlan.zhihu.com/p/45432367

$Pr(Class_i ∣Object)$ 的概率计算

即20个对象分类的概率

对于输入图像中的每个对象，先找到其中心点。比如上图中的自行车，其中心点在黄色圆点位置，中心点落在黄色网格内，所以这个黄色网格对应的30维向量中，自行车的概率1，其它对象的概率是0。所有其它48个网格的30维向量中，该自行车的概率都是0。这就是所谓的"中心点所在的网格对预测该对象负责"。狗和汽车的分类概率也是同样的方法填写。

说人话：
以狗举例，如果候选框的grid cell和标注框的grid cell是一个即都是蓝色的grid cell，那么这个网格的 $P r (狗 ∣ O bj ec t) = 1$ ， $P r (其他 19 种 ∣ O bj ec t) = 0$ ，如果预测框的grid cell既不是上图中的蓝色grid cell，也不是黄和粉grid cell呢？就是 $P r (20 种 ∣ O bj ec t) = 0$ 呗。

4、在Pascal VOC中，YOLO检测系统的图像输入为448×448，S=7，B=2，一共有20个class（C=20），输出就是7×7×30的一个tensor。这个是怎么算出来的呢？看下面详解。

YOLO网络设计

YOLO使用了24个级联卷积层和最后2个全连接层，交替的1×1卷积层降低了前面层的特征空间。在ImageNet分类任务上使用分辨率的一半（224×224输入图像）对卷积层进行预训练，然后将分辨率加倍进行目标检测。

YOLO网络借鉴了GoogleNet的思想，但与之不同的是，为了更好的性能，它增加额外的4层卷积层（conv）。YOLO一共使用了24个级联的卷积层和2个全连接层（fc），其中conv层中包含了1×1和3×3两种kernel，最后一个fc全连接层后经过reshape之后就是YOLO网络的输出，是长度为S×S×(B×5+C)=7×7×30的tensor，最后经过识别过程得到最终的检测结果。

上文说到每个bounding box要预测(x,y,w,h,confidence)五个值，一张图片共分为S×S个网格，每个网格要预测出B个bounding box和一个网格负责的object的类别信息，记为C。

则输出为S ∗ S ∗ ( 5 ∗ B + C ) SS(5*B+C)S∗S∗(5∗B+C)的tensor张量，(x,y)表示bounding box相对于网格单元的边界的offset，归一化到(0,1)范围之内，而w,h表示相对于整个图片的预测宽和高，也被归一化到(0,1)范围内。c代表的是object在某个bounding box的confidence。
使用下图更形象的说明，7×7×30的Tensor中的一个1×1×30的前10维的所代表的含义。

归一化

下面解释如何将预测坐标的x,y用相对于对应网格的offset归一化到0-1和w,h是如何利用图像的宽高归一化到0-1之间。
每个单元格预测的B个(x,y,w,h,confidence)向量，假设图片为S×S个网格，S=7，图片宽为w_i 高为h_i :
1.（x,y）是bbox的中心相对于单元格的offset
对于下图中蓝色单元格，坐标为(x_col=1,y_row=4)，假设它的预测输出是红色框bbox，设bbox的中心坐标为（x_c，y_c），那么最终预测出来的（x,y）是经过归一化处理的，表示的是相对于单元格的offset，公式：
$x=\frac{x_c}{w_i}*S-x_{col}，y=\frac{y_c}{h_i}*S-y_{row}$

2.（w,h）是bbox相对于整个图片的比例
预测的bbox的宽高为w_b, h_b，（w,h）表示的是bbox相对于整张图片的占比，公式：
$w=\frac{w_b}{w_i}=，y=\frac{h_b}{h_i}$
如果还不理解，可以看这里
前面说了，共有7x7=49个“grid cell”，而每个“grid cell”有两个“bounding box”，负责预测“ground truth”的位置和类别。因此，最后的30实际上是由5x2+20组成的。

第一个5，分别是x,y,w,h,c。其中：
x，y是指“bounding box”的预测框的中心坐标相较于该“bounding box”归属的“grid cell”左上角的偏移量，在0-1之间。如下图所示

在上图中，绿色虚线框代表grid cell，绿点表示该grid cell的左上角坐标，为（0，0）；
红色和蓝色框代表该grid cell包含的两个bounding box，红点和蓝点表示这两个boung box的中心坐标。有一点很重要，bound box的中心坐标一定在该grid cell内部，因此，红点和蓝点的坐标可以归一化在0-1之间。再上图中，红点的坐标为（0.5，0.5），即x=y=0.5，蓝点的坐标为（0.9，0.9），即x=y=0.9。

w和h是指该bound box的宽和高，但也归一化到了0-1之间，表示相较于原始图像的宽和高（即448个像素）。比如该bounding box预测的框宽是44.8个像素，高也是44.8个像素，则w=0.1，h=0.1。

比如对于下面的这个例子：

红框的x=0.8，y=0.5，w=0.1，h=0.2。

那么，最后的c表示什么呢？c是置信度，表示的实际含义是：该bounding box 中含有目标的概率，在论文中表示为：

那么这个c实际是怎么求出来的呢？作者用bounding box与ground truth的IOU来代替c，即作者的思想是：用bounding box与ground truth的重合程度，来表示该bounding box中含有目标的概率，这显然是符合直觉的，也是说得通的。上面图片中的Pr(Object)非0即1，若ground truth的中心点落入该grid cell中，则Pr(Object)=1，否则Pr(Object)=0。

所以，对于一个bounding box，有x,y,w,h,c这五个参数，前四个参数而已确定bounding box的方框，最后的c可以该bounding box 中含有目标的概率。而对于一个grid cell有两个bounding box，因此是5x2。

OK，至此已经解释清楚了30=5x2 + 20中的前半部分，那么后面的20又是什么？
YOLOV1是在PASCAL VOC数据集上训练的，该数据集上有20个类别，因此这里的20表示的是条件概率：在该grid cell包含目标的条件下，该目标是某种类别的概率。在论文中作者用Pr(Classi | Object)表示。因为有20个类别，所以有20个条件概率。

这就是7x7x30中的30表示的具体含义。

另外，因为c表示的是该方框中存在目标的概率，后面的20表示的是条件概率：在该grid cell包含目标的条件下，该目标是某种类别的概率。所以用c乘以条件概率就可以得到全概率，如下图所示。全概率就表示该方框中包含目标的概率。

30维向量含义

每个grid cell对应的两个bounding box的5个值在tensor中体现出来，组成前十维。后面二十维代表属于每一个类别的概率。

如上式所述，每个网格预测的类别概率乘以每个bbox的预测confidence，得到每个bbox的class-specific confidence score分数。对每个格子的每一个bounding box进行此运算，最后会得到7×7×2=98个scores，设置一个阈值，滤掉得分低的bboxes，对保留的bboxes进行NMS（Non Maximum Suppression）处理，最终得到目标检测结果。

预测框的定位

最后得到第一个为最大的score值，找出针对dog这个种类预测出的对应框，记为bbox_max。然后将它与其他分数较低的但不是0的框作对比，这种框记为bbox_cur。将bbox_max和bbox_cur分别做IoU计算，如果 IoU(bbox_max, bbox_cur) > 0.5，那么将bbox_cur对应的score设为0。例如：

然后接着遍历下一个score，如果它不是最大的且不为0，就和最大的score对应的框座IoU运算，若结果大于0.5则，同上。否则它的score不变，继续处理下一个bbox_cur……直到最后一个score，如图：

计算完一轮之后，假如得到score序列：0.5、0、0.2、0.1 … 0、0、0、0
那么进行下一轮循环，从0.2开始，将0.2对应的框作为bbox_max，继续循环计算后面的bbox_cur与新的bbox_max的IoU值，大于0.5的设为0，小于0.5的score不变。再这样一直计算比较到最后一个score。
得到新的的score序列为：0.5、0、0.2、0 … 0、0、0、0
即最后只得到两个score不为0的框，如图：

再筛选bounding box

经过这些NMS算法的处理，会出现很多框针对某个class的预测的score为0的情况。
最后，针对每个bbox的20×1的张量，对20种class的预测score进行判断。例如，
1）先取出针对bbox3的所有20个scores，按照类别的默认顺序找出score最大的那个score的index索引号（根据此index可以找出所属的类别）记为class；
2）然后找出bbox3的最大score分数，记为score。
3）判断score是否大于0，如果是，就在图像中画出标有class的框。否则，丢弃此bbox。
如图：

接下来进行下一个bbox的筛选，如图，则是bbox1，流程同上。一直到最后一个bbox97，

最后得到的框如图：

损失函数

由浅入深逐一解析损失函数（一）：

1.bbox损失函数
bbox的四个指标（x,y,w,h）要计算与真实框的损失
2.confidence损失函数
分前景和背景两种情况：

一种是预测中心点落在标注框的中心网格中，也就是这个框负责预测这个物体。
另一种是预测中心点为未落在标注框的中心网格中，也就是这个框负责预测背景。
3.20分类损失函数
计算每一个类别的预测值和真实值之间的损失
4.最后将所有损失函数加在一起就是我们的loss。

由浅入深逐一解析损失函数（二）：

bbox损失函数：

λ_coord：8维的localization error和20维的classification error同样重要显然是不合理的，毕竟最后是要加在一起的，应该更重视8维的坐标预测，所以作者给这个损失前加了个权重，记为：λ_coord，在Pascal VOC训练中取5。
$\sum_{i=0}^{s^2}$ ：对于ss也就是77的每一个grid cell都要计算
$\sum_{j=0}^{B}$ ：有两个bounding box，每一个都要计算
$I{^{obj}_{ij}}$ ：当前网格不是有2个预测框吗，每一个都会和标注框算一个IOU，IOU大的设置为1,小的设置为0。
$[(x_i-\hat{x})^2+(y_i-\hat{y})^2]$ ：预测框的中心点（x，y）与标注框的中心点 $（\hat{x}，\hat{y}）$ 的位置差距。
值得注意的是为什么计算宽高的差距时要加上根号呢？

我们看上面这张图，同样是差距1px，大图像感觉就无所谓，而小图像却差之毫厘谬以千里。因此我们加上一个根号。接着看

从开方函数图像很容易就知道对于较大的bbox来说两者之差是会被慢慢缩小的，即惩罚力度没有小bbox这么大。

confidence损失函数

$C_i与\hat{C_i}$ ：当预测为一个前景的时候，我们希望它的置信度为1，当预测为背景的时候我们希望它的置信度为0，但是这样可能吗？别忘了我们还有一个预测框与标注框的IOU没用上，于是就出现了置信度C_i和IOU（ $\hat{C_i}$ ）之间的计算。也就是当这个框的IOU值大于0.5的时候，我就觉得这个框是在预测前景，此时的置信度为1，但是又没有和标注框完全重合，所以置信度的值越接近IOU的值越好。
对于不存在object的bbox的confidence loss，赋予了更小的损失权重，记为 $\lambda_{noode}$ 。在Pascal VOC中取0.5。若没有任何物体中心落入边界框中，则 $\hat{C_i}$ =0，此时我们希望预测含有物体的置信度 $C_i$ 越小越好。然而，大部分bbox中都没有object，积少成多，造成loss的第2部分与第3部分的不平衡，因此，在loss的三部分增加权重 $\lambda_{noode}$ =0.5。

20分类损失函数

$C_i$ ：预测的该种类的概率，还是我们的老演员狗，也就是说当这个grid cell 是我们的狗标注框的中心grid cell时，这个式子的值就等于 $1*IoU^{truth}_{pred}$ ，因为这个框被选出来了，所以 $P r (O bj ec t)$ 已经等于1了，计算 $Pr(Class_i)∗IoU^{truth}_{pred}$ 就完了。其他的非标注框中心grid cell的就全都是0。
$\overbrace{Pr(Class_i ∣Object)}^{conditional{\,} class{\,} prob}∗\overbrace{Pr(Object)∗IoU^{truth}_{pred}}^{bbox{\,} confidence}=Pr(Class_i)∗IoU^{truth}_{pred}$
$\hat{C_i}$ ：该种类的真实概率呗，只要这个grid cell 是我们狗标注框的中心grid cell，就为1，其他类别的或者背景的grid cell到这里只能挨一巴掌，所以就是0。

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
【目标检测数据集】卡车数据集1073张VOC+YOLO格式熬夜写代码的平头哥∰ 目标检测 YOLO 人工智能
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：1073标注数量(xml文件个数)：1073标注数量(txt文件个数)：1073标注类别数：1标注类别名称:["truck"]每个类别标注的框数：truck框数=1120总框数：1120使用标注工具：labelImg标注
番茄西红柿叶子病害分类数据集12882张11类别 futureflsl 数据集分类数据挖掘人工智能
数据集类型：图像分类用，不可用于目标检测无标注文件数据集格式：仅仅包含jpg图片，每个类别文件夹下面存放着对应图片图片数量(jpg文件个数)：12882分类类别数：11类别名称:["Bacterial_Spot_Bacteria","Early_Blight_Fungus","Healthy","Late_Blight_Water_Mold","Leaf_Mold_Fungus","Powdery
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
[数据集][目标检测]汽车头部尾部检测数据集VOC+YOLO格式5319张3类别 FL1623863129 数据集目标检测汽车 YOLO
数据集制作单位：未来自主研究中心(FIRC)版权单位：未来自主研究中心(FIRC)版权声明：数据集仅仅供个人使用，不得在未授权情况下挂淘宝、咸鱼等交易网站公开售卖,由此引发的法律责任需自行承担数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：5319标注数量(xml文件
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
计算机视觉中，Pooling的作用 Wils0nEdwards 计算机视觉人工智能
在计算机视觉中，Pooling（池化）是一种常见的操作，主要用于卷积神经网络（CNN）中。它通过对特征图进行下采样，减少数据的空间维度，同时保留重要的特征信息。Pooling的作用可以归纳为以下几个方面：1.降低计算复杂度与内存需求Pooling操作通过对特征图进行下采样，减少了特征图的空间分辨率（例如，高度和宽度）。这意味着网络需要处理的数据量会减少，从而降低了计算量和内存需求。这对大型神经网络
OpenCV图像处理技术（Python）——入门森屿_ opencv
©FuXianjun.AllRightsReserved.OpenCV入门图像作为人类感知世界的视觉基础，是人类获取信息、表达信息的重要手段，OpenCV作为一个开源的计算机视觉库，它包括几百个易用的图像成像和视觉函数，既可以用于学术研究，也可用于工业邻域，它于1999年由因特尔的GaryBradski启动，OpenCV库主要由C和C++语言编写，它可以在多个操作系统上运行。1.1图像处理基本操作
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
【深度学习】训练过程中一个OOM的问题，太难查了 weixin_40293999 深度学习深度学习人工智能
现象：各位大佬又遇到过ubuntu的这个问题么？现象是在训练过程中，ssh上不去了，能ping通，没死机，但是ubunutu的pc侧的显示器，鼠标啥都不好用了。只能重启。问题原因：OOM了95G，尼玛！！！！pytorch爆内存了，然后journald假死了，在journald被watchdog干掉之后，系统就崩溃了。这种规模的爆内存一般，即使被oomkill了，也要卡半天的，确实会这样，能不能配
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
深度学习-13-小语言模型之SmolLM的使用皮皮冰燃深度学习深度学习
文章附录1SmolLM概述1.1SmolLM简介1.2下载模型2运行2.1在CPU/GPU/多GPU上运行模型2.2使用torch.bfloat162.3通过位和字节的量化版本3应用示例4问题及解决4.1attention_mask和pad_token_id报错4.2max_new_tokens=205参考附录1SmolLM概述1.1SmolLM简介SmolLM是一系列尖端小型语言模型，提供三种规
基于深度学习的农作物病害检测 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的农作物病害检测利用卷积神经网络（CNN）、生成对抗网络（GAN）、Transformer等深度学习技术，自动识别和分类农作物的病害，帮助农业工作者提高作物管理效率、减少损失。1.农作物病害检测的挑战病害种类繁多：农作物病害的类型多样，不同病害在同一作物上的表现差异很大，同时同一种病害在不同生长阶段的症状也可能不同。环境影响：天气、光照、湿度等外部环境因素会影响农作物的表现，使得病害检
基于深度学习的文本引导的图像编辑 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的文本引导的图像编辑（Text-GuidedImageEditing）是一种通过自然语言文本指令对图像进行编辑或修改的技术。它结合了图像生成和自然语言处理（NLP）的最新进展，使用户能够通过描述性文本对图像内容进行精确的调整和操控。1.文本引导的图像编辑的挑战文本和图像之间的对齐：如何将文本中的语义信息准确地映射到图像中的特定区域或元素是一个关键挑战。这涉及到多模态数据的对齐和理解。编
深度学习--对抗生成网络（GAN, Generative Adversarial Network） Ambition_LAO 深度学习生成对抗网络
对抗生成网络（GAN,GenerativeAdversarialNetwork）是一种深度学习模型，由IanGoodfellow等人在2014年提出。GAN主要用于生成数据，通过两个神经网络相互对抗，来生成以假乱真的新数据。以下是对GAN的详细阐述，包括其概念、作用、核心要点、实现过程、代码实现和适用场景。1.概念GAN由两个神经网络组成：生成器（Generator）和判别器（Discrimina
深度学习：怎么看pth文件的参数奥利给少年深度学习人工智能
.pth文件是PyTorch模型的权重文件，它通常包含了训练好的模型的参数。要查看或使用这个文件，你可以按照以下步骤操作：1.确保你有模型的定义你需要有创建这个.pth文件时所用的模型的代码。这意味着你需要有模型的类定义和架构。2.加载模型权重使用PyTorch的load_state_dict方法来加载权重。这里是如何操作的：importtorchimporttorch.nnasnn#定义模型结构
chatgpt赋能python：如何在Python中安装Keras库？ turensu ChatGpt python chatgpt keras 计算机
如何在Python中安装Keras库？Keras是一个简单易用的神经网络库，由FrançoisChollet编写。它在Python编程语言中实现了深度学习的功能，可以使您更轻松地构建和试验不同类型的神经网络。如果您是一名Python开发人员，肯定会想知道如何在您的Python项目中安装Keras库。在本文中，我们将向您展示如何安装和配置Keras库。步骤1：安装Python要使用Keras库，您需
如何理解深度学习的训练过程奋斗的草莓熊深度学习人工智能 python scikit-learn virtualenv numpy pandas
文章目录1.训练是干什么？2.预训练模型进行训练，主要更改的是预训练模型的什么东西？1.训练是干什么？以yolov5为例子，训练的目的是把一组输入猫狗图像放到神经网络中，得到一个输出模型，这个模型下次可以直接用来识别哪个是猫，哪个是狗2.预训练模型进行训练，主要更改的是预训练模型的什么东西？超参数（Hyperparameters）：这是模型结构中定义的参数，比如：卷积核大小（kernel_size
Keras深度学习框架入门及实战指南司莹嫣Maude
Keras深度学习框架入门及实战指南keraskeras-team/keras:是一个基于Python的深度学习库，它没有使用数据库。适合用于深度学习任务的开发和实现，特别是对于需要使用Python深度学习库的场景。特点是深度学习库、Python、无数据库。项目地址:https://gitcode.com/gh_mirrors/ke/keras一、项目介绍Keras简介Keras是一款高级神经网络
深度学习驱动的车牌识别：技术演进与未来挑战逼子歌深度学习车牌识别神经网络字符识别 YOLO 卷积神经网络
一、引言1.1研究背景在当今社会，智能交通系统的发展日益重要，而车牌识别作为其关键组成部分，发挥着至关重要的作用。车牌识别技术广泛应用于交通管理、停车场管理、安防监控等领域。在交通管理中，它可以用于车辆识别、交通违法监控和车流统计等，提高交通管理的效率和准确性。在停车场管理中，实现车辆的自动识别和收费，提升管理和服务水平。在安防监控领域，可用于追踪嫌疑人及犯罪行为。深度学习的出现为车牌识别带来了重
jsonp 常用util方法 hw1287789687 jsonp jsonp常用方法 jsonp callback
jsonp 常用java方法 (1)以jsonp的形式返回:函数名(json字符串) /*** * 用于jsonp调用 * @param map : 用于构造json数据 * @param callback : 回调的javascript方法名 * @param filters : <code>SimpleBeanPropertyFilter theFilt
多线程场景 alafqq 多线程
0 能不能简单描述一下你在java web开发中需要用到多线程编程的场景？0 对多线程有些了解，但是不太清楚具体的应用场景，能简单说一下你遇到的多线程编程的场景吗？ Java多线程 2012年11月23日 15:41 Young9007 Young9007 4 0 0 4 Comment添加评论关注(2) 3个答案按时间排序按投票排序 0 0 最典型的如： 1、
Maven学习——修改Maven的本地仓库路径 Kai_Ge maven
安装Maven后我们会在用户目录下发现.m2 文件夹。默认情况下，该文件夹下放置了Maven本地仓库.m2/repository。所有的Maven构件(artifact)都被存储到该仓库中，以方便重用。但是windows用户的操作系统都安装在C盘，把Maven仓库放到C盘是很危险的，为此我们需要修改Maven的本地仓库路径。
placeholder的浏览器兼容 120153216 placeholder
【前言】自从html5引入placeholder后，问题就来了，不支持html5的浏览器也先有这样的效果，各种兼容，之前考虑，今天测试人员逮住不放，想了个解决办法，看样子还行，记录一下。【原理】不使用placeholder，而是模拟placeholder的效果，大概就是用focus和focusout效果。【代码】 <scrip
debian_用iso文件创建本地apt源 2002wmj Debian
1.将N个debian-506-amd64-DVD-N.iso存放于本地或其他媒介内，本例是放在本机/iso/目录下 2.创建N个挂载点目录如下： debian:~#mkdir –r /media/dvd1 debian:~#mkdir –r /media/dvd2 debian:~#mkdir –r /media/dvd3 …. debian:~#mkdir –r /media
SQLSERVER耗时最长的SQL 357029540 SQL Server
对于DBA来说，经常要知道存储过程的某些信息： 1. 执行了多少次 2. 执行的执行计划如何 3. 执行的平均读写如何 4. 执行平均需要多少时间列名 &
com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 7454103 eclipse
今天eclipse突然报了com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 错误，并且工程文件打不开了，在网上找了一下资料，然后按照方法操作了一遍，好了，解决方法如下：错误提示信息： An error has occurred.See error log for more details. Reason: com/genuitec/
用正则删除文本中的html标签 adminjun java html 正则表达式去掉html标签
使用文本编辑器录入文章存入数据中的文本是HTML标签格式，由于业务需要对HTML标签进行去除只保留纯净的文本内容，于是乎Java实现自动过滤。如下： public static String Html2Text(String inputString) { String htmlStr = inputString; // 含html标签的字符串 String textSt
嵌入式系统设计中常用总线和接口 aijuans linux 基础
嵌入式系统设计中常用总线和接口任何一个微处理器都要与一定数量的部件和外围设备连接，但如果将各部件和每一种外围设备都分别用一组线路与CPU直接连接，那么连线
Java函数调用方式——按值传递 ayaoxinchao java 按值传递对象基础数据类型
Java使用按值传递的函数调用方式，这往往使我感到迷惑。因为在基础数据类型和对象的传递上，我就会纠结于到底是按值传递，还是按引用传递。其实经过学习，Java在任何地方，都一直发挥着按值传递的本色。首先，让我们看一看基础数据类型是如何按值传递的。 public static void main(String[] args) { int a = 2;
ios音量线性下降 bewithme ios音量
直接上代码吧 //second 几秒内下降为0 - (void)reduceVolume:(int)second { KGVoicePlayer *player = [KGVoicePlayer defaultPlayer]; if (!_flag) { _tempVolume = player.volume;
与其怨它不如爱它 bijian1013 选择理想职业规划
抱怨工作是年轻人的常态，但爱工作才是积极的心态，与其怨它不如爱它。一般来说，在公司干了一两年后，不少年轻人容易产生怨言，除了具体的埋怨公司“扭门”，埋怨上司无能以外，也有许多人是因为根本不爱自已的那份工作，工作完全成了谋生的手段，跟自已的性格、专业、爱好都相差甚远。
一边时间不够用一边浪费时间 bingyingao 工作时间浪费
一方面感觉时间严重不够用，另一方面又在不停的浪费时间。每一个周末，晚上熬夜看电影到凌晨一点，早上起不来一直睡到10点钟，10点钟起床，吃饭后玩手机到下午一点。精神还是很差，下午像一直野鬼在城市里晃荡。为何不尝试晚上10点钟就睡，早上7点就起，时间完全是一样的，把看电影的时间换到早上，精神好，气色好，一天好状态。控制让自己周末早睡早起，你就成功了一半。有多少个工作
【Scala八】Scala核心二：隐式转换 bit1129 scala
Implicits work like this: if you call a method on a Scala object, and the Scala compiler does not see a definition for that method in the class definition for that object, the compiler will try to con
sudoku slover in Haskell (2) bookjovi haskell sudoku
继续精简haskell版的sudoku程序，稍微改了一下，这次用了8行，同时性能也提高了很多，对每个空格的所有解不是通过尝试算出来的，而是直接得出。 board = [0,3,4,1,7,0,5,0,0, 0,6,0,0,0,8,3,0,1, 7,0,0,3,0,0,0,0,6, 5,0,0,6,4,0,8,0,7,
Java-Collections Framework学习与总结-HashSet和LinkedHashSet BrokenDreams linkedhashset
本篇总结一下两个常用的集合类HashSet和LinkedHashSet。它们都实现了相同接口java.util.Set。Set表示一种元素无序且不可重复的集合；之前总结过的java.util.List表示一种元素可重复且有序
读《研磨设计模式》-代码笔记-备忘录模式-Memento bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; /* * 备忘录模式的功能是，在不破坏封装性的前提下，捕获一个对象的内部状态，并在对象之外保存这个状态，为以后的状态恢复作“备忘”
《RAW格式照片处理专业技法》笔记 cherishLC PS
注意，这不是教程！仅记录楼主之前不太了解的一、色彩（空间）管理作者建议采用ProRGB（色域最广），但camera raw中设为ProRGB，而PS中则在ProRGB的基础上，将gamma值设为了1.8（更符合人眼）注意：bridge、camera raw怎么设置显示、输出的颜色都是正确的（会读取文件内的颜色配置文件），但用PS输出jpg文件时，必须先用Edit->conv
使用 Git 下载 Spring 源码编译 for Eclipse crabdave eclipse
使用 Git 下载 Spring 源码编译 for Eclipse 1、安装gradle，下载 http://www.gradle.org/downloads 配置环境变量GRADLE_HOME，配置PATH %GRADLE_HOME%/bin，cmd，gradle -v 2、spring4 用jdk8 下载 https://jdk8.java.
mysql连接拒绝问题 daizj mysql 登录权限
mysql中在其它机器连接mysql服务器时报错问题汇总一、[running][email protected]:~$mysql -uroot -h 192.168.9.108 -p //带-p参数，在下一步进行密码输入 Enter password: //无字符串输入 ERROR 1045 (28000): Access
Google Chrome 为何打压 H.264 dsjt apple html5 chrome Google
Google 今天在 Chromium 官方博客宣布由于 H.264 编解码器并非开放标准，Chrome 将在几个月后正式停止对 H.264 视频解码的支持，全面采用开放的 WebM 和 Theora 格式。 Google 在博客上表示，自从 WebM 视频编解码器推出以后，在性能、厂商支持以及独立性方面已经取得了很大的进步，为了与 Chromium 现有支持的編解码器保持一致，Chrome
yii 获取控制器名和方法名 dcj3sjt126com yii framework
1. 获取控制器名在控制器中获取控制器名: $name = $this->getId(); 在视图中获取控制器名: $name = Yii::app()->controller->id; 2. 获取动作名在控制器beforeAction()回调函数中获取动作名: $name =
Android知识总结（二） come_for_dream android
明天要考试了，速速总结如下 1、Activity的启动模式 standard：每次调用Activity的时候都创建一个（可以有多个相同的实例，也允许多个相同Activity叠加。） singleTop：可以有多个实例，但是不允许多个相同Activity叠加。即，如果Ac
高洛峰收徒第二期：寻找未来的“技术大牛” ——折腾一年，奖励20万元 gcq511120594 工作项目管理
高洛峰，兄弟连IT教育合伙人、猿代码创始人、PHP培训第一人、《细说PHP》作者、软件开发工程师、《IT峰播》主创人、PHP讲师的鼻祖！首期现在的进程刚刚过半，徒弟们真的很棒，人品都没的说，团结互助，学习刻苦，工作认真积极，灵活上进。我几乎会把他们全部留下来，现在已有一多半安排了实际的工作，并取得了很好的成绩。等他们出徒之日，凭他们的能力一定能够拿到高薪，而且我还承诺过一个徒弟，当他拿到大学毕
linux expect heipark expect
1. 创建、编辑文件go.sh #!/usr/bin/expect spawn sudo su admin expect "*password*" { send "13456\r\n" } interact 2. 设置权限 chmod u+x go.sh 3.
Spring4.1新特性——静态资源处理增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
idea ubuntuxia 乱码 liyonghui160com
1.首先需要在windows字体目录下或者其它地方找到simsun.ttf 这个字体文件。 2.在ubuntu 下可以执行下面操作安装该字体： sudo mkdir /usr/share/fonts/truetype/simsun sudo cp simsun.ttf /usr/share/fonts/truetype/simsun fc-cache -f -v
改良程序的11技巧 pda158 技巧
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短永远永远不要把同一个变量用于多个不同的
300个涵盖IT各方面的免费资源（下）——工作与学习篇 shoothao 创业免费资源学习课程远程工作
工作与生产效率: A. 背景声音 Noisli:背景噪音与颜色生成器。 Noizio:环境声均衡器。 Defonic:世界上任何的声响都可混合成美丽的旋律。 Designers.mx:设计者为设计者所准备的播放列表。 Coffitivity:这里的声音就像咖啡馆里放的一样。 B. 避免注意力分散 Self Co
深入浅出RPC uule rpc
深入浅出RPC-浅出篇深入浅出RPC-深入篇 RPC Remote Procedure Call Protocol 远程过程调用协议它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在，如TCP或UDP，为通信程序之间携带信息数据。在OSI网络通信模型中，RPC跨越了传输层和应用层。RPC使得开发