lavendelion

经典论文解析——YOLOv1——目标检测

YOLOv1,you only look once

1. 网络简介
2. 网络设计思路
3. 网络结构
4. 网络训练和检测的技巧
5. 网络的优缺点

其实经典的CNN如AlexNet,VGG,GoogLeNet和ResNet部分的搭建和训练都已经完成了，但是还是想之后结合论文再一起介绍，所以这次先来个比较有难度的任务，目标检测YOLOv1网络的实现。要自己动手实现网络，第一步当然是阅读论文，论文阅读是能让你最快了解某个网络框架思路的方式，遇到论文中不太懂的或文中解释比较简单的内容，可以借助google或baidu来加深理解。不得不说，YOLOv1的论文写的实在太简略了，以致于你单看论文容易理解，但是自己实现的时候会发现很多细节隐藏在论文的各个角落，真的是论文里每一句话都是一个细节。另外，要想复现网络，参考源代码是必不可少的，源码虽然不如论文那么直观，但是阅读一遍源码和阅读论文相比，前者对网络的理解帮助是非常显著的。源码的传送门
这类文献阅读的博客，我不会简单的把论文翻译一遍，其实这样除了锻炼英语翻译能力以外，意义也不大。我就按自己对文章的理解，将论文里的重点提出来然后归纳一下，如果对某些部分不太理解的读者，可以参阅论文原文“You Only Look Once: Unified, Real-Time Object Detection"

1. 网络简介

YOLO网络名称就很直观，“you only look once”，这句话是相对于RCNN和传统计算机视觉算法中，针对目标检测问题的共同特点，即都包含一个先验的目标区域划定的步骤，在RCNN中就是Resion proposal。其实也正常，要解决目标检测问题，最直观的想法当然就是在图片中框出n个框(或者使用滑窗法)，然后对每个框进行检测，是不是包含物体？包含什么类别的物体？然后再根据物体的真实框对预测得出的框进行调整。这样，就相当于你需要将一张图像分割成多张子图像，然后对每张子图像进行单独处理。
而YOLO不一样，它是一次性就把一张图片输入网络，然后得到预测结果，预测结果中就包含所有该网络对目标的预测信息(包含目标框信息(bounding box,下文用bbox简称)和目标类别信息)，只需要从中选择合适的，去除多余无效的信息即可。所以它相当于只看了图像一次就处理出了结果。
论文引言中主要介绍了YOLO的三个特点：
1).快，飞一般的快
YOLO网络的设计初衷就是希望目标检测任务可以在类似自动驾驶等领域应用，那么就需要很好的实时性。而YOLO由于没有过多的额外处理，没有使用滑窗法产生大量的待定框，因此网络在inference的时候相比于RCNN等方式效率非常高。
2).视野更广
YOLO网络由于直接对全图进行处理，所以网络提取的信息是具有全局性的，而滑窗法等方式，其信息只能局限于对应的窗口。所以，论文中提到，YOLO的背景检测误差相比于Fast RCNN网络来说，减少了一半以上。
3).泛化能力更强
论文中提到，YOLO网络学习了目标的泛化特征，也就是网络对于图中什么东西可能是目标物体(而不管类别)是有一定理解的。因此，在输入训练集中不存在的物体或者是艺术图像时，其效果要比RCNN更好。但是此处我感觉，只是相对于其他网络来说要更好，但是实际上泛化能力还是不够强，这一点在YOLOv2版本中就有很大的改善，体现出YOLO网络思路的泛化潜力是很强的。

2. 网络设计思路

YOLOv1的网络思路大致如下：

首先，利用经典的图像分类网络思路，进行图像的特征提取；
然后，将提取到的特征再进行训练，得到一组网络的输出结果；
训练时，将最终结果和样本标签进行加工，然后计算loss值，再进行梯度更新；
inference时，直接根据网络得到的最终结果，经过NMS等算法选出符合条件的bbox，即最终结果。

上述思路流程看似很简单，但是其中有三个关键问题，作者针对这些问题做了大量的工作：
1).网络的输出结果到底代表了什么？(组成结构？)

论文里提到，YOLOv1的网络将图像划分为 $S \times S$ 个网格(如上最左图，论文中设定 $S = 7$ )，每个网格都会预测 $B$ 个预测框(bounding box，如上面的中上图，论文中设定 $B = 2$ ，即每个网格都预测两个bbox，共有 $7 \times 7 \times 2 = 98$ 个网格)，并且每个网格都会得到 $C$ 个类别的条件概率，且设定一个网格最终只预测一个类别(如上面的中下图，每种颜色代表每个网格预测的一个类别，YOLOv1主要使用VOC数据集，因此 $C = 20$ )。
其实这几句话就已经表明了网络的输出结果，只是需要稍微再说的详细一些。
我们假设，网络的输出结果是维度尺寸为 $S \times S \times (B \times 5 + C) = 7 \times 7 \times 30$ 的矩阵：

为什么论文说YOLOv1将原图像划分为 $7 \times 7$ 的网格？其实是因为他们的网络最终输出的结果是 $7\times7$ 的feature map，相比于原图像 $448\times448$ 的尺寸，最终的feature map上每个 $1\times1$ 像素点相当于对应原图像 $64\times64$ 的网格，所以说原图像被划分为 $7\times7$ 的网格。
$7\times7$ 的每个网格，都包含30个通道( $7\times7\times30$ )，前10个通道分别对应 $B\times5$ ，也就是2个bounding box的信息，每个bounding box都有5个信息表示，分别是 $(p x, p y, w, h, c o n f i d e n c e)$ ，前四个是表示bounding box的位置信息，具体说明见下图所示，其中 $x_c,y_c$ 是预测框的中心坐标， $x_g,y_g$ 是预测框中心点所在网格(图中红色网格)的左上角点的坐标，gridsize是网格大小， $w_b,h_b$ 是预测框的宽和高以及 H,W分别是图像的高和宽。计算关系如下：

I). px,py：预测框的中心落在某个网格(gridcell)中，px,py是该中心点坐标在这个网格中的相对位置，值域为0~1
$px=\frac{x_c-x_g}{gridsize}\quad py=\frac{y_c-y_g}{gridsize}$
II). w,b：标准化后的预测框的宽和高，值域为0~1
$\frac{w_b}{W} \quad h = \frac{h_b}{H}$
III). confidence：作者将其设置为置信度，用来表示当前bbox可能存在目标物体(不分类别)的概率与目标物体的真实bbox(也称为ground truth)的IOU的乘积
$Pr(Object)\times IOU_{pred}^{truth}$

这样，每个bbox就有5个信息，2个bbox就对应需要10个通道的信息来表示。

剩下的20个通道，就和图像分类任务的softmax层输出的含义一样，就是代表20个预测类别的概率，用 $c_i(i=0,1,...,19)$ 来表示。

通过上述说明，就可以清楚的知道YOLO网络的输出到底是什么了，其实就是 $7\times7\times30$ 的数据，每个 $1\times1\times30$ 的数据都代表1个网格预测的2个bounding box的信息，每个网格只预测一个物体类别。另外需要说明的是，实际上YOLO网络最终的输出层是全连接层，所以输出的数据其实是 $7\times7\times30=1470$ 的一维数据，而不是那么立体的三维数据，不过其实对输出数据reshape一下就可以了。
再稍微提一下，为什么设计的bbox位置信息那么麻烦，不直接使用bbox左上角点的位置和右下角点的位置，或者直接使用预测框中心坐标 $x_c,y_c$ 和对应的宽高w,h呢？理由很简单，一切都是为了降低训练难度！首先，有CNN卷积网络的基础的读者都知道，将数据标准化后再进行训练，训练效果是会好很多的。这里就对bbox的 $w_b,h_b$ 进行了标准化。而bbox中心坐标 $x_c,y_c$ 的处理其实也是一种标准化，把中心坐标转变为网格内部的相对位置坐标。使用这种标准化比将bbox中心坐标转变为相对整张图像位置的相对位置坐标效果更好，因为作者希望的是每个网格只负责寻找中心落在当前网格内的bbox，而不是希望每个网格都寻找全局范围内的bbox。可见，这样对于网络训练来说，降低了每个网格预测任务的难度，那么网络训练起来应该也更容易收敛。

2).在计算loss前，要对训练样本的标签做什么处理？
其实上文说到的 $7\times7\times30$ 的输出数据，每个数据代表什么含义，都是人为自己定义的，也就是说，是作者希望图片输入到YOLO网络中，输出的1470维数据代表的上述含义。深度学习的训练其实是对网络的一个引导过程，所以，想要网络按你所想的产生输出，就需要设计好对应的标签(label)，来引导网络，这也是对网络训练的目的。
YOLOv1使用的主要数据集是VOC2012，该数据集只提供了每张图片的名称及图片中标注出来的真实bounding box的信息(cls,x,y,w,h)，表示该bbox的物体类别，中心位置x,y(绝对坐标，即图中像素坐标)，以及bbox的宽和高。每张图片标注的bbox数量不定，假设为n，那么每张图片的标签数据就是 $n\times5$ 的维度，要怎么将这个标签数据转换为 $7\times7\times30$ 的YOLO标签的数据格式呢?其实理解了网络输出数据的结构就很清楚了，步骤如下：

初始化一个全零的 $7\times7\times30$ 矩阵M，对每个bbox的5个信息做如下操作：
- 通过 $floor(\frac{x}{W\times gridsize}),floor(\frac{y}{H\times gridsize})$ 计算出bbox中心位置所在的网格位置 $(i, j)$ ，其中floor是向下取整函数。
- 将bbox的 $x_c,y_c,w_b,h_b)$ 数据标准化为 $(p x, p y, w, h)$ 数据
- 将 $M (i, j, 0 : 10)$ 的前10个通道设置为 $(p x, p y, w, h, 1, p x, p y, w, h, 1)$ ，也就是此处置信度都置为1，因为此时还不知道预测框的位置信息，所以没法计算IOU，之后在计算loss的时候，根据预测框的信息可以计算出IOU后，再将IOU数值乘以该处的置信度即可得到标签的置信度。
- 将 $M (i, j, 10 : 30)$ 的后20个通道中，与类别cls对应的下标序号的 $c_{cls}=1$ ，其余的 $c_i=0$ (不需要改变)。
重复上述操作，将图中每个bbox信息都填入矩阵M中，即可得到当前图片对应的YOLO训练标签的格式。

3).损失函数是如何设计的？

YOLO的损失函数是它最有特点，也是看论文最不容易理解的部分(因为解释的太少了又没有案例)，所以推荐结合论文和源码的loss函数一起看，比较容易懂。当然，我这里也是会进行解释的。
首先，损失函数如上图所示，粗略看下来好像就是简单的MSEloss函数，其实事实也是这样，只是其中包含很多小细节。YOLO的损失函数是分为四部分的：

bbox的定位误差：也就是图中的前面两行，可以看到，按本文的变量描述，简单来说其实就是
$(px-\hat{px})^2+(py-\hat{py})^2+(\sqrt{w}-\sqrt{\hat{w}})^2+(\sqrt{h}-\sqrt{\hat{h}})^2$
但是，其中有几个细节需要说明，假设网络输出的预测数据为 $pred_{7\times7\times30}$ ，对应样本标签为 $label_{7\times7\times30}$ ：
- 第一，bbox的宽和高都开了根号再进行MSEloss计算，原因是因为YOLO网络训练下来发现对小目标的检测效果不太好，所以作者将bbox的宽和高开了根号，因为 $w,h\in(0,1)$ ，所以根号后数值都变大了，也就相当于提高了w,h的损失权值，且w,h越小的bbox，它对损失值的贡献权值就更大；
- 第二，论文中的 $1_{ij}^{obj}$ 是啥意思？它表示第i个网格的第j个bbox是负责预测物体的。这么说还是不够清晰。其实就是当ground truth提供的bbox的中心落在网格 $i_x,i_y)$ 上(即 $label[i_x,i_y,4]=1$ )，且该网格预测的两个bbox(即 $pred[i_x,i_y,0:4]和pred[i_x,i_y,5:9]$ 与ground truth的bbox(即 $label[i_x,i_y,0:4]$ )分别计算IOU，得到iou1,iou2，取其大者(我们只希望一个网格中只有一个bbox是负责预测物体的)。此时，iou较大的bbox对应的 $1_{ij}^{obj}=1$ ，不满足上述条件的网格的bbox，它们对应的 $1_{ij}^{obj}=0$ 。说白了，如果样本标签提供了多少个真实bbox，那么该样本的网络输出只有同样数量的bbox会进行bbox的定位误差计算，这些bbox就是真实bbox中心所在的网格中，预测的2个bbox中，与真实bbox的iou更大的那个bbox，会产生bbox定位误差的损失。
- 第三，论文中的 $\lambda_{coord}$ 是用来调整各部分损失权重的系数。通过第二点的分析可知，其实网络预测的98个bbox中，只有少数几个会产生bbox的定位误差，而其他所有的bbox都是产生另一部分的误差，如果不调整损失权重的话，很可能导致网络对bbox的位置信息预测效果很差。所以，作者设置 $\lambda_{coord}=5$ 。
负责预测物体的bbox置信度误差：也就是图中的第三行，就是置信度的MSEloss。其中 $1_{ij}^{obj}$ 含义和上面相同。另外，根据上文样本标签处理的说明可知，这里应当计算满足 $1_{ij}^{obj}=1$ 的bbox与真实bbox的 $IOU_{ij}$ ，然后将标签的置信度设置为 $\hat{C_i}=IOU_{ij}$ ，再进行损失计算。
不负责预测物体的bbox误差：也就是图中第四行，其中 $1_{ij}^{noobj}=1-1_{ij}^{obj}$ ，也就是不负责预测物体的bbox，只计算其置信度误差，这里每个bbox对应的标签的置信度如下：
$\hat{C_i}=\begin{cases}0,\quad该bbox所在的网格不包含ground truth的bbox的中心\\ IOU_{pred}^{truth},\quad该bbox所在的网格包含ground truth的bbox的中心\end{cases}$
上文提到了，包含ground truth的bbox中心的网格，会预测出2个bbox，其中一个 $1_{ij}^{obj}=1$ 负责预测物体边框，另一个则被淘汰不负责预测物体边框，但是它的置信度误差的计算和那些不包含ground truth的bbox中心的网格对应的bbox是有所不同的。另外，需要注意，不负责预测物体的bbox是占大多数的，所以它的损失权重要调低，作者设置 $\lambda_{noobj}=0.5$ 。
网格预测的物体分类误差：也就是图中最后一行，其中 $1_{i}^{obj}$ 的含义和 $1_{ij}^{obj}$ 几乎一样。只是每个网格只预测一个物体类别，所以只要网格包含ground truth的bbox中心，那么该网格就要计算对应的分类误差。这里分类误差简单地使用MSEloss来处理，而不是像常规的分类问题那样使用交叉熵损失函数来处理。

3. 网络结构

在第二节我们说到，YOLOv1的网络设计是分为两部分，一部分用于图片的特征提取(feature extraction)，另一部分是用来完成目标检测的任务。YOLOv1的特征提取部分是基于VGG网络，上图就是论文中展示的完整网络结构，总共有24个卷积层和2个全连接层。其中，前20个卷积层用于图像的特征提取，后4个卷积层+2个全连接层用于目标检测。可以看到，其中也有利用 $1\times1$ 卷积层进行通道整合和降维减少参数的操作。除了最后一层全连接层外，其他层都是用leaky ReLU激活函数进行激活，它和ReLU函数很像，只是负数部分的激活函数也具有一个很小的斜率，而不是为0。
另外，需要说明的是，最后一个卷积层的输出，图中显示的是 $7\times7\times30$ 的数据结构，其实这是reshape之后的结果，也就是说，最后一个卷积层其实是输入通道为4096，输出通道为1470的线性全连接层，然后将1470个输出reshape成 $7\times7\times30$ 即可。
最后提一句，作者当时设计YOLOv1的时候，BN层还不是标配，所以作者没有用上，当时ResNet也还没出来。所以在第4章内容中可以看到，作者为了能让上述网络训练起来是花了很大心思的。但经过测试发现，增加BN层，并在最后的全连接层后面将输出全部经过Sigmoid激活一下(因为网络的输出其实值域都是0~1，用sigmoid激活一下可以保证网络输出都是0-1的数值，而不会出现负数)，很容易就可以训练起来了。

4. 网络训练和检测的技巧

1).网络训练

YOLOv1网络分段训练：作者先将前20层卷积层拿出来，后面连接一个池化层和全连接层，用该网络在ImageNet数据集上进行图像分类任务的训练，训练了一周左右。目的是为了让YOLO网络的前20层具备很好的特征提取能力。然后将预训练好的20层网络的参数导入YOLOv1网络中，再使用VOC2007和VOC2012数据集进行完整网络的目标检测训练。
数据增广及防止过拟合：在两个全连接层之间采用p=0.5的dropout层防止过拟合。数据增广：1).使用±20%的图像缩放和平移；2).在0.5~1.5的比例之间随机调整图像的饱和度；做数据增广的时候要注意，如果图像发生了位置变换(如平移等)，注意要对应调整样本标签的bbox信息。
训练参数调整：作者目标检测的任务训练了135个epoch，batch_size=64，momentum=0.9，decay=0.0005。学习率(learning rate)是动态的，起始先用0.001，然后在第一个epoch训练的过程中慢慢提升到0.01，这么做是因为网络训练如果一开始学习率太大很容易发散。之后，就稳定的使用0.01训练75个epoch，然后用0.001训练30个epoch，最后用0.0001训练最后30个epoch。

2).网络预测(inference)
正如上文所述，由于YOLO只需要允许一个神经网络即可进行预测，因此YOLO的目标检测速度是非常快的。网络对一张图片进行预测，会得到一个 $7\times7\times30$ 的张量，包含98个bbox信息。在检测时，我们使用每个bbox的confidence信息，乘以该bbox所在网格的所有20个条件类别概率 $c_i$ ，论文将这两者的乘积叫做“class-specific confidence score"。该数值整合了某个bbox中存在物体的概率、该物体属于某个类别的概率以及该bbox与真实bbox之间的IOU(重合度)三种信息。
将98个bbox的位置信息取出来(4个)，并求出每个bbox对于所有类别的class-specific confidence score(20个)，就可以得到一个维度为(98,24)的数据，对这个数据进行筛选，去除class-specific confidence score太小的bbox(每个bbox只需要查看其最大的class-specific confidence score即可)，再进行非极大值抑制(NMS,non-maxinum suppression)算法，可以筛除重合度很高的框。
最后，98个bbox筛选后剩下的bbox，就是最终的结果，可以在图上绘制出来查看效果。

3).目标检测的评价指标
YOLOv1使用的是VOC数据集的评价指标，也就是mAP，这个指标还是比较复杂的，这里就不展开了。给大家推荐一个很好的github项目，那里面有很详细的指标介绍，还有他计算mAP的源码，有兴趣可以深入了解计算过程，没兴趣的读者可以直接使用他的代码计算mAP，前提是要知道需要输入什么数据进他的API里。目标检测指标介绍github项目传送门

5. 网络的优缺点

具体和其他网络的对比就不详细展开了，论文里都有，包括实验数据集、实验所用的超参数、实验结果等等。这里就简述一下YOLO的优缺点。
优点：

最大的优点就是快。YOLO的出现让实时目标检测成为了可能，但是网络效率高的代价就是，其精度相对于目标检测顶尖的网络来说略有降低。但是相比于它的速度提升来说，这点精度降低不值一提。
网络结构很简单直观。YOLO网络看起来好像和普通的卷积神经网络没什么区别，实际上也没什么区别，所以网络结构就非常平易近人。不像RCNN有各种复杂的分支，每个分支还要用不同的算法做不同的事。但是YOLO网络的难点在于它在网络背后的设计思想，表明言简意赅，背后是大神满满的心血。

缺点：

YOLOv1网络有很强的空间约束性。因为每个网格只预测中心点在该网格内部的bbox，且每个网格其实最终只预测一个bbox和一个类别，所以如果有多个物体中心落在同一个网格里，那就网络预测效果就会很差。另外，由于最终的网格是 $7\times7$ 的，相比于输入图像 $448\times448$ 来说，其实是很小的尺度了，所以每个网格的感受野比较大，那么相对来说对大物体的检测就比较理想，而对小物体的检测就比较棘手。
网络训练时，使用的标签是训练集中包含的bbox信息，那么网络在预测和训练集中的bbox结构差别很大新目标框时，效果就会很差。比如说，训练集里全都是瘦高瘦高的bbox，那么网络就很难预测出矮胖的框。
最后，尽管损失函数已经花费很大心思进行了设计，但是还是存在一些不足之处。损失函数对待尺寸较大的bbox和尺寸较小的bbox是比较相同的。但是，大的bbox如果预测偏移一些，和小bbox预测偏移一些，对于iou的影响是完全不同的。所以损失的主要来源是bbox的定位误差。

YOLOv1的理论部分结束，接下来就是从零开始的代码复现过程，你准备好了吗？

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
【深度学习】训练过程中一个OOM的问题，太难查了 weixin_40293999 深度学习深度学习人工智能
现象：各位大佬又遇到过ubuntu的这个问题么？现象是在训练过程中，ssh上不去了，能ping通，没死机，但是ubunutu的pc侧的显示器，鼠标啥都不好用了。只能重启。问题原因：OOM了95G，尼玛！！！！pytorch爆内存了，然后journald假死了，在journald被watchdog干掉之后，系统就崩溃了。这种规模的爆内存一般，即使被oomkill了，也要卡半天的，确实会这样，能不能配
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
深度学习-13-小语言模型之SmolLM的使用皮皮冰燃深度学习深度学习
文章附录1SmolLM概述1.1SmolLM简介1.2下载模型2运行2.1在CPU/GPU/多GPU上运行模型2.2使用torch.bfloat162.3通过位和字节的量化版本3应用示例4问题及解决4.1attention_mask和pad_token_id报错4.2max_new_tokens=205参考附录1SmolLM概述1.1SmolLM简介SmolLM是一系列尖端小型语言模型，提供三种规
基于深度学习的农作物病害检测 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的农作物病害检测利用卷积神经网络（CNN）、生成对抗网络（GAN）、Transformer等深度学习技术，自动识别和分类农作物的病害，帮助农业工作者提高作物管理效率、减少损失。1.农作物病害检测的挑战病害种类繁多：农作物病害的类型多样，不同病害在同一作物上的表现差异很大，同时同一种病害在不同生长阶段的症状也可能不同。环境影响：天气、光照、湿度等外部环境因素会影响农作物的表现，使得病害检
基于深度学习的文本引导的图像编辑 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的文本引导的图像编辑（Text-GuidedImageEditing）是一种通过自然语言文本指令对图像进行编辑或修改的技术。它结合了图像生成和自然语言处理（NLP）的最新进展，使用户能够通过描述性文本对图像内容进行精确的调整和操控。1.文本引导的图像编辑的挑战文本和图像之间的对齐：如何将文本中的语义信息准确地映射到图像中的特定区域或元素是一个关键挑战。这涉及到多模态数据的对齐和理解。编
深度学习--对抗生成网络（GAN, Generative Adversarial Network） Ambition_LAO 深度学习生成对抗网络
对抗生成网络（GAN,GenerativeAdversarialNetwork）是一种深度学习模型，由IanGoodfellow等人在2014年提出。GAN主要用于生成数据，通过两个神经网络相互对抗，来生成以假乱真的新数据。以下是对GAN的详细阐述，包括其概念、作用、核心要点、实现过程、代码实现和适用场景。1.概念GAN由两个神经网络组成：生成器（Generator）和判别器（Discrimina
深度学习：怎么看pth文件的参数奥利给少年深度学习人工智能
.pth文件是PyTorch模型的权重文件，它通常包含了训练好的模型的参数。要查看或使用这个文件，你可以按照以下步骤操作：1.确保你有模型的定义你需要有创建这个.pth文件时所用的模型的代码。这意味着你需要有模型的类定义和架构。2.加载模型权重使用PyTorch的load_state_dict方法来加载权重。这里是如何操作的：importtorchimporttorch.nnasnn#定义模型结构
chatgpt赋能python：如何在Python中安装Keras库？ turensu ChatGpt python chatgpt keras 计算机
如何在Python中安装Keras库？Keras是一个简单易用的神经网络库，由FrançoisChollet编写。它在Python编程语言中实现了深度学习的功能，可以使您更轻松地构建和试验不同类型的神经网络。如果您是一名Python开发人员，肯定会想知道如何在您的Python项目中安装Keras库。在本文中，我们将向您展示如何安装和配置Keras库。步骤1：安装Python要使用Keras库，您需
如何理解深度学习的训练过程奋斗的草莓熊深度学习人工智能 python scikit-learn virtualenv numpy pandas
文章目录1.训练是干什么？2.预训练模型进行训练，主要更改的是预训练模型的什么东西？1.训练是干什么？以yolov5为例子，训练的目的是把一组输入猫狗图像放到神经网络中，得到一个输出模型，这个模型下次可以直接用来识别哪个是猫，哪个是狗2.预训练模型进行训练，主要更改的是预训练模型的什么东西？超参数（Hyperparameters）：这是模型结构中定义的参数，比如：卷积核大小（kernel_size
Keras深度学习框架入门及实战指南司莹嫣Maude
Keras深度学习框架入门及实战指南keraskeras-team/keras:是一个基于Python的深度学习库，它没有使用数据库。适合用于深度学习任务的开发和实现，特别是对于需要使用Python深度学习库的场景。特点是深度学习库、Python、无数据库。项目地址:https://gitcode.com/gh_mirrors/ke/keras一、项目介绍Keras简介Keras是一款高级神经网络
深度学习驱动的车牌识别：技术演进与未来挑战逼子歌深度学习车牌识别神经网络字符识别 YOLO 卷积神经网络
一、引言1.1研究背景在当今社会，智能交通系统的发展日益重要，而车牌识别作为其关键组成部分，发挥着至关重要的作用。车牌识别技术广泛应用于交通管理、停车场管理、安防监控等领域。在交通管理中，它可以用于车辆识别、交通违法监控和车流统计等，提高交通管理的效率和准确性。在停车场管理中，实现车辆的自动识别和收费，提升管理和服务水平。在安防监控领域，可用于追踪嫌疑人及犯罪行为。深度学习的出现为车牌识别带来了重
每天五分钟玩转深度学习PyTorch：模型参数优化器torch.optim 幻风_huanfeng 深度学习框架pytorch 深度学习 pytorch 人工智能神经网络机器学习优化算法
本文重点在机器学习或者深度学习中，我们需要通过修改参数使得损失函数最小化(或最大化)，优化算法就是一种调整模型参数更新的策略。在pytorch中定义了优化器optim，我们可以使用它调用封装好的优化算法，然后传递给它神经网络模型参数，就可以对模型进行优化。本文是学习第6步(优化器)，参考链接pytorch的学习路线随机梯度下降算法在深度学习和机器学习中，梯度下降算法是最常用的参数更新方法，它的公式
什么是AIGC？有哪些免费工具？ chent_某位 AIGC
AIGC（AIGeneratedContent），即“人工智能生成内容”，是指通过人工智能技术自动生成各种类型的数字内容。AIGC让机器能够根据输入的信息或数据生成符合人类需求的文本、图像、音频、视频等内容，极大提高了内容创作的效率。AIGC的背景与起源随着深度学习和自然语言处理技术的快速发展，人工智能已经不再局限于简单的任务，如分类、预测和数据分析，而是具备了生成内容的能力。生成式AI模型，如O
transformer架构(Transformer Architecture)原理与代码实战案例讲解 AI架构设计之禅大数据AI人工智能 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
transformer架构(TransformerArchitecture)原理与代码实战案例讲解关键词：Transformer,自注意力机制,编码器-解码器,预训练,微调,NLP,机器翻译作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来自然语言处理（NLP）领域的发展经历了从规则驱动到统计驱动再到深度学习驱动的三个阶段。
如何有效的学习AI大模型？ Python程序员罗宾学习人工智能语言模型自然语言处理架构
学习AI大模型是一个系统性的过程，涉及到多个学科的知识。以下是一些建议，帮助你更有效地学习AI大模型：基础知识储备：数学基础：学习线性代数、概率论、统计学和微积分等，这些是理解机器学习算法的数学基础。编程技能：掌握至少一种编程语言，如Python，因为大多数AI模型都是用Python实现的。理论学习：机器学习基础：了解监督学习、非监督学习、强化学习等基本概念。深度学习：学习神经网络的基本结构，如卷
【深度学习】【OnnxRuntime】【Python】模型转化、环境搭建以及模型部署的详细教程牙牙要健康深度学习 onnx onnxruntime 深度学习 python 人工智能
【深度学习】【OnnxRuntime】【Python】模型转化、环境搭建以及模型部署的详细教程提示:博主取舍了很多大佬的博文并亲测有效,分享笔记邀大家共同学习讨论文章目录【深度学习】【OnnxRuntime】【Python】模型转化、环境搭建以及模型部署的详细教程前言模型转换--pytorch转onnxWindows平台搭建依赖环境onnxruntime调用onnx模型ONNXRuntime推理核
基于深度学习的多模态信息检索 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的多模态信息检索（MultimodalInformationRetrieval,MMIR）是指利用深度学习技术，从包含多种模态（如文本、图像、视频、音频等）的数据集中检索出满足用户查询意图的相关信息。这种方法不仅可以处理单一模态的数据，还可以在多种模态之间建立关联，从而更准确地满足用户需求。1.多模态信息检索的挑战异构数据表示：多模态数据通常具有不同的特征和表示形式（如文本的词嵌入与图
Spring中@Value注解，需要注意的地方无量 spring bean @Value xml
Spring 3以后,支持@Value注解的方式获取properties文件中的配置值，简化了读取配置文件的复杂操作 1、在applicationContext.xml文件(或引用文件中)中配置properties文件 <bean id="appProperty" class="org.springframework.beans.fac
mongoDB 分片开窍的石头 mongodb
mongoDB的分片。要mongos查询数据时候先查询configsvr看数据在那台shard上，configsvr上边放的是metar信息，指的是那条数据在那个片上。由此可以看出mongo在做分片的时候咱们至少要有一个configsvr,和两个以上的shard（片）信息。第一步启动两台以上的mongo服务 &nb
OVER(PARTITION BY)函数用法 0624chenhong oracle
这篇写得很好，引自 http://www.cnblogs.com/lanzi/archive/2010/10/26/1861338.html OVER(PARTITION BY)函数用法 2010年10月26日 OVER(PARTITION BY)函数介绍开窗函数 &nb
Android开发中，ADB server didn't ACK 解决方法一炮送你回车库 Android开发
首先通知：凡是安装360、豌豆荚、腾讯管家的全部卸载，然后再尝试。一直没搞明白这个问题咋出现的，但今天看到一个方法，搞定了！原来是豌豆荚占用了 5037 端口导致。参见原文章：一个豌豆荚引发的血案——关于ADB server didn't ACK的问题简单来讲，首先将Windows任务进程中的豌豆荚干掉，如果还是不行，再继续按下列步骤排查。 &nb
canvas中的像素绘制问题换个号韩国红果果 JavaScript canvas
pixl的绘制，1.如果绘制点正处于相邻像素交叉线，绘制x像素的线宽，则从交叉线分别向前向后绘制x/2个像素，如果x/2是整数，则刚好填满x个像素，如果是小数，则先把整数格填满，再去绘制剩下的小数部分，绘制时，是将小数部分的颜色用来除以一个像素的宽度，颜色会变淡。所以要用整数坐标来画的话（即绘制点正处于相邻像素交叉线时），线宽必须是2的整数倍。否则会出现不饱满的像素。 2.如果绘制点为一个像素的
编码乱码问题灵静志远 java jvm jsp 编码
1、JVM中单个字符占用的字节长度跟编码方式有关，而默认编码方式又跟平台是一一对应的或说平台决定了默认字符编码方式；2、对于单个字符：ISO-8859-1单字节编码，GBK双字节编码，UTF-8三字节编码；因此中文平台(中文平台默认字符集编码GBK)下一个中文字符占2个字节，而英文平台(英文平台默认字符集编码Cp1252(类似于ISO-8859-1))。 3、getBytes()、getByte
java 求几个月后的日期 darkranger calendar getinstance
Date plandate = planDate.toDate(); SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd"); Calendar cal = Calendar.getInstance(); cal.setTime(plandate); // 取得三个月后时间 cal.add(Calendar.M
数据库设计的三大范式（通俗易懂） aijuans 数据库复习
关系数据库中的关系必须满足一定的要求。满足不同程度要求的为不同范式。数据库的设计范式是数据库设计所需要满足的规范。只有理解数据库的设计范式，才能设计出高效率、优雅的数据库，否则可能会设计出错误的数据库. 目前，主要有六种范式：第一范式、第二范式、第三范式、BC范式、第四范式和第五范式。满足最低要求的叫第一范式，简称1NF。在第一范式基础上进一步满足一些要求的为第二范式，简称2NF。其余依此类推。
想学工作流怎么入手 atongyeye jbpm
工作流在工作中变得越来越重要，很多朋友想学工作流却不知如何入手。很多朋友习惯性的这看一点，那了解一点，既不系统，也容易半途而废。好比学武功，最好的办法是有一本武功秘籍。研究明白，则犹如打通任督二脉。系统学习工作流，很重要的一本书《JBPM工作流开发指南》。本人苦苦学习两个月，基本上可以解决大部分流程问题。整理一下学习思路，有兴趣的朋友可以参考下。 1 首先要
Context和SQLiteOpenHelper创建数据库百合不是茶 android Context创建数据库
一直以为安卓数据库的创建就是使用SQLiteOpenHelper创建,但是最近在android的一本书上看到了Context也可以创建数据库,下面我们一起分析这两种方式创建数据库的方式和区别,重点在SQLiteOpenHelper 一:SQLiteOpenHelper创建数据库: 1,SQLi
浅谈group by和distinct bijian1013 oracle 数据库 group by distinct
group by和distinct只了去重意义一样，但是group by应用范围更广泛些，如分组汇总或者从聚合函数里筛选数据等。譬如：统计每id数并且只显示数大于3 select id ,count(id) from ta
vi opertion 征客丶 mac opration vi
进入 command mode （命令行模式）按 esc 键再按 shift + 冒号注：以下命令中带 $ 【在命令行模式下进行】，不带 $ 【在非命令行模式下进行】一、文件操作 1.1、强制退出不保存 $ q! 1.2、保存 $ w 1.3、保存并退出 $ wq 1.4、刷新或重新加载已打开的文件 $ e 二、光标移动 2.1、跳到指定行数字
【Spark十四】深入Spark RDD第三部分RDD基本API bit1129 spark
对于K/V类型的RDD,如下操作是什么含义？ val rdd = sc.parallelize(List(("A",3),("C",6),("A",1),("B",5)) rdd.reduceByKey(_+_).collect reduceByKey在这里的操作，是把
java类加载机制 BlueSkator java 虚拟机
java类加载机制 1.java类加载器的树状结构引导类加载器 ^ | 扩展类加载器 ^ | 系统类加载器 java使用代理模式来完成类加载，java的类加载器也有类似于继承的关系，引导类是最顶层的加载器，它是所有类的根加载器，它负责加载java核心库。当一个类加载器接到装载类到虚拟机的请求时，通常会代理给父类加载器，若已经是根加载器了，就自己完成加载。虚拟机区分一个Cla
动态添加文本框 BreakingBad 文本框
<script> var num=1; function AddInput() { var str=""; str+="<input
读《研磨设计模式》-代码笔记-单例模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ public class Singleton { } /* * 懒汉模式。注意，getInstance如果在多线程环境中调用，需要加上synchronized，否则存在线程不安全问题 */ class LazySingleton
iOS应用打包发布常见问题 chenhbc ios iOS发布 iOS上传 iOS打包
这个月公司安排我一个人做iOS客户端开发，由于急着用，我先发布一个版本，由于第一次发布iOS应用，期间出了不少问题，记录于此。 1、使用Application Loader 发布时报错：Communication error.please use diagnostic mode to check connectivity.you need to have outbound acc
工作流复杂拓扑结构处理新思路 comsci 设计模式工作算法企业应用 OO
我们走的设计路线和国外的产品不太一样，不一样在哪里呢？国外的流程的设计思路是通过事先定义一整套规则(类似XPDL)来约束和控制流程图的复杂度(我对国外的产品了解不够多，仅仅是在有限的了解程度上面提出这样的看法)，从而避免在流程引擎中处理这些复杂的图的问题，而我们却没有通过事先定义这样的复杂的规则来约束和降低用户自定义流程图的灵活性，这样一来，在引擎和流程流转控制这一个层面就会遇到很
oracle 11g新特性Flashback data archive daizj oracle
1. 什么是flashback data archive Flashback data archive是oracle 11g中引入的一个新特性。Flashback archive是一个新的数据库对象，用于存储一个或多表的历史数据。Flashback archive是一个逻辑对象，概念上类似于表空间。实际上flashback archive可以看作是存储一个或多个表的所有事务变化的逻辑空间。
多叉树:2-3-4树 dieslrae 树
平衡树多叉树,每个节点最多有4个子节点和3个数据项,2,3,4的含义是指一个节点可能含有的子节点的个数,效率比红黑树稍差.一般不允许出现重复关键字值.2-3-4树有以下特征: 1、有一个数据项的节点总是有2个子节点(称为2-节点) 2、有两个数据项的节点总是有3个子节点(称为3-节
C语言学习七动态分配 malloc的使用 dcj3sjt126com c language malloc
/* 2013年3月15日15:16:24 malloc 就memory(内存) allocate(分配)的缩写本程序没有实际含义，只是理解使用 */ # include <stdio.h> # include <malloc.h> int main(void) { int i = 5; //分配了4个字节静态分配 int * p
Objective-C编码规范[译] dcj3sjt126com 代码规范
原文链接 : The official raywenderlich.com Objective-C style guide 原文作者 : raywenderlich.com Team 译文出自 : raywenderlich.com Objective-C编码规范译者 : Sam Lau
0.性能优化-目录 frank1234 性能优化
从今天开始笔者陆续发表一些性能测试相关的文章，主要是对自己前段时间学习的总结，由于水平有限，性能测试领域很深，本人理解的也比较浅，欢迎各位大咖批评指正。主要内容包括：一、性能测试指标吞吐量、TPS、响应时间、负载、可扩展性、PV、思考时间 http://frank1234.iteye.com/blog/2180305 二、性能测试策略生产环境相同基准测试预热等 htt
Java父类取得子类传递的泛型参数Class类型 happyqing java 泛型父类子类 Class
import java.lang.reflect.ParameterizedType; import java.lang.reflect.Type; import org.junit.Test; abstract class BaseDao<T> { public void getType() { //Class<E> clazz =
跟我学SpringMVC目录汇总贴、PDF下载、源码下载 jinnianshilongnian springMVC
----广告-------------------------------------------------------------- 网站核心商详页开发掌握Java技术，掌握并发/异步工具使用，熟悉spring、ibatis框架；掌握数据库技术，表设计和索引优化，分库分表/读写分离；了解缓存技术，熟练使用如Redis/Memcached等主流技术；了解Ngin
the HTTP rewrite module requires the PCRE library 流浪鱼 rewrite
./configure: error: the HTTP rewrite module requires the PCRE library. 模块依赖性Nginx需要依赖下面3个包 1. gzip 模块需要 zlib 库 ( 下载: http://www.zlib.net/ ) 2. rewrite 模块需要 pcre 库 ( 下载: http://www.pcre.org/ ) 3. s
第12章 Ajax（中） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Optimize query with Query Stripping in Web Intelligence blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Optimize+query+with+Query+Stripping+in+Web+Intelligence and a very straightfoward video http://www.sdn.sap.com/irj/scn/events?rid=/library/uuid/40ec3a0c-936
Java开发者写SQL时常犯的10个错误 tomcat_oracle java sql
1、不用PreparedStatements 　　有意思的是，在JDBC出现了许多年后的今天，这个错误依然出现在博客、论坛和邮件列表中，即便要记住和理解它是一件很简单的事。开发者不使用PreparedStatements的原因可能有如下几个：　　他们对PreparedStatements不了解　　他们认为使用PreparedStatements太慢了　　他们认为写Prepar
世纪互联与结盟有感阿尔萨斯
10月10日，世纪互联与（Foxcon）签约成立合资公司，有感。全球电子制造业巨头（全球500强企业）与世纪互联共同看好IDC、云计算等业务在中国的增长空间，双方迅速果断出手，在资本层面上达成合作，此举体现了全球电子制造业巨头对世纪互联IDC业务的欣赏与信任，另一方面反映出世纪互联目前良好的运营状况与广阔的发展前景。众所周知，精于电子产品制造（世界第一），对于世纪互联而言，能够与结盟