汤小剑

YOLO v1~v3学习心得

前言

最近因为工作需要，接触了目标检测领域的相关知识，主要学习了YOLO v1~v3的内容，主要参考的是YOLO官方提供的论文以及网上一些大佬的学习笔记。由于刚刚接触目标检测领域，有写的不对的地方还请指正。

YOLO v1

原文链接

研究背景

之前的目标检测经常被看作一个分类问题，常见的方法包括DPM（Deformable Parts Models）、R-CNN（Fast R-CNN、Faster R-CNN）等。
DPM：
采用对应类别的分类器去评估图像中各个位置和区域是否包含物体、包含那种物体。DPM采用滑动窗口（sliding window）机制，保证分类器可以遍历整张图片。
R-CNN
采用区域预测方式（region proposals methods）：首先生成潜在的bbx（bounding box）,再通过分类器判断是否包含物体，最后再去判断物体的类别。
缺点：每个部分分开训练，优化困难。
注：这部分翻译自YOLO v1的官方论文，没有更加深入地了解，以后有时间会进行更加细致的了解。

YOLO v1介绍

概述

YOLO将目标检测抽象成了一个简单的回归问题，输入图像，直接输出边界框坐标和类别概率，用一个系统完成了所有工作。
优点

检测速度快，YOLO的检测框架仅包含一个卷积神经网络，pipline非常简单；
YOLO采用全局图像进行检测，不容易产生背景误判；
YOLO学习到物体更加泛化的特征，在应要到新领域的时候，表现出较好的泛化性。

实现方法

这里先给一张论文中的图，展示YOLO的基本思想：

YOLO算法首先将输入图像分割成S*S的网格（grid cell），每个网格都会预测B个bbx，每个bbx又会包含5个预测值：(x, y), (w, h)和置信度。
(x, y) :框的中心（相对于网格边界）；
(w, h)：bbx相对于整个图片的宽和高；
置信度： $Pr(Object)*IOU_{truth}^{pred}$ （若没有物体，置信度为0，否则置信度则为预测边框和真实边框的IOU（intersection over union，交并比））。
某个网格包含某一类别物体的置信度用 $P r (C l a s s ∣ O b j e c t)$ 来表示，最终，一个bbx属于某个特定类别的置信分数可以表示为：
$Pr(Class|Object)*Pr(Object)*IOU_{pred}^{truth}=Pr(Class_i)*IOU_{pred}^{truth}$

因此，YOLO最后的输出是 $[S, S, B * 5 + C]$ 的张量！！！

网络设计

YOLO的架构沿用了GoogleNet的形式，完整版的模型中包含24个卷积层和2个全连接层；快速版的YOLO（fast YOLO）减少了卷积层（9层），其他细节均是一样的。
注1：这里存一个疑，一个卷积核难道不应该是 $7 * 7 * 192$ 吗?
注2： $1 * 1$ 的卷积核作用：特征降维，节省计算量；增加模型的非线性表达能力。

训练

1. 预训练
基于ImageNet 1000-class数据集，将YOLO中的前20个卷积层连接上一个平均池化层和全连接层进行了预训练。训练图片的像素为224*224。

2. 训练
在预训练网络模型的基础上加入了四个卷积层和两个全连接层，采用随机权重初始化策略，并将输入图像的像素从224224增加到448448。

3. 激活函数

最后一层采用线型激活函数；
其它层采用leaky rectified非线性激活函数：
$\phi(x) = \lbrace_{0.1x,\space \space \space \space otherwise}^{x,\space \space \space \space \space \space \space \space \space \space if x> 0}$

4. 损失函数
引入了 $\lambda_{coord}$ 和 $\lambda_{noobj}$ 来增加边界框未知的损失并减少不包含无边的边界框置信预测的损失。这里设置 $\lambda_{coord} = 5$ 和 $\lambda_{noobj} = 0.5$ 。这里盗用一张图，人家解释的非常好。

因此：

该损失函数只有当某一个对象出现在网格单元中才会对分类错误进行惩罚；
该损失函数仅在网格单元的bbx对标准答案负责时，才会对bbx的坐标误差进行惩罚。

5. 学习策略
训练集：PASCAL VOC 2007和2012数据集
超参数：Batch size=64；momentum=0.9；decay=0.0005
学习率设置：
1)、第一个迭代，lr从10-3提升到10-2（如果学习率过大，模型发散）；
2)、以10-2的学习率训练75个迭代；
3)、减少到10-3训练30个迭代；
4)、减少到10-4再训练30个迭代。
防止过拟合：
1)、 Dropout：在第一个全连接层后添加dropout层，rate设为0.5；
2)、数据增强：对原始图像进行随机放缩和平移；随机调整图像的曝光度。

YOLO v1的局限性

1、YOLO 具有很强的空间约束，这限制了YOLO对于相邻物体的检测能力。当相邻的物体数量过多且面积过小的物体时，YOLO将很难进行检测；
2、如果图片中出现新的、不常见的长宽比的图像时，YOLO的泛化能力较弱；
3、YOLO 对于大的bbx和小的bbx采用相同的损失函数，尽管采用了平方根技巧进行了优化，但是大的bbx的小错误可能没什么影响，当小的bbx如果有稍微的错误偏差将极大地影响到IoU。因此，YOLO中的主要误差属于定位误差。

补充

YOLO1中运用了非极大值抑制（Non-Maximum Suppression, NMS），这里简单提一下NMS在YOLO1中的应用。
YOLO v1每张图片包含 $7 * 7 * 2$ 个bbx，以Dog类别为例：
Step1：对于Dog类别，将98个bbx按照预测概率从高到低排序（对于极小概率框，可以提前将其概率设为0）；
Step2：排序后，第一个bbx的置信度最高，然后依次比较后面的bbx与第一个bbx的IoU结果，剔除IoU超过阈值的bbx，保留低于阈值的bbx；
Step3：对于第一轮扫描后剩下的bbx，以次大概率为基准再次进行比较，重复Step2直到完成所有的扫描；
Step4：对于其他的类别重复进行Step1~Step3的操作，并进行纵向跨类比较，得出最后的检测结果。

注：跨类纵向比较是因为，在经历Step1~Step3后，仅能得出在某一类别中置信度最高的bbx，但是该bbx可能在其他类别中的概率也为最大且比这个类别的概率更大，因此在最终判定的时候需要进行纵向的跨类比较。

YOLO v2

原文链接

“YOLO9000: Better, Faster, Stronger”获得了2017CVPR最佳论文提名，文章中主要针对YOLO v1提出了两种结构上的优化——YOLO v2和YOLO9000，在保证处理速度的前提下，从预测更准确（Better），速度更快（Faster），识别对象更多（Stronger）这三个方面进行了改进。

YOLO v2介绍

YOLO v1的缺点：
1、对比Faster R-CNN，YOLO v1会产生大量的定位误差；
2、YOLO v1具有较低的召回率。
计算机视觉领域，通常更好的性能来源于训练更大、更深的网络，或者将多个模型组合在一起。但是YOLO v2为了保证检测速度，着重于网络的轻量化，具体的改进如下表所示：

注：表中罗列的方法大多数都能显著提升mAP，但是两种方法例外，一种是采用anchor box，另一种是使用新网络。其中anchor box虽然没有改变mAP，但是显著提升了召回率，而使用新网络则减少了33%的计算量。

具体改进措施

1、Batch Normalization

使用BN对网络进行优化，不仅提高了网络的收敛性，同时消除了对其他形式的正则化的依赖（可以去除v1中的Dropout层，且不会产生过拟合）。在YOLO v1每个卷积层增加BN层，不仅使mAP提高了2%，而且使得模型正则化。
BN简介：
Q1：为什么要归一化
A1：在神经网络的训练过程中，一般会将输入样本特征进行归一化处理，使数据变为均值为0，标准差为1的分布或者范围在0~1的分布。因为当我们没有将数据进行归一化的话，由于样本特征分布较散，可能会导致神经网络学习速度缓慢甚至难以学习。
Q2：BN的作用
A2：2015年Google提出了BN，因为传统的神经网络中，仅对输入层的数据进行归一化处理，没有在中间层进行归一化处理。考虑到数据在经历矩阵乘法和激活函数后，数据分布很可能再次变得发散（一般是整体分布逐渐往非线性激活函数的取指区间的上下限两端靠近），随着网络的加深，会导致反向传播过程中低层神经网络的梯度消失，这也是深层网络收敛越来越慢的本质原因。
BN的效果就是通过一定的规范化手段将每层神经网络任意神经元的输入值强行拉回均值为0、方差为1的标准正态分布。

BN在神经网络训练中的作用可以总结如下：
1、加快模型的收敛速度；
2、可以省略其他正则化处理方法，例如Dropout、L1、L2…
3、提高模型的训练精度。
Q3：BN的流程
A3：BN作为神经网络的一层，放在激活函数之前
Step1：计算一个batch训练数据的均值和方差；
$\mu_B=\frac{1}{m}\sum_{i=1}^m {x_i}$
$\sigma^2=\frac{1}{m}\sum_{i = 1}^m {(x_i-\mu_B)^2}$
Step2：根据均值和方差对一个batch的数据做归一化，ϵ代表微小正数，防止分母为0；
$\widehat{x_i}=\frac{x_i-\mu_B}{\sqrt{\sigma_B^2+\epsilon}}$
Step3：尺度变换和偏移，BN的精髓：将归一化的数据根据训练得到的尺度因子γ和平移因子β进行变换，这是因为归一化的数据会呈现正态分布，从而降低网络的表达能力。
$y_i=\gamma\widehat{x_i}+\beta$

2、高分辨率分类器

YOLO v2将网络的预训练分成了两步：
1、先用 $224 * 224$ 的输入从头训练网络；
2、再将输入调整到 $448 * 448$ ，再训练10个epoch进行fine tuning（微调）。
注：1、2两步均在ImageNet数据集上操作，与训练的时候采用 $448 * 448$
的高分类样本对模型进行微调，可以使网络逐渐适应 $448 * 448$ 的分辨率，从而缓解分辨率突然切换造成的影响。

3、引入Anchor Box

YOLO v1通过全连接层直接预测bbx的坐标位置，v2为了简化问题，借鉴了Faster R-CNN中利用区域候选网络（RPN）预测Anchor Box的思想，引入了Anchor Box。
1、移除了v1中的全连接层，并去掉了最后一个池化层，使最后一个卷积层的输出具有更高的分辨率；
2、缩小网络用于处理416416的输入图像，这么做的原因是希望得到的feature map具有奇数大小的宽和高。（奇数大小的宽和高会使每个feature map在划分cell的时候只有一个center cell），网络最终从416416的输入变成13*13大小的feature map输出；
3、对于每个网格单元，不再使用B个数量的bbx，而是通过维度聚类（Dimension Clusters）产生K个anchor box。

4、维度聚类（Dimension Clusters）

Faster R-CNN中anchor box的大小和比例是根据经验手动设定的，为了帮助网络实现更好地预测，YOLO v2采用k-means的方式对训练集的bbx做聚类。标准的k-means（欧氏距离），误差和box的尺寸息息相关（尺寸越大，误差越大），因此YOLO v2定义了新的距离函数：
$d (b o x, c e n t r o i d) = 1 - I o U (b o x, c e n t r o i d)$
综合考虑了模型复杂度和召回率，YOLO v2中选择了k=5，也就是聚类出5个anchor box。

5、约束预测边框的位置

为了解决引入Anchor Box导致的网络训练初期不稳定的现象（作者认为，由于anchor box的边界没有任何的限定条件，因此box的中心可以出现在任何位置，从而导致模型不稳定）。因此，YOLO调整了预测共识，将预测边框的中心约束在特定的网格单元内：
$b_x=\sigma(t_x)+c_x$
$b_y=\sigma(t_y)+c_y$
$b_w=p_we^{t_w}$
$b_h=p_he^{t_h}$
$\sigma(t_o)$
其中， $b_x,b_y,b_w和b_h$ 分别是预测边框的中心位置和宽高， $c_x和c_y$ 表示表示图片左上角到网格单元的距离， $p_w和p_h$ 是anchor box的宽和高， $\sigma$ 代表sigmoid函数， $t_x,t_y,t_w,t_h和t_o$ 是需要学习的参数。

6、引入Passthrough layer

YOLO v2中最后输出1313的feature map，这会导致一些较小对象的特征已经不明显甚至被忽略掉了。为了更好地检测出一些较小的目标对象，最后输出的特征图需要保留更细节的信息。
举例：
在最后一个池化层之前，feature map的大小是2626512，这时候做两步处理，一个是经过池化+卷积，输出1313*1024的feature map；另一个是一拆成四，passthrough到池化层之后，两者叠加，作为最后的输出feature map。这里盗用一张图，帮助大家理解。。。

7、多尺度图像训练

YOLO v2可以输入任意尺寸的图像。保持下采样的倍数是32，控制输入图像的尺寸为{320,352,384,…,608}，每10个batch更换一种尺寸进行训练，从而增强网络对于不同大小图像的鲁棒性。

网络结构与训练

1、框架改变

YOLO v1采用GoogleNet架构，比VGG-16快，但是精度稍低于VGG-16。
YOLO v2采用Darnet-19的结构，包含19个卷积层和5个最大池化层，每次池化后增加1倍的通道数量。

2、训练过程

1、阶段一：Darknet-19预训练，模型输入为224*224，共训练160个epochs；
2、阶段二：调整Darknet-19网络输入，继续在ImageNet数据集上fine tune分类模型，训练10个周期。

3、阶段三：修改Darknet-19分类模型为检测模型，移除最后一个卷积层、池化层和Softmax层，新增三个卷积层 $(3 * 3 * 104)$ ，同时增加了一个passthrough层，最后使用 $1 * 1$ 卷积层输出预测结果。输出结果的通道数为：num_anchors * (5 + num_classes)。监测模型的具体结构如下所示：（这里盗用了一下别人的图，方便大家理解）

注：25层route 16，表示16层的输出 $(26 * 26 * 512)$ 经过passthrough层，26层 $1 * 1$ 卷积降低通道数为64，输出 $26 * 26 * 64$ ，27层拆分输出 $13 * 13 * 256$ ，28层将27层的输出与24层的输出叠加，输出 $13 * 13 * 1280$ 。

3、误差函数

YOLO官方提供的论文中除了v1版本给出了误差函数的表达式，其余都没有给出，这里还是找了网上大神给出的误差函数表达式，方便大家理解：

YOLO9000

存在的问题：
目标检测数据集是非常有限的，相比于分类和标定的数据集，目标检测数据集的检测类别过少。
YOLO v2 → YOLO9000
YOLO9000基于YOLO v2的模型结构，将分类数据集和检测数据集进行了结合，扩展了v2可以检测的种类。

方法

构造WordTree

Q1：为什么要构造WordTree？
A1：COCO检测数据集的分类是粗糙的，例如猫/狗；ImageNet是细分类，例如哈士奇/泰迪。这意味着两个数据集中的对象类别不是完全的互斥关系，因此需要采用一种多标签分类模型。
Q2：WordTree的结构是什么：
A2：WordTree的构建参考了WordNet的思路，作者将这种有向图结构改成了树结构，其构建方式如下：
Step1：遍历训练集中所有的对象，并在WordNet中找到相应的节点；
Step2：对于每个名词，在WordNet找到从节点位置到根节点的路径，并添加到WordTree中；
Step3：对于有多条路径的名词（少数），选择最短路径添加。
此时，要预测一个结点的概率，可以根据WordTree，将该节点到根节点的条件概率依次相乘即可，例如：

Q3：实验的设置
A3：数据集：ImageNet 1K 和 WordTree 1K（根据ImageNet 1K生成的WordTree，1396个类别）；
Softmax层：传统的分类结构在最后一层统一使用Softmax；WordTree结构采用多个Softmax分类器，每一个分类器计算一个根节点下互斥词的Softmax。

提出了联合训练法（Joint classification and detection）

数据集：
ImageNet和COCO，4 : 1，考虑到ImageNet样本比COCO多很多，COCO样本会适当做一些过采样。
Anchor box：
YOLO v2采用5个，为了减少计算量，YOLO9000采用3个；
输入输出：
YOLO v2和YOLO9000的输入都是4164163;
YOLO v2的输出是1313(5 * (4+1+20))；
YOLO9000的输出是1313(5 * (4+1+9418))
误差传播：
对于分类样本，只计算分类误差；对于正常的检测图片，正常反向传播（分类损失仅在节点所对应的路径上进行反向传播）

YOLO v3

原文链接
YOLO v3的论文相比v2和v1的内容显得更加随意了一点（感觉像作者喝多了写的。。。），前面的废话就不过说了，直接来看YOLO v3所做出的改进。

YOLO v3的结构

这里要感谢一位大神，给出了YOLO v3的结构图（找了好久才找到。。。。）：

DBL： YOLO3的基本组件，卷积 + BN + Leaky ReLU；
Resn： 残差组件，表示该res_block中含有多少个res_unit；
Concat： 张量拼接，类似YOLO v2中的passthrough层，可以扩充张量的维度（区别Resnet中的add，add不扩充维度）。

细节分析

1、YOLO v3使用了了Darknet-53的前52层（没有全连接层），使用了大量的残差网络进行跳层连接；去除了池化层，完全采用卷积网络中的stride来实现降采样（stride=2）；
2、为了加强算法对小目标检测的精度，YOLO v3输出三个尺寸的feature map，三条预测支路也采用全卷积的结构，且最后输出的特征维度是255（3*(80+4+1)，COCO数据集80类，3个bbx）

这里着重分析一下三条支路！！！

卷积网络在79层后，经过下方几个黄色的卷积层得到第一种尺度的检测结果。相比输入图像，这里用于检测的feature map有32倍的下采样。比如输入是416*416的话，这里的feature map就是 $(13 * 13)$ 了。由于下采样倍数高，这里feature map的感受野比较大，因此适合检测图像中尺寸比较大的对象。
为了实现细粒度的检测，第79层的feature map又开始作上采样（从79层往右开始上采样卷积），然后与第61层feature map融合（Concatenation），这样得到第91层较细粒度的feature map，同样经过几个卷积层后得到相对输入图像16倍下采样的feature map $(26 * 26)$ 。它具有中等尺度的感受野，适合检测中等尺度的对象。
最后，第91层feature map再次上采样，并与第36层feature map融合（Concatenation），最后得到相对输入图像8倍下采样的feature map $(52 * 52)$ 。它的感受野最小，适合检测小尺寸的对象。
3、Bounding Box的改变
YOLO v2中采用维度聚类得到5种anchor box；
YOLO v3在此基础上进行了改进，为每种下采样尺度设定了3种先验框（prior），总共聚类出9种尺寸的先验框，在COCO数据集中这9种先验框分别是：(10x13)，(16x30)，(33x23)，(30x61)，(62x45)，(59x119)，(116x90)，(156x198)，(373x326)，分别分配给三类feature map：

YOLO v3对prior进行预测时，弃用了Softmax分类层，采用逻辑回归的方式，依然输出 $t_x, t_y, t_w, t_h和t_o$ ，再根据v2中的的公式计算出prior的位置。
这里需要注意的是：YOLO v3仅对最佳prior进行操作，逻辑回归的作用就是从九种prior中找到可能性最高的那一个。
4、损失函数的改变
YOLO v3中，除了w, h的损失函数依然采用总方误差之外，其他部分的损失函数用的是二值交叉熵，最后加到一起。
5、输入到输出的关系

参考文章

https://blog.csdn.net/c20081052/article/details/80236015
https://blog.csdn.net/zijin0802034/article/details/77097894
https://blog.csdn.net/zhazhiqiang/article/details/82669863
https://www.jianshu.com/p/d13ae1055302
https://blog.csdn.net/leviopku/article/details/82660381
https://blog.csdn.net/litt1e/article/details/88907542

结束语

第一次写博客，借鉴了很多大佬的东西，希望可以将自己学习的过程记录下来，时间仓促，这里就不多说了，在之后的博客中，会更加多一些自己的原创性内容，希望可以跟各位大神分享！！！

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
【目标检测数据集】卡车数据集1073张VOC+YOLO格式熬夜写代码的平头哥∰ 目标检测 YOLO 人工智能
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：1073标注数量(xml文件个数)：1073标注数量(txt文件个数)：1073标注类别数：1标注类别名称:["truck"]每个类别标注的框数：truck框数=1120总框数：1120使用标注工具：labelImg标注
钢筋长度超限检测检数据集VOC+YOLO格式215张1类别 futureflsl 数据集 YOLO 深度学习机器学习
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：215标注数量(xml文件个数)：215标注数量(txt文件个数)：215标注类别数：1标注类别名称:["iron"]每个类别标注的框数：iron框数=215总框数：215使用标注工具：labelImg标注规则：对类别进
COCO 格式的数据集转化为 YOLO 格式的数据集 QYQY77 YOLO python
"""--json_path输入的json文件路径--save_path保存的文件夹名字，默认为当前目录下的labels。"""importosimportjsonfromtqdmimporttqdmimportargparseparser=argparse.ArgumentParser()parser.add_argument('--json_path',default='./instances
yolov5＞onnx＞ncnn＞apk 图像处理大大大大大牛啊 opencv实战代码讲解 yolo onnx ncnn 安卓
一.yolov5pt模型转onnx条件：colabnotebookyolov51.安装环境!pipinstallonnx>=1.7.0#forONNXexport!pipinstallcoremltools==4.0#forCoreMLexport!pipinstallonnx-simplifier2.修改common.py在classFocus下面
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
[数据集][目标检测]汽车头部尾部检测数据集VOC+YOLO格式5319张3类别 FL1623863129 数据集目标检测汽车 YOLO
数据集制作单位：未来自主研究中心(FIRC)版权单位：未来自主研究中心(FIRC)版权声明：数据集仅仅供个人使用，不得在未授权情况下挂淘宝、咸鱼等交易网站公开售卖,由此引发的法律责任需自行承担数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：5319标注数量(xml文件
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
遥感图像分割系统：融合空间金字塔池化（FocalModulation)改进YOLOv8 xuehaisj YOLO 人工智能计算机视觉 yolov8
1.研究背景与意义项目参考AAAIAssociationfortheAdvancementofArtificialIntelligence研究背景与意义遥感图像分割是遥感技术领域中的一个重要研究方向，它的目标是将遥感图像中的不同地物或地物类别进行有效的分割和识别。随着遥感技术的不断发展和遥感图像数据的大规模获取，遥感图像分割在农业、城市规划、环境监测等领域具有广泛的应用前景。然而，由于遥感图像的特
【深度学习】训练过程中一个OOM的问题，太难查了 weixin_40293999 深度学习深度学习人工智能
现象：各位大佬又遇到过ubuntu的这个问题么？现象是在训练过程中，ssh上不去了，能ping通，没死机，但是ubunutu的pc侧的显示器，鼠标啥都不好用了。只能重启。问题原因：OOM了95G，尼玛！！！！pytorch爆内存了，然后journald假死了，在journald被watchdog干掉之后，系统就崩溃了。这种规模的爆内存一般，即使被oomkill了，也要卡半天的，确实会这样，能不能配
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
深度学习-13-小语言模型之SmolLM的使用皮皮冰燃深度学习深度学习
文章附录1SmolLM概述1.1SmolLM简介1.2下载模型2运行2.1在CPU/GPU/多GPU上运行模型2.2使用torch.bfloat162.3通过位和字节的量化版本3应用示例4问题及解决4.1attention_mask和pad_token_id报错4.2max_new_tokens=205参考附录1SmolLM概述1.1SmolLM简介SmolLM是一系列尖端小型语言模型，提供三种规
基于深度学习的农作物病害检测 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的农作物病害检测利用卷积神经网络（CNN）、生成对抗网络（GAN）、Transformer等深度学习技术，自动识别和分类农作物的病害，帮助农业工作者提高作物管理效率、减少损失。1.农作物病害检测的挑战病害种类繁多：农作物病害的类型多样，不同病害在同一作物上的表现差异很大，同时同一种病害在不同生长阶段的症状也可能不同。环境影响：天气、光照、湿度等外部环境因素会影响农作物的表现，使得病害检
基于深度学习的文本引导的图像编辑 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的文本引导的图像编辑（Text-GuidedImageEditing）是一种通过自然语言文本指令对图像进行编辑或修改的技术。它结合了图像生成和自然语言处理（NLP）的最新进展，使用户能够通过描述性文本对图像内容进行精确的调整和操控。1.文本引导的图像编辑的挑战文本和图像之间的对齐：如何将文本中的语义信息准确地映射到图像中的特定区域或元素是一个关键挑战。这涉及到多模态数据的对齐和理解。编
深度学习--对抗生成网络（GAN, Generative Adversarial Network） Ambition_LAO 深度学习生成对抗网络
对抗生成网络（GAN,GenerativeAdversarialNetwork）是一种深度学习模型，由IanGoodfellow等人在2014年提出。GAN主要用于生成数据，通过两个神经网络相互对抗，来生成以假乱真的新数据。以下是对GAN的详细阐述，包括其概念、作用、核心要点、实现过程、代码实现和适用场景。1.概念GAN由两个神经网络组成：生成器（Generator）和判别器（Discrimina
深度学习：怎么看pth文件的参数奥利给少年深度学习人工智能
.pth文件是PyTorch模型的权重文件，它通常包含了训练好的模型的参数。要查看或使用这个文件，你可以按照以下步骤操作：1.确保你有模型的定义你需要有创建这个.pth文件时所用的模型的代码。这意味着你需要有模型的类定义和架构。2.加载模型权重使用PyTorch的load_state_dict方法来加载权重。这里是如何操作的：importtorchimporttorch.nnasnn#定义模型结构
chatgpt赋能python：如何在Python中安装Keras库？ turensu ChatGpt python chatgpt keras 计算机
如何在Python中安装Keras库？Keras是一个简单易用的神经网络库，由FrançoisChollet编写。它在Python编程语言中实现了深度学习的功能，可以使您更轻松地构建和试验不同类型的神经网络。如果您是一名Python开发人员，肯定会想知道如何在您的Python项目中安装Keras库。在本文中，我们将向您展示如何安装和配置Keras库。步骤1：安装Python要使用Keras库，您需
如何理解深度学习的训练过程奋斗的草莓熊深度学习人工智能 python scikit-learn virtualenv numpy pandas
文章目录1.训练是干什么？2.预训练模型进行训练，主要更改的是预训练模型的什么东西？1.训练是干什么？以yolov5为例子，训练的目的是把一组输入猫狗图像放到神经网络中，得到一个输出模型，这个模型下次可以直接用来识别哪个是猫，哪个是狗2.预训练模型进行训练，主要更改的是预训练模型的什么东西？超参数（Hyperparameters）：这是模型结构中定义的参数，比如：卷积核大小（kernel_size
Keras深度学习框架入门及实战指南司莹嫣Maude
Keras深度学习框架入门及实战指南keraskeras-team/keras:是一个基于Python的深度学习库，它没有使用数据库。适合用于深度学习任务的开发和实现，特别是对于需要使用Python深度学习库的场景。特点是深度学习库、Python、无数据库。项目地址:https://gitcode.com/gh_mirrors/ke/keras一、项目介绍Keras简介Keras是一款高级神经网络
深度学习驱动的车牌识别：技术演进与未来挑战逼子歌深度学习车牌识别神经网络字符识别 YOLO 卷积神经网络
一、引言1.1研究背景在当今社会，智能交通系统的发展日益重要，而车牌识别作为其关键组成部分，发挥着至关重要的作用。车牌识别技术广泛应用于交通管理、停车场管理、安防监控等领域。在交通管理中，它可以用于车辆识别、交通违法监控和车流统计等，提高交通管理的效率和准确性。在停车场管理中，实现车辆的自动识别和收费，提升管理和服务水平。在安防监控领域，可用于追踪嫌疑人及犯罪行为。深度学习的出现为车牌识别带来了重
开发者关心的那些事圣子足道 ios 游戏编程 apple 支付
我要在app里添加IAP，必须要注册自己的产品标识符（product identifiers）。产品标识符是什么？产品标识符（Product Identifiers）是一串字符串，它用来识别你在应用内贩卖的每件商品。App Store用产品标识符来检索产品信息，标识符只能包含大小写字母（A-Z）、数字（0-9）、下划线（-）、以及圆点(.)。你可以任意排列这些元素，但我们建议你创建标识符时使用
负载均衡器技术Nginx和F5的优缺点对比 bijian1013 nginx F5
对于数据流量过大的网络中，往往单一设备无法承担，需要多台设备进行数据分流，而负载均衡器就是用来将数据分流到多台设备的一个转发器。目前有许多不同的负载均衡技术用以满足不同的应用需求，如软/硬件负载均衡、本地/全局负载均衡、更高
LeetCode[Math] - #9 Palindrome Number Cwind java Algorithm 题解 LeetCode Math
原题链接：#9 Palindrome Number 要求：判断一个整数是否是回文数，不要使用额外的存储空间难度：简单分析：题目限制不允许使用额外的存储空间应指不允许使用O(n)的内存空间，O(1)的内存用于存储中间结果是可以接受的。于是考虑将该整型数反转，然后与原数字进行比较。注：没有看到有关负数是否可以是回文数的明确结论，例如
画图板的基本实现 15700786134 画图板
要实现画图板的基本功能，除了在qq登陆界面中用到的组件和方法外，还需要添加鼠标监听器，和接口实现。首先，需要显示一个JFrame界面： public class DrameFrame extends JFrame { //显示
linux的ps命令被触发 linux
Linux中的ps命令是Process Status的缩写。ps命令用来列出系统中当前运行的那些进程。ps命令列出的是当前那些进程的快照，就是执行ps命令的那个时刻的那些进程，如果想要动态的显示进程信息，就可以使用top命令。要对进程进行监测和控制，首先必须要了解当前进程的情况，也就是需要查看当前进程，而 ps 命令就是最基本同时也是非常强大的进程查看命令。使用该命令可以确定有哪些进程正在运行
Android 音乐播放器下一曲连续跳几首歌肆无忌惮_ android
最近在写安卓音乐播放器的时候遇到个问题。在MediaPlayer播放结束时会回调 player.setOnCompletionListener(new OnCompletionListener() { @Override public void onCompletion(MediaPlayer mp) { mp.reset(); Log.i("H
java导出txt文件的例子知了ing java servlet
代码很简单就一个servlet,如下： package com.eastcom.servlet; import java.io.BufferedOutputStream; import java.io.IOException; import java.net.URLEncoder; import java.sql.Connection; import java.sql.Resu
Scala stack试玩, 提高第三方依赖下载速度矮蛋蛋 scala sbt
原文地址： http://segmentfault.com/a/1190000002894524 sbt下载速度实在是惨不忍睹, 需要做些配置优化下载typesafe离线包, 保存为ivy本地库 wget http://downloads.typesafe.com/typesafe-activator/1.3.4/typesafe-activator-1.3.4.zip 解压r
phantomjs安装(linux，附带环境变量设置) ，以及casperjs安装。 alleni123 linux spider
1. 首先从官网 http://phantomjs.org/下载phantomjs压缩包，解压缩到/root/phantomjs文件夹。 2. 安装依赖 sudo yum install fontconfig freetype libfreetype.so.6 libfontconfig.so.1 libstdc++.so.6 3. 配置环境变量 vi /etc/profil
JAVA IO FileInputStream和FileOutputStream，字节流的打包输出百合不是茶 java核心思想 JAVA IO操作字节流
在程序设计语言中，数据的保存是基本，如果某程序语言不能保存数据那么该语言是不可能存在的，JAVA是当今最流行的面向对象设计语言之一，在保存数据中也有自己独特的一面，字节流和字符流 1，字节流是由字节构成的，字符流是由字符构成的字节流和字符流都是继承的InputStream和OutPutStream ,java中两种最基本的就是字节流和字符流类 FileInputStream
Spring基础实例（依赖注入和控制反转） bijian1013 spring
前提条件：在http://www.springsource.org/download网站上下载Spring框架，并将spring.jar、log4j-1.2.15.jar、commons-logging.jar加载至工程1.武器接口 package com.bijian.spring.base3; public interface Weapon { void kil
HR看重的十大技能 bijian1013 提升能力 HR 成长
一个人掌握何种技能取决于他的兴趣、能力和聪明程度，也取决于他所能支配的资源以及制定的事业目标，拥有过硬技能的人有更多的工作机会。但是，由于经济发展前景不确定，掌握对你的事业有所帮助的技能显得尤为重要。以下是最受雇主欢迎的十种技能。　　一、解决问题的能力　　每天，我们都要在生活和工作中解决一些综合性的问题。那些能够发现问题、解决问题并迅速作出有效决
【Thrift一】Thrift编译安装 bit1129 thrift
什么是Thrift The Apache Thrift software framework, for scalable cross-language services development, combines a software stack with a code generation engine to build services that work efficiently and s
【Avro三】Hadoop MapReduce读写Avro文件 bit1129 mapreduce
Avro是Doug Cutting(此人绝对是神一般的存在）牵头开发的。开发之初就是围绕着完善Hadoop生态系统的数据处理而开展的（使用Avro作为Hadoop MapReduce需要处理数据序列化和反序列化的场景）,因此Hadoop MapReduce集成Avro也就是自然而然的事情。这个例子是一个简单的Hadoop MapReduce读取Avro格式的源文件进行计数统计，然后将计算结果
nginx定制500，502，503，504页面 ronin47 nginx　错误显示
server { listen 80; error_page 500/500.html; error_page 502/502.html; error_page 503/503.html; error_page 504/504.html; location /test {return502;}} 配置很简单，和配
java-1.二叉查找树转为双向链表 bylijinnan 二叉查找树
import java.util.ArrayList; import java.util.List; public class BSTreeToLinkedList { /* 把二元查找树转变成排序的双向链表题目：输入一棵二元查找树，将该二元查找树转换成一个排序的双向链表。要求不能创建任何新的结点，只调整指针的指向。 10 / \ 6 14 / \
Netty源码学习-HTTP-tunnel bylijinnan java netty
Netty关于HTTP tunnel的说明： http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/socket/http/package-summary.html#package_description 这个说明有点太简略了一个完整的例子在这里： https://github.com/bylijinnan
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别 coder_xpf jquery json map val()
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别数据库查询出来的map有一个字段为空通过System.out.println()输出 JSONUtil.serialize(map)： {"one":"1","two":"nul
Hibernate缓存总结 cuishikuan 开源 ssh javaweb hibernate缓存三大框架
一、为什么要用Hibernate缓存？ Hibernate是一个持久层框架，经常访问物理数据库。为了降低应用程序对物理数据源访问的频次，从而提高应用程序的运行性能。缓存内的数据是对物理数据源中的数据的复制，应用程序在运行时从缓存读写数据，在特定的时刻或事件会同步缓存和物理数据源的数据。二、Hibernate缓存原理是怎样的？ Hibernate缓存包括两大类：Hib
CentOs6 dalan_123 centos
首先su - 切换到root下面1、首先要先安装GCC GCC-C++ Openssl等以来模块：yum -y install make gcc gcc-c++ kernel-devel m4 ncurses-devel openssl-devel2、再安装ncurses模块yum -y install ncurses-develyum install ncurses-devel3、下载Erang
10款用 jquery 实现滚动条至页面底端自动加载数据效果 dcj3sjt126com JavaScript
无限滚动自动翻页可以说是web2.0时代的一项堪称伟大的技术，它让我们在浏览页面的时候只需要把滚动条拉到网页底部就能自动显示下一页的结果，改变了一直以来只能通过点击下一页来翻页这种常规做法。无限滚动自动翻页技术的鼻祖是微博的先驱：推特(twitter)，后来必应图片搜索、谷歌图片搜索、google reader、箱包批发网等纷纷抄袭了这一项技术，于是靠滚动浏览器滚动条
ImageButton去边框&Button或者ImageButton的背景透明 dcj3sjt126com imagebutton
在ImageButton中载入图片后，很多人会觉得有图片周围的白边会影响到美观，其实解决这个问题有两种方法一种方法是将ImageButton的背景改为所需要的图片。如：android:background="@drawable/XXX" 第二种方法就是将ImageButton背景改为透明，这个方法更常用在XML里； <ImageBut
JSP之c:foreach eksliang jsp forearch
原文出自：http://www.cnblogs.com/draem0507/archive/2012/09/24/2699745.html <c:forEach>标签用于通用数据循环，它有以下属性属性描述是否必须缺省值 items 进行循环的项目否无 begin 开始条件否 0 end 结束条件否集合中的最后一个项目 step 步长否 1
Android实现主动连接蓝牙耳机 gqdy365 android
在Android程序中可以实现自动扫描蓝牙、配对蓝牙、建立数据通道。蓝牙分不同类型，这篇文字只讨论如何与蓝牙耳机连接。大致可以分三步：一、扫描蓝牙设备： 1、注册并监听广播： BluetoothAdapter.ACTION_DISCOVERY_STARTED BluetoothDevice.ACTION_FOUND BluetoothAdapter.ACTION_DIS
android学习轨迹之四：org.json.JSONException: No value for hyz301 json
org.json.JSONException: No value for items 在JSON解析中会遇到一种错误，很常见的错误 06-21 12:19:08.714 2098-2127/com.jikexueyuan.secret I/System.out﹕ Result:{"status":1,"page":1,&
干货分享：从零开始学编程系列汇总 justjavac 编程
程序员总爱重新发明轮子，于是做了要给轮子汇总。从零开始写个编译器吧系列 (知乎专栏) 从零开始写一个简单的操作系统 (伯乐在线) 从零开始写JavaScript框架 (图灵社区) 从零开始写jQuery框架 (蓝色理想 ) 从零开始nodejs系列文章 (粉丝日志) 从零开始编写网络游戏
jquery-autocomplete 使用手册 macroli jquery Ajax 脚本
jquery-autocomplete学习一、用前必备官方网站：http://bassistance.de/jquery-plugins/jquery-plugin-autocomplete/ 当前版本：1.1 需要JQuery版本：1.2.6 二、使用 <script src="./jquery-1.3.2.js" type="text/ja
PLSQL-Developer或者Navicat等工具连接远程oracle数据库的详细配置以及数据库编码的修改超声波 oracle plsql
　　在服务器上将Oracle安装好之后接下来要做的就是通过本地机器来远程连接服务器端的oracle数据库，常用的客户端连接工具就是PLSQL-Developer或者Navicat这些工具了。刚开始也是各种报错，什么TNS:no listener;TNS:lost connection;TNS:target hosts...花了一天的时间终于让PLSQL-Developer和Navicat等这些客户
数据仓库数据模型之：极限存储--历史拉链表 superlxw1234 极限存储数据仓库数据模型拉链历史表
在数据仓库的数据模型设计过程中，经常会遇到这样的需求： 1. 数据量比较大; 2. 表中的部分字段会被update,如用户的地址，产品的描述信息，订单的状态等等; 3. 需要查看某一个时间点或者时间段的历史快照信息，比如，查看某一个订单在历史某一个时间点的状态，比如，查看某一个用户在过去某一段时间内，更新过几次等等; 4. 变化的比例和频率不是很大，比如，总共有10
10点睛Spring MVC4.1-全局异常处理 wiselyman spring mvc
10.1 全局异常处理使用@ControllerAdvice注解来实现全局异常处理; 使用@ControllerAdvice的属性缩小处理范围 10.2 演示演示控制器 package com.wisely.web; import org.springframework.stereotype.Controller; import org.spring