网络星空(luoc)

【深入浅出Yolo系列之Yolox核心基础完整讲解】

文章目录

原文：https://zhuanlan.zhihu.com/p/397993315
在Yolov4、Yolov5刚出来时，大白就写过关于Yolov3、Yolov4、Yolov5的文章，并且做了一些讲解的视频，反响都还不错。而从2015年的Yolov1，2016年Yolov2，2018年的Yolov3，再到2020年的Yolov4、Yolov5，Yolo系列也在不断的进化发展。

就在大家质疑，Yolo如何进一步改进时，旷视科技发表了研究改进的Yolox算法。大白对于Yolox文章和相关的代码，进行了学习，发现有很多改进的方式。比如Decoupled Head、SimOTA等方式，效果还是非常不错的，很值得借鉴。但因为很难直接可视化的学习，了解Yolox和之前Yolo相关算法的区别。因此本文，大白对Yolox的一些细节，和之前的Yolov3、Yolov4、Yolov5算法对比，进行深入浅出的分析讲解，和大家一些探讨学习。

更新提醒（2022.4.2）：《AI未来星球》开放加入，超值福利，点击加入。

其中也包含了大白耗尽洪荒之力，准备了包括Yolo目标检测在内的31节视频课程，可以点击查看。

求职跳槽福利：为了便于大家求职、跳槽的准备，大白将45家大厂的3500篇面经，按照知识框架，整理成700多页的《人工智能算法岗江湖武林秘籍》，限时开放下载，点击查看下载。

文章目录
1 Yolov3&Yolov4&Yolov5相关资料
1.1 Yolov3相关资料
1.2 Yolov4相关资料
1.3 Yolov5相关资料
2 Yolox相关基础知识点
2.1 Yolox的论文及代码
2.2. Yolox个版本网络结构图
2.2.1 Netron工具
2.2.2 各个Yolox的onnx文件
2.2.3 各个Yolox网络结构图
3 Yolox核心知识点
3.1 Yolov3&Yolov4&Yolov5网络结构图
3.2 Yolox基础知识点
3.2.1 基准模型：Yolov3_spp
3.2.2 Yolox-Darknet53
3.2.3 Yolox-s、l、m、x系列
3.2.4 轻量级网络研究
4 深入浅出Yolox之自有数据集训练
5 不同的落地模型部署方式
6 后续更新ing
7 相关数据集下载
1 Yolov3&Yolov4&Yolov5相关资料
在了解Yolox之前，我们首先要对之前的一些Yolo算法，比如Yolov3、Yolov4、Yolov5进行了解。

因为Yolox很多的网络结构，都是在其基础上，延伸而来的。

比如Yolox-Darknet53，就是在Yolov3的基础上进行的改进。

而Yolox-s、Yolox-l等网络，就是在Yolov5-s、Yolov5-l等网络的基础上，进行的改进。

所以大白将之前整理的，Yolo相关文章和视频，进行汇总。有需要的同学，可以先进行了解。

① Yolov3相关资料
【视频】：深入浅出Yolov3（上）、深入浅出Yolov3（下）

【文章】：《深入浅出Yolo系列之Yolov3&4核心基础知识完整讲解》

② Yolov4相关资料
【视频】：深入浅出Yolov4（上）、深入浅出Yolov4（下）

【文章】：《深入浅出Yolo系列之Yolov3&4核心基础知识完整讲解》

③ Yolov5相关资料
【文章】：《深入浅出Yolo系列之Yolov5核心基础知识完整讲解》

④ Yolox相关资料
【文章】：《深入浅出Yolo系列之Yolox核心基础知识完整讲解》

【文章】：《深入浅出Yolox之自有数据集训练超详细讲解》

2 Yolox相关基础知识点
2.1 Yolox的论文及代码
Yolox论文名：《YOLOX: Exceeding YOLO Series in 2021》

Yolox论文地址：https://arxiv.org/abs/2107.08430

Yolox代码地址：https://github.com/Megvii-BaseDetection/YOLOX

2.2 Yolox各版本网络结构图
想学习一个算法，最好从直观图示的角度，进行了解。

如果纯粹从代码上进行查看，很可能会一头雾水。

而且Yolox的各种网络结构也很多，比如下面的各个网络结构权重文件。

因此可以采用，将各个模型文件转换成onnx格式，再用netron工具打开的方式，对网络结构进行可视化学习。

2.2.1 Netron工具
如果有同学对netron工具还不是很熟悉，这里还是放上netron工具安装的详细流程。

可以移步大白的另一篇文章：《网络可视化工具netron详细安装流程》

2.2.2 各个Yolox的onnx文件
各个onnx文件，可以采用代码中的，tools/export_onnx.py脚本，进行转换。

此外，官方代码中的这个版块，已经转换好了各个版本的onnx，也可以直接下载使用。

2.2.3 各个Yolox网络结构图
不过考虑到，有些同学可能不方便，使用netron查看。

因此，大白也上传了使用netron打开的，每个网络结构图的图片，也可以直接点击查看。

（1）Yolox-Nano

Yolox-Nano是Yolox系列最小的结构，网络参数只有0.91M。

此处放上netron打开的，Yolox-Nano网络结构可视图，点击即可查看。

（2）Yolox-Tiny

此处放上Yolox-Tiny网络结构可视图，点击即可查看。

（3）Yolox-Darknet53

Yolox-Darknet53是在Yolov3的基础上，进行的改进，也是后面主要介绍的网络结构。

此处放上Yolox-Darknet53网络结构可视图，点击即可查看。

（4）Yolox-s

Yolox-s是在Yolov5-s的基础上，进行的改进，也是后面主要介绍的网络结构。

此处放上Yolox-s网络结构可视图，点击即可查看。

（5）Yolox-m

此处放上Yolox-m网络结构可视图，点击即可查看。

（6）Yolox-l

此处放上Yolox-l网络结构可视图，点击即可查看。

（7）Yolox-x

此处放上Yolox-x网络结构可视图，点击即可查看。

3 Yolox核心知识点
3.1 Yolov3&Yolov4&Yolov5网络结构图
在学习Yolox之前，我们先了解一下Yolov3、Yolov4、Yolov5的网络结构图，而后面的Yolox网络，都是在此基础上延伸而来的。

① Yolov3网络结构图

Yolov3是在2018年提出，也是工业界使用非常广泛的目标检测算法。

不过在Yolox系列中的，Yolox-Darknet53模型，采用的Baseline基准网络，采用的并不是Yolov3版本，而是改进后的Yolov3_spp版本。

而Yolov3和Yolov3_spp的不同点在于，Yolov3的主干网络后面，添加了spp组件，这里需要注意。

② Yolov4网络结构图

上图是DarknetAB大神，在2020年提出的Yolov4算法。

在此算法中，网络的很多地方，都进行了改进。

比如输入端：采用Mosaic数据增强；

Backbone：采用了CSPDarknet53、Mish激活函数、Dropblock等方式；

Neck：采用了SPP（按照DarknetAB的设定）、FPN+PAN结构；

输出端：采用CIOU_Loss、DIOU_Nms操作。

因此可以看出，Yolov4对Yolov3的各个部分，都进行了很多的整合创新。

关于Yolov4，如果有不清楚的，可以参照大白之前写的《深入浅出Yolo系列之Yolov3&Yolov4核心基础知识完整讲解》，写的比较详细。

③ Yolov5网络结构图

而在Yolov5网络中，和Yolov4不同，最大的创新点在于，作者将网络结构，做成了可选择配置的方式。

比如主干网络结构，根据各个网络的宽度、高度不同，可以分为Yolov5s、Yolov5l、Yolov5s、Yolo5x等版本。

这种转变，在目标检测领域，引领了一股网络拆分的热潮。

本文的Yolox算法，也从这个角度出发，将Yolox模型，变为多种可选配的网络，比如标准网络结构和轻量级网络结构。

（1）标准网络结构：Yolox-s、Yolox-m、Yolox-l、Yolox-x、Yolox-Darknet53。

（2）轻量级网络结构：Yolox-Nano、Yolox-Tiny。

在实际的项目中，大家可以根据不同项目需求，进行挑选使用。

3.2 Yolox基础知识点
从上面的描述中，我们可以知道Yolox整体的改进思路：

（1）基准模型：Yolov3_spp

选择Yolov3_spp结构，并添加一些常用的改进方式，作为Yolov3 baseline基准模型；

（2）Yolox-Darknet53

对Yolov3 baseline基准模型，添加各种trick，比如Decoupled Head、SimOTA等，得到Yolox-Darknet53版本；

（3）Yolox-s、Yolox-m、Yolox-l、Yolox-x系列

对Yolov5的四个版本，采用这些有效的trick，逐一进行改进，得到Yolox-s、Yolox-m、Yolox-l、Yolox-x四个版本；

（4）轻量级网络

设计了Yolox-Nano、Yolox-Tiny轻量级网络，并测试了一些trick的适用性；

总体来说，论文中做了很多的工作，下面和大家一起，从以上的角度，对Yolox算法的网络结构，以及各个创新点进行讲解。

3.2.1 基准模型：Yolov3_spp
在设计算法时，为了对比改进trick的好坏，常常需要选择基准的模型算法。

而在选择Yolox的基准模型时，作者考虑到：

Yolov4和Yolov5系列，从基于锚框的算法角度来说，可能有一些过度优化，因此最终选择了Yolov3系列。

不过也并没有直接选择Yolov3系列中，标准的Yolov3算法，而是选择添加了spp组件，进而性能更优的Yolov3_spp版本。

以下是论文中的解释：

Considering YOLOv4 and YOLOv5 may be a little over-optimized for the anchor-based pipeline, we choose YOLOv3 [25] as our start point (we set YOLOv3-SPP as the default YOLOv3)。

为了便于大家理解，大白在前面Yolov3结构图的基础上，添加上spp组件，变为下图所示的Yolov3_spp网络。

大家可以看到，主干网络Backbone后面，增加了一个SPP组件。

当然在此基础上，对网络训练过程中的很多地方，都进行了改进，比如：

（1）添加了EMA权值更新、Cosine学习率机制等训练技巧

（2）使用IOU损失函数训练reg分支，BCE损失函数训练cls与obj分支

（3）添加了RandomHorizontalFlip、ColorJitter以及多尺度数据增广，移除了RandomResizedCrop。

在此基础上，Yolov3_spp的AP值达到38.5，即下图中的Yolov3 baseline。

不过在对上图研究时，有一点点小疑惑：

YOLOv3_ultralytics的AP值为44.3，论文中引用时，说是目前Yolov3_spp算法中，精度最好的版本。（the current best practice of YOLOv3）。

接着对此代码进行查看，发现正如论文中所说，增加了很多trick的Yolov3_spp版本，AP值为44.3。

而Yolox的基准模型，是最原始的Yolov3_spp版本，经过一系列的改进后，AP值达到38.5。

在此基础上，又增加了Strong augmentation、Decoupled head、anchor-free、multi positives、SimOTA，等5种trick，最终达到了AP47.3。

但存在疑惑的是？

如果直接采用YOLOv3_ultralytics的Yolov3_spp版本，再增加上面的4种trick（除掉strong augmentation，因为代码中已经改进了），是否会有更好的AP提升？

3.2.2 Yolox-Darknet53
我们在前面知道，当得到Yolov3 baseline后，作者又添加了一系列的trick，最终改进为Yolox-Darknet53网络结构。

上图即是Yolox-Darknet53网络结构图。

为了便于分析改进点，我们对Yolox-Darknet53网络结构进行拆分，变为四个板块：

① 输入端：Strong augmentation数据增强

② BackBone主干网络：主干网络没有什么变化，还是Darknet53。

③ Neck：没有什么变化，Yolov3 baseline的Neck层还是FPN结构。

④ Prediction：Decoupled Head、End-to-End YOLO、Anchor-free、Multi positives。

在经过一系列的改进后，Yolox-Darknet53最终达到AP47.3的效果。

下面我们对于Yolox-Darknet53的输入端、Backbone、Neck、Prediction四个部分，进行详解的拆解。

3.2.2.1 输入端
（1）Strong augmentation

在网络的输入端，Yolox主要采用了Mosaic、Mixup两种数据增强方法。

而采用了这两种数据增强，直接将Yolov3 baseline，提升了2.4个百分点。

① Mosaic数据增强

Mosaic增强的方式，是U版YOLOv3引入的一种非常有效的增强策略。

而且在Yolov4、Yolov5算法中，也得到了广泛的应用。

通过随机缩放、随机裁剪、随机排布的方式进行拼接，对于小目标的检测效果提升，还是很不错的。

Mosaic数据增强的内容，在之前《深入浅出Yolo系列之Yolov3&Yolov4核心基础知识完整讲解》文章中写的很详细，详情可以查看之前的内容。

② MixUp数据增强

MixUp是在Mosaic基础上，增加的一种额外的增强策略。

主要来源于2017年，顶会ICLR的一篇论文《mixup: Beyond Empirical Risk Minimization》。当时主要应用在图像分类任务中，可以在几乎无额外计算开销的情况下，稳定提升1个百分点的分类精度。

而在Yolox中，则也应用到目标检测中，代码在yolox/datasets/mosaicdetection.py这个文件中。

其实方式很简单，比如我们在做人脸检测的任务。

先读取一张图片，图像两侧填充，缩放到640*640大小，即Image_1，人脸检测框为红色框。

再随机选取一张图片，图像上下填充，也缩放到640*640大小，即Image_2，人脸检测框为蓝色框。

然后设置一个融合系数，比如上图中，设置为0.5，将Image_1和Image_2，加权融合，最终得到右面的Image。

从右图可以看出，人脸的红色框和蓝色框是叠加存在的。

我们知道，在Mosaic和Mixup的基础上，Yolov3 baseline增加了2.4个百分点。

不过有两点需要注意：

（1）在训练的最后15个epoch，这两个数据增强会被关闭掉。

而在此之前，Mosaic和Mixup数据增强，都是打开的，这个细节需要注意。

（2）由于采取了更强的数据增强方式，作者在研究中发现，ImageNet预训练将毫无意义，因此，所有的模型，均是从头开始训练的。

3.2.2.2 Backbone
Yolox-Darknet53的Backbone主干网络，和原本的Yolov3 baseline的主干网络都是一样的。

都是采用Darknet53的网络结构，大白在Yolov3的视频中，对于它的来源，结构，各个组件的细节，都有很清晰的讲解，如何有不了解的，可以查看视频《Yolov3相关算法的原理及实现》。

3.2.2.3 Neck
在Neck结构中，Yolox-Darknet53和Yolov3 baseline的Neck结构，也是一样的，都是采用FPN的结构进行融合。

如下图所示，FPN自顶向下，将高层的特征信息，通过上采样的方式进行传递融合，得到进行预测的特征图。

而在Yolov4、Yolov5、甚至后面讲到的Yolox-s、l等版本中，都是采用FPN+PAN的形式，这里需要注意。

3.2.2.4 Prediction层
在输出层中，主要从四个方面进行讲解：Decoupled Head、Anchor Free、标签分配、Loss计算。

（1）Decoupled Head

我们先来看一下Decoupled Head，目前在很多一阶段网络中都有类似应用，比如RetinaNet、FCOS等。

而在Yolox中，作者增加了三个Decoupled Head，俗称“解耦头”

大白这里从两个方面对Decoupled Head进行讲解：

① 为什么使用Decoupled Head？

② Decoupled Head的细节？

从上图右面的Prediction中，我们可以看到，有三个Decoupled Head分支。

① 为什么使用Decoupled Head？

在了解原理前，我们先了解下改进的原因。为什么将原本的Yolo head，修改为Decoupled Head呢？

我们先看一张论文中的表格：

在前面3.2.1 基准网络中，我们知道Yolov3 baseline的AP值为38.5。

作者想继续改进，比如输出端改进为End-to-end的方式（即无NMS的形式）。

但意外的发现，改进完之后的AP值只有34.3。

而在2020年12月份，旷视科技发表的《End-to-End Object Detection with Fully Convolution Network》中。

在对FCOS改进为无NMS时，在COCO上，达到了与有NMS的FCOS，相当的性能。

那这时就奇怪了，为什么在Yolo上改进，会下降这么多？

在偶然间，作者将End-to-End中的Yolo Head，修改为Decoupled Head的方式。

惊喜的发现，End-to-end Yolo的AP值，从34.3增加到38.8。

那End-to-end的方式有效果，Yolov3 baseline中是否也有效果呢？

然后作者又将Yolov3 baseline 中Yolo Head，也修改为Decoupled Head。

发现AP值，从38.5，增加到39.6。

当然作者在实验中还发现，不单单是精度上的提高。替换为Decoupled Head后，网络的收敛速度也加快了。

因此可以得到一个非常关键的结论：

★ 目前Yolo系列使用的检测头，表达能力可能有所欠缺，没有Decoupled Head的表达能力更好。

这里添加Yolo Head和Decoupled Head的对比曲线：

曲线表明：Decoupled Head的收敛速度更快，且精度更高一些。

但是需要注意的是：将检测头解耦，会增加运算的复杂度。

因此作者经过速度和性能上的权衡，最终使用 1个1x1 的卷积先进行降维，并在后面两个分支里，各使用了 2个3x3 卷积，最终调整到仅仅增加一点点的网络参数。

而且这里解耦后，还有一个更深层次的重要性：

Yolox的网络架构，可以和很多算法任务，进行一体化结合。

比如：

（1）YOLOX + Yolact/CondInst/SOLO ，实现端侧的实例分割。

（2）YOLOX + 34 层输出，实现端侧人体的 17 个关键点检测。

② Decoupled Head的细节？

了解了Decoupled Head的来源，再看一下Decoupled Head的细节。

我们将Yolox-Darknet53中，Decoupled Head①提取出来，经过前面的Neck层，这里Decouple Head①输入的长宽为20*20。

从图上可以看出，Concat前总共有三个分支：

（1）cls_output：主要对目标框的类别，预测分数。因为COCO数据集总共有80个类别，且主要是N个二分类判断，因此经过Sigmoid激活函数处理后，变为202080大小。

（2）obj_output：主要判断目标框是前景还是背景，因此经过Sigmoid处理好，变为20201大小。

（3）reg_output：主要对目标框的坐标信息（x，y，w，h）进行预测，因此大小为20204。

最后三个output，经过Concat融合到一起，得到202085的特征信息。

当然，这只是Decoupled Head①的信息，再对Decoupled Head②和③进行处理。

Decoupled Head②输出特征信息，并进行Concate，得到404085特征信息。

Decoupled Head③输出特征信息，并进行Concate，得到808085特征信息。

再对①②③三个信息，进行Reshape操作，并进行总体的Concat，得到8400*85的预测信息。

并经过一次Transpose，变为85*8400大小的二维向量信息。

这里的8400，指的是预测框的数量，而85是每个预测框的信息（reg，obj，cls）。

有了预测框的信息，下面我们再了解，如何将这些预测框和标注的框，即groundtruth进行关联，从而计算Loss函数，更新网络参数呢？

（2）Anchor-free

这里就要引入Anchor的内容，目前行业内，主要有Anchor Based和Anchor Free两种方式。

在Yolov3、Yolov4、Yolov5中，通常都是采用Anchor Based的方式，来提取目标框，进而和标注的groundtruth进行比对，判断两者的差距。

① Anchor Based方式

比如输入图像，经过Backbone、Neck层，最终将特征信息，传送到输出的Feature Map中。

这时，就要设置一些Anchor规则，将预测框和标注框进行关联。

从而在训练中，计算两者的差距，即损失函数，再更新网络参数。

比如在下图的，最后的三个Feature Map上，基于每个单元格，都有三个不同尺寸大小的锚框。

这里为了更形象的展示，以大白Yolov3视频中，输入图像大小416*416为例。

当输入为416416时，网络最后的三个特征图大小为1313，2626，5252。

我们可以看到，黄色框为小狗的Groundtruth，即标注框。

而蓝色的框，为小狗中心点所在的单元格，所对应的锚框，每个单元格都有3个蓝框。

当采用COCO数据集，即有80个类别时。

基于每个锚框，都有x、y、w、h、obj（前景背景）、class（80个类别），共85个参数。

因此会产生3*(1313+2626+52*52）*85=904995个预测结果。

如果将输入从416416，变为640640，最后的三个特征图大小为2020,4040,80*80。

则会产生3*（2020+4040+80*80）*85=2142000个预测结果。

② Anchor Free方式

而Yolox-Darknet53中，则采用Anchor Free的方式。

我们从两个方面，来对Anchor Free进行了解。

a.输出的参数量

我们先计算下，当得到包含目标框所有输出信息时，所需要的参数量？

这里需要注意的是：

最后黄色的85*8400，不是类似于Yolov3中的Feature Map，而是特征向量。

从图中可知，当输入为640640时，最终输出得到的特征向量是858400。

我们看下，和之前Anchor Based方式，预测结果数量相差多少?

通过计算，8400*85=714000个预测结果，比基于Anchor Based的方式，少了2/3的参数量。

b.Anchor框信息

在前面Anchor Based中，我们知道，每个Feature map的单元格，都有3个大小不一的锚框。

那么Yolox-Darknet53就没有吗？

其实并不然，这里只是巧妙的，将前面Backbone中，下采样的大小信息引入进来。

比如上图中，最上面的分支，下采样了5次，2的5次方为32。

并且Decoupled Head①的输出，为202085大小。

因此如上图所示：

最后8400个预测框中，其中有400个框，所对应锚框的大小，为32*32。

同样的原理，中间的分支，最后有1600个预测框，所对应锚框的大小，为16*16。

最下面的分支，最后有6400个预测框，所对应锚框的大小，为8*8。

当有了8400个预测框的信息，每张图片也有标注的目标框的信息。

这时的锚框，就相当于桥梁。

这时需要做的，就是将8400个锚框，和图片上所有的目标框进行关联，挑选出正样本锚框。

而相应的，正样本锚框所对应的位置，就可以将正样本预测框，挑选出来。

这里采用的关联方式，就是标签分配。

（3）标签分配

当有了8400个Anchor锚框后，这里的每一个锚框，都对应85*8400特征向量中的预测框信息。

不过需要知道，这些预测框只有少部分是正样本，绝大多数是负样本。

那么到底哪些是正样本呢？

这里需要利用锚框和实际目标框的关系，挑选出一部分适合的正样本锚框。

比如第3、10、15个锚框是正样本锚框，则对应到网络输出的8400个预测框中，第3、10、15个预测框，就是相应的正样本预测框。

训练过程中，在锚框的基础上，不断的预测，然后不断的迭代，从而更新网络参数，让网络预测的越来越准。

那么在Yolox中，是如何挑选正样本锚框的呢？

这里就涉及到两个关键点：初步筛选、SimOTA。

① 初步筛选

初步筛选的方式主要有两种：根据中心点来判断、根据目标框来判断；

这部分的代码，在models/yolo_head.py的get_in_boxes_info函数中。

a. 根据中心点来判断：

规则：寻找anchor_box中心点，落在groundtruth_boxes矩形范围的所有anchors。

比如在get_in_boxes_info的代码中，通过groundtruth的[x_center,y_center，w，h]，计算出每张图片的每个groundtruth的左上角、右下角坐标。

为了大家更容易理解，大白以人脸检测的任务绘制图片：

通过上面的公式，可以对左面人脸图片，计算出左上角（gt_l，gt_t），右下角（gt_r，gt_b）。

groundtruth的矩形框范围确定了，再根据范围去选择适合的锚框。

这里再绘制一个锚框的中心点，（x_center，y_center）。

而右面的图片，就是寻找锚框和groundtruth的对应关系。

即计算锚框中心点（x_center，y_center），和人脸标注框左上角（gt_l，gt_t），右下角（gt_r，gt_b）两个角点的相应距离。

比如下面代码图片中的前四行代码：

而在第五行，将四个值叠加之后，通过第六行，判断是否都大于0？

就可以将落在groundtruth矩形范围内的所有anchors，都提取出来了。

因为ancor box的中心点，只有落在矩形范围内，这时的b_l，b_r，b_t，b_b都大于0。

b.根据目标框来判断：

除了根据锚框中心点，和groundtruth两边距离判断的方式外，作者还设置了根据目标框判断的方法。

规则：以groundtruth中心点为基准，设置边长为5的正方形，挑选在正方形内的所有锚框。

同样在get_in_boxes_info的代码中，通过groundtruth的[x_center，y_center，w，h]，绘制了一个边长为5的正方形。

为了大家容易理解，大白还是以人脸检测的任务绘制图片：

在左面的人脸图片中，基于人脸标注框的中心点，利用上面的公式，绘制了一个边长为5的正方形。左上角点为（gt_l，gt_t），右下角点为（gt_r，gt_b）。

这时groundtruth正方形范围确定了，再根据范围去挑选锚框。

而右面的图片，就是找出所有中心点（x_center，y_center）在正方形内的锚框。

在代码图片中的前四行代码，也是计算锚框中心点，和正方形两边的距离。

通过第五行的叠加，再在第六行，判断c_l，c_r，c_t，c_b是否都大于0？

就可以将落在边长为5的正方形范围内，所有的anchors，都提取出来了，因为这时的c_l，c_r，c_t，c_b都大于0。

经过上面两种挑选的方式，就完成初步筛选了，挑选出一部分候选的anchor，进入下一步的精细化筛选。

② 精细化筛选

而在精细化筛选中，就用到论文中提到的SimOTA了：

从提升效果上来看，引入SimOTA后，AP值提升了2.3个百分点，还是非常有效的。

而SimOAT方法的提出，主要来源于旷视科技，2021年初CVPR上的一篇论文：《Ota: Optimal transport assignment for object detection》。

我们将SimOTA的前后流程进行拆解，看一下是如何进行精细化筛选的？

整个筛选流程，主要分为四个阶段：

a.初筛正样本信息提取

b.Loss函数计算

c.cost成本计算

d.SimOTA求解

为了便于理解，我们假定图片上有3个目标框，即3个groundtruth。

再假定目前在做的项目是对人脸和人体检测，因此检测类别是2。

上一节中，我们知道有8400个锚框，但是经过初步筛选后，假定有1000个锚框是正样本锚框。

a.初筛正样本信息提取

初筛出的1000个正样本锚框的位置，我们是知道的。

而所有锚框的位置，和网络最后输出的85*8400特征向量是一一对应。

所以根据位置，可以将网络预测的候选检测框位置bboxes_preds、前景背景目标分数obj_preds、类别分数cls_preds等信息，提取出来。

上面的代码位于yolo_head.py的get_assignments函数中。

以前面的假定信息为例，代码图片中的bboxes_preds_per_image因为是候选检测框的信息，因此维度为[1000，4]。

obj_preds因为是目标分数，所以维度是[1000，1]。

cls_preds因为是类别分数，所以维度是[1000，2]。

b.Loss函数计算

针对筛选出的1000个候选检测框，和3个groundtruth计算Loss函数。

计算的代码，也在yolo_head.py的get_assignments函数中。

首先是位置信息的loss值：pair_wise_ious_loss

通过第一行代码，可以计算出3个目标框，和1000个候选框，每个框相互之间的iou信息pair_wise_ious，因为向量维度为[3,1000]。

再通过-torch.log计算，得到位置损失，即代码中的pair_wise_iou_loss。

然后是综合类别信息和目标信息的loss值：pair_wise_cls_loss

通过第一行代码，将类别的条件概率和目标的先验概率做乘积，得到目标的类别分数。

再通过第二行代码，F.binary_cross_entroy的处理，得到3个目标框和1000个候选框的综合loss值，即pair_wise_cls_loss，向量维度为[3，1000]。

c.cost成本计算

有了reg_loss和cls_loss，就可以将两个损失函数加权相加，计算cost成本函数了。

这里涉及到论文中提到的一个公式：

相应的，对应于yolo_head.py的get_assignments函数中的代码：

可以看出，公式中的加权系数，即代码中的3。

d.SimOTA

有了上面的一系列信息，标签分配问题，就转换为了标准的OTA问题。

但是经典的Sinkhorn-Knopp算法，需要多次迭代求得最优解。

作者也提到，该算法会导致25%额外训练时间，所以采用一种简化版的SimOTA方法，求解近似最优解。这里对应的函数，是get_assignments函数中的self.dynamic_k_matching：

其中的流程如下：

第一步：设置候选框数量

首先按照cost值的大小，新建一个全0变量matching_matrix，这里是[3,1000]。

通过上面第二行代码，设置候选框数量为10。

再通过第三行代码，从前面的pair_wise_ious中，给每个目标框，挑选10个iou最大的候选框。

因为前面假定有3个目标，因此这里topk_ious的维度为[3，10]。

第二步：通过cost挑选候选框

下面再通过topk_ious的信息，动态选择候选框，这里是个关键。

代码如dynamic_k_matching函数中，下图所示：

为了便于大家理解，大白先把第一行制作成图示效果。

这里的topk_ious，是3个目标框和预测框中，最大iou的10个候选框：

经过torch.clamp函数，得到最终右面的dynamic_ks值。

我们就知道，目标框1和3，给他分配3个候选框，而目标框2，给它分配4个候选框。

那么基于什么标准分配呢？

这时就要利用前面计算的cost值，即[3,1000]的损失函数加权信息。

在for循环中，针对每个目标框挑选，相应的cost值最低的一些候选框。

比如右面的matching_matrix中，cost值最低的一些位置，数值为1，其余位置都为0。

因为目标框1和3，dynamic_ks值都为3，因此matching_matrix的第一行和第三行，有3个1。

而目标框2，dynamic_ks值为4，因此matching_matrix的第二行，有4个1。

第三步：过滤共用的候选框

不过在分析matching_matrix时，我们发现，第5列有两个1。

这也就说明，第五列所对应的候选框，被目标检测框1和2，都进行关联。

因此对这两个位置，还要使用cost值进行对比，选择较小的值，再进一步筛选。

这里为了便于理解，还是采用图示的方式：

首先第一行代码，将matching_matrix，对每一列进行相加。

这时anchor_matching_gt中，只要有大于1的，说明有共用的情况。

上图案例中，表明第5列存在共用的情况。

再利用第三行代码，将cost中，第5列的值取出，并进行比较，计算最小值所对应的行数，以及分数。

我们将第5列两个位置，假设为0.4和0.3。

经过第三行代码，可以找到最小的值是0.3，即cost_min为0.3，所对应的行数，cost_argmin为2。

经过第四行代码，将matching_matrix第5列都置0。

再利用第五行代码，将matching_matrix第2行，第5列的位置变为1。

最终我们可以得到3个目标框，最合适的一些候选框，即matching_matrix中，所有1所对应的位置。

（4）Loss计算

经过第三部分的标签分配，就可以将目标框和正样本预测框对应起来了。

下面就可以计算两者的误差，即Loss函数。

计算的代码，位于yolo_head.py的get_losses函数中。

我们可以看到：

检测框位置的iou_loss，Yolox中使用传统的iou_loss，和giou_loss两种，可以进行选择。

而obj_loss和cls_loss，都是采用BCE_loss的方式。

当然除此之外，还有两点需要注意：

a.在前面精细化筛选中，使用了reg_loss和cls_loss，筛选出和目标框所对应的预测框。

因此这里的iou_loss和cls_loss，只针对目标框和筛选出的正样本预测框进行计算。

而obj_loss，则还是针对8400个预测框。

b.在Decoupled Head中，cls_output和obj_output使用了sigmoid函数进行归一化，

但是在训练时，并没有使用sigmoid函数，原因是训练时用的nn.BCEWithLogitsLoss函数，已经包含了sigmoid操作。

而在推理过程中，是使用Sigmoid函数的。

PS：不同的实验数据对比

因为想测试Yolox不同trick的性能，和好友潘大强在使用自有数据，对多种trick进行对比测试时发现：

① 方案一：Yolox-s+数据增强+(obj_output的Loss函数，用BCELoss)

② 方案二：Yolox-s+数据增强+(obj_output的Loss函数，改为FocalLoss)

对比发现：在使用自有数据集训练时，如果将obj_loss的BCE_Loss，修改为Focal_Loss，发现效果很明显，涨点也很多。而且iou_loss收敛的更好了，不知道是否有朋友也试过？可以在评论区讨论。

3.2.3 Yolox-s、l、m、x系列
在对Yolov3 baseline进行不断优化，获得不错效果的基础上。

作者又对Yolov5系列，比如Yolov5s、Yolov5m、Yolov5l、Yolov5x四个网络结构，也使用一系列trick进行改进。

先来看一下，改进了哪些地方？

我们主要对Yolov5s进行对比，下图是Yolov5s的网络结构图：

我们再看一下Yolox-s的网络结构：

由上面两张图的对比，及前面的内容可以看出，Yolov5s和Yolox-s主要区别在于：

（1）输入端：在Mosa数据增强的基础上，增加了Mixup数据增强效果；

（2）Backbone：激活函数采用SiLU函数；

（3）Neck：激活函数采用SiLU函数；

（4）输出端：检测头改为Decoupled Head、采用anchor free、multi positives、SimOTA的方式。

在前面Yolov3 baseline的基础上，以上的tricks，取得了很不错的涨点。

在Yolov5一系列框架中呢？

下图是对Yolov5s、Yolov5m、Yolov5l、Yolov5x四个网络的改进效果对比图：

可以看出，在速度增加1ms左右的情况下，AP精度实现了0.8~2.9的涨点。

且网络结构越轻，比如Yolox-s的时候，涨点最多，达到2.9的涨点。

随着网络深度和宽度的加深，涨点慢慢降低，最终Yolox-x有0.8的涨点。

3.2.4 轻量级网络研究
在对Yolov3、Yolov5系列进行改进后，作者又设计了两个轻量级网络，与Yolov4-Tiny、和Yolox-Nano进行对比。

在研究过程中，作者有两个方面的发现，主要从轻量级网络，和数据增强的优缺点，两个角度来进行描述。

3.2.4.1 轻量级网络
因为实际场景的需要，很多同学想将Yolo移植到边缘设备中。

因此作者针对Yolov4-Tiny，构建了Yolox-Tiny网络结构。

针对FCOS 风格的NanoDet，构建了Yolox-Nano网络结构。

从上表可以看出：

（1）和Yolov4-Tiny相比，Yolox-Tiny在参数量下降1M的情况下，AP值实现了9个点的涨点。

（2）和NanoDet相比，Yolox-Nano在参数量下降，仅有0.91M的情况下，实现了1.8个点的涨点。

（3）因此可以看出，Yolox的整体设计，在轻量级模型方面，依然有很不错的改进点。

3.2.4.2 数据增强的优缺点
在Yolox的很多对比测试中，都使用了数据增强的方式。

但是不同的网络结构，有的深有的浅，网络的学习能力不同，那么无节制的数据增强是否真的更好呢？

作者团队，对这个问题也进行了对比测试。

通过以上的表格有以下发现：

① Mosaic和Mixup混合策略

（1）对于轻量级网络，Yolox-nano来说，当在Mosaic基础上，增加了Mixup数据增强的方式，AP值不增反而降，从25.3降到24。

（2）而对于深一些的网络，Yolox-L来说，在Mosaic基础上，增加了Mixup数据增强的方式，AP值反而有所上升，从48.6增加到49.5。

（3）因此不同的网络结构，采用数据增强的策略也不同，比如Yolox-s、Yolox-m，或者Yolov4、Yolov5系列，都可以使用不同的数据增强策略进行尝试。

② Scale 增强策略

在Mosaic数据增强中，代码Yolox/data/data_augment.py中的random_perspective函数，生成仿射变换矩阵时，对于图片的缩放系数，会生成一个随机值。

（1）对于Yolox-l来说，随机范围scale设置在[0.1，2]之间，即文章中设置的默认参数。

（2）而当使用轻量级模型，比如YoloNano时，一方面只使用Mosaic数据增强，另一方面随机范围scale，设置在[0.5，1.5]之间，弱化Mosaic增广的性能。

3.3 Yolox的实现成果
3.3.1 精度速度对比
前面我们了解了Yolox的各种trick改进的原因以及原理，下面我们再整体看一下各种模型精度速度方面的对比：

左面的图片是相对比较标准的，网络结构的对比效果，主要从速度和精度方面，进行对比。

而右面的图片，则是轻量级网络的对比效果，主要对比的是参数量和精度。

从左面的图片可以得出：

（1）和与Yolov4-CSP相当的Yolov5-l进行对比，Yolo-l在COCO数据集上，实现AP50%的指标，在几乎相同的速度下超过Yolov5-l 1.8个百分点。

（2）而Yolox-Darknet53和Yolov5-Darknet53相比，实现AP47.3%的指标，在几乎同等速度下，高出3个百分点。

而从右面的图片可以得出：

（1）和Nano相比，Yolox-Nano参数量和GFLOPS都有减少，参数量为0.91M，GFLOPS为1.08，但是精度可达到25.3%，超过Nano1.8个百分点。

（2）而Yolox-Tiny和Yolov4-Tiny相比，参数量和GFLOPS都减少的情况下，精度远超Yolov4-Tiny 9个百分点。

3.3.2 Autonomous Driving竞赛
在CVPR2021自动驾驶竞赛的，Streaming Perception Challenge赛道中，挑战的主要关注点之一，是自动驾驶场景下的实时视频流2D目标检测问题。

由一个服务器收发图片和检测结果，来模拟视频流30FPS的视频，客户端接收到图片后进行实时推断。

竞赛地址：点击查看

在竞赛中旷视科技采用Yolox-l作为参赛模型，同时使用TensorRT进行推理加速，最终获得了full-track和detection-only track，两个赛道比赛的第一。

因此Yolox的各种改进方式还是挺不错，值得好好学习，深入研究一下。

4 深入浅出Yolox之自有数据集训练
因为Yolox的代码，和之前的Yolov3、Yolov4、Yolov5版本还是有很多不同的地方。

很多同学可能对于如何利用自有数据集训练？还是有些疑惑。

因此大白另外也写了一篇《深入浅出Yolox之自有数据集训练》的文章。

利用教室场景中，人头部标注的数据集，和大家一起一步步训练。

江大白：深入浅出Yolox之自有数据集训练超详细教程
175 赞同 · 61 评论文章

5 不同的落地模型部署方式
当模型训练好，需要在项目中进行部署时。

作者在代码中，还贴心的整理了各种版本的部署方式：

比如以上5种方式：

（1）MegEngine：基于旷视科技的深度学习框架，MegEngine的部署方式。也是Brain++的核心组件，主要有C++和Python两种方式。

（2）ONNX和Tensorrt两种方式：英伟达的两种方式都有支持，主要有C++和Python两个方式，常常用在GPU服务器推理中。

（3）NCNN：腾讯优图开源的手机端推理框架，主要有C++和Java版本。

（4）OpenViNO：Intel公司开源的深度学习应用套件，主要有C++和Python版本。

一般情况下，可以选择Yolox-Nano、Yolox-Tiny、Yolox-s用于移动端部署。

Yolox-m、Yolox-l、Yolox-x用于GPU服务器部署。

大家也可以根据自己项目的需求，选择不同的部署方式。

6 后续更新ing
当然在Yolox的代码中，大白发现旷视作者的工作，还是不断改进中。后期也会推出很多改进的工作。

大家也可以先关注、点赞、收藏，后续有更新后，大白也会在本文中进行调整修改，更新到文章中。

7 相关数据集下载
人工智能行业，除了算法，数据是非常重要的金矿。

比如在目标检测项目中，需要检测人体，那我们就需要人体数据集。当需要检测车辆，就需要车辆数据集。

为了便于大家查找相关数据集，大白将梳理的所有的数据集进行汇总，便于大家对应查看。

（1）260+各类公开数据集

可以根据不同的需求，筛选出自己需要的数据集，在官网中进行下载。

数据集链接：点击查看

（2）数十个可下载数据集

大白将一些收集的数据集，以及购买的部分数据集，都放在百度网盘中，可以进行下载。

下载链接：点击查看

（3）花费过万购买的数据集

在从事AI行业的这三年中，大白零零散散，花费了一万多，购买了各类项目中所需要的数据集。

而且为了便于大家了解不同的数据集，算法功能、类别标签等详细信息，大白还制作了数据集管理文档，甚至在每行最后贴上了数据集图片，可以直接点击打开，查看是否自己需要的数据。

数据集管理文档清单链接：点击查看

数据集下载方式：点击查看

以上三种方式，如果大家都有的话，应该基本上可以解决学习中或者工作中，很多的训练需求了。

希望大白制作的，关于Yolov3、Yolov4、Yolov5、Yolox的一系列文章和视频，对大家工作和学习有帮助！

你可能感兴趣的:(yolo,人工智能,深度学习,计算机视觉)

《今日AI-人工智能-编程日报》-源自2025年3月20日小亦编辑部每日AI-人工智能-编程日报人工智能大数据
一、AI行业动态英伟达新一代AI芯片Rubin发布计划英伟达宣布其新一代AI芯片Rubin将于2026年下半年推出，下下一代AI芯片架构命名为Feynman，计划于2028年登场。同时，英伟达还推出了RTXPRO6000系列Blackwell专业卡，拥有24064核心、96GB显存和最高600W功耗。OpenAI星际之门数据中心建设进展OpenAI的首个数据中心“星际之门”预计于2026年中在德克
一文讲清楚深度学习和机器学习平凡而伟大. 机器学习人工智能深度学习机器学习人工智能
目录1.定义机器学习（MachineLearning,ML）深度学习（DeepLearning,DL）2.工作原理机器学习深度学习3.应用场景机器学习深度学习4.主要区别5.为什么选择深度学习？6.总结深度学习和机器学习是人工智能（AI）领域中两个密切相关但有所区别的概念。要清楚地解释它们之间的关系，我们可以从定义、工作原理、应用场景以及两者的主要区别等方面进行探讨。1.定义机器学习（Machin
AIOps：解决企业IT挑战的智能利器雅菲奥朗认证培训 AIOps SRE 可观测性
前言：在当今数字化的时代，企业IT基础设施和应用程序规模不断扩大，面临着日益复杂的挑战。在这种情况下，AIOps人工智能运维成为解决企业IT运维困境的智能利器。AIOps与可观测性密切相关，可观测性是实现AIOps的基础。通过收集、监视和理解系统数据，AIOps能够自动化运维任务、实时监控系统状态、预测潜在问题，从而提高效率和稳定性。AIOps尤其适用于IT运维部门，这是一个迫切需要此类技术的群体
使用AIOps进行更好的事件管理茵赛飞3D CAD数据转换软件 pagerduty devops 人工智能运维
DevOps为科技界带来了更加协作和高效的工作流程。随着AIOps的集成，自动化更进一步，使用人工智能为团队提供更快的根本原因分析和算法降噪。主要从采用AIOps中受益的主要领域之一是事件管理。AIOps可以帮助DevOps团队自动化工作流程，以实现更智能、更高效的事件管理，从而腾出时间让IT运营团队成员专注于创新以改善用户体验。在本文中，我们将了解AIOps如何从检测和识别到响应改进事件管理，以
AI大模型编程能力对比：Deepseek&Claude&Gemini 黑夜路人（heiyeluren） AI人工智能人工智能 ai AIGC 语言模型
在当今快速发展的技术领域，人工智能（AI）模型在编程和数据处理方面的应用越来越广泛。不同的AI模型因其独特的设计理念和技术优势，适用于不同的编程任务和场景。本文将对三种主流的AI模型——DeepSeekv3、GeminiFlash2.0和Claude3.5Sonnet的编程能力进行详细对比，帮助读者根据具体需求选择最合适的工具。同时对DeepSeekv3、GeminiFlash2.0和Claude
DeepSeek：智能搜索与分析的新纪元 XRC2231 学习
在人工智能浪潮席卷全球的今天，DeepSeek如同一颗璀璨的新星，以其独特的魅力和强大的功能，在AI领域脱颖而出。DeepSeek，这一基于深度学习和数据挖掘技术的智能搜索与分析系统，不仅重新定义了搜索引擎的边界，更以其卓越的性能和广泛的应用场景，为全球用户带来了前所未有的智能体验。本文将从DeepSeek的定义、特点、应用场景、优势等方面进行全面而深入的介绍，带您领略这一新兴技术的独特魅力。一、
哈尔滨工业大学DeepSeek公开课人工智能：大模型原理技术与应用-从GPT到DeepSeek｜附视频下载方法你觉得205 人工智能机器学习大数据 ai 知识图谱 python 运维
导读INTRODUCTION今天继续哈尔滨工业大学车万翔教授带来了一场主题为“DeepSeek技术前沿与应用”的报告。本报告深入探讨了大语言模型在自然语言处理（NLP）领域的核心地位及其发展历程，从基础概念出发，延伸至语言模型在机器翻译、拼音输入法、语音识别等任务中的关键作用。强调了语言模型不仅辅助其他NLP任务，本身也蕴含大量知识，如地理信息、语义理解和推理能力。随着技术的发展，尤其是trans
大模型学习终极指南：从新手到专家的必经之路，全网最详尽解析，你敢挑战吗？大模型入门教程学习人工智能 AI 大模型大模型学习大模型教程 AI大模型
随着人工智能技术的飞速发展，大模型（Large-ScaleModels）已经成为推动自然语言处理（NLP）、计算机视觉（CV）等领域进步的关键因素。本文将为您详细介绍从零开始学习大模型直至成为专家的全过程，包括所需掌握的知识点、学习资源以及实践建议等。无论您是初学者还是有一定基础的专业人士，都能从中获得有价值的指导。一、基础知识准备在开始学习大模型之前，需要先掌握一些基础知识，这些知识将为后续的学
编程内容简述！恶霸不委屈开发语言青少年编程汇编 java python
编程是指通过计算机语言来开发软件、程序和应用的过程，通常通过编写一系列的指令，来让计算机完成特定的任务。编程可以涉及多个领域和技术，以下是一些主要的编程内容：1.编程语言编程语言是程序员与计算机进行沟通的桥梁，不同的编程语言适用于不同的任务。常见的编程语言有：Python：简单易学，适用于数据分析、人工智能、网页开发等。JavaScript：网页开发中不可或缺的语言，用于动态网页和前端开发。Jav
大模型Agent 和 RAG 的关系大数据追光猿大模型语言模型人工智能学习方法 transformer
Agent和RAG（Retrieval-AugmentedGeneration）是两种在自然语言处理（NLP）和人工智能领域中广泛使用的技术，它们在功能、目标和实现方式上既有区别又有联系。以下是它们的关系及其协同作用的详细分析。1.Agent和RAG的定义（1）Agent定义：Agent是一种智能体，能够感知环境并采取行动以完成特定任务。在NLP领域，Agent通常指一个基于大语言模型（LLM）的
国产模型能否挑战 GPT-4？一文拆解 DeepSeek-V3 架构与实战应用 AI筑梦师人工智能学习框架架构深度学习 python agi 人工智能 tensorflow
✳️一、引言✅1.1DeepSeek-V3发布背景与定位随着大模型技术的快速演进，从GPT-3到GPT-4，全球在通用人工智能方向取得了长足进展。但与此同时，开源社区始终缺乏一个真正兼顾性能、效率、中文能力和实用性的高质量大模型。DeepSeek-V3的推出正是在这个背景下的一次关键突破。DeepSeek-V3是由中国团队DeepSeek开发的第三代大语言模型，它具备以下几个核心特性：开源可商用：
Agent、RAG、LangChain的概念及作用北极冰雨大模型人工智能
Agent：概念：在人工智能中，Agent通常指的是能够执行任务或做出决策的实体，可以是简单的程序，也可以是复杂的系统，如自动化客服助手、推荐系统等，甚至可以是软件代理、机器人或虚拟助手等各种形式。作用：它能利用内置的大语言模型来做出规划，决定执行哪些步骤，以及每个步骤需要调用哪些工具（如RAG），之后调用相应的工具，最终完成任务。例如，在客服问答场景中，Agent可以根据用户的问题，规划出需要查
【如何打包docker大镜像】青柚~ docker 容器运维
项目场景：需要将容器服务部署到离线服务器上；方案：本机的镜像进行打包，然后拷贝到服务器上部署问题描述提示：这里描述项目中遇到的问题：docker中镜像太大，以至于打包时电脑卡死解决方案：压缩打包dockersavemmyolo:v8|gzip>mmyolo.tar.gz拷贝到服务器上后先解压再加载#解压缩gunzipmmyolo.tar.gz#加载dockerload-immyolo.tar
AI模型技术演进与行业应用图谱智能计算研究中心其他
内容概要当前AI模型技术正经历从基础架构到行业落地的系统性革新。主流深度学习框架如TensorFlow和PyTorch持续优化动态计算图与分布式训练能力，而MXNet凭借高效的异构计算支持在边缘场景崭露头角。与此同时，模型压缩技术通过量化和知识蒸馏将参数量降低60%-80%，联邦学习则通过加密梯度交换实现多机构数据协同训练。在应用层面，医疗诊断模型通过迁移学习在CT影像分类任务中达到98.2%的准
DeepSeek多语言AI高效应用实践智能计算研究中心其他
内容概要在人工智能技术快速迭代的背景下，DeepSeek系列模型凭借混合专家架构（MoE）与670亿参数规模，在多语言处理、视觉语言理解及复杂任务生成领域实现了突破性进展。本文系统性拆解其技术架构设计逻辑，聚焦论文写作、代码生成、SEO关键词拓展三大核心场景，分析模型在高生成质量、低使用成本维度的差异化优势。技术维度DeepSeekProver传统单模态模型多语言支持97种语言动态切换单一语种优化
AI大模型训练教程 Small踢倒coffee_氕氘氚 python自学经验分享笔记
1.引言随着人工智能技术的快速发展，大模型（如GPT-3、BERT等）在自然语言处理、计算机视觉等领域取得了显著的成果。训练一个大模型需要大量的计算资源、数据和专业知识。本教程将带你了解如何从零开始训练一个AI大模型。2.准备工作2.1硬件要求GPU：推荐使用NVIDIA的高性能GPU，如A100、V100等。内存：至少64GBRAM。存储：SSD存储，至少1TB。#2.2软件环境操作系统：Lin
使用Jupyter Notebook进行深度学习编程 - 深度学习教程 shandianfk_com ChatGPT AI jupyter 深度学习 ide
大家好，今天我们要聊聊如何使用JupyterNotebook进行深度学习编程。深度学习是人工智能领域中的一项重要技术，通过模仿人脑神经网络的方式进行学习和分析。JupyterNotebook作为一个强大的工具，可以帮助我们轻松地进行深度学习编程，尤其适合初学者和研究人员。本文将带领大家一步步了解如何在JupyterNotebook中开展深度学习项目。一、什么是JupyterNotebook？Jup
Opencv之计算机视觉一闭月之泪舞计算机视觉计算机视觉 opencv python
一、环境准备使用opencv库来实现简单的计算机视觉。需要安装两个库：opencv-python和opencv-contrib-python，版本可以自行选择，注意不同版本的opencv中的某些函数名和用法可能不同pipinstallopencv-python==3.4.18.65-ihttps://pypi.tuna.tsinghua.edu.cn/simplepipinstallopencv-
计算机视觉总结 Trank-Lw 计算机视觉深度学习人工智能
以下是针对上述问题的详细解答，并结合代码示例进行说明：1.改进YOLOv5人脸检测模块，复杂光照场景准确率从98.2%提升至99.5%优化具体过程：光照补偿：在数据预处理阶段，采用自适应光照补偿算法，对图像进行实时增强，以减少光照变化对人脸检测的影响。数据增强：在训练数据中增加复杂光照场景下的样本，如强光、弱光、背光等，通过数据增强提高模型对不同光照条件的适应性。模型调整：对YOLOv5模型的网络
英伟达常用GPU参数速查表，含B300..... Ai17316391579 深度学习服务器人工智能机器学习服务器电脑计算机视觉深度学习神经网络
英伟达常用GPU参数速查表，收藏备用：含RTX5090、RTX4090D、L40、L20、A100、A800、H100、H800、H20、H200、B200、B300、GB300.....专注于高性能计算人工智能细分领域kyfwq001#5090##4090##英伟达“新核弹”B200发布##英伟达##英伟达B300##GPU##服务器##显卡##英伟达H800/A800芯片将禁售#
深度学习 Deep Learning 第8章深度学习优化 odoo中国 AI编程人工智能深度学习人工智能优化
深度学习第8章深度学习的优化章节概述本章深入探讨了深度学习中的优化技术，旨在解决模型训练过程中面临的各种挑战。优化是深度学习的核心环节，直接关系到模型的训练效率和最终性能。本章首先介绍了优化在深度学习中的特殊性，然后详细讨论了多种优化算法，包括随机梯度下降（SGD）、动量法、Nesterov动量法、AdaGrad、RMSProp和Adam等。此外，还探讨了参数初始化策略、自适应学习率方法以及二阶优
景联文科技提供高质量文本标注服务，驱动AI技术发展景联文科技科技人工智能
文本标注是指在原始文本数据上添加标签的过程，这些标签可以用来指示特定的实体、关系、事件等信息，以帮助计算机理解和处理这些数据。文本标注是自然语言处理（NLP）领域的一个重要环节，它通过为文本的不同部分提供具体的含义和上下文信息，增强机器学习和深度学习模型对文本内容的理解能力。标注类型情感分析情感极性：确定文本表达的情感倾向，如正面、负面或中立。强度评估：衡量情感的强烈程度，从轻微到极端不等。命名实
打造金融数据新引擎，看永洪科技助力头部农信社搭建一站式分析平台永洪科技金融数据可视化 BI 数据分析大数据
在数字化转型的浪潮中，金融行业作为经济发展的核心引擎，正加速探索数字化、智能化的新路径。永洪科技，近日成功助力某省农村信用社联合社（简称：Z企业）完成了其数字化转型的重要一步，通过部署先进的商业智能解决方案，为Z企业的业务升级与效能提升注入了强劲动力。随着智能金融时代的来临，以大数据、人工智能、移动互联等新兴技术为核心的金融科技持续赋能银行金融业务数字化、智能化、开放化的发展，为金融机构营销体系的
景联文科技：以高质量数据标注推动人工智能领域创新与发展景联文科技科技人工智能数据标注
在当今这个由数据驱动的时代，高质量的数据标注对于推动机器学习、自然语言处理（NLP）、计算机视觉等领域的发展具有不可替代的重要性。数据标注过程涉及对原始数据进行加工，通过标注特定对象的特征来生成能够被机器学习模型识别和使用的编码格式，从而使数据更具有意义和可解读性。数据标注的主要类型包括：图像标注：指在图片中标识出目标物体的位置、形状或类别等信息，如自动驾驶技术中的行人、车辆及交通标志的识别。文本
人工智能与网络信息技术的深度融合鸭鸭鸭进京赶烤学术会议人工智能 AI编程 ai 机器人计算机视觉网络计算机网络
在当今时代，人工智能（AI）和网络信息技术正以前所未有的速度推动着社会变革。从通用人工智能（AGI）到具身智能的普及，AI不仅实现了技术上的飞跃，也在各个行业展现出巨大的应用潜力。随着技术的不断迭代，我们迎来了许多创新应用，例如AI在电子信息技术中的应用，通过算法优化与升级，显著提高了处理效率和准确性。网络信息技术同样在飞速发展。面向2030年的未来网络发展趋势表明，网络将支撑万亿级、人机物、全时
深度学习篇---对角矩阵&矩阵的秩&奇异矩阵 Ronin-Lotus 程序代码篇深度学习篇深度学习矩阵人工智能线性代数
文章目录前言一、对角矩阵（DiagonalMatrix）1.1定义1.2特性行列式运算简化1.3应用领域深度学习信号处理量子力学经济学二、矩阵的秩（RankofaMatrix）2.1定义2.2特性满秩降秩影响2.3应用领域深度学习图像压缩推荐系统控制理论三、奇异矩阵（SingularMatrix）3.1定义3.2特性秩不足行列式为零3.3应用领域深度学习正则化损失函数结构工程统计学数值计算四、跨领
DeepSeek、Grok 与 ChatGPT 三巨头：技术架构与应用场景的全方位解析云策量化 Deepseek chatgpt deepseek grok
前言在当今人工智能领域，DeepSeek、Grok和ChatGPT作为语言模型的三巨头，各自凭借独特的技术架构和广泛的应用场景，在自然语言处理领域占据着重要地位。本文将对这三款模型的技术架构和应用场景进行全方位解析，以期为读者提供深入的了解和有价值的参考。一、技术架构（一）DeepSeekDeepSeek是由DeepSeek团队开发的一款大型语言模型，其技术架构基于深度学习中的Transforme
探索AI模型的巅峰之战：ChatGPT、DeepSeek与Grok 3，谁才是最强？温暖阳光阿斌人工智能 chatgpt
近年来，人工智能领域正处于一场高速迭代的革命中。大型语言模型（LLMs）如ChatGPT、DeepSeek和Grok3纷纷亮相，各展所长，为人们带来了前所未有的体验。在这场"谁是最强"的竞争中，每一方都展现出了令人惊叹的能力和独特的优势。然而，这些模型之间的差异和特点，究竟是什么？它们各自的优势在哪里？又有哪些隐藏的短板？本文将带您深入了解这三位AI巨头的亮点与争议，共同探讨它们在AI领域的位置，
OpenCV 4.2.0与扩展模块安装与应用指南土城三富
本文还有配套的精品资源，点击获取简介：OpenCV4.2.0是一个先进的计算机视觉库，包含了图像处理、计算机视觉和机器学习算法。本压缩包包含OpenCV核心库和扩展模块（opencv_contrib），版本均为4.2.0。该版本引入了性能增强、API优化以及对深度学习框架和硬件加速技术的更新支持。扩展模块提供了额外的实验性算法和功能，有助于研究和开发新算法。指南详细介绍了如何安装和配置这些库，并提
YOLOV11|YOLO12改进系列指南魔鬼面具 YOLO
基于Ultralytics的YOLO11|YOLO12改进目前自带的一些改进方案(持续更新)为了感谢各位对本项目的支持,本项目的赠品是yolov5-PAGCP通道剪枝算法.具体使用教程专栏改进汇总YOLO11系列二次创新系列ultralytics/cfg/models/11/yolo11-RevCol.yaml使用(ICLR2023)ReversibleColumnNetworks对yolo11主
java的(PO,VO,TO,BO,DAO,POJO) Cb123456 VO TO BO POJO DAO
转: http://www.cnblogs.com/yxnchinahlj/archive/2012/02/24/2366110.html ------------------------------------------------------------------- O/R Mapping 是 Object Relational Mapping（对象关系映
spring ioc原理（看完后大家可以自己写一个spring） aijuans spring
最近，买了本Spring入门书：spring In Action 。大致浏览了下感觉还不错。就是入门了点。Manning的书还是不错的，我虽然不像哪些只看Manning书的人那样专注于Manning,但怀着崇敬的心情和激情通览了一遍。又一次接受了IOC 、DI、AOP等Spring核心概念。先就IOC和DI谈一点我的看法。IO
MyEclipse 2014中Customize Persperctive设置无效的解决方法 Kai_Ge MyEclipse2014
高高兴兴下载个MyEclipse2014，发现工具条上多了个手机开发的按钮，心生不爽就想弄掉他！结果发现Customize Persperctive失效！！有说更新下就好了，可是国内Myeclipse访问不了，何谈更新... so~这里提供了更新后的一下jar包，给大家使用！ 1、将9个jar复制到myeclipse安装目录\plugins中 2、删除和这9个jar同包名但是版本号较
SpringMvc上传 120153216 springMVC
@RequestMapping(value = WebUrlConstant.UPLOADFILE) @ResponseBody public Map<String, Object> uploadFile(HttpServletRequest request,HttpServletResponse httpresponse) { try { //
Javascript----HTML DOM 事件何必如此 JavaScript html Web
HTML DOM 事件允许Javascript在HTML文档元素中注册不同事件处理程序。事件通常与函数结合使用，函数不会在事件发生前被执行！注：DOM：指明使用的 DOM 属性级别。 1.鼠标事件属性
动态绑定和删除onclick事件 357029540 JavaScript jquery
因为对JQUERY和JS的动态绑定事件的不熟悉，今天花了好久的时间才把动态绑定和删除onclick事件搞定!现在分享下我的过程。在我的查询页面，我将我的onclick事件绑定到了tr标签上同时传入当前行(this值)参数，这样可以在点击行上的任意地方时可以选中checkbox，但是在我的某一列上也有一个onclick事件是用于下载附件的，当
HttpClient|HttpClient请求详解 7454103 apache 应用服务器网络协议网络应用 Security
HttpClient 是 Apache Jakarta Common 下的子项目，可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包，并且它支持 HTTP 协议最新的版本和建议。本文首先介绍 HTTPClient，然后根据作者实际工作经验给出了一些常见问题的解决方法。HTTP 协议可能是现在 Internet 上使用得最多、最重要的协议了，越来越多的 Java 应用程序需
递归逐层统计树形结构数据 darkranger 数据结构
将集合递归获取树形结构: /** * * 递归获取数据 * @param alist:所有分类 * @param subjname:对应统计的项目名称 * @param pk:对应项目主键 * @param reportList: 最后统计的结果集 * @param count:项目级别 */ public void getReportVO(Arr
访问WEB-INF下使用frameset标签页面出错的原因 aijuans struts2
<frameset rows="61,*,24" cols="*" framespacing="0" frameborder="no" border="0">
MAVEN常用命令 avords
Maven库： http://repo2.maven.org/maven2/ Maven依赖查询： http://mvnrepository.com/ Maven常用命令： 1. 创建Maven的普通java项目： mvn archetype:create -DgroupId=packageName
PHP如果自带一个小型的web服务器就好了 houxinyou apache 应用服务器 Web PHP 脚本
最近单位用PHP做网站，感觉PHP挺好的，不过有一些地方不太习惯，比如，环境搭建。PHP本身就是一个网站后台脚本，但用PHP做程序时还要下载apache，配置起来也不太很方便，虽然有好多配置好的apache+php+mysq的环境，但用起来总是心里不太舒服，因为我要的只是一个开发环境，如果是真实的运行环境，下个apahe也无所谓，但只是一个开发环境，总有一种杀鸡用牛刀的感觉。如果php自己的程序中
NoSQL数据库之Redis数据库管理(list类型) bijian1013 redis 数据库 NoSQL
3.list类型及操作 List是一个链表结构，主要功能是push、pop、获取一个范围的所有值等等，操作key理解为链表的名字。Redis的list类型其实就是一个每个子元素都是string类型的双向链表。我们可以通过push、pop操作从链表的头部或者尾部添加删除元素，这样list既可以作为栈，又可以作为队列。 &nbs
谁在用Hadoop？ bingyingao hadoop 数据挖掘公司应用场景
Hadoop技术的应用已经十分广泛了，而我是最近才开始对它有所了解，它在大数据领域的出色表现也让我产生了兴趣。浏览了他的官网，其中有一个页面专门介绍目前世界上有哪些公司在用Hadoop，这些公司涵盖各行各业，不乏一些大公司如alibaba,ebay,amazon,google,facebook,adobe等，主要用于日志分析、数据挖掘、机器学习、构建索引、业务报表等场景,这更加激发了学习它的热情。
【Spark七十六】Spark计算结果存到MySQL bit1129 mysql
package spark.examples.db import java.sql.{PreparedStatement, Connection, DriverManager} import com.mysql.jdbc.Driver import org.apache.spark.{SparkContext, SparkConf} object SparkMySQLInteg
Scala: JVM上的函数编程 bookjovi scala erlang haskell
说Scala是JVM上的函数编程一点也不为过，Scala把面向对象和函数型编程这两种主流编程范式结合了起来，对于熟悉各种编程范式的人而言Scala并没有带来太多革新的编程思想，scala主要的有点在于Java庞大的package优势，这样也就弥补了JVM平台上函数型编程的缺失，MS家.net上已经有了F#，JVM怎么能不跟上呢？对本人而言
jar打成exe bro_feng java jar exe
今天要把jar包打成exe，jsmooth和exe4j都用了。遇见几个问题。记录一下。两个软件都很好使，网上都有图片教程，都挺不错。首先肯定是要用自己的jre的，不然不能通用，其次别忘了把需要的lib放到classPath中。困扰我很久的一个问题是，我自己打包成功后，在一个同事的没有装jdk的电脑上运行，就是不行，报错jvm.dll为无效的windows映像，如截图最后发现
读《研磨设计模式》-代码笔记-策略模式-Strategy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 策略模式定义了一系列的算法，并将每一个算法封装起来，而且使它们还可以相互替换。策略模式让算法独立于使用它的客户而独立变化简单理解： 1、将不同的策略提炼出一个共同接口。这是容易的，因为不同的策略，只是算法不同，需要传递的参数
cmd命令值cvfM命令 chenyu19891124 cmd
cmd命令还真是强大啊。今天发现jar -cvfM aa.rar @aaalist 就这行命令可以根据aaalist取出相应的文件例如：在d：\workspace\prpall\test.java 有这样一个文件，现在想要将这个文件打成一个包。运行如下命令即可比如在d：\wor
OpenJWeb(1.8) Java Web应用快速开发平台 comsci java 框架 Web 项目管理企业应用
OpenJWeb(1.8) Java Web应用快速开发平台的作者是我们技术联盟的成员，他最近推出了新版本的快速应用开发平台 OpenJWeb(1.8)，我帮他做做宣传 OpenJWeb快速开发平台以快速开发为核心，整合先进的java 开源框架，本着自主开发+应用集成相结合的原则，旨在为政府、企事业单位、软件公司等平台用户提供一个架构透
Python 报错：IndentationError: unexpected indent daizj python tab 空格缩进
IndentationError: unexpected indent 是缩进的问题，也有可能是tab和空格混用啦 Python开发者有意让违反了缩进规则的程序不能通过编译，以此来强制程序员养成良好的编程习惯。并且在Python语言里，缩进而非花括号或者某种关键字，被用于表示语句块的开始和退出。增加缩进表示语句块的开
HttpClient 超时设置 dongwei_6688 httpclient
HttpClient中的超时设置包含两个部分： 1. 建立连接超时，是指在httpclient客户端和服务器端建立连接过程中允许的最大等待时间 2. 读取数据超时，是指在建立连接后，等待读取服务器端的响应数据时允许的最大等待时间在HttpClient 4.x中如下设置： HttpClient httpclient = new DefaultHttpC
小鱼与波浪 dcj3sjt126com
一条小鱼游出水面看蓝天，偶然间遇到了波浪。　　小鱼便与波浪在海面上游戏，随着波浪上下起伏、汹涌前进。　　小鱼在波浪里兴奋得大叫：“你每天都过着这么刺激的生活吗？简直太棒了。”　　波浪说：“岂只每天过这样的生活，几乎每一刻都这么刺激！还有更刺激的，要有潮汐变化，或者狂风暴雨，那才是兴奋得心脏都会跳出来。”　　小鱼说：“真希望我也能变成一个波浪，每天随着风雨、潮汐流动，不知道有多么好！”　　很快，小鱼
Error Code: 1175 You are using safe update mode and you tried to update a table dcj3sjt126com mysql
快速高效用：SET SQL_SAFE_UPDATES = 0；下面的就不要看了！今日用MySQL Workbench进行数据库的管理更新时，执行一个更新的语句碰到以下错误提示： Error Code: 1175 You are using safe update mode and you tried to update a table without a WHERE that
枚举类型详细介绍及方法定义 gaomysion enum javaee
转发 http://developer.51cto.com/art/201107/275031.htm 枚举其实就是一种类型，跟int, char 这种差不多，就是定义变量时限制输入的，你只能够赋enum里面规定的值。建议大家可以看看，这两篇文章，《java枚举类型入门》和《C++的中的结构体和枚举》，供大家参考。枚举类型是JDK5.0的新特征。Sun引进了一个全新的关键字enum
Merge Sorted Array hcx2013 array
Given two sorted integer arrays nums1 and nums2, merge nums2 into nums1 as one sorted array. Note:You may assume that nums1 has enough space (size that is
Expression Language 3.0新特性 jinnianshilongnian el 3.0
Expression Language 3.0表达式语言规范最终版从2013-4-29发布到现在已经非常久的时间了；目前如Tomcat 8、Jetty 9、GlasshFish 4已经支持EL 3.0。新特性包括：如字符串拼接操作符、赋值、分号操作符、对象方法调用、Lambda表达式、静态字段/方法调用、构造器调用、Java8集合操作。目前Glassfish 4/Jetty实现最好，对大多数新特性
超越算法来看待个性化推荐 liyonghui160com 超越算法来看待个性化推荐
一提到个性化推荐，大家一般会想到协同过滤、文本相似等推荐算法，或是更高阶的模型推荐算法，百度的张栋说过，推荐40%取决于UI、30%取决于数据、20%取决于背景知识，虽然本人不是很认同这种比例，但推荐系统中，推荐算法起的作用起的作用是非常有限的。就像任何
写给Javascript初学者的小小建议 pda158 JavaScript
　　一般初学JavaScript的时候最头痛的就是浏览器兼容问题。在Firefox下面好好的代码放到IE就不能显示了，又或者是在IE能正常显示的代码在firefox又报错了。　　如果你正初学JavaScript并有着一样的处境的话建议你：初学JavaScript的时候无视DOM和BOM的兼容性，将更多的时间花在了解语言本身（ECMAScript）。只在特定浏览器编写代码（Chrome/Fi
Java 枚举 ShihLei java enum 枚举
注：文章内容大量借鉴使用网上的资料，可惜没有记录参考地址，只能再传对作者说声抱歉并表示感谢！一基础 1）语法枚举类型只能有私有构造器（这样做可以保证客户代码没有办法新建一个enum的实例）枚举实例必须最先定义 2）特性 &nb
Java SE 6 HotSpot虚拟机的垃圾回收机制 uuhorse java HotSpot GC 垃圾回收 VM
官方资料，关于Java SE 6 HotSpot虚拟机的garbage Collection，非常全，英文。 http://www.oracle.com/technetwork/java/javase/gc-tuning-6-140523.html Java SE 6 HotSpot[tm] Virtual Machine Garbage Collection Tuning &