迷人的秋

YOLOv1-YOLOv7全系列解析汇总

导读

目标检测Yolo算法是非常经典且应用广泛的算法，而在Yolo中，又分成了输入端、网络推理、输出层，每个部分都可以延伸出很多的优化方式，本文主要从Yolov1~v7各个版本的Backbone，Neck，Head，Tricks进行了讲解，希望对大家有帮助。

近年来YOLO系列层出不穷，更新不断，已经到v7版本。不能简单用版本高低来评判一个系列的效果好坏，YOLOv1-v7不同版本各有特色，在不同场景，不同上下游环境，不同资源支持的情况下，如何从容选择使用哪个版本，甚至使用哪个特定部分，都需要我们对YOLOv1-v7有一个全面的认识。

故将YOLO系列每个版本都表示成下图中的五个部分，逐一进行解析，并将每个部分带入业务，竞赛，研究等维度进行延伸思考，探索更多可能性。

这五个部分已经全部深入解析并撰写成文：

【Make YOLO Great Again】YOLOv1-v7全系列大解析（Neck篇），

【Make YOLO Great Again】YOLOv1-v7全系列大解析（Head篇）,

【Make YOLO Great Again】YOLOv1-v7全系列大解析（输入侧篇），

【Make YOLO Great Again】YOLOv1-v7全系列大解析（Backbone篇）以及【Make YOLO Great Again】YOLOv1-v7全系列大解析（Tricks篇），大家可按需取用～

【文章目录】

YOLOv1-v7论文&&代码大放送
YOLO系列中Backbone，Neck，Head，Tricks的特点
YOLOv1 Backbone，Neck，Head，Tricks解析
YOLOv2 Backbone，Neck，Head，Tricks解析
YOLOv3 Backbone，Neck，Head，Tricks解析
YOLOv4 Backbone，Neck，Head，Tricks解析
YOLOv5 Backbone，Neck，Head，Tricks解析
YOLOx Backbone，Neck，Head，Tricks解析
YOLOv6 Backbone，Neck，Head，Tricks解析
YOLOv7 Backbone，Neck，Head，Tricks解析

【一】YOLOv1-v7论文&&代码大放送

YOLOv1论文名以及论文地址：You Only Look Once:Unified, Real-Time Object Detection[1]

YOLOv1开源代码：YOLOv1-Darkent[2]

YOLOv2论文名以及论文地址：YOLO9000:Better, Faster, Stronger[3]

YOLOv2开源代码：YOLOv2-Darkent[4]

YOLOv3论文名以及论文地址：YOLOv3: An Incremental Improvement[5]

YOLOv3开源代码：YOLOv3-PyTorch[6]

YOLOv4论文名以及论文地址：YOLOv4: Optimal Speed and Accuracy of Object Detection[7]

YOLOv4开源代码：YOLOv4-Darkent[8]

YOLOv5论文名以及论文地址：无

YOLOv5开源代码：YOLOv5-PyTorch[9]

YOLOx论文名以及论文地址：YOLOX: Exceeding YOLO Series in 2021[10]

YOLOx开源代码：YOLOx-PyTorch[11]

YOLOv6论文名以及论文地址：YOLOv6: A Single-Stage Object Detection Framework for Industrial Applications[12]

YOLOv6开源代码：YOLOv6-PyTorch[13]

YOLOv7论文名以及论文地址：YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors[14]

YOLOv7开源代码：Official YOLOv7-PyTorch[15]

【二】YOLO系列中输入侧，Backbone，Neck，Head，Tricks的特点

输入侧

YOLO系列中的输入侧主要包含了输入数据，数据增强算法以及一些特殊预处理操作。

输入数据可以是图片，也可以是视频。

数据增强算法包含通用增强以及YOLO自带的一些高阶增强算法。

YOLO系列的输入侧可谓是通用性最强的一个部分，具备很强的向目标检测其他模型，图像分类，图像分割，目标跟踪等方向迁移应用的价值。

并且从业务，竞赛，研究等角度观察，输入侧结构也能在这些方面比较好的融入，从容。

Backbone

YOLO系列中的Backbone结构主要作为算法模型的一个核心特征提取器，随着时代的变迁不断发展。

某种程度上，YOLO系列的各个Backbone代表着当时的高价值模型与AI行业的发展记忆，计算机视觉江湖上，名噪一时的那些“算法兵器”，它们确实来过。

YOLO系列的Backbone与输入侧一样，是通用性非常强的一个部分，在不同的计算机视觉细分方向，都有广泛的应用。

Neck

YOLO从v3版本开始设计Neck结构，其中的特征融合思想最初在FPN（feature pyramid networks）网络中提出，在YOLOv3中进行结构的微调，最终成为YOLO后续系列不可或缺的部分。

FPN的思路剑指小目标，原来很多目标检测算法都是只采用高层特征进行预测，高层的特征中语义信息比较丰富，但是分辨率较低，目标位置比较粗略。假设在深层网络中，最后的高层特征图中一个像素可能对应着输出图像的像素区域，那么小于像素的小物体的特征大概率已经丢失。与此同时，低层的特征语义信息比较少，但是目标位置准确,这是对小目标检测有帮助的。FPN将高层特征与底层特征进行融合，从而同时利用低层特征的高分辨率和高层特征的丰富语义信息，并进行了多尺度特征的独立预测，对小物体的检测效果有明显的提升。

FPN结构

FPN论文地址：Feature Pyramid Networks for Object Detection[16]

【延伸思考】

业务：FPN具备在业务场景中的应用价值，但还是要分场景来使用，主要在小目标场景可以尝试，并同时要兼顾上游数据侧与下游部署侧的适配。
竞赛：FPN的思想可谓是算法竞赛的一个利器，在分类，分割，检测等任务中都能大展拳脚，进行迁移应用。
研究：FPN具备作为baseline的价值，不管是进行拓展研究还是单纯的学习FPN思想，都是提升研究能力的不错选择。

Head

YOLO系列中的Head结构主要包含了Head检测头，损失函数部分以及Head结构的优化策略。

Head检测头体现了YOLO系列“简洁美”的思想，与two-stage检测算法相比，YOLO取消了RPN模块，设计了特征提取网络Backbone+检测头Head的end-to-end整体逻辑，其对工程的友好特性让工业界顿时开满“YOLO花”。

YOLO系列的损失函数部分可谓是目标检测领域中的“掌上明珠”，其在业务，竞赛和研究等维度都有很强的迁移价值。

two-stage检测算法简明逻辑

【延伸思考】

业务：YOLO系列的Head结构中，不管是Head检测头，损失函数部分以及Head结构的优化策略，其在业务中都可以作为baseline进行迁移使用。
竞赛：YOLO系列的Head结构在目标检测竞赛中可以说时入场必选结构，能极大程度上缩短竞赛初期的熟悉适应成本。
研究：YOLO系列的Head结构和Neck结构一样，具备作为baseline的价值。

Tricks

YOLO系列中使用的Tricks，从横向角度来看，基本算是当时的最优Trcks；从纵向角度来看，其大部分都具备了可迁移性，强适应性，能够跟随着我们一起进入2020年代，并且依旧发挥余热。

YOLO系列中使用的Tricks和Backbone以及输入侧一样，是通用性非常强的一个部分，迁移应用在业务，竞赛，研究等维度，可能会带来出其不意的效果与惊喜。

【三】YOLOv1 输入侧，Backbone，Neck，Head，Tricks大解析

YOLOv1作为YOLO系列的开山鼻祖，让YOLO这个计算机视觉中的“璀璨明珠”在2015年的夏天，拉开了帷幕。

YOLOv1整体上有着朴素的逻辑，但是隐隐约约已经为后续的YOLO发展定下了简单实用的基调。

下面就将YOLOv1拆解，从输入侧，Backbone，Head，Tricks入手，带着大家一起学习研究。

（需要注意的是，YOLO系列中的Neck结构在YOLOv3才出现，故在后面的YOLOv3部分将加入Neck结构的讲解）

YOLOv1 输入侧大解析

YOLOv1在输入侧做的最多的工作是调整输入图像的尺寸以支持对图像细粒度特征的挖掘与检测。

同样的，YOLO系列的grid逻辑（“分而治之”）也从输入侧开始展开，直到Head结构输出相应结果。

YOLOv1整体结构

YOLOv1 Backbone大解析

YOLOv1的Backbone结构主要受启发于GoogLeNet思想，从上面的整体结构可以看出，模型结构非常简洁，卷积一卷到底。

YOLOv1的backbone结构中使用了Leaky ReLu激活函数，但并没有引入BN层。

YOLOv1 Head大解析

YOLOv1作为YOLO系列的开山鼻祖，其Head结构整体逻辑比较直观，并且对后续的版本影响深远。

YOLOv1 Head结构

YOLOv1中，图片被划分为的网格（grid cell），每个网络在Head结构中进行独立检测。

YOLOv1在Inference过程中并不是把每个单独的网格作为输入，网格只是用于物体ground truth中心点位置的分配，如果一个物体的ground truth中心点坐标在一个grid cell中，那么就认为这个grid cell就是包含这个物体，这个物体的预测就由该grid cell负责。而不是对图片进行切片，并不会让网格的视野受限且只有局部特征。

YOLOv1的输出是一个的张量，表示把输入图片划分成的网格，每一个网格的通道维度等于，代表YOLOv1中每个网格能预测2个框，每个框能预测5个参数再加上20个种类。

把上述内容转换成通用公式就是网格一共是个，每个网格产生个检测框，每个检测框会经过网络最终得到相应的bounding box。最终会得到个bounding box，每个bounding box都包含5个预测值，分别是bounding box的中心坐标，bounding box的宽高和置信度。其中代表网格中box能与物体的取得的最大IOU值。

铺垫了这么多变量表示，到这里终于可以引出对工业界产生深远影响的YOLOv1的损失函数，YOLO系列的后续版本的损失函数都是从这个最初的形式优化而来。

乍一看YOLOv1的损失函数十分复杂，don't worry，接下来将进行详细分析。

整体上来看，YOLOv1的损失函数可以分为检测框的回归损失，置信度误差损失以及分类误差损失。

公式中第一行和第二行代表了检测框的中心点和宽高的回归损失，其中表示第个网格的第个box是否去预测这个物体，即这个box与物体的ground truth box的IOU值和其他box相比是否是最大的。如果是，那么，否则，而YOLOv1中每个网格只有2个box，还是比较简单的。值得注意的是宽高回归损失中使用了开根号的操作，这是考虑到了小目标与大目标对应的检测框会存在差异，并消除这个差异。不开根号时，损失函数往往更倾向于调整尺寸比较大的检测框。例如，12个像素点的偏差，对于的检测框几乎没有影响，因为此时的IOU值还是很大，但是对于的小检测框影响就很大。

公式中第三行和第四行代表了置信度误差损失，分别是含物体的置信度误差损失和不含物体的置信度误差损失。当网格中含有物体时，，并且置信度ground truth值；当网格中不含物体时，，并且置信度ground truth值。包含物体的预测置信度为网格中box与物体ground truth box能取到的最大的IOU值，这很好理解，计算逻辑也直接明了。但是不包含物体的置信度误差损失究竟是怎么回事？don't worry，不包含物体的置信度误差损失包含两部分，一部分是包含物体的网格中的两个box中不负责预测的那个box，另外一部分是不包含物体的网格中的box，让他们都往0回归吧！

目标检测中存在一个常见问题，那就是类别不均衡问题，YOLOv1中也不例外。在一张图像中物体往往只占一小部分，大部分还是背景为主。故在置信度误差损失中设置了和来平衡含物体的置信度误差损失和不含物体的置信度误差损失两者的权重，让模型更加重视含物体的置信度误差损失。

公式中第五行代表了分类误差损失，只有当时才会进行计算。

到这里，YOLOv1损失函数的解析就告一段落了。接下来我们看一下YOLOv1Head侧的优化策略：

使用NMS算法，过滤掉一些重叠的检测框。
同一网格中的不同检测框有不同作用，也就是置信度误差损失的设计逻辑，这样可以增加召回率
Inference时使用作为输出置信度。使用物体的类别预测最大值乘以最合适的预测框，这样也可以过滤掉一些大部分重叠的检测框，同时考虑了检测框与类别让输出更加可信。

Inference时使用作为输出置信度

YOLOv1 Tricks大解析

作为YOLO系列的开山之作，YOLOv1中并未用太多的Tricks，但是设计出YOLO的架构，已经足够伟大。

YOLOv1的缺陷：

由于YOLOv1每个网格的检测框只有2个，对于密集型目标检测和小物体检测都不能很好适用。
Inference时，当同一类物体出现的不常见的长宽比时泛化能力偏弱。
由于损失函数的问题，定位误差是影响检测效果的主要原因，尤其是大小物体的处理上，还有待加强。

【延伸思考】

业务：YOLOv1 输入侧逻辑非常适合作为新业务的实验性Baseline，快速搭建，快速试错。Head结构经过时间的考验与沉淀，非常适合作为简单业务的入场baseline部分模块进行搭建。
竞赛：YOLOv1 坦率来说在竞赛中已不具备竞争力，但作为baseline入场模型也未尝不可。
研究：YOLOv1 Head架构可谓是YOLO系列的开山鼻祖，给后续系列搭建了baseline，不管是入门学习还是进行扩展研究，都是非常有价值的。

【四】YOLOv2 输入侧，Backbone，Neck，Head，Tricks大解析

时隔一年，在2016年的冬天，YOLOv2来了，YOLOv2让工业界狂喜的同时，YOLO版本号迭代的周期也来开了帷幕。

YOLOv2 输入侧大解析

YOLOv2的输入侧在YOLOv1的基础上引入了多尺度训练（Multi-Scale Training），并且优化了预训练模型（High Resolution Classifier）。

多尺度训练（Multi-Scale Training）的逻辑是模型每训练一定的Epoch，改变输入图片的尺寸，使得模型对不同的输入尺寸更鲁棒，能够从容地对不同尺寸的图像进行检测。

论文中使用32的倍数作为输入的尺寸，具体使用了320、352、384、416、448、480、512、544、576、608这10种尺寸。

在预训练模型这块，YOLOv2使用了High Resolution Classifier思想。一般基于ImageNet预训练的模型的输入尺寸都是小于的。YOLOv2使用的输入尺寸是，比YOLOv1的要大，故预训练模型网络需要使用大分辨率输入在ImageNet上进行微调。经过这个操作，YOLOv2的mAP提升了4%。

YOLOv2 Backbone大解析

YOLOv2的Backbone结构在YOLOv1的基础上设计了Darknet-19网络，并引入了BN层优化模型整体性能。

Darknet-19网络结构

Darknet-19网络包含19个卷积层和5个max pooling层，整体计算量比YOLOv1中采用的GoogleNet更少，最后用average pooling层代替全连接层进行Inference。

在YOLOv2的Backbone中加入BN层之后，使得mAP提升了2%，而BN层也成为了YOLO后续系列的标配。

YOLOv2 Head大解析

YOLOv2的Head结构在YOLOv1的基础上进行了网络结构和损失函数的改进，并且大名鼎鼎的anchor box也在此引入。

passthrough layer结构

YOLOv2在YOLOv1的基础上去掉了最后的全连接层，采用了卷积和anchor boxes来预测检测框。由于使用卷积对特征图进行下采样会使很多细粒度特征（Fine-Grained Features）的损失，导致小物体的识别效果不佳。故在YOLOv2Head侧中引入了passthrough layer结构，将特征图一分为四，并进行concat操作，保存了珍贵的细粒度特征。

刚才提到了YOLOv2使用卷积和anchor box来输出检测框，那么到底anchor box机制是怎么样的呢？

YOLOv1中每个网格预测两个检测框，并让最合适的检测框向ground truth框进行回归修正。在YOLOv2中，Head侧不对检测框的宽高进行直接硬回归，而是将检测框与Anchor框的偏差（offset）进行回归，并且每个网格指定个anchor box。在训练时，只有最接近ground truth的检测框进行损失的计算。在引入anchor box后，mAP由69.5下降至69.2，原因在于每个网格预测的物体变多之后，召回率大幅上升，准确率有所下降，总体mAP略有下降。

Dimension Clusters

在引入anchor box之后，又使用了Dimension Clusters操作，使得anchor box的宽高由聚类算法产生。没错，就是K-means算法（K-NN算法）。使用K-means算法获得anchor box的具体细节可以在我之前的文章【三年面试五年模拟】算法工程师的独孤九剑秘籍（第七式）中取用。YOLOv2Head侧输出的feature map大小为，每个grid cell设置了个anchor box预测得到个检测框，一共有个检测框，与YOLOv1相比大大提高目标的定位准确率。

优化了anchor box预设置后，YOLOv2设计了Direct location prediction操作来支持检测框与Anchor框的偏差（offset）回归逻辑。与YOLOv1相比，YOLOv2中每个检测框输出5个偏差参数，为了将预测框的中心点约束在当前grid cell中，使用sigmoid函数将和归一化处理，将值约束在之间，这使得模型训练更稳定。

Direct location prediction整体逻辑

其中和代表anchor box的宽高，和代表grid cell左上角相对于feature map左上角的距离。

讲完了网络结构的改进和anchor box，接下来就是损失函数的改进了：

可以看出，在计算检测框的回归损失时，YOLOv2去掉了开根号操作，进行直接计算。但是根据ground truth的大小对权重系数进行修正：（这里和都归一化到 )，这样对于尺度较小的预测框其权重系数会更大一些，可以放大误差，起到和YOLOv1计算平方根相似的效果。

在训练前期（iter < 12800），YOLOv2还会进行的计算，表示对anchor boxes和检测框进行坐标回归，促进网络学习到anchor的形状。

YOLOv2 Tricks大解析

等到YOLOv2发布时，引入了当时来说比较有创造性的Tricks，即设计了分类与检测的联合训练方法，使得YOLO能够实时检测多达9000种目标，在这种方法下输出的模型称为YOLO9000。

YOLO9000联合训练逻辑

YOLO9000主要在COCO和ImageNet数据集上进行训练，首先在检测数据集上训练一定的epoch来让模型学习定位和检测目标的能力；再使用分类数据集进行训练，从而扩展模型对目标的识别能力。

在训练的过程中，混合目标检测和分类的数据集。当输入是检测数据集时，对整个Loss函数计算Loss；当输入是分类数据集时，Loss函数只计算分类Loss，其余部分Loss设为零。

YOLO9000使用的联合训练不同于将Backbone在ImageNet上进行预训练，联合训练可以扩充检测识别的目标类别。例如，当模型检测出车的位置后，更进一步将其细分类别轿车、卡车、客车、自行车、三轮车等。

【延伸思考】

业务侧：YOLOv2 输入侧的多尺度训练思想，Backbone以及Head结构完全可以作为baseline模型的一部分进行业务开展。
竞赛侧：YOLOv2 输入侧的多尺度训练思想在竞赛侧是一个提分利器。Head结构中的anchor box机制，Dimension Clusters以及Direct location prediction优化方法可以作为竞赛侧的提分策略。
研究侧：YOLOv2 输入侧的多尺度训练思想以及High Resolution Classifier和Head结构以及损失函数具备作为baseline的价值，不管是进行拓展研究还是单纯学习思想。

【五】YOLOv3 输入侧，Backbone，Neck，Head，Tricks大解析

时间来到2018年，当时正要开始研究生的生涯，与此同时，YOLOv3来了！后续YOLO系列的整体结构，都在YOLOv3中已经定型。

下面在这里先分享一下YOLOv3的整体结构：

YOLOv3网络结构图

YOLOv3 输入侧大解析

在YOLOv3输入侧，想引入常用基础数据增强技术和高阶数据增强算法。

因为不管是YOLO系列还是二阶段目标检测系列；不管是目标检测还是图像分类和分割，基础数据增强技术和高阶数据增强算法都有很强的实用价值。

高阶数据增强算法：

高阶数据增强算法

其中RandErasing将图像的部分区域替换为随机值，或者是训练集的平均像素值。

而GridMask则使用了一个网格掩码，并将掩码进行随机翻转，与原图相乘，从而得到增广后的图像，通过超参数控制生成的掩码网格的大小。

基于NAS搜索的AutoAugment在一系列图像增强子策略的搜索空间中通过搜索算法找到适合特定数据集的图像增强方案。针对不同类型的数据集，会包含不同数量的子策略。每个子策略中都包含两种变换，针对每张图像都随机的挑选一个子策略，然后以一定的概率来决定是否执行子策略中的每种变换方法。

其余方法的细节知识，将在后续的高阶数据增强专题文章中依次展开，大家敬请期待。

常用基础数据增强技术：

颜色变换：在色彩通道空间进行数据增强，比如将某种颜色通道关闭，或者改变亮度值。
旋转变换：选择一个角度，左右旋转图像，可以改变图像内容朝向。
添加噪声：从高斯等分布中采样出的随机值矩阵加入到图像中。
锐化和模糊：使用高斯算子，拉普拉斯算子等处理图像。
缩放变换：图像按照比例进行放大和缩小并不改变图像中的内容。
平移变换：向上下左右四个维度移动图像。
翻转变换：关于水平或者竖直的轴进行图像翻转操作。
裁剪变换：主要有中心裁剪与随机裁剪。
仿射变换：对图像进行一次线性变换并接上一个平移变换。

YOLOv3 Backbone大解析

YOLOv3的Backbone在YOLOv2的基础上设计了Darknet-53结构。

YOLOv3将YOLOv2的Darknet-19加深了网络层数，并引入了ResNet的残差思想，也正是残差思想让YOLOv3将Backbone深度大幅扩展至Darknet-53。

YOLOv3优化了下采样方式（无池化层结构），采用卷积层来实现，而YOLOv2中采用池化层实现。

YOLOv3 Neck大解析

YOLOv3则是较好的引入了FPN的思想，以支持后面的Head侧采用多尺度来对不同size的目标进行检测，越精细的grid cell就可以检测出越精细的目标物体。YOLOv3设置了三个不同的尺寸，分别是,和，他们之间的比例为。

YOLOv3采用全卷积的思路，在Neck结构也不例外（YOLOv1-v2中采用池化层做特征图的下采样， v3中采用卷积层来实现）。

YOLOv3 Head大解析

YOLOv3Head结构在YOLOv2的基础上引入了多尺度检测逻辑和多标签分类思想，优化了损失函数。

YOLOv3在Neck结构的基础上顺势而为融合了3个尺度，在多个尺度的融合特征图上分别独立做检测。再将Anchor Box由5个增加至9个，每个尺度下分配3个Anchor Box，最终对于小目标的检测效果提升明显。并且多尺度+9anchor box让YOLOv3的整体检测性能达到了一个比较从容的level。

再说多标签分类思想，我大受震撼。首先什么是多标签分类呢？我们先对几种常见的分类逻辑做一个对比：

二分类（Two-Class Classification）问题，是最简单的分类问题，比如一个任务中只有猫和狗，每个样本中也只有其中的一类。
单标签多分类（Multi-Class Classification）问题，指一个样本（一个图片或者一个检测框）有一个标签，但总共的类别数是大于两类的。目标检测中针对每个检测框的分类是多分类问题。在深度学习中，使用softmax是最常用的解决方案。
多标签多分类（Multi-Label Classification）问题，指一个样本（一个图片或者一个检测框）中含有多个物体或者多个label。在深度学习中，使用多个Logistic输出是一种性价比很高的做法。

YOLOv3将YOLOv2的单标签分类改进为多标签分类，Head结构将用于单标签分类的Softmax分类器改成多个独立的用于多标签分类的Logistic分类器，取消了类别之间的互斥，可以使网络更加灵活。YOLOv2使用Softmax分类器，认为一个检测框只属于一个类别，每个检测框分配到概率最大的类别。但实际场景中一个检测框可能含有多个物体或者有重叠的类别标签。Logistic分类器主要用到Sigmoid函数，可以将输入约束在0到1的范围内，当一张图像经过特征提取后的某一检测框类别置信度经过sigmoid函数约束后如果大于设定的阈值，就表示该检测框负责的物体属于该类别。

YOLOv3的损失函数在YOLOv2的基础上进行了改进：

YOLOv3中置信度误差损失和分类误差损失都使用交叉熵来表示。

YOLOv3 Tricks大解析

等到YOLOv3发布时，YOLO系列的整体架构算是基本确定，Adam优化器也开始逐渐流行起来。

Adam优化器结合了AdaGrad和RMSProp两种优化算法的优点。对梯度的一阶矩估计（First Moment Estimation，即梯度的均值）和二阶矩估计（Second Moment Estimation，即梯度的未中心化的方差）进行综合考虑，计算出更新步长。

Adam的优势：

实现简单，计算高效，对内存需求少。
参数的更新不受梯度的伸缩变换影响。
超参数具有很好的解释性，且通常无需调整或仅需很少的微调。
更新的步长能够被限制在大致的范围内（初始学习率）。
能自然地实现步长退火过程（自动调整学习率）。
很适合应用于大规模的数据及参数的场景。
适用于不稳定目标函数。
适用于梯度稀疏或梯度存在很大噪声的问题。

Adam的实现原理：

【延伸思考】

基础数据增强技术和高阶数据增强算法不管是在业务，竞赛还是研究维度都能非常稳定的带来性能的提升。
业务：YOLOv3 整体结构在工程中非常稳定，且久经时间的考验，可以作为业务baseline模型的首选。
竞赛：YOLOv3 整体结构在竞赛中的地位和业务侧同理。
研究：基于YOLOv3优化而来的论文日新月异，让人眼花缭乱，但正真价值几何，还需要我们去判断。

【六】YOLOv4 输入侧，Backbone，Neck，Head，Tricks大解析

首先，在这里先分享一下YOLOv4的整体结构：

YOLOv4网络结构图

YOLOv4 输入侧大解析

YOLOv4的输入侧在YOLOv3的基础上，使用了Mosaic和CutMix高阶数据增强来提升模型的整体性能。

Mosaic数据增强技术从经典的CutMix优化而来。在CutMix的逻辑中，使用两张图片分别选取部分像素进行拼接，产生新的数据。而Mosaic则在此基础上图片数量增加到四张，并采用随机缩放，裁剪和排布的方式进行拼接。

Mosaic逻辑

Mosaic数据增强的优点：

优化模型对小目标的检测效果。
减少训练算力，由于一次性可以计算4张图片，所以Batch Size可以不用很大，也为YOLOv4在一张GPU卡上完成训练奠定了数据基础。
依然是一种增强数据操作，让模型的鲁棒性与泛化性能更优。

而上面提到的CutMix则从Mixup和Cutout优化而来。

由上图可知，Mixup将两张图片按比例混合，其label也按同等比例分配；Cutout则是将图片中的部分像素区域置0，但是label不变；CutMix则是在Cutout的基础上对置0的像素区域随机填充其他图像的部分像素值，label则按同等比例进行分配。

其中，是二进制矩阵，用来标记需要裁剪的区域和保留的区域，裁剪的区域值均为，其余位置为。图片和组合得到新样本，最后两个图的label也对应求加权和。

CutMix的优势：

由于采用填充的形式，合成的图片不会有不自然的混合情形。
高价值信息增多，提升训练效率，优化算法性能。
作为YOLOv4的Bag of freebies，其不增加模型的推理耗时。
增加算法的局部识别与局部定位能力。
在输入侧，起到了类似dropout的作用。

YOLOv4 Backbone大解析

YOLOv4的Backbone在YOLOv3的基础上，受CSPNet网络结构启发，将多个CSP子模块进行组合设计成为CSPDarknet53，并且使用了Mish激活函数。

CSPDarknet53总共有72层卷积层，遵循YOLO系列一贯的风格，这些卷积层都是大小，步长为2的设置，能起到特征提取与逐步下采样的作用。

CSP子模块主要解决了由于梯度信息重复导致的计算量庞大的问题。

CSP模块不仅仅是一个子结构，更是一个处理思想，可以和ResNet、ResNext、DenseNet、EfficientNet等网络结合使用。

DenseNet结构与CSP模块结构

上图左侧是DenseNet的结构，它进行反向传播时会有大量的重复计算，而右侧的图是CSP模块结构，它将基础层的特征图分成两部分，一部分直接与该阶段的末尾concat相连，另一部分经过局部Dense模块，从而既能保留Dense模块的特征复用，又能截断梯度流，避免大量的重复计算，同时可以保证准确率。

总的来说，CSP模块解决了三个方面的问题：

提升模型的学习能力，同时使模型轻量化。
降低计算瓶颈，提高硬件利用率。
降低模型的内存占用。

CSP模块逻辑也可以迁移到其他Backbone网络，例如优化ResNet以提升性能：

ResNet的CSP化

CSPNet论文地址：CSPNet[17]

YOLOv4论文中通过消融实验发现使用Mish激活函数会提升性能，于是在Backbone中将其使用。（注：除Backbone以外的网络结构依旧使用LeakyReLU激活函数）

Mish激活函数消融实验

Mish激活函数的示意图如下，其有三个主要特征:

无上界有下界。Mish向上无边界避免了由于封顶而导致的梯度饱和，加快训练过程。向下有边界有助于实现强正则化效果。
非单调函数。允许其在负半轴有稳定的微小负值，从而使梯度流更稳定。与ReLU负半轴的硬零边界相比，其梯度更平滑。
无穷连续性与光滑性。具有较好的泛化能力，提高训练结果的质量。

Mish激活函数

Mish激活函数的表达式：

Mish激活函数论文地址：Mish激活函数[18]

YOLOv4 Neck大解析

YOLOv4的Neck结构主要包含了SPP模块和PAN模块。

SPP模块在YOLOv3_SPP.cfg中率先展现，但是在YOLOv4中则成为了一个标配。SPP模块包含3个最大池化层，其滑动核（sliding kernel）尺寸分别是和，并通过Padding操作，使每个最大池化层的输出特征图不变，用于Concat融合操作。

SPP模块代替了卷积层后的常规池化层，可以增加感受野，更能获取多尺度特征，训练速度也让人满意。Yolov4论文中使用的图像在COCO目标检测任务进行实验，SPP模块能以0.5%的额外计算代价将AP50提升2.7%。

SPP模块

SPP模块论文：Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition[19]

PAN模块对不同层次的特征进行疯狂融合，其在FPN模块的基础上增加了自底向上的特征金字塔结构，保留了更多的浅层位置特征，将整体特征提取能力进一步提升。

在引入YOLOv4时，特征图最后的融合操作相比于原论文发生了变化，从add操作改为concat操作，增加了特征图的通道数：

PAN模块论文：Path Aggregation Network for Instance Segmentation[20]

YOLOv4 Head大解析

YOLOv4的Head结构沿用了YOLOv3的整体架构，并引入了CIOU Loss和DIOU NMS来提升Head结构的整体性能。

在YOLOv3中，使用MSE(均方误差）损失函数对检测框的中心点以及宽高坐标进行优化。在MSE损失函数的逻辑中，将检测框的中心点和宽高坐标作为独立的变量对待，但是实际上他们之间是有关联的。所以一个直观的解决方案是使用IOU损失代替MSE损失。

YOLOv4论文中依次提到了IOU Loss，GIOU Loss，DIOU Loss以及CIOU Loss。其中IOU Loss是其他Loss的基石，也最为简单，公式如下：

其中代表检测框，代表ground truth，代表两者的交并比。

IOU Loss思想简洁明了，但存在两个问题：

当检测框和ground truth不相交时，会使IOU=0，从而无法反应两个框距离的远近，进而导致IOU Loss不可导。
当两个检测框大小相同，IOU也相同时，IOU Loss无法区分两者位置的差异。

IOU Loss问题示意图

而GIOU Loss能改进这些问题，其在检测框与ground truth之外映射一个最小外接矩形来缓解IOU Loss存在的问题，其公式和图解如下：

其中代表最小外接矩形，最后一项代表使用差集来进行约束与惩罚。

GIOU Loss图解

但出现上图右侧的情况时，GIOU Loss被打回原形。

DIOU Loss在GIOU Loss基础上提出了中心点距离的概念，来改进GIOU Loss被打回原形的问题。

DIOU Loss图解

对ground truth和检测框的中心点进行度量，引入位置信息的同时加快了损失函数的收敛，其公式如下：

但是DIOU Loss仍存在检测框长宽比带来的新问题：

DIOU Loss问题示意图

最后，就是YOLOv4中使用的CIOU Loss登场了。CIOU Loss在DIOU Loss的基础上考虑了检测框长宽比的因素，将检测框回归损失的三大逻辑：重叠面积、中心点距离，长宽比进行了有效整合，其公式如下：

其中代表了长宽比一致性的参数：

在使用了CIOU Loss之后，YOLOv4的整体损失函数如下所示：

介绍完YOLOv4的CIOU Loss以及整体损失函数，接下来我们来介绍YOLOv4对NMS操作的优化。

YOLOv4改进了YOLOv1-v3中使用的传统NMS操作，使用了DIOU思想计算“IOU”值，进一步优化了后处理效果。CIOU思想在训练中有很大作用，但是在Inference过程中，并没有ground truth的信息，所以使用DIOU足矣，且能减少计算量。

YOLOv4 Tricks大解析

YOLOv4在YOLOv3的基础上，设计使用了SAT，CmBN和Label Smoothing等Tricks。

YOLOv4中的SAT（self adversarial training） 使用基于FGSM原理的梯度攻击技术，生成对抗样本进行对抗训练。

首先，什么是对抗样本呢？对抗样本是在原图像中增加扰动噪声生成，如上图所示。对抗样本容易使得模型输出错误判断，这给模型的鲁棒性造成了重大挑战。

打不过，就加入它。秉持着这个原则，我们在训练时将对抗样本加入训练集一起训练，即为对抗训练。进行对抗训练能扩充训练集的可能性，使得数据集逼近我们想要的数据分布，训练后的模型鲁棒性和泛化性能也大大增强。

生成对抗样本的方法主要分为三种，具体逻辑如下图所示。

CmBN（Cross mini-Batch Normalization）是CBN的修改版。

CBN主要用来解决在Batch-Size较小时，BN的效果不佳问题。CBN连续利用多个迭代的数据来变相扩大Batch-Size从而改进模型的效果。（每次迭代时计算包括本次迭代的前四个迭代后统一计算整体BN）

而CmBN是独立利用多个mini-batch内的数据进行BN操作。（每四个迭代后统一计算一次整体BN）

Label Smooth可以看作是一种防止过拟合的正则化方法。

其主要是在One-Hot标签中加入噪声，减少训练时GroundTruth在计算损失函数的权重，来达到防止过拟合的作用，增强模型的泛化能力。

通常参数设置如下图中的比例即可。

【延伸思考】

YOLOv4中的输入侧和Tricks具备在业务，竞赛以及研究中进行实验的价值。
业务：YOLOv4 Backbone中使用的CSP思想可以方便地与业务场景相结合。Neck结构和Head中提出的CIOU Loss和DIOU NMS可以作为工程基线模型的首选。
竞赛：YOLOv4 Backbone中提到的CSP结构和Mish激活函数在竞赛中是比较有效的Tricks。Neck结构可以作为竞赛的入场结构。Head中提出的CIOU Loss和DIOU NMS在竞赛中的依旧是提分利器。
研究：YOLOv4 整体结构具备作为研究Baseline的价值。

【七】YOLOv5 输入侧，Backbone，Neck，Head，Tricks大解析

同样的，在这里先分享一下YOLOv5的整体结构：

YOLOv5网络结构图

YOLOv5 输入侧大解析

YOLOv5的输入侧同样使用了Mosaic高阶数据增强策略，并增加自适应图像调整策略。

值得一提的是，正是Mosaic论文的作者提出了YOLOv5，并且YOLOv5的输入侧做了很多工程优化，对工业界非常友好。

而自适应图像调整策略可以优化常规图像缩放填充引入过多无效信息导致Inference耗时增加的问题。其逻辑主要是计算图像原生尺寸与输入尺寸的缩放比例，并获得缩放后的图像尺寸，最后再进行自适应填充获得最后的输入图像，具体代码逻辑可以在datasets.py的letterbox函数中查看。

YOLOv5 Backbone大解析

YOLOv5的Backbone同样使用了YOLOv4中使用的CSP思想。

值得一提的是，YOLOv5最初版本中会存在Focus结构，在YOLOv5第六版开始后，就舍弃了这个结构改用，＝的常规卷积，其产生的参数更少，效果更好。

Focus结构

YOLOv5 Neck大解析

由于YOLOv5在YOLOv4发布之后没多久就开源了，且并没有论文的发表，创新性部分一直受到热议。

YOLOv5的Neck结构也使用了SPP模块和PAN模块，但是在PAN模块进行融合后，将YOLOv4中使用的常规CBL模块替换成借鉴CSPnet设计的CSP_v5结构，加强网络特征融合的能力。

YOLOv5 Head大解析

YOLOv5的Head结构在YOLOv4的基础上引入了Auto Learning Bounding Box Anchors（自适应anchor box）和邻域正负样本分配策略。

YOLOv5的anchor box是自适应于训练数据的，会根据不同的训练数据自动学习适配相应的anchor box。代码中具体的对应函数是check_anchor函数。

由于增加高质量正样本检测框可以显著加速收敛，故YOLOv5设计了相应的邻域正负样本分配策略，其主要流程如下：

将ground truth与当前feature map中的anchor box进行比较，如果ground truth与anchor box的宽高比例都处在，那么这个ground truth就能与当前featuer map相匹配。
将当前feature map中的ground truth分配给对应的grid cell。将这个grid cell分为四个象限，针对与当前feature map匹配的ground truth，会计算该ground truth处于四个象限中的哪一个，并将邻近的两个grid cell中的检测框也作为正样本。如下图所示，若ground truth偏向于右上角的象限，就会将ground truth所在grid cell的上面和右边的grid cell中的检测框也作为正样本。

YOLOv5邻域正负样本分配策略

比起yolov4中一个ground truth只能匹配一个正样本，YOLOv5能够在多个grid cell中都分配到正样本，有助于训练加速和正负样本平衡。

YOLOv5 Tricks解析

YOLOv5中使用的Tricks基本上和YOLOv4一致，并在此基础上引入了更多的工程优化逻辑。

YOLOv5通过不同的训练参数配置，用来获得不同复杂度的模型。

YOLOv5模型家族

除此之外，YOLOv5还尝试了混合精度训练和模型EMA（Exponential Moving Average）策略。

混合精度训练能在尽可能减少精度损失的情况下利用FP16加速训练，并使用FP16存储模型权重，在减少占用内存的同时起到了加速训练的效果。

模型EMA（Exponential Moving Average）策略将模型近期不同epoch的参数做平均，提高模型整体检测性能以及鲁棒性。

【延伸思考】

YOLOv5 整体结构的易用性使得其不管在业务，竞赛还是研究中都非常友好，且其github库更新频率让人敬佩。YOLOv5可以说是YOLO系列在工业界用的最多最广泛的一个分支，因为其是Pytorch架构的，减少了工业界人员对Darknet不熟悉不从容的麻烦。

【八】YOLOx 输入侧，Backbone，Neck，Head，Tricks大解析

首先，在这里先分享一下YOLOx的整体结构：

YOLOx网络结构图

YOLOx 输入侧大解析

YOLOx的输入侧在YOLOv5的基础上摒弃了预训练逻辑，并使用Mosaic和MixUp高阶数据增强算法。

MixUp最初应用在分类任务上，将两张图片通过设定的融合系数进行融合，两个图片上的label也对应融合。

MixUp逻辑

由于Mosaic和MixUp高阶数据增强算法已经足够强大，在这种情况下ImageNet预训练并不能带来有效增益，故YOLOx摒弃了预训练逻辑，并从头训练。

YOLOx Backbone大解析

YOLOx的Backbone沿用了YOLOv3的Backbone结构，故在此不在展开介绍。

YOLOx Neck大解析

YOLOx的Neck依然使用了YOLOv3的结构，并且使用了SPP模块。

YOLOx Head大解析

YOLOx的Head结构在YOLOv5的基础上在网络结构中引入了Decoupled Head，并使用anchor-free思想和SimOTA正负样本分配策略进行损失函数的计算与优化。

YOLOx使用了三个Decoupled Head（解耦头），分别聚焦cls（分类信息），reg（检测框信息）和IOU（置信度信息）。常规的检测头在特征的表达与学习能力上比起Decoupled Head有所欠缺，并且Decoupled Head模块能加快模型的收敛速度。

Decoupled Head（解耦头）与常规检测头的效果对比

除此之外，YOLOx还使用anchor-free思想，比起YOLO系列中常规的anchor-based，在Head侧可以减少约的参数。比起anchor-based方法使用先验知识设计anchor尺寸，anchor-free思想将感受野作为“anchor”信息。上述三个Decoupled Head中最上面的分支对应着大anchor框，中间的分支对应着中等anchor框最下面的分支对应着小anchor框。最后的输出将这个三个分支融合成一个的特征向量。

接下来就是介绍YOLOx的正负样本分配策略了，我们知道目标检测场景一张图像中往往负样本占绝大多数，而正样本只是少数。为了获得更多高质量的正样本，YOLOx中设计了样本初筛+SimOTA逻辑。

在样本初筛中，有两种方法来筛选正样本：

根据中心点判断：找到中心点落在ground truth框中的所有anchor box。
根据检测框判断：以ground truth中心点作为基准，绘制一个边长为5的正方形，找到中心点落地这个正方形中的所有anchor box。

经过初筛之后，再使用SimOTA进行精细化筛选。其主要流程如下：

通过上面提到的样本初筛方法，获取正样本，同时获取它们的特征信息（cls，reg，IOu）。
计算正样本与ground truth的Reg Loss和Cls Loss，并将它们加权相加，Reg和Cls的权重为。（loss aware）
通过每个ground truth的检测样本来确定其能分配到的高价值正样本数（Dynamic K），其逻辑是获取与当前ground truth的IOU值前10的检测框，并将它们求和并取整，计算出来的整数就作为当前ground truth的正样本数“容量”。
确定每个ground truth的Dynamic K个正样本，其逻辑是选取步骤2中加权Loss最小的前K个样本作为正样本。
共用正样本去重，其逻辑是如果一个检测框被两个及以上的ground truth认作正样本，那么再次使用加权Loss进行评判，将这个检测框分给加权Loss最小的那个ground truth，作为其独有的正样本。

YOLOv5的正负样本分配策略是基于邻域匹配，并通过跨网格匹配策略增加正样本数量，从而使得网络快速收敛，但是该方法属于静态分配方法，并不会随着网络训练的过程而调整。YOLOx使用的SimOTA能够算法动态分配正样本，进一步提高检测精度。而且比起OTA由于使用了Sinkhorn-Knopp算法导致训练时间加长，SimOTA算法使用Top-K近似策略来得到样本最佳匹配，大大加快了训练速度。

YOLOx Tricks解析

YOLOx使用了YOLOv5中提到的模型EMA（Exponential Moving Average）策略，并且使用余弦退火学习率优化训练过程。

余弦退火学习率衰策略(CosineAnnealingLR)使得学习率呈周期性变化，但我们通常取它的一个余弦周期来完成整个训练过程。

另外，固定步长衰减(StepLR)，多步长衰减(MultiStepLR)，指数衰减(ExponentialLR)等都是经典实用的学习率衰减策略。

固定步长衰减在每隔一定的步长或者epoch对学习率进行一定衰减，而多步长衰减策略比起固定步长衰减则更加灵活，它可以在不同阶段使用不同强度和频率的衰减策略。指数衰减策略是使用指数逻辑对学习率进行衰减。

【延伸思考】

YOLOx 整体结构给业务，竞赛以及研究提供了一些新思路，一定的落地价值。本人也很想知道YOLOv7引入Decoupled Head会是什么样的效果。

【九】YOLOv6 输入侧，Backbone，Neck，Head，Tricks大解析

首先，在这里先分享一下YOLOv6的整体结构：

YOLOv6网络结构图

YOLOv6 输入侧大解析

YOLOv6的输入侧沿用了YOLOv5的整体逻辑，并没有引入新的Tricks，故就不再展开赘述。

YOLOv6 Backbone大解析

YOLOv6的Backbone结构在YOLOv5的基础上，设计了EfficientRep Backbone结构。

和YOLOv5的Backbone相比，YOLOv6的Backbone不但能够高效利用硬件算力，而且还具有较强的表征能力。

YOLOv6的Backbone中将普通卷积都替换成了RepConv结构。同时，在RepConv基础上设计了RepBlock结构，其中RepBlock中的第一个RepConv会做channel维度的变换和对齐。

另外，YOLOv6将SPPF优化设计为更加高效的SimSPPF，增加特征重用的效率。

SimSPPF结构

YOLOv6 Neck大解析

YOLOv6的Neck结构受到硬件感知神经网络设计思想的启发，基于RepVGG style设计了可重参数化、更高效的Rep-PAN。

YOLOv6 Neck结构

硬件感知神经网络设计的思想基于硬件的特性、推理框架/编译框架的特点，以硬件和编译友好的结构作为设计原则，在网络构建时，综合考虑硬件计算能力、内存带宽、编译优化特性、网络表征能力等，进而获得又快又好的网络结构。

Rep-PAN在PAN模块基础上，引入RepVGG style的RepBlock替换了YOLOv5中使用的CSP-Block，同时对整体Neck中的算子进行了调整，目的是在硬件上达到高效推理的同时，保持较好的多尺度特征融合能力。

RepVGG论文：RepVGG: Making VGG-style ConvNets Great Again[21]

YOLOv6 Head大解析

YOLOv6的Head结构和YOLOx一样使用Anchor-free逻辑和SimOTA标签分配策略，并在其基础上改进了Decoupled Head（解耦检测头）结构，在损失函数中引入了SIoU边界框回归损失。

YOLOv6依然采用了Decoupled Head结构，并对其进行了精简设计。YOLOX的检测头虽然提升了检测精度，但一定程度上增加了网络延时。YOLOv6采用Hybrid Channels策略重新设计了一个更高效的Decoupled Head结构，在维持精度的同时降低了延时，缓解了Decoupled Head中卷积带来的额外延时开销。

为了进一步提升回归精度，YOLOv6使用了SIoU检测框回归损失函数来优化网络的学习过程。

YOLOv4中的CIoU Loss虽然考虑到检测框与ground truth之间的重叠面积、中心点距离，长宽比这三大因素，但是依然缺少了对检测框与ground truth之间方向的匹配性的考虑。SIoU Loss通过引入了所需回归之间的向量角度，重新定义了距离损失，有效降低了回归的自由度，加快网络收敛，进一步提升了回归精度。

SIOU Loss论文地址：SIoU Loss: More Powerful Learning for Bounding Box Regression[22]

YOLOv6 Tricks大解析

YOLOv6进行了很多蒸馏方向上的尝试。

比如Self-distillation，Reparameterizing Optimizer，使用 Channel-wise Distillation进行量化感知训练等方法，进一步加强模型的整体性能。

【延伸思考】

业务：YOLOv6 Backbone可以高效用于业务向的部署端。Neck结构使用了端侧友好的设计策略，也在实际中测试过，发现其效果会因任务类型与场景的改变而变化，是否使用还需要通过实验来反馈。
竞赛：YOLOv6 Backbone可以用于竞赛的Baseline尝试。本人也相信YOLOv6会在一些限定算力资源的竞赛中会大放异。
研究：YOLOv6 整体结构可以用于研究的入场Baseline。

【十】YOLOv7 输入侧，Backbone，Neck，Head，Tricks大解析

首先，在这里先分享一下YOLOv7的整体结构：

YOLOv7网络结构图

YOLOv7 输入侧大解析

YOLOv7的输入侧沿用了YOLOv5的整体逻辑，并没有引入新的Tricks，故就不再展开赘述。

YOLOv7 Backbone大解析

YOLOv7的Backbone结构在YOLOv5的基础上，设计了E-ELAN和MPConv结构。

E-ELAN结构会在后面的Neck部分中详细介绍，这里就不再展开。MPConv结构由常规卷积与maxpool双路径组成，增加模型对特征的提取融合能力。不管是E-ELAN还是MPConv结构，都将特征重用逻辑演绎到了比较高的水准，让人眼前一亮。

YOLOv7 Neck大解析

YOLOv7的Neck结构主要包含了SPPSCP模块和优化的PAN模块。

SPPCSP模块在SPP模块基础上在最后增加concat操作，与SPP模块之前的特征图进行融合，更加丰富了特征信息。

PAN模块引入E-ELAN结构，使用expand、shuffle、merge cardinality等策略实现在不破坏原始梯度路径的情况下，提高网络的学习能力。

论文原文：（E-ELAN uses expand, shuffle, merge cardinality to achieve the ability to continuously enhance the learning ability of the network without destroying the original gradient path.）

E-ELAN模块

YOLOv7 Head大解析

YOLOv7的Head结构使用了和YOLOv5一样的损失函数，引入RepVGG style改造了Head网络结构，并使用了辅助头（auxiliary Head）训练以及相应的正负样本匹配策略。

RepVGG style在训练过程中可以通过多路分支提升性能，推理可以通过结构重新参数化实现推理速度的加快。

之前也对RepVGG style思想进行迁移性实验，发现RepVGG style在不同模型中的兼容性并不是很强，往往需要针对当前的模型和场景进行大量调参才能展现效果。

辅助头训练策略以及相应的正负样本匹配策略

YOLOv7在Head结构引入了辅助头（auxiliary Head）进行训练。正常网络训练如上图（a）所示，而用辅助头参与训练时，将对模型的训练进行深度监督，如上图（b）所示。将辅助头和检测头的损失进行融合，相当于在网络高层进行局部的模型ensemble操作，提升模型的整体性能。

而YOLOv7的正负样本分配策略正是围绕着检测头（lead head）与auxiliary Head进行设计，其主要是将YOLOv5和YOLOx的正负样本分配策略相结合：

使用YOLOv5的正负样本分配策略分配正样本。
使用YOLOx的正负样本分配策略确定正样本。

YOLOv7的正负样本分配策略相较于yolov5，加入了loss aware，利用当前模型的表现，能够实时精筛；而较于只使用YOLOX中的SimOTA算法，能够提供更精确的先验知识。

上图（d）中，lead head和auxiliary head使用一样的正负样本匹配策略，通过让浅层的auxiliary head学习到lead head已经获得的特征，让lead head更能专注于学习尚未学习到的剩余特征。

而上图（e）中，在使用lead head和auxiliary head一起优化模型的时候，auxiliary head的正样本是较为“粗糙的“，主要是通过放宽正样本分配过程的约束来获得更多的正样本。lead head中的一个anchor如果匹配上ground truth，则分配3个正样本，而同样的情况下auxiliary head分配5个。lead head中将top10个样本IOU求和取整，而auxiliary head中取top20。auxiliary head的学习能力不如lead head强，为了避免丢失需要学习的信息，将重点优化auxiliary head的召回率。而lead head可以从高recall的结果中筛选出高精度的结果作为最终输出。lead head和auxiliary head的损失函数权重设置为。

YOLOv7 Tricks大解析

YOLOv7也使用了YOLOv5中提到的模型EMA（Exponential Moving Average）策略，并引入了YOLOR中使用的隐性知识。

YOLOR中的隐式知识可以在推理阶段将计算值简化为向量。这个向量可以与前一层或后一层卷积层的偏差和权重相结合。

你可能感兴趣的:(目标检测,计算机视觉,深度学习)

微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
目标检测中的NMS算法详解
好的，我们来详细解释一下目标检测中非极大值抑制（Non-MaximumSuppression,NMS）的相关概念和计算过程。1.为什么需要NMS？问题：目标检测模型（如FasterR-CNN,YOLO,SSD等）在推理时，对于同一个目标物体，通常会预测出多个重叠的、不同置信度（confidencescore）的候选边界框（BoundingBoxes）。直接输出所有这些框会导致：结果冗余：同一个物体
NumPy-@运算符详解 GG不是gg numpy numpy
NumPy-@运算符详解一、@运算符的起源与设计目标1.从数学到代码：符号的统一2.设计目标二、@运算符的核心语法与运算规则1.基础用法：二维矩阵乘法2.一维向量的矩阵语义3.高维数组：批次矩阵运算4.广播机制：灵活的形状匹配三、@运算符与其他乘法方式的核心区别1.对比`np.dot()`2.对比元素级乘法`*`3.对比`np.matrix`的`*`运算符四、典型应用场景：从基础到高阶1.深度学习
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
解决 Python 包安装失败问题：以 accelerate 为例
在使用Python开发项目时，我们经常会遇到依赖包安装失败的问题。今天，我们就以accelerate包为例，详细探讨一下可能的原因以及解决方法。通过这篇文章，你将了解到Python包安装失败的常见原因、如何切换镜像源、如何手动安装包，以及一些实用的注意事项。一、问题背景在开发一个深度学习项目时，我需要安装accelerate包来优化模型的训练过程。然而，当我运行以下命令时：bash复制pipins
从RNN循环神经网络到Transformer注意力机制：解析神经网络架构的华丽蜕变熊猫钓鱼>_> 神经网络 rnn transformer
1.引言在自然语言处理和序列建模领域，神经网络架构经历了显著的演变。从早期的循环神经网络（RNN）到现代的Transformer架构，这一演变代表了深度学习方法在处理序列数据方面的重大进步。本文将深入比较这两种架构，分析它们的工作原理、优缺点，并通过实验结果展示它们在实际应用中的性能差异。2.循环神经网络（RNN）2.1基本原理循环神经网络是专门为处理序列数据而设计的神经网络架构。RNN的核心思想
如何使用Python实现交通工具识别
如何使用Python实现交通工具识别文章目录技术架构功能流程识别逻辑用户界面增强特性依赖项主要类别内容展示该系统是一个基于深度学习的交通工具识别工具，具备以下核心功能与特点：技术架构使用预训练的ResNet50卷积神经网络模型（来自ImageNet数据集）集成图像增强预处理技术（随机裁剪、旋转、翻转等）采用多数投票机制提升预测稳定性基于置信度评分的结果筛选策略功能流程用户通过GUI界面选择待识别图
YOLOv11 技术详解：架构优化与性能提升代码老y YOLO 架构目标跟踪
YOLOv11是目标检测领域中一个备受瞩目的新版本，它在保持实时性的同时，显著提升了检测的准确性和效率。本文将深入探讨YOLOv11的架构改进、性能优化以及它在不同应用场景中的表现。一、架构改进（一）C3K2块YOLOv11引入了C3K2块，这是对之前版本中CSP（CrossStagePartial）块的增强。C3K2块使用不同的核大小（例如3x3或5x5）和通道分离策略来优化更复杂特征的提取。这
OpenCV图片操作100例：从入门到精通指南（1）总有刁民想爱朕ha opencv 计算机视觉人工智能
OpenCV图片操作100例：从入门到精通指南本文整理了100个OpenCV实用技巧，涵盖图像处理各个领域，助你轻松掌握计算机视觉核心技能！一、入门必备：基础操作1.图像读写与显示importcv2#读取图像（BGR格式）img=cv2.imread('image.jpg')#显示图像cv2.imshow('示例图片',img)cv2.waitKey(0)#按任意键退出cv2.destroyAll
OpenCV图片操作100例：从入门到精通指南（3）总有刁民想爱朕ha opencv 人工智能计算机视觉
高效学习路径：1️⃣分阶段学习：入门：1-20例（基础操作）进阶：21-50例（图像处理）高级：51-100例（计算机视觉）2️⃣项目驱动学习：证件照背景替换（1-15例）停车场车位检测（30-45例）视频运动追踪（70-85例）3️⃣性能优化技巧：#使用UMat加速图像处理umat_img=cv2.UMat(img)processed=cv2.GaussianBlur(umat_img,(5,5
YOLO11 目标检测从安装到实战
前言YOLO（YouOnlyLookOnce）系列是目标检测领域的经典算法，凭借速度快、精度高的特点被广泛应用。最新的YOLO11在模型结构和性能上进一步优化，本文将从环境搭建到实战应用，详细讲解YOLO11的使用方法，适合新手快速上手。一、环境准备1.系统要求操作系统：Windows10/11、Ubuntu20.04+、欧拉系统等硬件：CPU可运行，GPU（NVIDIA）可加速（推荐，需支持CU
Python OpenCV教程从入门到精通的全面指南【文末送书】一键难忘 python opencv 开发语言
文章目录PythonOpenCV从入门到精通1.安装OpenCV2.基本操作2.1读取和显示图像2.2图像基本操作3.图像处理3.1图像转换3.2图像阈值处理3.3图像平滑4.边缘检测和轮廓4.1Canny边缘检测4.2轮廓检测5.高级操作5.1特征检测5.2目标跟踪5.3深度学习与OpenCVPythonOpenCV从入门到精通【文末送书】PythonOpenCV从入门到精通OpenCV(Ope
OpenCV入门到精通：AI视觉处理的完整指南 AI云原生与云计算技术学院人工智能 opencv 计算机视觉 ai
OpenCV入门到精通：AI视觉处理的完整指南关键词：OpenCV、计算机视觉、图像预处理、目标检测、AI视觉应用摘要：本文是一份面向AI视觉爱好者的OpenCV完整学习指南。从OpenCV的核心概念讲起，结合生活案例、代码示例和项目实战，逐步拆解图像读取/显示、灰度化、边缘检测、目标检测等关键技术。无论你是想入门计算机视觉的新手，还是希望用OpenCV解决实际问题的开发者，都能通过本文掌握从理论
CNN 猫狗识别：从理论到实战的深度解析爱熬夜的小古 cnn 深度学习人工智能
在计算机视觉领域，卷积神经网络（ConvolutionalNeuralNetwork，CNN）凭借其强大的特征提取和模式识别能力，成为图像分类任务的主流技术。猫狗识别作为经典的图像分类问题，不仅能帮助我们理解CNN的工作原理，还能为实际应用提供技术支持。本文将深入探讨CNN在猫狗识别中的应用，从理论基础到实战代码，带你全面掌握这项技术。一、CNN基础理论概述（一）CNN的核心组件卷积层：是CNN的
OpenCV入门到精通：从基础到实战的全面指南
摘要：本文旨在为初学者和有一定经验的开发者提供OpenCV从入门到精通的全面指南。文章首先介绍了OpenCV的基本概念和安装方法，然后深入讲解了图像处理基础、特征检测与匹配、视频处理与分析等核心内容，最后通过实战案例展示了OpenCV在计算机视觉任务中的应用。关键词：OpenCV；图像处理；特征检测；视频分析；实战案例引言OpenCV（OpenSourceComputerVisionLibrary
第八周 tensorflow实现猫狗识别降花绘 365天深度学习 tensorflow系列 tensorflow 深度学习人工智能
本文为365天深度学习训练营内部限免文章（版权归K同学啊所有）**参考文章地址：[TensorFlow入门实战｜365天深度学习训练营-第8周：猫狗识别（训练营内部成员可读）]**作者：K同学啊文章目录一、本周学习内容:1、自己搭建VGG16网络2、了解model.train_on_batch（）3、了解tqdm，并使用tqdm实现可视化进度条二、前言三、电脑环境四、前期准备1、导入相关依赖项2、
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路一、医疗领域：AI驱动的精准诊疗与效率提升1.医学影像诊断AI算法通过深度学习技术，已实现对X光、CT、MRI等影像的快速分析，辅助医生检测癌症、骨折等疾病。例如，GoogleDeepMind的AI系统在乳腺癌筛查中，误检率比人类专家低9.4%；中国的推想医疗AI系统可在20秒内完成肺部CT扫描分析，为急诊救治争取黄金时间。2.药物研发传统药
目前主流图像分类模型的详细对比分析 @comefly 闲聊 linux 运维服务器
以下是目前主流图像分类模型的详细对比分析，结合性能、架构特点及应用场景进行整理：一、主流模型架构分类与定量对比模型名称架构类型核心特点ImageNetTop-1准确率参数量（百万）计算效率典型应用场景ResNetCNN残差连接解决梯度消失，支持超深网络（如ResNet-152）76.1%25.6中等通用分类、目标检测ViTTransformer将图像分割为patches，用标准Transforme
专题：2025云计算与AI技术研究趋势报告|附200+份报告PDF、原数据表汇总下载
原文链接：https://tecdat.cn/?p=42935关键词：2025,云计算，AI技术，市场趋势，深度学习，公有云，研究报告云计算和AI技术正以肉眼可见的速度重塑商业世界。过去十年，全球云服务收入激增8倍，中国云计算市场规模突破6000亿元，而深度学习算法的应用量更是暴涨400倍。这些数字背后，是企业从“自建机房”到“云原生开发”的转型，是AI从“实验室”走向“产业级应用”的跨越。本报告
【深度学习解惑】在实践中如何发现和修正RNN训练过程中的数值不稳定？云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习 rnn 人工智能 tensorflow pytorch 神经网络机器学习
在实践中发现和修正RNN训练过程中的数值不稳定目录引言与背景介绍原理解释代码说明与实现应用场景与案例分析实验设计与结果分析性能分析与技术对比常见问题与解决方案创新性与差异性说明局限性与挑战未来建议和进一步研究扩展阅读与资源推荐图示与交互性内容语言风格与通俗化表达互动交流1.引言与背景介绍循环神经网络(RNN)在处理序列数据时表现出色，但训练过程中常面临梯度消失和梯度爆炸问题，导致数值不稳定。当网络
【深度学习实战】当前三个最佳图像分类模型的代码详解云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习人工智能分类模型机器学习 Transformer EfficientNet ConvNeXt
下面给出三个在当前图像分类任务中精度表现突出的模型示例，分别基于SwinTransformer、EfficientNet与ConvNeXt。每个模型均包含：训练代码（使用PyTorch）从预训练权重开始微调（也可注释掉预训练选项，从头训练）数据集目录结构：└──dataset_root├──buy#第一类图像└──nobuy#第二类图像随机拆分：80%训练，20%验证每个Epoch输出一次loss
第35周—————糖尿病预测模型优化探索
目录目录前言1.检查GPU2.查看数据编辑3.划分数据集4.创建模型与编译训练5.编译及训练模型6.结果可视化7.总结前言本文为365天深度学习训练营中的学习记录博客原作者：K同学啊1.检查GPUimporttorch.nnasnnimporttorch.nn.functionalasFimporttorchvision,torch#设置硬件设备，如果有GPU则使用，没有则使用cpudevice=
目标检测之数据增强
数据翻转，需要把bbox相应的坐标值也进行交换代码：importrandomfromtorchvision.transformsimportfunctionalasFclassCompose(object):"""组合多个transform函数"""def__init__(self,transforms):self.transforms=transformsdef__call__(self,ima
深度学习预备知识 AmazingMQ 深度学习人工智能
1.Tensor张量定义：张量（tensor）表示一个由数值组成的数组，这个数组可能有多个维度（轴）。具有一个轴的张量对应数学上的向量，具有两个轴的张量对应数学上的矩阵，具有两个以上轴的张量目前没有特定的数学名称。importtorch#arange创建一个行向量x，这个行向量包含以0开始的前12个整数。x=torch.arange(12)print("x=",x)#x=tensor([0,1,2
模型实战（21）之 C++ - tensorRT部署yolov8-det 目标检测明月醉窗台 #深度学习实战例程人工智能 c++YOLO 目标检测计算机视觉人工智能
C++-tensorRT部署yolov8-det目标检测python环境下如何直接调用推理模型转换并导出：pt->onnx->.engineC++tensorrt部署检测模型不写废话了，直接上具体实现过程+all代码1.Python环境下推理直接命令行推理，巨简单yolodetectpredictmodel=yolov8n.ptsource='https
根茎式装配体（RA）作为下一代协同智能范式的理论、架构与应用由数入道人工智能思维框架软件工程智能体
一、引言——范式危机与新大陆的召唤1.1表征主义的黄昏：当前AI协同范式的认知天花板自艾伦·图灵在《计算机器与智能》中播下思想的种子以来，人工智能的漫长征途始终被一个强大而内隐的哲学范式所笼罩——我们称之为“表征主义”（Representationism）。这一范式，无论其外在形态如何演变，从早期的符号逻辑、专家系统，到如今风靡全球的深度学习神经网络，其核心信念从未动摇：智能的核心，在于构建一个关
【零基础学AI】第31讲：目标检测 - YOLO算法 1989 0基础学AI 人工智能目标检测 YOLO rnn lstm tensorflow
本节课你将学到YOLO算法的核心思想和工作原理如何使用YOLO进行物体检测构建一个简单的物体检测系统开始之前环境要求Python3.8+需要安装的包：opencv-python,numpy,matplotlib硬件要求：推荐使用GPU（非必须）前置知识基本Python编程能力了解卷积神经网络（CNN）的基本概念（第24讲内容）核心概念什么是目标检测？目标检测就像教计算机"看"图片中的物体。它不仅要
Manus AI与多语言手写识别
ManusAI与多语言手写识别背景与概述手写识别技术的发展现状与挑战ManusAI的核心技术与应用场景多语言手写识别的市场需求与难点ManusAI的技术架构深度学习在手写识别中的应用多语言支持的模型设计数据预处理与特征提取方法多语言手写识别的关键挑战不同语言字符的多样性处理上下文语义与书写风格适应性低资源语言的训练数据获取解决方案与优化策略迁移学习在多语言任务中的应用端到端模型的优化与轻量化用户反
基于LIDC-IDRI肺结节肺癌数据集的人工智能深度学习分类良性和恶性肺癌（Python 全代码）全流程解析（二）
基于LIDC-IDRI肺结节肺癌数据集的人工智能深度学习分类良性和恶性肺癌（Python全代码）全流程解析（二）1环境配置和数据集预处理1.1环境配置1.1数据集预处理2深度学习模型训练和评估2.1深度学习模型训练2.1深度学习模型评估笑话一则开心一下喽完整代码如下：模型文件如下深度学习模型讲解---待续第一部分内容的传送门第三部分传送门1环境配置和数据集预处理1.1环境配置环境配置建议使用ana
枚举的构造函数中抛出异常会怎样 bylijinnan java enum 单例
首先从使用enum实现单例说起。为什么要用enum来实现单例？这篇文章（ http://javarevisited.blogspot.sg/2012/07/why-enum-singleton-are-better-in-java.html）阐述了三个理由： 1.enum单例简单、容易，只需几行代码： public enum Singleton { INSTANCE;
CMake 教程 aigo C++
转自：http://xiang.lf.blog.163.com/blog/static/127733322201481114456136/ CMake是一个跨平台的程序构建工具，比如起自己编写Makefile方便很多。介绍：http://baike.baidu.com/view/1126160.htm 本文件不介绍CMake的基本语法，下面是篇不错的入门教程： http:
cvc-complex-type.2.3: Element 'beans' cannot have character Cb123456 spring Webgis
cvc-complex-type.2.3: Element 'beans' cannot have character Line 33 in XML document from ServletContext resource [/WEB-INF/backend-servlet.xml] is i
jquery实例:随页面滚动条滚动而自动加载内容 120153216 jquery
<script language="javascript"> $(function (){ var i = 4;$(window).bind("scroll", function (event){ //滚动条到网页头部的高度，兼容ie,ff,chrome var top = document.documentElement.s
将数据库中的数据转换成dbs文件何必如此 sql dbs
旗正规则引擎通过数据库配置器（DataBuilder）来管理数据库，无论是Oracle，还是其他主流的数据都支持，操作方式是一样的。旗正规则引擎的数据库配置器是用于编辑数据库结构信息以及管理数据库表数据，并且可以执行SQL 语句，主要功能如下。 1)数据库生成表结构信息：主要生成数据库配置文件(.conf文
在IBATIS中配置SQL语句的IN方式 357029540 ibatis
在使用IBATIS进行SQL语句配置查询时，我们一定会遇到通过IN查询的地方，在使用IN查询时我们可以有两种方式进行配置参数：String和List。具体使用方式如下： 1.String:定义一个String的参数userIds，把这个参数传入IBATIS的sql配置文件，sql语句就可以这样写： <select id="getForms" param
Spring3 MVC 笔记（一） 7454103 spring mvc bean REST JSF
自从 MVC 这个概念提出来之后 struts1.X struts2.X jsf 。。。。。这个view 层的技术一个接一个！都用过！不敢说哪个绝对的强悍！要看业务，和整体的设计！最近公司要求开发个新系统！
Timer与Spring Quartz 定时执行程序 darkranger spring bean 工作 quartz
有时候需要定时触发某一项任务。其实在jdk1.3，java sdk就通过java.util.Timer提供相应的功能。一个简单的例子说明如何使用，很简单： 1、第一步，我们需要建立一项任务，我们的任务需要继承java.util.TimerTask package com.test; import java.text.SimpleDateFormat; import java.util.Date;
大端小端转换，le32_to_cpu 和cpu_to_le32 aijuans C语言相关
大端小端转换，le32_to_cpu 和cpu_to_le32 字节序 http://oss.org.cn/kernel-book/ldd3/ch11s04.html 小心不要假设字节序. PC 存储多字节值是低字节为先(小端为先, 因此是小端), 一些高级的平台以另一种方式(大端)
Nginx负载均衡配置实例详解 avords
[导读] 负载均衡是我们大流量网站要做的一个东西，下面我来给大家介绍在Nginx服务器上进行负载均衡配置方法，希望对有需要的同学有所帮助哦。负载均衡先来简单了解一下什么是负载均衡，单从字面上的意思来理解就可以解负载均衡是我们大流量网站要做的一个东西，下面我来给大家介绍在Nginx服务器上进行负载均衡配置方法，希望对有需要的同学有所帮助哦。负载均衡先来简单了解一下什么是负载均衡
乱说的 houxinyou 框架敏捷开发软件测试
从很久以前，大家就研究框架，开发方法，软件工程，好多！反正我是搞不明白！这两天看好多人研究敏捷模型，瀑布模型！也没太搞明白. 不过感觉和程序开发语言差不多，瀑布就是顺序，敏捷就是循环. 瀑布就是需求、分析、设计、编码、测试一步一步走下来。而敏捷就是按摸块或者说迭代做个循环，第个循环中也一样是需求、分析、设计、编码、测试一步一步走下来。也可以把软件开发理
欣赏的价值——一个小故事 bijian1013 有效辅导欣赏欣赏的价值
　　第一次参加家长会，幼儿园的老师说："您的儿子有多动症，在板凳上连三分钟都坐不了，你最好带他去医院看一看。"　　回家的路上，儿子问她老师都说了些什么，她鼻子一酸，差点流下泪来。因为全班30位小朋友，惟有他表现最差；惟有对他，老师表现出不屑，然而她还在告诉她的儿子："老师表扬你了，说宝宝原来在板凳上坐不了一分钟，现在能坐三分钟。其他妈妈都非常羡慕妈妈，因为全班只有宝宝
包冲突问题的解决方法 bingyingao eclipse maven exclusions 包冲突
包冲突是开发过程中很常见的问题：其表现有： 1.明明在eclipse中能够索引到某个类，运行时却报出找不到类。 2.明明在eclipse中能够索引到某个类的方法，运行时却报出找不到方法。 3.类及方法都有，以正确编译成了.class文件，在本机跑的好好的，发到测试或者正式环境就抛如下异常： java.lang.NoClassDefFoundError: Could not in
【Spark七十五】Spark Streaming整合Flume-NG三之接入log4j bit1129 Stream
先来一段废话：实际工作中，业务系统的日志基本上是使用Log4j写入到日志文件中的，问题的关键之处在于业务日志的格式混乱，这给对日志文件中的日志进行统计分析带来了极大的困难，或者说，基本上无法进行分析，每个人写日志的习惯不同，导致日志行的格式五花八门，最后只能通过grep来查找特定的关键词缩小范围，但是在集群环境下，每个机器去grep一遍，分析一遍，这个效率如何可想之二，大好光阴都浪费在这上面了
sudoku solver in Haskell bookjovi sudoku haskell
这几天没太多的事做，想着用函数式语言来写点实用的程序，像fib和prime之类的就不想提了（就一行代码的事），写什么程序呢？在网上闲逛时发现sudoku游戏，sudoku十几年前就知道了，学生生涯时也想过用C/Java来实现个智能求解，但到最后往往没写成，主要是用C/Java写的话会很麻烦。现在写程序，本人总是有一种思维惯性，总是想把程序写的更紧凑，更精致，代码行数最少，所以现
java apache ftpClient bro_feng java
最近使用apache的ftpclient插件实现ftp下载，遇见几个问题，做如下总结。 1. 上传阻塞，一连串的上传，其中一个就阻塞了，或是用storeFile上传时返回false。查了点资料，说是FTP有主动模式和被动模式。将传出模式修改为被动模式ftp.enterLocalPassiveMode();然后就好了。看了网上相关介绍，对主动模式和被动模式区别还是比较的模糊，不太了解被动模
读《研磨设计模式》-代码笔记-工厂方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 工厂方法模式：使一个类的实例化延迟到子类 * 某次，我在工作不知不觉中就用到了工厂方法模式（称为模板方法模式更恰当。2012-10-29）： * 有很多不同的产品，它
面试记录语 chenyu19891124 招聘
或许真的在一个平台上成长成什么样，都必须靠自己去努力。有了好的平台让自己展示，就该好好努力。今天是自己单独一次去面试别人，感觉有点小紧张，说话有点打结。在面试完后写面试情况表，下笔真的好难，尤其是要对面试人的情况说明真的好难。今天面试的是自己同事的同事，现在的这个同事要离职了，介绍了我现在这位同事以前的同事来面试。今天这位求职者面试的是配置管理，期初看了简历觉得应该很适合做配置管理，但是今天面
Fire Workflow 1.0正式版终于发布了 comsci 工作 workflow Google
Fire Workflow 是国内另外一款开源工作流，作者是著名的非也同志，哈哈.... 官方网站是 http://www.fireflow.org 经过大家努力,Fire Workflow 1.0正式版终于发布了正式版主要变化: 1、增加IWorkItem.jumpToEx(...)方法，取消了当前环节和目标环节必须在同一条执行线的限制，使得自由流更加自由 2、增加IT
Python向脚本传参 daizj python 脚本传参
如果想对python脚本传参数，python中对应的argc, argv(c语言的命令行参数)是什么呢？需要模块：sys 参数个数：len(sys.argv) 脚本名： sys.argv[0] 参数1： sys.argv[1] 参数2： sys.argv[
管理用户分组的命令gpasswd dongwei_6688 passwd
NAME： gpasswd - administer the /etc/group file SYNOPSIS： gpasswd group gpasswd -a user group gpasswd -d user group gpasswd -R group gpasswd -r group gpasswd [-A user,...] [-M user,...] g
郝斌老师数据结构课程笔记 dcj3sjt126com 数据结构与算法
<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
yii2 cgridview加上选择框进行操作 dcj3sjt126com GridView
页面代码 <?=Html::beginForm(['controller/bulk'],'post');?> <?=Html::dropDownList('action','',[''=>'Mark selected as: ','c'=>'Confirmed','nc'=>'No Confirmed'],['class'=>'dropdown',])
linux mysql fypop linux
enquiry mysql version in centos linux yum list installed | grep mysql yum -y remove mysql-libs.x86_64 enquiry mysql version in yum repositoryyum list | grep mysql oryum -y list mysql* install mysq
Scramble String hcx2013 String
Given a string s1, we may represent it as a binary tree by partitioning it to two non-empty substrings recursively. Below is one possible representation of s1 = "great":
跟我学Shiro目录贴 jinnianshilongnian 跟我学shiro
历经三个月左右时间，《跟我学Shiro》系列教程已经完结，暂时没有需要补充的内容，因此生成PDF版供大家下载。最近项目比较紧，没有时间解答一些疑问，暂时无法回复一些问题，很抱歉，不过可以加群（334194438/348194195）一起讨论问题。 ----广告-----------------------------------------------------
nginx日志切割并使用flume-ng收集日志 liyonghui160com
nginx的日志文件没有rotate功能。如果你不处理，日志文件将变得越来越大，还好我们可以写一个nginx日志切割脚本来自动切割日志文件。第一步就是重命名日志文件，不用担心重命名后nginx找不到日志文件而丢失日志。在你未重新打开原名字的日志文件前，nginx还是会向你重命名的文件写日志，linux是靠文件描述符而不是文件名定位文件。第二步向nginx主
Oracle死锁解决方法 pda158 oracle
　select p.spid,c.object_name,b.session_id,b.oracle_username,b.os_user_name from v$process p,v$session a, v$locked_object b,all_objects c where p.addr=a.paddr and a.process=b.process and c.object_id=b.
java之List排序 shiguanghui list排序
在Java Collection Framework中定义的List实现有Vector，ArrayList和LinkedList。这些集合提供了对对象组的索引访问。他们提供了元素的添加与删除支持。然而，它们并没有内置的元素排序支持。　　你能够使用java.util.Collections类中的sort()方法对List元素进行排序。你既可以给方法传递
servlet单例多线程 utopialxw 单例多线程 servlet
转自http://www.cnblogs.com/yjhrem/articles/3160864.html 和 http://blog.chinaunix.net/uid-7374279-id-3687149.html Servlet 单例多线程 Servlet如何处理多个请求访问？Servlet容器默认是采用单实例多线程的方式处理多个请求的：1.当web服务器启动的