夕小瑶

万字综述：目标检测模型YOLOv1-v7深度解析

文｜Rocky Ding
源｜WeThinkln

大家好，我是Rocky。

近年来YOLO系列层出不穷，更新不断，已经到v7版本。Rocky认为不能简单用版本高低来评判一个系列的效果好坏，YOLOv1-v7不同版本各有特色，在不同场景，不同上下游环境，不同资源支持的情况下，如何从容选择使用哪个版本，甚至使用哪个特定部分，都需要我们对YOLOv1-v7有一个全面的认识。

故Rocky将YOLO系列每个版本都表示成下图中的五个部分，逐一进行解析，并将每个部分带入业务，竞赛，研究等维度进行延伸思考，探索更多可能性。

干货篇

----【目录先行】----

YOLOv1-v7论文&&代码大放送
YOLO系列中输入侧，Backbone，Neck，Head，Tricks的特点
YOLOv1 输入侧，Backbone，Neck，Head，Tricks大解析
YOLOv2 输入侧，Backbone，Neck，Head，Tricks大解析
YOLOv3 输入侧，Backbone，Neck，Head，Tricks大解析
YOLOv4 输入侧，Backbone，Neck，Head，Tricks大解析
YOLOv5 输入侧，Backbone，Neck，Head，Tricks大解析
YOLOx 输入侧，Backbone，Neck，Head，Tricks大解析
YOLOv6 输入侧，Backbone，Neck，Head，Tricks大解析
YOLOv7 输入侧，Backbone，Neck，Head，Tricks大解析

【一】YOLOv1-v7论文&&代码大放送

YOLOv1论文名以及论文地址：You Only Look Once:Unified, Real-Time Object Detection[1]

YOLOv1开源代码：YOLOv1-Darkent[2]

YOLOv2论文名以及论文地址：YOLO9000:Better, Faster, Stronger[3]

YOLOv2开源代码：YOLOv2-Darkent[4]

YOLOv3论文名以及论文地址：YOLOv3: An Incremental Improvement[5]

YOLOv3开源代码：YOLOv3-PyTorch[6]

YOLOv4论文名以及论文地址：YOLOv4: Optimal Speed and Accuracy of Object Detection[7]

YOLOv4开源代码：YOLOv4-Darkent[8]

YOLOv5论文名以及论文地址：无

YOLOv5开源代码：YOLOv5-PyTorch[9]

YOLOx论文名以及论文地址：YOLOX: Exceeding YOLO Series in 2021[10]

YOLOx开源代码：YOLOx-PyTorch[11]

YOLOv6论文名以及论文地址：YOLOv6: A Single-Stage Object Detection Framework for Industrial Applications[12]

YOLOv6开源代码：YOLOv6-PyTorch[13]

YOLOv7论文名以及论文地址：YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors[14]

YOLOv7开源代码：Official YOLOv7-PyTorch[15]

【二】YOLO系列中输入侧，Backbone，Neck，Head，Tricks的特点

输入侧

YOLO系列中的输入侧主要包含了输入数据，数据增强算法以及一些特殊预处理操作。

输入数据可以是图片，也可以是视频。

数据增强算法包含通用增强以及YOLO自带的一些高阶增强算法。

YOLO系列的输入侧可谓是通用性最强的一个部分，具备很强的向目标检测其他模型，图像分类，图像分割，目标跟踪等方向迁移应用的价值。

并且从业务，竞赛，研究等角度观察，输入侧结构也能在这些方面比较好的融入，从容。

Backbone

YOLO系列中的Backbone结构主要作为算法模型的一个核心特征提取器，随着时代的变迁不断发展。

某种程度上，YOLO系列的各个Backbone代表着当时的高价值模型与AI行业的发展记忆，计算机视觉江湖上，名噪一时的那些“算法兵器”，它们确实来过。

YOLO系列的Backbone与输入侧一样，是通用性非常强的一个部分，在不同的计算机视觉细分方向，都有广泛的应用。

Neck

YOLO从v3版本开始设计Neck结构，其中的特征融合思想最初在FPN（feature pyramid networks）网络中提出，在YOLOv3中进行结构的微调，最终成为YOLO后续系列不可或缺的部分。

FPN的思路剑指小目标，原来很多目标检测算法都是只采用高层特征进行预测，高层的特征中语义信息比较丰富，但是分辨率较低，目标位置比较粗略。假设在深层网络中，最后的高层特征图中一个像素可能对应着输出图像20x20的像素区域，那么小于20x20像素的小物体的特征大概率已经丢失。 与此同时，低层的特征语义信息比较少，但是目标位置准确,这是对小目标检测有帮助的。FPN将高层特征与底层特征进行融合，从而同时利用低层特征的高分辨率和高层特征的丰富语义信息，并进行了多尺度特征的独立预测，对小物体的检测效果有明显的提升。

▲FPN结构

FPN论文地址：Feature Pyramid Networks for Object Detection[16]

【Rocky的延伸思考】

业务：FPN具备在业务场景中的应用价值，但还是要分场景来使用，主要在小目标场景可以尝试，并同时要兼顾上游数据侧与下游部署侧的适配。
竞赛：FPN的思想可谓是算法竞赛的一个利器，在分类，分割，检测等任务中都能大展拳脚，进行迁移应用。
研究：FPN具备作为baseline的价值，不管是进行拓展研究还是单纯的学习FPN思想，都是提升研究能力的不错选择。

Head

YOLO系列中的Head结构主要包含了Head检测头，损失函数部分以及Head结构的优化策略。

Head检测头体现了YOLO系列“简洁美”的思想，与two-stage检测算法相比，YOLO取消了RPN模块，设计了特征提取网络Backbone+检测头Head的end-to-end整体逻辑，其对工程的友好特性让工业界顿时开满“YOLO花”。

YOLO系列的损失函数部分可谓是目标检测领域中的“掌上明珠”，其在业务，竞赛和研究等维度都有很强的迁移价值。

▲two-stage检测算法简明逻辑

【Rocky的延伸思考】

业务：YOLO系列的Head结构中，不管是Head检测头，损失函数部分以及Head结构的优化策略，其在业务中都可以作为baseline进行迁移使用。
竞赛：YOLO系列的Head结构在目标检测竞赛中可以说时入场必选结构，能极大程度上缩短竞赛初期的熟悉适应成本。
研究：YOLO系列的Head结构和Neck结构一样，具备作为baseline的价值。

Tricks

YOLO系列中使用的Tricks，从横向角度来看，基本算是当时的最优Trcks；从纵向角度来看，其大部分都具备了可迁移性，强适应性，能够跟随着我们一起进入2020年代，并且依旧发挥余热。

YOLO系列中使用的Tricks和Backbone以及输入侧一样，是通用性非常强的一个部分，迁移应用在业务，竞赛，研究等维度，可能会带来出其不意的效果与惊喜。

【三】YOLOv1 输入侧，Backbone，Neck，Head，Tricks大解析

YOLOv1作为YOLO系列的开山鼻祖，让YOLO这个计算机视觉中的“璀璨明珠”在2015年的夏天，拉开了帷幕。

YOLOv1整体上有着朴素的逻辑，但是隐隐约约已经为后续的YOLO发展定下了简单实用的基调。

下面Rocky就将YOLOv1拆解，从输入侧，Backbone，Head，Tricks入手，带着大家一起学习研究。

（需要注意的是，YOLO系列中的Neck结构在YOLOv3才出现，故在后面的YOLOv3部分将加入Neck结构的讲解）

YOLOv1 输入侧大解析

YOLOv1在输入侧做的最多的工作是调整输入图像的尺寸以支持对图像细粒度特征的挖掘与检测。

同样的，YOLO系列的grid逻辑（“分而治之”）也从输入侧开始展开，直到Head结构输出相应结果。

▲YOLOv1整体结构

YOLOv1 Backbone大解析

YOLOv1的Backbone结构主要受启发于GoogLeNet思想，从上面的整体结构可以看出，模型结构非常简洁，卷积一卷到底。

YOLOv1的backbone结构中使用了Leaky ReLu激活函数，但并没有引入BN层。

YOLOv1 Head大解析

YOLOv1作为YOLO系列的开山鼻祖，其Head结构整体逻辑比较直观，并且对后续的版本影响深远。

▲YOLOv1 Head结构

YOLOv1中，图片被划分为7X7的网格（grid cell），每个网络在Head结构中进行独立检测。

YOLOv1在Inference过程中并不是把每个单独的网格作为输入，网格只是用于物体ground truth中心点位置的分配，如果一个物体的ground truth中心点坐标在一个grid cell中，那么就认为这个grid cell就是包含这个物体，这个物体的预测就由该grid cell负责。而不是对图片进行切片，并不会让网格的视野受限且只有局部特征。

YOLOv1的输出是一个7X7X30的张量， 7X7表示把输入图片划分成 7X7的网格，每一个网格的通道维度等于30=(2X5+20) ，代表YOLOv1中每个网格能预测2个框，每个框能预测5个参数再加上20个种类。

把上述内容转换成通用公式就是网格一共是个，每个网格产生B个检测框，每个检测框会经过网络最终得到相应的bounding box。最终会得到个bounding box，每个bounding box都包含5个预测值，分别是bounding box的中心坐标，bounding box的宽高和置信度C。其中C代表网格中box能与物体的取得的最大IOU值。

铺垫了这么多变量表示，到这里终于可以引出对工业界产生深远影响的YOLOv1的损失函数，YOLO系列的后续版本的损失函数都是从这个最初的形式优化而来。

乍一看YOLOv1的损失函数十分复杂，don't worry，接下来Rocky将进行详细分析。

整体上来看，YOLOv1的损失函数可以分为检测框的回归损失，置信度误差损失以及分类误差损失。

公式中第一行和第二行代表了检测框的中心点和宽高的回归损失，其中表示第个网格的第个box是否去预测这个物体，即这个box与物体的ground truth box的IOU值和其他box相比是否是最大的。如果是，那么，否则，而YOLOv1中每个网格只有2个box，还是比较简单的。值得注意的是宽高回归损失中使用了开根号的操作，这是考虑到了小目标与大目标对应的检测框会存在差异，并消除这个差异。不开根号时，损失函数往往更倾向于调整尺寸比较大的检测框。例如，12个像素点的偏差，对于888x888 的检测框几乎没有影响，因为此时的IOU值还是很大，但是对于28x48 的小检测框影响就很大。

公式中第三行和第四行代表了置信度误差损失，分别是含物体的置信度误差损失和不含物体的置信度误差损失。当网格中含有物体时，，并且置信度ground truth值；当网格中不含物体时，，并且置信度ground truth值。包含物体的预测置信度为网格中box与物体ground truth box能取到的最大的IOU值，这很好理解，计算逻辑也直接明了。但是不包含物体的置信度误差损失究竟是怎么回事？don't worry，不包含物体的置信度误差损失包含两部分，一部分是包含物体的网格中的两个box中不负责预测的那个box，另外一部分是不包含物体的网格中的box，让他们都往0回归吧！

目标检测中存在一个常见问题，那就是类别不均衡问题，YOLOv1中也不例外。在一张图像中物体往往只占一小部分，大部分还是背景为主。故在置信度误差损失中设置了和来平衡含物体的置信度误差损失和不含物体的置信度误差损失两者的权重，让模型更加重视含物体的置信度误差损失。

公式中第五行代表了分类误差损失，只有当时才会进行计算。

到这里，YOLOv1损失函数的解析就告一段落了。接下来我们看一下YOLOv1Head侧的优化策略：

使用NMS算法，过滤掉一些重叠的检测框。
同一网格中的不同检测框有不同作用，也就是置信度误差损失的设计逻辑，这样可以增加召回率
Inference时使用作为输出置信度。使用物体的类别预测最大值乘以最合适的预测框，这样也可以过滤掉一些大部分重叠的检测框，同时考虑了检测框与类别让输出更加可信。

▲Inference时使用PXC作为输出置信度

YOLOv1 Tricks大解析

作为YOLO系列的开山之作，YOLOv1中并未用太多的Tricks，但是设计出YOLO的架构，已经足够伟大。

YOLOv1的缺陷：

由于YOLOv1每个网格的检测框只有2个，对于密集型目标检测和小物体检测都不能很好适用。
Inference时，当同一类物体出现的不常见的长宽比时泛化能力偏弱。
由于损失函数的问题，定位误差是影响检测效果的主要原因，尤其是大小物体的处理上，还有待加强。

【Rocky的延伸思考】

业务：YOLOv1 输入侧逻辑非常适合作为新业务的实验性Baseline，快速搭建，快速试错。Head结构经过时间的考验与沉淀，非常适合作为简单业务的入场baseline部分模块进行搭建。
竞赛：YOLOv1 坦率来说在竞赛中已不具备竞争力，但作为baseline入场模型也未尝不可。
研究：YOLOv1 Head架构可谓是YOLO系列的开山鼻祖，给后续系列搭建了baseline，不管是入门学习还是进行扩展研究，都是非常有价值的。

【四】YOLOv2 输入侧，Backbone，Neck，Head，Tricks大解析

时隔一年，在2016年的冬天，YOLOv2来了，YOLOv2让工业界狂喜的同时，YOLO版本号迭代的周期也来开了帷幕。

YOLOv2 输入侧大解析

YOLOv2的输入侧在YOLOv1的基础上引入了多尺度训练（Multi-Scale Training），并且优化了预训练模型（High Resolution Classifier）。

多尺度训练（Multi-Scale Training）的逻辑是模型每训练一定的Epoch，改变输入图片的尺寸，使得模型对不同的输入尺寸更鲁棒，能够从容地对不同尺寸的图像进行检测。

论文中使用32的倍数作为输入的尺寸，具体使用了320、352、384、416、448、480、512、544、576、608这10种尺寸。

在预训练模型这块，YOLOv2使用了High Resolution Classifier思想。一般基于ImageNet预训练的模型的输入尺寸都是小于256x256的。YOLOv2使用的输入尺寸是448x448，比YOLOv1的要大，故预训练模型网络需要使用大分辨率输入在ImageNet上进行微调。经过这个操作，YOLOv2的mAP提升了4%。

YOLOv2 Backbone大解析

YOLOv2的Backbone结构在YOLOv1的基础上设计了Darknet-19网络，并引入了BN层优化模型整体性能。

▲Darknet-19网络结构

Darknet-19网络包含19个卷积层和5个max pooling层，整体计算量比YOLOv1中采用的GoogleNet更少，最后用average pooling层代替全连接层进行Inference。

在YOLOv2的Backbone中加入BN层之后，使得mAP提升了2%，而BN层也成为了YOLO后续系列的标配。

YOLOv2 Head大解析

YOLOv2的Head结构在YOLOv1的基础上进行了网络结构和损失函数的改进，并且大名鼎鼎的anchor box也在此引入。

▲passthrough layer结构

YOLOv2在YOLOv1的基础上去掉了最后的全连接层，采用了卷积和anchor boxes来预测检测框。由于使用卷积对特征图进行下采样会使很多细粒度特征（Fine-Grained Features）的损失，导致小物体的识别效果不佳。故在YOLOv2Head侧中引入了passthrough layer结构，将特征图一分为四，并进行concat操作，保存了珍贵的细粒度特征。

刚才提到了YOLOv2使用卷积和anchor box来输出检测框，那么到底anchor box机制是怎么样的呢？

YOLOv1中每个网格预测两个检测框，并让最合适的检测框向ground truth框进行回归修正。在YOLOv2中，Head侧不对检测框的宽高进行直接硬回归，而是将检测框与Anchor框的偏差（offset）进行回归，并且每个网格指定个anchor box。在训练时，只有最接近ground truth的检测框进行损失的计算。在引入anchor box后，mAP由69.5下降至69.2，原因在于每个网格预测的物体变多之后，召回率大幅上升，准确率有所下降，总体mAP略有下降。

▲Dimension Clusters

在引入anchor box之后，又使用了Dimension Clusters操作，使得anchor box的宽高由聚类算法产生。没错，就是K-means算法（K-NN算法）。使用K-means算法获得anchor box的具体细节可以在我之前的文章【三年面试五年模拟】算法工程师的独孤九剑秘籍（第七式）中取用。YOLOv2Head侧输出的feature map大小为13X13，每个grid cell设置了 5个anchor box预测得到 5个检测框，一共有13X13X5=845个检测框，与YOLOv1相比大大提高目标的定位准确率。

优化了anchor box预设置后，YOLOv2设计了Direct location prediction操作来支持检测框与Anchor框的偏差（offset）回归逻辑。与YOLOv1相比，YOLOv2中每个检测框输出5个偏差参数，为了将预测框的中心点约束在当前grid cell中，使用sigmoid函数将和和归一化处理，将值约束在[0,1]之间，这使得模型训练更稳定。

▲Direct location prediction整体逻辑

其中和代表anchor box的宽高，和代表grid cell左上角相对于feature map左上角的距离。

讲完了网络结构的改进和anchor box，接下来就是损失函数的改进了：

可以看出，在计算检测框的回归损失时，YOLOv2去掉了开根号操作，进行直接计算。但是根据ground truth的大小对权重系数进行修正：（这里和都归一化到[0,1] )，这样对于尺度较小的预测框其权重系数会更大一些，可以放大误差，起到和YOLOv1计算平方根相似的效果。

在训练前期（iter < 12800），YOLOv2还会进行的计算，表示对anchor boxes和检测框进行坐标回归，促进网络学习到anchor的形状。

YOLOv2 Tricks大解析

等到YOLOv2发布时，引入了当时来说比较有创造性的Tricks，即设计了分类与检测的联合训练方法，使得YOLO能够实时检测多达9000种目标，在这种方法下输出的模型称为YOLO9000。

▲YOLO9000联合训练逻辑

YOLO9000主要在COCO和ImageNet数据集上进行训练，首先在检测数据集上训练一定的epoch来让模型学习定位和检测目标的能力；再使用分类数据集进行训练，从而扩展模型对目标的识别能力。

在训练的过程中，混合目标检测和分类的数据集。当输入是检测数据集时，对整个Loss函数计算Loss；当输入是分类数据集时，Loss函数只计算分类Loss，其余部分Loss设为零。

YOLO9000使用的联合训练不同于将Backbone在ImageNet上进行预训练，联合训练可以扩充检测识别的目标类别。例如，当模型检测出车的位置后，更进一步将其细分类别轿车、卡车、客车、自行车、三轮车等。

【Rocky的延伸思考】

业务侧：YOLOv2 输入侧的多尺度训练思想，Backbone以及Head结构完全可以作为baseline模型的一部分进行业务开展。
竞赛侧：YOLOv2 输入侧的多尺度训练思想在竞赛侧是一个提分利器。Head结构中的anchor box机制，Dimension Clusters以及Direct location prediction优化方法可以作为竞赛侧的提分策略。
研究侧：YOLOv2 输入侧的多尺度训练思想以及High Resolution Classifier和Head结构以及损失函数具备作为baseline的价值，不管是进行拓展研究还是单纯学习思想。

【五】YOLOv3 输入侧，Backbone，Neck，Head，Tricks大解析

时间来到2018年，这时候Rocky正要开始研究生的生涯，与此同时，YOLOv3来了！后续YOLO系列的整体结构，都在YOLOv3中已经定型。

下面Rocky在这里先分享一下YOLOv3的整体结构：

▲YOLOv3网络结构图

YOLOv3 输入侧大解析

在YOLOv3输入侧，Rocky想引入常用基础数据增强技术和高阶数据增强算法。

因为不管是YOLO系列还是二阶段目标检测系列；不管是目标检测还是图像分类和分割，基础数据增强技术和高阶数据增强算法都有很强的实用价值。

高阶数据增强算法：

▲高阶数据增强算法

其中RandErasing将图像的部分区域替换为随机值，或者是训练集的平均像素值。

而GridMask则使用了一个网格掩码，并将掩码进行随机翻转，与原图相乘，从而得到增广后的图像，通过超参数控制生成的掩码网格的大小。

基于NAS搜索的AutoAugment在一系列图像增强子策略的搜索空间中通过搜索算法找到适合特定数据集的图像增强方案。针对不同类型的数据集，会包含不同数量的子策略。每个子策略中都包含两种变换，针对每张图像都随机的挑选一个子策略，然后以一定的概率来决定是否执行子策略中的每种变换方法。

其余方法的细节知识，Rocky将在后续的高阶数据增强专题文章中依次展开，大家敬请期待。

常用基础数据增强技术：

颜色变换：在色彩通道空间进行数据增强，比如将某种颜色通道关闭，或者改变亮度值。
旋转变换：选择一个角度，左右旋转图像，可以改变图像内容朝向。
添加噪声：从高斯等分布中采样出的随机值矩阵加入到图像中。
锐化和模糊：使用高斯算子，拉普拉斯算子等处理图像。
缩放变换：图像按照比例进行放大和缩小并不改变图像中的内容。
平移变换：向上下左右四个维度移动图像。
翻转变换：关于水平或者竖直的轴进行图像翻转操作。
裁剪变换：主要有中心裁剪与随机裁剪。
仿射变换：对图像进行一次线性变换并接上一个平移变换。

YOLOv3 Backbone大解析

YOLOv3的Backbone在YOLOv2的基础上设计了Darknet-53结构。

YOLOv3将YOLOv2的Darknet-19加深了网络层数，并引入了ResNet的残差思想，也正是残差思想让YOLOv3将Backbone深度大幅扩展至Darknet-53。

YOLOv3优化了下采样方式（无池化层结构），采用卷积层来实现，而YOLOv2中采用池化层实现。

YOLOv3 Neck大解析

YOLOv3则是较好的引入了FPN的思想，以支持后面的Head侧采用多尺度来对不同size的目标进行检测，越精细的grid cell就可以检测出越精细的目标物体。YOLOv3设置了三个不同的尺寸，分别是19x19,38x38和76x76，他们之间的比例为1；2;4。

YOLOv3采用全卷积的思路，在Neck结构也不例外（YOLOv1-v2中采用池化层做特征图的下采样，v3中采用卷积层来实现）。

YOLOv3 Head大解析

YOLOv3Head结构在YOLOv2的基础上引入了多尺度检测逻辑和多标签分类思想，优化了损失函数。

YOLOv3在Neck结构的基础上顺势而为融合了3个尺度，在多个尺度的融合特征图上分别独立做检测。再将Anchor Box由5个增加至9个，每个尺度下分配3个Anchor Box，最终对于小目标的检测效果提升明显。并且多尺度+9anchor box让YOLOv3的整体检测性能达到了一个比较从容的level。

再说多标签分类思想，我大受震撼。首先什么是多标签分类呢？我们先对几种常见的分类逻辑做一个对比：

二分类（Two-Class Classification）问题，是最简单的分类问题，比如一个任务中只有猫和狗，每个样本中也只有其中的一类。
单标签多分类（Multi-Class Classification）问题，指一个样本（一个图片或者一个检测框）有一个标签，但总共的类别数是大于两类的。目标检测中针对每个检测框的分类是多分类问题。在深度学习中，使用softmax是最常用的解决方案。
多标签多分类（Multi-Label Classification）问题，指一个样本（一个图片或者一个检测框）中含有多个物体或者多个label。在深度学习中，使用多个Logistic输出是一种性价比很高的做法。

YOLOv3将YOLOv2的单标签分类改进为多标签分类，Head结构将用于单标签分类的Softmax分类器改成多个独立的用于多标签分类的Logistic分类器，取消了类别之间的互斥，可以使网络更加灵活。YOLOv2使用Softmax分类器，认为一个检测框只属于一个类别，每个检测框分配到概率最大的类别。但实际场景中一个检测框可能含有多个物体或者有重叠的类别标签。Logistic分类器主要用到Sigmoid函数，可以将输入约束在0到1的范围内，当一张图像经过特征提取后的某一检测框类别置信度经过sigmoid函数约束后如果大于设定的阈值，就表示该检测框负责的物体属于该类别。

YOLOv3的损失函数在YOLOv2的基础上进行了改进：

YOLOv3中置信度误差损失和分类误差损失都使用交叉熵来表示。

YOLOv3 Tricks大解析

等到YOLOv3发布时，YOLO系列的整体架构算是基本确定，Adam优化器也开始逐渐流行起来。

Adam优化器结合了AdaGrad和RMSProp两种优化算法的优点。对梯度的一阶矩估计（First Moment Estimation，即梯度的均值）和二阶矩估计（Second Moment Estimation，即梯度的未中心化的方差）进行综合考虑，计算出更新步长。

Adam的优势：

实现简单，计算高效，对内存需求少。
参数的更新不受梯度的伸缩变换影响。
超参数具有很好的解释性，且通常无需调整或仅需很少的微调。
更新的步长能够被限制在大致的范围内（初始学习率）。
能自然地实现步长退火过程（自动调整学习率）。
很适合应用于大规模的数据及参数的场景。
适用于不稳定目标函数。
适用于梯度稀疏或梯度存在很大噪声的问题。

Adam的实现原理：

【Rocky的延伸思考】

基础数据增强技术和高阶数据增强算法不管是在业务，竞赛还是研究维度都能非常稳定的带来性能的提升。
业务：YOLOv3 整体结构在工程中非常稳定，且久经时间的考验，可以作为业务baseline模型的首选。
竞赛：YOLOv3 整体结构在竞赛中的地位和业务侧同理。
研究：基于YOLOv3优化而来的论文日新月异，让人眼花缭乱，但正真价值几何，还需要我们去判断。

【六】YOLOv4 输入侧，Backbone，Neck，Head，Tricks大解析

首先，Rocky在这里先分享一下YOLOv4的整体结构：

▲YOLOv4网络结构图

YOLOv4 输入侧大解析

YOLOv4的输入侧在YOLOv3的基础上，使用了Mosaic和CutMix高阶数据增强来提升模型的整体性能。

Mosaic数据增强技术从经典的CutMix优化而来。在CutMix的逻辑中，使用两张图片分别选取部分像素进行拼接，产生新的数据。而Mosaic则在此基础上图片数量增加到四张，并采用随机缩放，裁剪和排布的方式进行拼接。

▲Mosaic逻辑

Mosaic数据增强的优点：

优化模型对小目标的检测效果。
减少训练算力，由于一次性可以计算4张图片，所以Batch Size可以不用很大，也为YOLOv4在一张GPU卡上完成训练奠定了数据基础。
依然是一种增强数据操作，让模型的鲁棒性与泛化性能更优。而上面提到的CutMix则从Mixup和Cutout优化而来。

由上图可知，Mixup将两张图片按比例混合，其label也按同等比例分配；Cutout则是将图片中的部分像素区域置0，但是label不变；CutMix则是在Cutout的基础上对置0的像素区域随机填充其他图像的部分像素值，label则按同等比例进行分配。

其中，M是二进制矩阵0,1，用来标记需要裁剪的区域和保留的区域，裁剪的区域值均为0，其余位置为1。图片A和B和组合得到新样本，最后两个图的label也对应求加权和。

CutMix的优势：

由于采用填充的形式，合成的图片不会有不自然的混合情形。
高价值信息增多，提升训练效率，优化算法性能。
作为YOLOv4的Bag of freebies，其不增加模型的推理耗时。
增加算法的局部识别与局部定位能力。
在输入侧，起到了类似dropout的作用。

YOLOv4 Backbone大解析

YOLOv4的Backbone在YOLOv3的基础上，受CSPNet网络结构启发，将多个CSP子模块进行组合设计成为CSPDarknet53，并且使用了Mish激活函数。

CSPDarknet53总共有72层卷积层，遵循YOLO系列一贯的风格，这些卷积层都是大小，步长为2的设置，能起到特征提取与逐步下采样的作用。

CSP子模块主要解决了由于梯度信息重复导致的计算量庞大的问题。

CSP模块不仅仅是一个子结构，更是一个处理思想，可以和ResNet、ResNext、DenseNet、EfficientNet等网络结合使用。

▲DenseNet结构与CSP模块结构

上图左侧是DenseNet的结构，它进行反向传播时会有大量的重复计算，而右侧的图是CSP模块结构，它将基础层的特征图分成两部分，一部分直接与该阶段的末尾concat相连，另一部分经过局部Dense模块，从而既能保留Dense模块的特征复用，又能截断梯度流，避免大量的重复计算，同时可以保证准确率。

总的来说，CSP模块解决了三个方面的问题：

提升模型的学习能力，同时使模型轻量化。
降低计算瓶颈，提高硬件利用率。
降低模型的内存占用。

CSP模块逻辑也可以迁移到其他Backbone网络，例如优化ResNet以提升性能：

▲ResNet的CSP化

CSPNet论文地址：CSPNet[17]

YOLOv4论文中通过消融实验发现使用Mish激活函数会提升性能，于是在Backbone中将其使用。（注：除Backbone以外的网络结构依旧使用LeakyReLU激活函数）

▲Mish激活函数消融实验

Mish激活函数的示意图如下，其有三个主要特征:

无上界有下界。Mish向上无边界避免了由于封顶而导致的梯度饱和，加快训练过程。向下有边界有助于实现强正则化效果。
非单调函数。允许其在负半轴有稳定的微小负值，从而使梯度流更稳定。与ReLU负半轴的硬零边界相比，其梯度更平滑。
无穷连续性与光滑性。具有较好的泛化能力，提高训练结果的质量。

▲Mish激活函数

Mish激活函数的表达式：

Mish激活函数论文地址：Mish激活函数[18]

YOLOv4 Neck大解析

YOLOv4的Neck结构主要包含了SPP模块和PAN模块。

SPP模块在YOLOv3_SPP.cfg中率先展现，但是在YOLOv4中则成为了一个标配。SPP模块包含3个最大池化层，其滑动核（sliding kernel）尺寸分别是5x5,9x9,13x13，并通过Padding操作，使每个最大池化层的输出特征图不变，用于Concat融合操作。

SPP模块代替了卷积层后的常规池化层，可以增加感受野，更能获取多尺度特征，训练速度也让人满意。Yolov4论文中使用的图像在COCO目标检测任务进行实验，SPP模块能以0.5%的额外计算代价将AP50提升2.7%。

▲SPP模块

SPP模块论文：Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition[19]

PAN模块对不同层次的特征进行疯狂融合，其在FPN模块的基础上增加了自底向上的特征金字塔结构，保留了更多的浅层位置特征，将整体特征提取能力进一步提升。

在引入YOLOv4时，特征图最后的融合操作相比于原论文发生了变化，从add操作改为concat操作，增加了特征图的通道数：

PAN模块论文：Path Aggregation Network for Instance Segmentation[20]

YOLOv4 Head大解析

YOLOv4的Head结构沿用了YOLOv3的整体架构，并引入了CIOU Loss和DIOU NMS来提升Head结构的整体性能。

在YOLOv3中，使用MSE(均方误差）损失函数对检测框的中心点以及宽高坐标进行优化。在MSE损失函数的逻辑中，将检测框的中心点和宽高坐标作为独立的变量对待，但是实际上他们之间是有关联的。所以一个直观的解决方案是使用IOU损失代替MSE损失。

YOLOv4论文中依次提到了IOU Loss，GIOU Loss，DIOU Loss以及CIOU Loss。其中IOU Loss是其他Loss的基石，也最为简单，公式如下：

其中A代表检测框，B代表ground truth， IOU代表两者的交并比。

IOU Loss思想简洁明了，但存在两个问题：

当检测框和ground truth不相交时，会使IOU=0，从而无法反应两个框距离的远近，进而导致IOU Loss不可导。
当两个检测框大小相同，IOU也相同时，IOU Loss无法区分两者位置的差异。

▲IOU Loss问题示意图

而GIOU Loss能改进这些问题，其在检测框与ground truth之外映射一个最小外接矩形来缓解IOU Loss存在的问题，其公式和图解如下：

其中 C代表最小外接矩形，最后一项代表使用差集来进行约束与惩罚。

▲GIOU Loss图解

但出现上图右侧的情况时，GIOU Loss被打回原形。

DIOU Loss在GIOU Loss基础上提出了中心点距离的概念，来改进GIOU Loss被打回原形的问题。

▲DIOU Loss图解

对ground truth和检测框的中心点进行度量，引入位置信息的同时加快了损失函数的收敛，其公式如下：

但是DIOU Loss仍存在检测框长宽比带来的新问题：

▲DIOU Loss问题示意图

最后，就是YOLOv4中使用的CIOU Loss登场了。CIOU Loss在DIOU Loss的基础上考虑了检测框长宽比的因素，将检测框回归损失的三大逻辑：重叠面积、中心点距离，长宽比进行了有效整合，其公式如下：

其中代表了长宽比一致性的参数：

在使用了CIOU Loss之后，YOLOv4的整体损失函数如下所示：

介绍完YOLOv4的CIOU Loss以及整体损失函数，接下来我们来介绍YOLOv4对NMS操作的优化。

YOLOv4改进了YOLOv1-v3中使用的传统NMS操作，使用了DIOU思想计算“IOU”值，进一步优化了后处理效果。CIOU思想在训练中有很大作用，但是在Inference过程中，并没有ground truth的信息，所以使用DIOU足矣，且能减少计算量。

YOLOv4 Tricks大解析

YOLOv4在YOLOv3的基础上，设计使用了SAT，CmBN和Label Smoothing等Tricks。

YOLOv4中的SAT（self adversarial training）使用基于FGSM原理的梯度攻击技术，生成对抗样本进行对抗训练。

首先，什么是对抗样本呢？对抗样本是在原图像中增加扰动噪声生成，如上图所示。对抗样本容易使得模型输出错误判断，这给模型的鲁棒性造成了重大挑战。

打不过，就加入它。秉持着这个原则，我们在训练时将对抗样本加入训练集一起训练，即为对抗训练。进行对抗训练能扩充训练集的可能性，使得数据集逼近我们想要的数据分布，训练后的模型鲁棒性和泛化性能也大大增强。

生成对抗样本的方法主要分为三种，具体逻辑如下图所示。

CmBN（Cross mini-Batch Normalization） 是CBN的修改版。

CBN主要用来解决在Batch-Size较小时，BN的效果不佳问题。CBN连续利用多个迭代的数据来变相扩大Batch-Size从而改进模型的效果。（每次迭代时计算包括本次迭代的前四个迭代后统一计算整体BN）

而CmBN是独立利用多个mini-batch内的数据进行BN操作。（每四个迭代后统一计算一次整体BN）

Label Smooth可以看作是一种防止过拟合的正则化方法。

其主要是在One-Hot标签中加入噪声，减少训练时GroundTruth在计算损失函数的权重，来达到防止过拟合的作用，增强模型的泛化能力。

通常参数设置如下图中的比例即可。

【Rocky的延伸思考】

YOLOv4中的输入侧和Tricks具备在业务，竞赛以及研究中进行实验的价值。
业务：YOLOv4 Backbone中使用的CSP思想可以方便地与业务场景相结合。Neck结构和Head中提出的CIOU Loss和DIOU NMS可以作为工程基线模型的首选。
竞赛：YOLOv4 Backbone中提到的CSP结构和Mish激活函数在竞赛中是比较有效的Tricks。Neck结构可以作为竞赛的入场结构。Head中提出的CIOU Loss和DIOU NMS在竞赛中的依旧是提分利器。
研究：YOLOv4 整体结构具备作为研究Baseline的价值。

【七】YOLOv5 输入侧，Backbone，Neck，Head，Tricks大解析

同样的，Rocky在这里先分享一下YOLOv5的整体结构：

▲YOLOv5网络结构图

YOLOv5 输入侧大解析

YOLOv5的输入侧同样使用了Mosaic高阶数据增强策略，并增加自适应图像调整策略。

值得一提的是，正是Mosaic论文的作者提出了YOLOv5，并且YOLOv5的输入侧做了很多工程优化，对工业界非常友好。

而自适应图像调整策略可以优化常规图像缩放填充引入过多无效信息导致Inference耗时增加的问题。其逻辑主要是计算图像原生尺寸与输入尺寸的缩放比例，并获得缩放后的图像尺寸，最后再进行自适应填充获得最后的输入图像，具体代码逻辑可以在datasets.py的letterbox函数中查看。

YOLOv5 Backbone大解析

YOLOv5的Backbone同样使用了YOLOv4中使用的CSP思想。

值得一提的是，YOLOv5最初版本中会存在Focus结构，在YOLOv5第六版开始后，就舍弃了这个结构改用6x6,的常规卷积，其产生的参数更少，效果更好。

▲Focus结构

YOLOv5 Neck大解析

由于YOLOv5在YOLOv4发布之后没多久就开源了，且并没有论文的发表，创新性部分一直受到热议。

YOLOv5的Neck结构也使用了SPP模块和PAN模块，但是在PAN模块进行融合后，将YOLOv4中使用的常规CBL模块替换成借鉴CSPnet设计的CSP_v5结构，加强网络特征融合的能力。

YOLOv5 Head大解析

YOLOv5的Head结构在YOLOv4的基础上引入了Auto Learning Bounding Box Anchors（自适应anchor box）和邻域正负样本分配策略。

YOLOv5的anchor box是自适应于训练数据的，会根据不同的训练数据自动学习适配相应的anchor box。代码中具体的对应函数是check_anchor函数。

由于增加高质量正样本检测框可以显著加速收敛，故YOLOv5设计了相应的邻域正负样本分配策略，其主要流程如下：

将ground truth与当前feature map中的anchor box进行比较，如果ground truth与anchor box的宽高比例都处在[1/4,4] ，那么这个ground truth就能与当前featuer map相匹配。
将当前feature map中的ground truth分配给对应的grid cell。将这个grid cell分为四个象限，针对与当前feature map匹配的ground truth，会计算该ground truth处于四个象限中的哪一个，并将邻近的两个grid cell中的检测框也作为正样本。如下图所示，若ground truth偏向于右上角的象限，就会将ground truth所在grid cell的上面和右边的grid cell中的检测框也作为正样本。

▲YOLOv5邻域正负样本分配策略

比起yolov4中一个ground truth只能匹配一个正样本，YOLOv5能够在多个grid cell中都分配到正样本，有助于训练加速和正负样本平衡。

YOLOv5 Tricks解析

YOLOv5中使用的Tricks基本上和YOLOv4一致，并在此基础上引入了更多的工程优化逻辑。

YOLOv5通过不同的训练参数配置，用来获得不同复杂度的模型。

▲YOLOv5模型家族

除此之外，YOLOv5还尝试了混合精度训练和模型EMA（Exponential Moving Average）策略。

混合精度训练能在尽可能减少精度损失的情况下利用FP16加速训练，并使用FP16存储模型权重，在减少占用内存的同时起到了加速训练的效果。

模型EMA（Exponential Moving Average）策略将模型近期不同epoch的参数做平均，提高模型整体检测性能以及鲁棒性。

【Rocky的延伸思考】

YOLOv5 整体结构的易用性使得其不管在业务，竞赛还是研究中都非常友好，且其github库更新频率让人敬佩。YOLOv5可以说是YOLO系列在工业界用的最多最广泛的一个分支，因为其是Pytorch架构的，减少了工业界人员对Darknet不熟悉不从容的麻烦。

【八】YOLOx 输入侧，Backbone，Neck，Head，Tricks大解析

首先，Rocky在这里先分享一下YOLOx的整体结构：

▲YOLOx网络结构图

YOLOx 输入侧大解析

YOLOx的输入侧在YOLOv5的基础上摒弃了预训练逻辑，并使用Mosaic和MixUp高阶数据增强算法。

MixUp最初应用在分类任务上，将两张图片通过设定的融合系数进行融合，两个图片上的label也对应融合。

▲MixUp逻辑

由于Mosaic和MixUp高阶数据增强算法已经足够强大，在这种情况下ImageNet预训练并不能带来有效增益，故YOLOx摒弃了预训练逻辑，并从头训练。

YOLOx Backbone大解析

YOLOx的Backbone沿用了YOLOv3的Backbone结构，故在此不在展开介绍。

YOLOx Neck大解析

YOLOx的Neck依然使用了YOLOv3的结构，并且使用了SPP模块。

YOLOx Head大解析

YOLOx的Head结构在YOLOv5的基础上在网络结构中引入了Decoupled Head，并使用anchor-free思想和SimOTA正负样本分配策略进行损失函数的计算与优化。

YOLOx使用了三个Decoupled Head（解耦头），分别聚焦cls（分类信息），reg（检测框信息）和IOU（置信度信息）。常规的检测头在特征的表达与学习能力上比起Decoupled Head有所欠缺，并且Decoupled Head模块能加快模型的收敛速度。

▲Decoupled Head（解耦头）与常规检测头的效果对比

除此之外，YOLOx还使用anchor-free思想，比起YOLO系列中常规的anchor-based，在Head侧可以减少约 2/3的参数。比起anchor-based方法使用先验知识设计anchor尺寸，anchor-free思想将感受野作为“anchor”信息。上述三个Decoupled Head中最上面的分支对应着大anchor框，中间的分支对应着中等anchor框最下面的分支对应着小anchor框。最后的输出将这个三个分支融合成一个 85x8400的特征向量。

接下来就是介绍YOLOx的正负样本分配策略了，我们知道目标检测场景一张图像中往往负样本占绝大多数，而正样本只是少数。为了获得更多高质量的正样本，YOLOx中设计了样本初筛+SimOTA逻辑。

在样本初筛中，有两种方法来筛选正样本：

根据中心点判断：找到中心点落在ground truth框中的所有anchor box。
根据检测框判断：以ground truth中心点作为基准，绘制一个边长为5的正方形，找到中心点落地这个正方形中的所有anchor box。

经过初筛之后，再使用SimOTA进行精细化筛选。其主要流程如下：

通过上面提到的样本初筛方法，获取正样本，同时获取它们的特征信息（cls，reg，IOu）。
计算正样本与ground truth的Reg Loss和Cls Loss，并将它们加权相加，Reg和Cls的权重为。（loss aware）
通过每个ground truth的检测样本来确定其能分配到的高价值正样本数（Dynamic K），其逻辑是获取与当前ground truth的IOU值前10的检测框，并将它们求和并取整，计算出来的整数就作为当前ground truth的正样本数“容量”。
确定每个ground truth的Dynamic K个正样本，其逻辑是选取步骤2中加权Loss最小的前K个样本作为正样本。
共用正样本去重，其逻辑是如果一个检测框被两个及以上的ground truth认作正样本，那么再次使用加权Loss进行评判，将这个检测框分给加权Loss最小的那个ground truth，作为其独有的正样本。

YOLOv5的正负样本分配策略是基于邻域匹配，并通过跨网格匹配策略增加正样本数量，从而使得网络快速收敛，但是该方法属于静态分配方法，并不会随着网络训练的过程而调整。YOLOx使用的SimOTA能够算法动态分配正样本，进一步提高检测精度。而且比起OTA由于使用了Sinkhorn-Knopp算法导致训练时间加长，SimOTA算法使用Top-K近似策略来得到样本最佳匹配，大大加快了训练速度。

YOLOx Tricks解析

YOLOx使用了YOLOv5中提到的模型EMA（Exponential Moving Average）策略，并且使用余弦退火学习率优化训练过程。

余弦退火学习率衰策略(CosineAnnealingLR)使得学习率呈周期性变化，但我们通常取它的一个余弦周期来完成整个训练过程。

另外，固定步长衰减(StepLR)，多步长衰减(MultiStepLR)，指数衰减(ExponentialLR)等都是经典实用的学习率衰减策略。

固定步长衰减在每隔一定的步长或者epoch对学习率进行一定衰减，而多步长衰减策略比起固定步长衰减则更加灵活，它可以在不同阶段使用不同强度和频率的衰减策略。指数衰减策略是使用指数逻辑对学习率进行衰减。

【Rocky的延伸思考】

YOLOx 整体结构给业务，竞赛以及研究提供了一些新思路，一定的落地价值。Rocky也很想知道YOLOv7引入Decoupled Head会是什么样的效果。

【九】YOLOv6 输入侧，Backbone，Neck，Head，Tricks大解析

首先，Rocky在这里先分享一下YOLOv6的整体结构：

▲YOLOv6网络结构图

YOLOv6 输入侧大解析

YOLOv6的输入侧沿用了YOLOv5的整体逻辑，并没有引入新的Tricks，故就不再展开赘述。

YOLOv6 Backbone大解析

YOLOv6的Backbone结构在YOLOv5的基础上，设计了EfficientRep Backbone结构。

和YOLOv5的Backbone相比，YOLOv6的Backbone不但能够高效利用硬件算力，而且还具有较强的表征能力。

YOLOv6的Backbone中将普通卷积都替换成了RepConv结构。同时，在RepConv基础上设计了RepBlock结构，其中RepBlock中的第一个RepConv会做channel维度的变换和对齐。

另外，YOLOv6将SPPF优化设计为更加高效的SimSPPF，增加特征重用的效率。

▲SimSPPF结构

YOLOv6 Neck大解析

YOLOv6的Neck结构受到硬件感知神经网络设计思想的启发，基于RepVGG style设计了可重参数化、更高效的Rep-PAN。

▲YOLOv6 Neck结构

硬件感知神经网络设计的思想基于硬件的特性、推理框架/编译框架的特点，以硬件和编译友好的结构作为设计原则，在网络构建时，综合考虑硬件计算能力、内存带宽、编译优化特性、网络表征能力等，进而获得又快又好的网络结构。

Rep-PAN在PAN模块基础上，引入RepVGG style的RepBlock替换了YOLOv5中使用的CSP-Block，同时对整体Neck中的算子进行了调整，目的是在硬件上达到高效推理的同时，保持较好的多尺度特征融合能力。

RepVGG论文：RepVGG: Making VGG-style ConvNets Great Again[21]

YOLOv6 Head大解析

YOLOv6的Head结构和YOLOx一样使用Anchor-free逻辑和SimOTA标签分配策略，并在其基础上改进了Decoupled Head（解耦检测头）结构，在损失函数中引入了SIoU边界框回归损失。

YOLOv6依然采用了Decoupled Head结构，并对其进行了精简设计。YOLOX的检测头虽然提升了检测精度，但一定程度上增加了网络延时。YOLOv6采用Hybrid Channels策略重新设计了一个更高效的Decoupled Head结构，在维持精度的同时降低了延时，缓解了Decoupled Head中卷积带来的额外延时开销。

为了进一步提升回归精度，YOLOv6使用了SIoU检测框回归损失函数来优化网络的学习过程。

YOLOv4中的CIoU Loss虽然考虑到检测框与ground truth之间的重叠面积、中心点距离，长宽比这三大因素，但是依然缺少了对检测框与ground truth之间方向的匹配性的考虑。SIoU Loss通过引入了所需回归之间的向量角度，重新定义了距离损失，有效降低了回归的自由度，加快网络收敛，进一步提升了回归精度。

SIOU Loss论文地址：SIoU Loss: More Powerful Learning for Bounding Box Regression[22]

YOLOv6 Tricks大解析

YOLOv6进行了很多蒸馏方向上的尝试。

比如Self-distillation，Reparameterizing Optimizer，使用 Channel-wise Distillation进行量化感知训练等方法，进一步加强模型的整体性能。

【Rocky的延伸思考】

业务：YOLOv6 Backbone可以高效用于业务向的部署端。Neck结构使用了端侧友好的设计策略，Rocky也在实际中测试过，发现其效果会因任务类型与场景的改变而变化，是否使用还需要通过实验来反馈。
竞赛：YOLOv6 Backbone可以用于竞赛的Baseline尝试。Rocky也相信YOLOv6会在一些限定算力资源的竞赛中会大放异。
研究：YOLOv6 整体结构可以用于研究的入场Baseline。

【十】YOLOv7 输入侧，Backbone，Neck，Head，Tricks大解析

首先，Rocky在这里先分享一下YOLOv7的整体结构：

▲YOLOv7网络结构图

YOLOv7 输入侧大解析

YOLOv7的输入侧沿用了YOLOv5的整体逻辑，并没有引入新的Tricks，故就不再展开赘述。

YOLOv7 Backbone大解析

YOLOv7的Backbone结构在YOLOv5的基础上，设计了E-ELAN和MPConv结构。

E-ELAN结构会在后面的Neck部分中详细介绍，这里就不再展开。MPConv结构由常规卷积与maxpool双路径组成，增加模型对特征的提取融合能力。不管是E-ELAN还是MPConv结构，都将特征重用逻辑演绎到了比较高的水准，让人眼前一亮。

YOLOv7 Neck大解析

YOLOv7的Neck结构主要包含了SPPSCP模块和优化的PAN模块。

SPPCSP模块在SPP模块基础上在最后增加concat操作，与SPP模块之前的特征图进行融合，更加丰富了特征信息。

PAN模块引入E-ELAN结构，使用expand、shuffle、merge cardinality等策略实现在不破坏原始梯度路径的情况下，提高网络的学习能力。

论文原文：（E-ELAN uses expand, shuffle, merge cardinality to achieve the ability to continuously enhance the learning ability of the network without destroying the original gradient path.）

▲E-ELAN模块

YOLOv7 Head大解析

YOLOv7的Head结构使用了和YOLOv5一样的损失函数，引入RepVGG style改造了Head网络结构，并使用了辅助头（auxiliary Head）训练以及相应的正负样本匹配策略。

RepVGG style在训练过程中可以通过多路分支提升性能，推理可以通过结构重新参数化实现推理速度的加快。

Rocky之前也对RepVGG style思想进行迁移性实验，发现RepVGG style在不同模型中的兼容性并不是很强，往往需要针对当前的模型和场景进行大量调参才能展现效果。

▲辅助头训练策略以及相应的正负样本匹配策略

YOLOv7在Head结构引入了辅助头（auxiliary Head）进行训练。正常网络训练如上图（a）所示，而用辅助头参与训练时，将对模型的训练进行深度监督，如上图（b）所示。将辅助头和检测头的损失进行融合，相当于在网络高层进行局部的模型ensemble操作，提升模型的整体性能。

而YOLOv7的正负样本分配策略正是围绕着检测头（lead head）与auxiliary Head进行设计，其主要是将YOLOv5和YOLOx的正负样本分配策略相结合：

使用YOLOv5的正负样本分配策略分配正样本。
使用YOLOx的正负样本分配策略确定正样本。

YOLOv7的正负样本分配策略相较于yolov5，加入了loss aware，利用当前模型的表现，能够实时精筛；而较于只使用YOLOX中的SimOTA算法，能够提供更精确的先验知识。

上图（d）中，lead head和auxiliary head使用一样的正负样本匹配策略，通过让浅层的auxiliary head学习到lead head已经获得的特征，让lead head更能专注于学习尚未学习到的剩余特征。

而上图（e）中，在使用lead head和auxiliary head一起优化模型的时候，auxiliary head的正样本是较为“粗糙的“，主要是通过放宽正样本分配过程的约束来获得更多的正样本。lead head中的一个anchor如果匹配上ground truth，则分配3个正样本，而同样的情况下auxiliary head分配5个。lead head中将top10个样本IOU求和取整，而auxiliary head中取top20。auxiliary head的学习能力不如lead head强，为了避免丢失需要学习的信息，将重点优化auxiliary head的召回率。而lead head可以从高recall的结果中筛选出高精度的结果作为最终输出。lead head和auxiliary head的损失函数权重设置为4:1 。

YOLOv7 Tricks大解析

YOLOv7也使用了YOLOv5中提到的模型EMA（Exponential Moving Average）策略，并引入了YOLOR中使用的隐性知识。

YOLOR中的隐式知识可以在推理阶段将计算值简化为向量。这个向量可以与前一层或后一层卷积层的偏差和权重相结合。

由于篇幅原因，在这里就不展开讲了，后续Rocky将专门对蒸馏技术撰写一篇总结文章，大家敬请期待！

【Rocky的延伸思考】

蒸馏技术在业务，竞赛以及研究中的应用落地，以及蒸馏技术自身的发展，都是值得我们关注的地方。
业务：YOLOv7 整体结构作为YOLO系列最新的一版，其值得我们在业务中进行实验验证其效果。
竞赛：YOLOv7 整体结构可以在竞赛中实验其效果，在竞赛中去融入，去从容。
研究：YOLOv7 作为最新的YOLO版本，有很强的研究价值，Rocky这边准备进行更多实验。

后台回复关键词【入群】

加入卖萌屋NLP、CV、搜推广与求职讨论群

[1] You Only Look Once:Unified, Real-Time Object Detection: https://arxiv.org/pdf/1506.02640.pdf

[2] YOLOv1-Darkent: https://github.com/pjreddie/darknet

[3] YOLO9000:Better, Faster, Stronger: https://arxiv.org/pdf/1612.08242v1.pdf

[4]YOLOv2-Darkent: https://github.com/pjreddie/darknet

[5] YOLOv3: An Incremental Improvement: https://arxiv.org/pdf/1804.02767.pdf

[6] YOLOv3-PyTorch: https://github.com/ultralytics/yolov3

[7] YOLOv4: Optimal Speed and Accuracy of Object Detection: https://arxiv.org/pdf/2004.10934.pdf

[8] YOLOv4-Darkent: https://github.com/AlexeyAB/darknet

[9] YOLOv5-PyTorch: https://github.com/ultralytics/yolov5

[10] YOLOX: Exceeding YOLO Series in 2021: https://arxiv.org/pdf/2107.08430.pdf

[11] YOLOx-PyTorch: https://github.com/Megvii-BaseDetection/YOLOX

[12]YOLOv6: A Single-Stage Object Detection Framework for Industrial Applications: https://arxiv.org/pdf/2209.02976.pdf

[13]YOLOv6-PyTorch: https://github.com/meituan/YOLOv6

[14] YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors: https://arxiv.org/pdf/2207.02696.pdf

[15] Official YOLOv7-PyTorch: https://github.com/WongKinYiu/yolov7

[16] Feature Pyramid Networks for Object Detection: https://arxiv.org/pdf/1612.03144.pdf

[17]CSPNet: A New Backbone that can Enhance Learning Capability of CNN: https://arxiv.org/abs/1911.11929

[18] Mish: A Self Regularized Non-Monotonic Activation Function: https://arxiv.org/abs/1908.08681

[19] Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition: https://arxiv.org/pdf/1406.4729.pdf

[20] Path Aggregation Network for Instance Segmentation: https://arxiv.org/pdf/1803.01534.pdf

[21] RepVGG: Making VGG-style ConvNets Great Again: https://arxiv.org/pdf/2101.03697.pdf

[22] SIoU Loss: More Powerful Learning for Bounding Box Regression: https://arxiv.org/pdf/2205.12740.pdf

你可能感兴趣的:(目标检测,深度学习,计算机视觉,pytorch,人工智能)

深度学习中高斯噪声：为什么以及如何使用小白学视觉深度学习人工智能
点击上方“小白学视觉”，选择加"星标"或“置顶”重磅干货，第一时间送达来源：DeepHubIMBA本文约1800字，建议阅读8分钟高斯噪声是深度学习中用于为输入数据或权重添加随机性的一种技术。在数学上，高斯噪声是一种通过向输入数据添加均值为零和标准差(σ)的正态分布随机值而产生的噪声。正态分布，也称为高斯分布，是一种连续概率分布，由其概率密度函数(PDF)定义：pdf(x)=(1/(σ*sqrt(
OpenCV中添加高斯噪声到彩色图像和点云 LpmShell opencv 人工智能计算机视觉点云
在计算机视觉和图像处理中，噪声是一种常见的现象，可以对图像和点云数据产生不良影响。高斯噪声是一种常见的噪声类型，它具有正态分布的特点。在本文中，我们将使用OpenCV库来添加高斯噪声到彩色图像和点云数据，并提供相应的源代码示例。添加高斯噪声到彩色图像首先，我们将介绍如何使用OpenCV库向彩色图像添加高斯噪声。以下是添加高斯噪声的步骤：步骤1:导入必要的库importnumpyasnpimport
Jupyter Notebook 与 PyTorch 配置教程如若123 jupyter pytorch ide
JupyterNotebook与PyTorch配置教程安装build-essential：sudoaptinstallbuild-essential安装编译软件所需的基本工具。安装Python3.8：sudoaptinstallpython3.8如果未安装Python3.8，执行此命令进行安装。下载Miniconda：wgethttps://repo.anaconda.com/miniconda/
智能推理的革命：DeepSeek-R1 深度解析其算法与实现步子哥算法人工智能
在人工智能（AI）领域，语言模型（LargeLanguageModels,LLMs）正以惊人的速度发展，变得越来越智能，能够理解和生成复杂的语言内容。然而，尽管现有的模型在许多任务上表现出色，它们在深度推理和逻辑思维方面仍有显著的提升空间。DeepSeek-R1的出现，正是为了解决这一问题，通过强化学习（ReinforcementLearning,RL）赋予语言模型更强大的推理能力，开创了LLMs
《从传统到智能：大模型交换机的变革之路》烁月_o9 数据库服务器运维 web安全安全
大模型交换机是一种专门为大规模人工智能模型提供网络和计算资源调度的硬件设备。以下是关于它的详细介绍：特点高带宽和低延迟：大模型的训练和推理通常需要处理大量的数据，高带宽可以确保数据在各个计算节点之间快速传输，低延迟则能减少数据传输过程中可能出现的瓶颈，提高训练和推理的效率。智能路由与数据调度：基于AI算法的调度机制，能够动态地调整数据传输路径，以应对不同网络条件和负载的变化，避免某些节点的拥塞，确
深度学习｜表示学习｜卷积神经网络｜由参数共享引出的特征图｜08 漂亮_大男孩表示学习深度学习学习 cnn
如是我闻：FeatureMap（特征图）的概念与ParameterSharing（参数共享）密切相关。换句话说，参数共享是生成FeatureMap的基础。FeatureMap是卷积操作的核心产物，而卷积操作的高效性正是由参数共享带来的。下面我们详细看一下FeatureMap和ParameterSharing之间的关系：1.什么是FeatureMap？定义：FeatureMap是卷积操作生成的输出结
探秘FreeMovie：一个开源的电影推荐系统孟振优Harvester
探秘FreeMovie：一个开源的电影推荐系统去发现同类优质开源项目:https://gitcode.com/项目简介是一个基于深度学习的开源电影推荐系统，由pojiezhiyuanjun开发并维护。该项目的目标是为用户提供个性化的电影推荐服务，通过机器学习算法理解用户的观影偏好，并据此进行智能推荐。技术分析FreeMovie的核心架构包括以下关键组件：数据处理-项目采用Hadoop进行大数据预处
『大模型笔记』AI自动化编程工具汇总[持续更新ING]！ AI大模型前沿研究大模型笔记大模型 AI自动化工具 bolt.new Cursor V0
『大模型笔记』AI自动化编程工具汇总！文章目录一.Bolt.new(开源AI驱动全栈Web开发工具)1.1.Bolt.new介绍1.2.编程小白如何打造自己的导航网站二.Cursor(人工智能代码编辑器)2.1.Cursor入门教程2.2.Cursor左侧布局设置和VSCode一样2.3.Cursor效率之道：Agent模式＋7大高级技巧详解三.Windsurf(颠覆Cursor的全新工具)3.1
Topaz Video AI——视频修复爱研究的小牛 AIGC—视频 AIGC
一、TopazVideoAI介绍及使用TopazVideoAI是一款基于人工智能的视频增强和修复软件，主要用于提升视频质量、去噪、插帧和分辨率提升。它利用深度学习技术对视频进行智能化处理，使得视频看起来更加清晰和流畅。TopazVideoAI特别适合那些需要修复旧视频、提升低分辨率视频质量的用户。二、TopazVideoAI的主要功能视频去噪：通过AI模型去除视频中的噪点，使画面更加干净。分辨率提
RPA真的是人工智能吗？微刻时光 RPA加油站 rpa 人工智能
1.RPA与AI的定义与区别1.1RPA的定义与特点机器人流程自动化（RoboticProcessAutomation，简称RPA）是一种软件技术，它通过模拟人类用户的操作行为来自动执行重复性、基于规则的任务。RPA的核心特点包括：非侵入性：RPA作为外挂工具部署在客户现有系统上，不影响原有IT基础架构。基于规则的操作：RPA流程必须有明确的、可被数字化的触发指令和输入，不允许出现无法提前定义的例
影刀 RPA：企业数字化转型的强大引擎 RPA李老师 rpa
一、影刀RPA是什么影刀RPA是一种基于机器学习和人工智能技术的自动化工具，它在当今数字化时代发挥着重要作用。影刀RPA是一款软件机器人，能模拟人的各种操作，在任何应用程式上进行鼠标点击、键盘输入、读取信息等自动化操作，释放人非主观决策、逻辑性高、规则性强的工作。在了解影刀RPA之前，我们先来认识一下RPA。RPA是RoboticProcessAutomation（机器人流程自动化）的简称，201
浅析AI大模型现状及其应用，零基础入门到精通，收藏这篇就够了程序员_大白互联网程序员大模型人工智能数据挖掘大模型
随着人工智能技术的迅猛发展，AI大模型已经成为全球科技竞争的焦点，展现出巨大的发展潜力和广阔的应用前景。AI大模型的应用落地正引发行业关注，技术进步正促使AI大模型的应用逐步从云端向终端设备延伸，从通用模型向针对特定行业的定制化解决方案转变，其商业潜力和对行业的影响不断增强。与此同时，国内外企业在大模型领域的竞争日趋激烈。AI大模型蓬勃发展AI大模型主要特征AI大模型具有泛化性(知识迁移到新领域)
【自然语言处理（NLP）】jieba分词的使用（分词模式、关键词提取）道友老李自然语言处理(NLP)自然语言处理人工智能
文章目录介绍jieba分词的使用1.安装2.jieba分词模式2.1精确模式2.2全模式2.3搜索引擎模式2.4词性标注2.5加载自己的分词文件3.查看词频4.关键词提取个人主页：道友老李欢迎加入社区：道友老李的学习社区介绍**自然语言处理（NaturalLanguageProcessing，NLP）**是计算机科学领域与人工智能领域中的一个重要方向。它研究的是人类（自然）语言与计算机之间的交互。
【深度学习|变化检测孪生网络】基于共享权重的双流 U-Net 变化检测网络架构，附代码（一）努力学习的大大深度学习基础深度学习网络架构人工智能 python
【深度学习|变化检测孪生网络】基于共享权重的双流U-Net变化检测网络架构，附代码（一）【深度学习|变化检测孪生网络】基于共享权重的双流U-Net变化检测网络架构，附代码（一）文章目录【深度学习|变化检测孪生网络】基于共享权重的双流U-Net变化检测网络架构，附代码（一）基于共享权重的双流U-Net变化检测网络架构1.双流网络（SiameseNetwork）概述2.双流网络的应用——变化检测3.U
【2025优质学术推荐】征稿控制科学、仪器、智能系统、通信、计算机、电子信息、人工智能、大数据、机器学习、软件工程、网络安全方向努力学习的大大学术会议推荐人工智能大数据深度学习神经网络
【2025优质学术推荐】征稿控制科学、仪器、智能系统、通信、计算机、电子信息、人工智能、大数据、机器学习、软件工程、网络安全方向【2025优质学术推荐】征稿控制科学、仪器、智能系统、通信、计算机、电子信息、人工智能、大数据、机器学习、软件工程、网络安全方向文章目录【2025优质学术推荐】征稿控制科学、仪器、智能系统、通信、计算机、电子信息、人工智能、大数据、机器学习、软件工程、网络安全方向2025
【深度学习|迁移学习】Wasserstein距离度量和跨域原型一致性损失（CPC Loss）如何计算？以及Wasserstein距离和CPC Loss结合的对抗训练示例，附代码（二）努力学习的大大深度学习基础深度学习迁移学习人工智能 python
【深度学习|迁移学习】Wasserstein距离度量和跨域原型一致性损失（CPCLoss）如何计算？以及Wasserstein距离和CPCLoss结合的对抗训练示例，附代码（二）【深度学习|迁移学习】Wasserstein距离度量和跨域原型一致性损失（CPCLoss）如何计算？以及Wasserstein距离和CPCLoss结合的对抗训练示例，附代码（二）文章目录【深度学习|迁移学习】Wassers
激光线扫标定和相机标定：中高级C++程序员与计算机视觉工程师的指南 m0_57781768 数码相机 c++计算机视觉
激光线扫标定和相机标定：中高级C++程序员与计算机视觉工程师的指南简介在计算机视觉和机器人领域，激光标定和相机标定是实现高精度测量和检测的关键技术。激光线扫标定和相机标定在许多应用中都是必不可少的，如自动驾驶、工业检测、三维重建等。本文将详细介绍激光线扫标定和相机标定的基本概念、实现细节以及常见问题的解决方案。目标读者为中高级C++程序员和计算机视觉工程师，文章将提供详细的技术细节和代码示例，确保
QT 笔记繁缕怀夕 QT 笔记
本文详述了QT的基础应用，其中包括基础控件应用、多线程等工具类使用、以及显示2D、3D图像等功能，适用于C++和计算机视觉领域的开发者。1、基础控件QLineEditQComboBoxQMenuQToolBar2、基础功能2.1、多线程线程QThread2.2、多语言静态显示动态切换3、QChart4、QGraphicsView5、PCL之VTK
2023-简单点-非极大值抑制NMS 万物琴弦光锥之外目标跟踪人工智能计算机视觉
非极大值抑制（Non-MaximumSuppression，NMS）是一种在目标检测中常用的后处理技术。NMS能够抑制那些与真实目标重叠较大的冗余检测框，留下最好的一个。非极大值抑制（Non-MaximumSuppression，NMS）的原理是：在目标检测中，对于检测到的冗余框，保留置信度最高的那个，抑制其他与它有较大重叠的冗余框。其基本原理是先在图像中找到所有可能包含目标物体的矩形区域，并按照
2025年新出炉的MySQL面试题长风清留扬 150道MySQL高频面试题 mysql 数据库面试 sql
作者简介：CSDN\阿里云\腾讯云\华为云开发社区优质创作者，专注分享大数据、Python、数据库、人工智能等领域的优质内容个人主页：长风清留杨的博客形式准则：无论成就大小，都保持一颗谦逊的心，尊重他人，虚心学习。✨推荐专栏：Python入门到入魔，Mysql入门到入魔，Python入门基础大全，Flink入门到实战若缘分至此，无法再续相逢，愿你朝朝暮暮，皆有安好，晨曦微露道早安，日中炽热说午安，
精选了几道MySQL的大厂面试题，被提问的几率很高！长风清留扬 150道MySQL高频面试题 mysql android 数据库面试学习 MySQL面试
作者简介：CSDN\阿里云\腾讯云\华为云开发社区优质创作者，专注分享大数据、Python、数据库、人工智能等领域的优质内容个人主页：长风清留杨的博客形式准则：无论成就大小，都保持一颗谦逊的心，尊重他人，虚心学习。✨推荐专栏：Python入门到入魔，Mysql入门到入魔，Python入门基础大全，Flink入门到实战若缘分至此，无法再续相逢，愿你朝朝暮暮，皆有安好，晨曦微露道早安，日中炽热说午安，
2025数学建模美赛B题完整建模思路——管理可持续旅游业鹿鹿数模数学建模
2025MCM问题B：管理可持续旅游业以下是我们对该题目的赛题分析，由于完整内容过长，因此在此处放出部分内容，欢迎从文末小卡片处加群获取。赛题分析以下内容包括三个主要部分：(1)题目的中文翻译(2)对题目的整体分析与思路综述(3)对题目要求的逐项详细分析与求解思路。本文的撰写将综合运用多元的数学模型、算法以及机器学习/深度学习的方法，并在必要时给出题外假设与可行的创新性思路，以期为参赛者提供较为系
使用YOLOv8训练一个无人机（UAV）检测模型，深度学习目标检测中_并开发一个完整的系统 yolov8来训练无人机数据集并检测无人机 QQ_767172261 无人及视角 YOLO 无人机深度学习
使用YOLOv8训练一个无人机（UAV）检测模型，深度学习目标检测中_并开发一个完整的系统yolov8来训练无人机数据集并检测无人机无人机数据集，yolo格式种类为uav，一共近5w张图片，如何用yolov8代码训练无人机检测数据集文章目录以下文章及内容仅供参考。1.环境部署2.数据预处理数据集准备划分数据集3.模型定义4.训练模型5.评估模型6.结果分析与可视化7.集成与部署PyQt6GUI(`
智能运维分析决策系统：赋能数字化转型的智慧引擎我的运维人生运维运维开发技术共享
智能运维分析决策系统：赋能数字化转型的智慧引擎在数字化转型的大潮中，企业运维管理正经历着从传统手动运维向智能化、自动化运维的深刻转变。智能运维分析决策系统（AIOps，ArtificialIntelligenceforITOperations）作为这一转变的核心驱动力，通过融合大数据、机器学习、人工智能等先进技术，实现了对运维数据的深度洞察与智能决策，极大地提升了运维效率与质量，为企业数字业务的连
ChatGPT是强人工智能吗? 呵呵爱吃菜 chatgpt 人工智能
ChatGPT是强人工智能吗?本文从人工智能发展的三个阶段的角度,分析当前强大的AI大模型所处的阶段,并通过对比各阶段的定义,明确各阶段的特点和未来发展方向;NarrowAI（弱人工智能）、AGI（人工通用智能）和ASI（人工超级智能）代表了人工智能发展的三个不同阶段，它们在智能水平、任务范围和应用场景上存在显著差异。以下是它们的总结与对比：1.定义与特点类型NarrowAI（弱人工智能）AGI（
AlphaFold2的思路总结（十五） xiaofengzihhh 蛋白质结构预测深度学习人工智能神经网络
2021SC@SDUSC这学期的代码分析工作接近尾声了，我想简单总结一下AlphaFold2的总体思路具体来看，AlphaFold2主要利用多序列比对（MSA），把蛋白质的结构和生物信息整合到了深度学习算法中。它主要包括两个部分：神经网络EvoFormer和结构模块（Structuremodule）。一、EvoFormer 在EvoFormer中，主要是将图网络（Graphnetworks）
python机器学习方安乐 python python 机器学习人工智能
Python机器学习是当前最为热门的机器学习领域之一，其简洁、易用、高效的特点，让越来越多的开发者开始探索其应用。本文将从以下几个方面介绍Python机器学习的基础知识和实践案例，帮助读者更好地理解和应用机器学习技术。前提Python机器学习的应用领域A.图像识别和计算机视觉B.自然语言处理和文本分析C.数据挖掘和推荐系统深度学习A.神经网络的基本原理B.常用的深度学习框架和算法C.深度学习在图像
基于深度学习的舆论分析与检测系统应用与研究计算机软件程序设计机器学习深度学习人工智能舆论检测
【1】系统介绍研究背景随着互联网技术的迅猛发展和社会媒体平台的普及，信息传播的速度和范围达到了前所未有的水平。这一变化不仅极大地丰富了人们的社交生活，也为社会科学研究提供了新的视角和工具。舆论分析作为社会科学研究的一个重要分支，其目的是通过收集和分析网络上的公众意见和情感倾向，来了解人们对特定事件或话题的看法和态度。近年来，基于深度学习的自然语言处理技术取得了显著进步，这为提高舆论分析的准确性和效
深度学习利用数据加载、预处理和增强数据提高模型的性能 weixin_30777913 人工智能深度学习
深度学习数据预处理是一个关键步骤，旨在提高模型的性能和准确性。通过数据加载、预处理和增强，可以显著提高深度学习模型的性能和准确性。在实际应用中，需要根据具体的数据和任务来选择合适的预处理和增强技术。以下将详细论述并举例说明如何加载、预处理和增强数据。一、数据加载在深度学习中，数据加载是第一步。这通常涉及到从各种数据源（如CSV文件、数据库、图像文件夹等）中读取数据。以DeepLearning4J（
【深度学习】搭建PyTorch神经网络进行气温预测睡不着还睡不醒深度学习深度学习 pytorch 神经网络
第一步数据加载与观察①导包importnumpyasnpimportpandasaspdimportmatplotlib.pyplotaspltimporttorchimporttorch.optimasoptimimportwarningswarnings.filterwarnings("ignore")%matplotlibinline②加载数据features=pd.read_csv("te
java封装继承多态等麦田的设计者 java eclipse jvm c encapsulatopn
最近一段时间看了很多的视频却忘记总结了，现在只能想到什么写什么了，希望能起到一个回忆巩固的作用。 1、final关键字译为：最终的 &
F5与集群的区别 bijian1013 weblogic 集群 F5
http请求配置不是通过集群，而是F5；集群是weblogic容器的，如果是ejb接口是通过集群。 F5同集群的差别，主要还是会话复制的问题，F5一把是分发http请求用的，因为http都是无状态的服务，无需关注会话问题，类似
LeetCode[Math] - #7 Reverse Integer Cwind java 题解 Math LeetCode Algorithm
原题链接：#7 Reverse Integer 要求：按位反转输入的数字例1：输入 x = 123, 返回 321 例2：输入 x = -123, 返回 -321 难度：简单分析：对于一般情况，首先保存输入数字的符号，然后每次取输入的末位（x%10）作为输出的高位（result = result*10 + x%10）即可。但
BufferedOutputStream 周凡杨
首先说一下这个大批量，是指有上千万的数据量。例子：有一张短信历史表，其数据有上千万条数据，要进行数据备份到文本文件，就是执行如下SQL然后将结果集写入到文件中！ select t.msisd
linux下模拟按键输入和鼠标被触发 linux
查看/dev/input/eventX是什么类型的事件， cat /proc/bus/input/devices 设备有着自己特殊的按键键码，我需要将一些标准的按键，比如0－9，X－Z等模拟成标准按键，比如KEY_0,KEY-Z等，所以需要用到按键模拟，具体方法就是操作/dev/input/event1文件，向它写入个input_event结构体就可以模拟按键的输入了。 linux/in
ContentProvider初体验肆无忌惮_ ContentProvider
ContentProvider在安卓开发中非常重要。与Activity，Service，BroadcastReceiver并称安卓组件四大天王。在android中的作用是用来对外共享数据。因为安卓程序的数据库文件存放在data/data/packagename里面，这里面的文件默认都是私有的，别的程序无法访问。如果QQ游戏想访问手机QQ的帐号信息一键登录，那么就需要使用内容提供者COnte
关于Spring MVC项目（maven）中通过fileupload上传文件 843977358 mybatis spring mvc 修改头像上传文件 upload
Spring MVC 中通过fileupload上传文件，其中项目使用maven管理。 1.上传文件首先需要的是导入相关支持jar包：commons-fileupload.jar,commons-io.jar 因为我是用的maven管理项目，所以要在pom文件中配置（每个人的jar包位置根据实际情况定） <!-- 文件上传 start by zhangyd-c --&g
使用svnkit api，纯java操作svn，实现svn提交，更新等操作 aigo svnkit
原文：http://blog.csdn.net/hardwin/article/details/7963318 import java.io.File; import org.apache.log4j.Logger; import org.tmatesoft.svn.core.SVNCommitInfo; import org.tmateso
对比浏览器，casperjs，httpclient的Header信息 alleni123 爬虫 crawler header
@Override protected void doGet(HttpServletRequest req, HttpServletResponse res) throws ServletException, IOException { String type=req.getParameter("type"); Enumeration es=re
java.io操作 DataInputStream和DataOutputStream基本数据流百合不是茶 java 流
1，java中如果不保存整个对象，只保存类中的属性，那么我们可以使用本篇文章中的方法，如果要保存整个对象先将类实例化后面的文章将详细写到 2，DataInputStream 是java.io包中一个数据输入流允许应用程序以与机器无关方式从底层输入流中读取基本 Java 数据类型。应用程序可以使用数据输出流写入稍后由数据输入流读取的数据。
车辆保险理赔案例 bijian1013 车险
理赔案例：一货运车，运输公司为车辆购买了机动车商业险和交强险，也买了安全生产责任险，运输一车烟花爆竹，在行驶途中发生爆炸，出现车毁、货损、司机亡、炸死一路人、炸毁一间民宅等惨剧，针对这几种情况，该如何赔付。赔付建议和方案：客户所买交强险在这里不起作用，因为交强险的赔付前提是：“机动车发生道路交通意外事故”；如果是交通意外事故引发的爆炸，则优先适用交强险条款进行赔付，不足的部分由商业
学习Spring必学的Java基础知识(5)—注解 bijian1013 java spring
文章来源：http://www.iteye.com/topic/1123823，整理在我的博客有两个目的：一个是原文确实很不错，通俗易懂，督促自已将博主的这一系列关于Spring文章都学完；另一个原因是为免原文被博主删除，在此记录，方便以后查找阅读。有必要对
【Struts2一】Struts2 Hello World bit1129 Hello world
Struts2 Hello World应用的基本步骤创建Struts2的Hello World应用，包括如下几步： 1.配置web.xml 2.创建Action 3.创建struts.xml，配置Action 4.启动web server，通过浏览器访问配置web.xml <?xml version="1.0" encoding="
【Avro二】Avro RPC框架 bit1129 rpc
1. Avro RPC简介 1.1. RPC RPC逻辑上分为二层，一是传输层，负责网络通信；二是协议层，将数据按照一定协议格式打包和解包从序列化方式来看，Apache Thrift 和Google的Protocol Buffers和Avro应该是属于同一个级别的框架，都能跨语言，性能优秀，数据精简，但是Avro的动态模式（不用生成代码，而且性能很好）这个特点让人非常喜欢，比较适合R
lua　set get cookie ronin47 lua cookie
lua: local access_token = ngx.var.cookie_SGAccessToken if access_token then ngx.header["Set-Cookie"] = "SGAccessToken="..access_token.."; path=/;Max-Age=3000" end
java-打印不大于N的质数 bylijinnan java
public class PrimeNumber { /** * 寻找不大于N的质数 */ public static void main(String[] args) { int n=100; PrimeNumber pn=new PrimeNumber(); pn.printPrimeNumber(n); System.out.print
Spring源码学习-PropertyPlaceholderHelper bylijinnan java spring
今天在看Spring 3.0.0.RELEASE的源码，发现PropertyPlaceholderHelper的一个bug 当时觉得奇怪，上网一搜，果然是个bug，不过早就有人发现了，且已经修复：详见： http://forum.spring.io/forum/spring-projects/container/88107-propertyplaceholderhelper-bug
[逻辑与拓扑]布尔逻辑与拓扑结构的结合会产生什么? comsci 拓扑
如果我们已经在一个工作流的节点中嵌入了可以进行逻辑推理的代码,那么成百上千个这样的节点如果组成一个拓扑网络,而这个网络是可以自动遍历的,非线性的拓扑计算模型和节点内部的布尔逻辑处理的结合,会产生什么样的结果呢? 是否可以形成一种新的模糊语言识别和处理模型呢? 大家有兴趣可以试试,用软件搞这些有个好处,就是花钱比较少,就算不成
ITEYE 都换百度推广了 cuisuqiang Google AdSense 百度推广广告外快
以前ITEYE的广告都是谷歌的Google AdSense，现在都换成百度推广了。为什么个人博客设置里面还是Google AdSense呢？都知道Google AdSense不好申请，这在ITEYE上也不是讨论了一两天了，强烈建议ITEYE换掉Google AdSense。至少，用一个好申请的吧。什么时候能从ITEYE上来点外快，哪怕少点
新浪微博技术架构分析 dalan_123 新浪微博架构
新浪微博在短短一年时间内从零发展到五千万用户，我们的基层架构也发展了几个版本。第一版就是是非常快的，我们可以非常快的实现我们的模块。我们看一下技术特点，微博这个产品从架构上来分析，它需要解决的是发表和订阅的问题。我们第一版采用的是推的消息模式，假如说我们一个明星用户他有10万个粉丝，那就是说用户发表一条微博的时候，我们把这个微博消息攒成10万份，这样就是很简单了，第一版的架构实际上就是这两行字。第
玩转ARP攻击 dcj3sjt126com r
我写这片文章只是想让你明白深刻理解某一协议的好处。高手免看。如果有人利用这片文章所做的一切事情，盖不负责。网上关于ARP的资料已经很多了，就不用我都说了。用某一位高手的话来说，“我们能做的事情很多，唯一受限制的是我们的创造力和想象力”。 ARP也是如此。以下讨论的机子有一个要攻击的机子：10.5.4.178 硬件地址：52:54:4C:98
PHP编码规范 dcj3sjt126com 编码规范
一、文件格式 1. 对于只含有 php 代码的文件，我们将在文件结尾处忽略掉 "?>" 。这是为了防止多余的空格或者其它字符影响到代码。例如：<?php$foo = 'foo';2. 缩进应该能够反映出代码的逻辑结果，尽量使用四个空格，禁止使用制表符TAB，因为这样能够保证有跨客户端编程器软件的灵活性。例
linux 脱机管理（nohup） eksliang linux nohup nohup
脱机管理 nohup 转载请出自出处：http://eksliang.iteye.com/blog/2166699 nohup可以让你在脱机或者注销系统后，还能够让工作继续进行。他的语法如下 nohup [命令与参数] --在终端机前台工作 nohup [命令与参数] & --在终端机后台工作但是这个命令需要注意的是，nohup并不支持bash的内置命令，所
BusinessObjects Enterprise Java SDK greemranqq java BO SAP Crystal Reports
最近项目用到oracle_ADF 从SAP/BO 上调用水晶报表，资料比较少，我做一个简单的分享，给和我一样的新手提供更多的便利。首先，我是尝试用JAVA JSP 去访问的。官方API：http://devlibrary.businessobjects.com/BusinessObjectsxi/en/en/BOE_SDK/boesdk_ja
系统负载剧变下的管控策略 iamzhongyong 高并发
假如目前的系统有100台机器，能够支撑每天1亿的点击量（这个就简单比喻一下），然后系统流量剧变了要，我如何应对，系统有那些策略可以处理，这里总结了一下之前的一些做法。 1、水平扩展这个最容易理解，加机器，这样的话对于系统刚刚开始的伸缩性设计要求比较高，能够非常灵活的添加机器，来应对流量的变化。 2、系统分组假如系统服务的业务不同，有优先级高的，有优先级低的，那就让不同的业务调用提前分组
BitTorrent DHT 协议中文翻译 justjavac bit
前言做了一个磁力链接和BT种子的搜索引擎 {Magnet & Torrent}，因此把 DHT 协议重新看了一遍。 BEP: 5Title: DHT ProtocolVersion: 3dec52cb3ae103ce22358e3894b31cad47a6f22bLast-Modified: Tue Apr 2 16:51:45 2013 -070
Ubuntu下Java环境的搭建 macroli java 工作 ubuntu
配置命令：　　$sudo apt-get install ubuntu-restricted-extras 　　再运行如下命令：　　$sudo apt-get install sun-java6-jdk 　　待安装完毕后选择默认Java. 　　$sudo update- alternatives --config java 　　安装过程提示选择，输入“2”即可，然后按回车键确定。
js字符串转日期（兼容IE所有版本） qiaolevip TO Date String IE
/** * 字符串转时间（yyyy-MM-dd HH:mm:ss） * result （分钟） */ stringToDate : function(fDate){ var fullDate = fDate.split(" ")[0].split("-"); var fullTime = fDate.split("
【数据挖掘学习】关联规则算法Apriori的学习与SQL简单实现购物篮分析 superlxw1234 sql 数据挖掘关联规则
关联规则挖掘用于寻找给定数据集中项之间的有趣的关联或相关关系。关联规则揭示了数据项间的未知的依赖关系，根据所挖掘的关联关系，可以从一个数据对象的信息来推断另一个数据对象的信息。例如购物篮分析。牛奶 ⇒ 面包 [支持度：3%，置信度：40%] 支持度3%：意味3%顾客同时购买牛奶和面包。置信度40%：意味购买牛奶的顾客40%也购买面包。规则的支持度和置信度是两个规则兴
Spring 5.0 的系统需求，期待你的反馈 wiselyman spring
Spring 5.0将在2016年发布。Spring5.0将支持JDK 9。 Spring 5.0的特性计划还在工作中，请保持关注，所以作者希望从使用者得到关于Spring 5.0系统需求方面的反馈。