青年有志

深度学习（三）R-CNN系列、YOLO系列详解

文章目录

声明
一、R-CNN 系列
- 1. R-CNN
- 2. Fast R-CNN
- 3. Faster R-CNN
二、YOLO 系列
- 1. YOLOv1
- - 1.1 核心思想
  - 1.2 实现方法
  - 1.3. 举例说明：
  - 1.4 损失函数
- 2. YOLOv2
- - 2.1 YOLOv2的改进点
  - - 2.1.1 Batch Normalization（批归一化）
    - 2.1.2 High resolution classifier（高分辨率）
    - 2.1.3 Convolution with anchor boxes （采用 anchor boxes ）
    - 2.1.4 Dimension clusters（聚类边界框）
    - 2.1.5 Direct location prediction
    - 2.1.6 Fine-Grained Features
    - 2.1.7 Multi-ScaleTraining
  - 2.2 YOLOv2 Faster
  - - 2.2.1 Draknet19
    - 2.2.2 Training for classiﬁcation
    - 2.2.3 Training for detection
- 3. YOLOv3
- - 3.1 网络结构
  - - 3.1.1 Backbone：darknet-53
    - 3.1.2 output
    - 3.1.3 Bounding Box
    - 3.1.4 LOSS Function
- 4. YOLOv4
- - 4.1 YOLOv4框架原理
  - - 4.1.1 CSPDarknet53
    - 4.1.2 SPP结构
    - 4.1.3 PAN结构
  - 4.2 BackBone 训练策略
  - - 4.2.1 数据增强
    - 4.2.2 DropBlock正则化
    - 4.2.3 DropBlock正则化
  - 4.3 BackBone 推理策略
  - - 5.3.1 Mish 激活函数
  - 4.4 检测头训练策略
  - - 4.4.1 CIoU-loss
    - 4.4.2 CmBN 策略
    - 4.4.3 自对抗训练(SAT)
    - 4.4.4 消除网格敏感度
    - 4.4.5 余弦模拟退火
  - 4.5 检测头推理策略
  - - 4.5.1 SAM模块
    - 4.5.2 DIoU-NMS
- 5. YOLOv5
- - 5.1 YOLOv5算法简介
  - 5.2 YOLOv5算法详解
  - - 5.2.1 YOLOv5网络架构
    - 5.2.2 YOLOv5基础组件
    - 5.2.3 输入端细节详解
    - 5.2.4 基准网络细节详解
    - 5.2.5 Neck网络细节详解
Reference

声明

本文均来自网站各大佬的文章总结，便于本人后期进一步学习与总结，若有侵权，本人立即删除，已将涉及内容置于最后 Reference 部分，在此对各位大佬表示深深的感谢！！！

一、R-CNN 系列

1. R-CNN

R-CNN目标检测算法流程主要分四个步骤：

采用SS(Selective Search)方法，使一张图片生成1000~2000个候选区域(region proposals)。
对每一个候选区域，都使用深度神经网络（AlexNet）提取特征，得到1*4096的特征向量。
将每一个特征向量送入每一类的SVM分类器，判断是否属于该类。
对已分类的推荐框进行线性回归，对这些框进行精细地调整，得到更加准确的边界框坐标。

R-CNN算法的检测效果很好，但是检测速度很慢，因此总体效率不高。其主要原因在于：

提取特征操作非常冗余。 检测时，需要将每个推荐区域都送入训练好的模型（AlexNet）进行前向传播，因此每张图片大约要进行1000~2000次前向传播。
训练速度慢，过程繁琐。 要单独分别训练三个不同的模型：CNN用来提取图像特征、SVM分类器用来预测类别、回归器精细修正建议框的位置。分开训练，耗时耗力。
使用Selective Search算法生成推荐区域，这个过程大约耗时2s，也是它不能达到实时性检测的一个重要原因。

2. Fast R-CNN

Fast R-CNN算法的流程主要分为下面三个步骤：

依然先使用SS(Selective Search)方法，使一张图片生成1000~2000个候选区域。
将图像输入到一个CNN（VGG-16）得到相应的特征图，然后将已经生成的候选框投影到特征图上获得相应的特征矩阵。
将每个特征矩阵通过ROI Pooling层缩放到7*7大小，然后将特征图展平，在通过一系列全连接层得到预测的类别信息和目标边界框信息。

Fast R-CNN的改进点：

ROI Pooling层。 这个方法是针对 R-CNN 的第一个问题提出来的，用来解决提取特征操作冗余的问题，避免每个推荐区域都要送入 CNN 进行前向计算。核心思路是：将图像只输入 CNN 提取特征，只进行一次前向计算。得到的特征图由全部推荐区域共享。然后再将推荐区域（SS算法得到）投影到特征图上，获得每个推荐区域对应的特征图区域。最后使用 ROI Pooling 层将每个特征图区域下采样到7*7大小。
将原来三个模型整合到一个网络，易与训练。R-CNN算法使用三个不同的模型，需要分别训练，训练过程非常复杂。在Fast R-CNN中，直接将CNN、分类器、边界框回归器整合到一个网络，便于训练，极大地提高了训练的速度。

缺点： 不能实时，采用SS算法生成推荐区域的方法很耗时，处理每张图像大约需要消耗2秒，大大限制了目标检测的速度。

注：在R-CNN和Fast R-CNN中，一般采用的是Selective Search算法生成推荐区域，这个过程大概耗时2s左右，因此R-CNN和Fast R-CNN都还达不到实时的效果。

3. Faster R-CNN

区域推荐网络（RPN），该区域推荐网络与检测网络共享整张图的卷积特征，使得区域推荐基本不消耗任何计算时间，RPN是一个完全卷积网络，可以同时预测每个位置的目标边界和目标得分。RPN是一种全卷积网络可以专门针对生成推荐区域的检测任务进行端到端训练。

第一个是，用于生成推荐区域的深度全卷积网络（deep fully convolutional network）。第二个是，使用该推荐区域的Fast R-CNN检测器

Faster R-CNN算法流程主要有以下4个步骤：

Conv layers。 首先将图像输入到 CNN（VGG-16）提取图像特征，得到的 feature maps 将被共享用于后面的 RPN 和 ROI Pooling。
Region Proposal Networks。 RPN用于生成推荐区域。该网络通过 softmax 判断 anchors 属于 positive 还是 negative，再利用边界框回归修正 anchors 获得精确的推荐框 proposals。
ROI Pooling。 该层以 feature maps 和 proposals 同时作为输入，综合这些信息后提取 proposal feature maps，送入后续全连接层判定目标类别。
Classifer。 将 proposal feature maps 输入全连接层与预测 proposals 的类别；同时再次进行边界框回归，获得检测框最终的精确位置。

YOLO 统一为一个回归问题，而 Faster R-CNN 将检测结果分为两部分求解：物体类别（分类问题）、物体位置即 bounding box（回归问题）。

二、YOLO 系列

1. YOLOv1

1.1 核心思想

YOLOv1 的核心思想就是利用整张图作为网络的输入，直接在输出层回归 bounding box 的位置和 bounding box 所属的类别。
Faster RCNN 中也直接用整张图作为输入，但是 Faster-RCNN 整体还是采用了 RCNN 那种 proposal+classifier 的思想，只不过是将提取 proposal 的步骤放在 CNN 中实现了,而 YOLOv1 则采用直接回归的思路。

1.2 实现方法

将一幅图像分成 SxS 个网格 (grid cell)，如果某个 object 的中心落在这个网格中，则这个网格就负责预测这个 object。

每个网格要预测 B 个 bounding box，每个 bounding box 除了要回归自身的位置之外，还要附带预测一个 confidence 值。这个 confidence 代表了所预测的 box 中含有 object 的置信度和这个 box 预测的有多准两重信息，其值是这样计算的：

该表达式含义：如果有 object 落在一个 grid cell 里，则第一项取 1，否则取 0。第二项是预测的 bounding box 和实际的 groundtruth 之间的 IoU 值。

每个 bounding box 要预测 (x, y, w, h) 和 confidence 共5个值，每个网格还要预测一个类别信息，记为 C 类。则 SxS 个网格，每个网格要预测 B 个 bounding box还要预测 C 个 categories。输出就是 S x S x (5*B+C) 的一个 tensor。

注意：class 信息是针对每个网格的，confidence 信息是针对每个bounding box 的。

1.3. 举例说明：

在 PASCAL VOC 中，图像输入为 448x448 像素，取 S=7，B=2，一共有 20 个类别 (C=20)。则输出就是 7x7x(2x5+20) 的一个 tensor。整个网络结构如下图所示：

在 test 的时候，每个网格预测的 class 信息和 bounding box 预测的 confidence 信息相乘，就得到每个 bounding box 的 class-specific confidence score，得到每个 box 的 class-specific confidence score 以后，设置阈值，滤掉得分低的 boxes，对保留的 boxes 进行 NMS 处理，就得到最终的检测结果。

该表达式含义：等式左边第一项就是每个网格预测的类别信息，第二三项就是每个 bounding bo x预测的 confidence。这个乘积即 encode 了预测的 box 属于某一类的概率，也有该 box 准确度的信息。

1.由于输出层为全连接层，因此在检测时，YOLOv1 模型的输入只支持与训练图像相同的输入分辨率。
2.虽然每个格子可以预测 B 个bounding box，但是最终只选择 IOU 最高的 bounding
box 作为物体检测输出，即每个格子最多只预测出一个物体。当物体占画面比例较小，如图像中包含畜群或鸟群时，每个格子包含多个物体，但却只能检测出其中一个。

总结：

给个一个输入图像，首先将图像划分成 7 * 7 的网格；
对于每个网格，我们都预测 2 个边框（包括每个边框是目标的置信度以及每个边框区域在多个类别上的概率）；
根据上一步可以预测出 7 * 7 * 2 个目标窗口，然后根据阈值去除可能性比较低的目标窗口，最后NMS去除冗余窗口即可。

1.4 损失函数

每个 grid 有 30 维，这 30 维中，8 维是回归 box 的坐标，2 维是 box 的 confidence，还有 20 维是类别。其中坐标的 x,y 用对应网格的 offset 归一化到 0-1 之间，w,h 用图像的 width 和 height 归一化到 0-1 之间。在实现中，最主要的就是怎么设计损失函数，让这个三个方面得到很好的平衡。简单粗暴的全部采用了 sum-squared error loss 来做这件事我们先看下带来的后果。

这种做法存在以下几个问题：

8 维的 localization error 和 20 维的 classification error 同等重要显然是不合理的；
如果一个网格中没有 object（一幅图中这种网格很多），那么就会将这些网格中的 box 的 confidence push 到 0，相比于较少的有 object 的网格，这种做法是 overpowering 的，这会导致网络不稳定甚至发散。

解决方法：

更重视 8 维的坐标预测，给这些损失前面赋予更大的 loss weight；
对没有 object 的 box 的 confidence loss，赋予小的 loss weight；
有 object 的 box 的 confidence loss 和有类别的 loss 的 loss weight 正常取1。

在 YOLOv1 的损失函数中：

只有当某个网格中有 object 的时候才对 classification error 进行惩罚。
只有当某个box predictor 对某个 ground truth box 负责的时候，才会对 box 的coordinate error 进行惩罚，而对哪个 ground truth box 负责就看其预测值和 ground truth box 的 IoU 是不是在那个 cell 的所有 box 中最大。

注：

YOLOv1 方法模型训练依赖于物体识别标注数据，因此，对于非常规的物体形状或比例，YOLOv1 的检测效果并不理想。
YOLOv1 采用了多个下采样层，网络学到的物体特征并不精细，因此也会影响检测效果。
YOLOv1 的 loss 函数中，大物体 IOU 误差和小物体 IOU 误差对网络训练中 loss 贡献值接近（虽然采用求平方根方式，但没有根本解决问题）。因此，对于小物体，小的 IOU 误差也会对网络优化过程造成很大的影响，从而降低了物体检测的定位准确性。

YOLO 的缺点：

YOLO对相互靠的很近的物体和很小的群体检测效果不好，这是因为一个网格中只预测了两个框，并且只属于一类；
同一类物体出现的新的不常见的长宽比和其他情况时，泛化能力偏弱；
由于损失函数的问题，定位误差是影响检测效果的主要原因。尤其是大小物体的处理上，还有待加强。

2. YOLOv2

YOLOv2 相对 v1 版本，在继续保持处理速度的基础上，从预测更准确（Better），速度更快（Faster），识别对象更多（Stronger） 这三个方面进行了改进。其中识别更多对象也就是扩展到能够检测 9000 种不同对象，称之为 YOLO9000。

文章提出了一种新的训练方法–联合训练算法，这种算法可以把这两种的数据集混合到一起。使用一种分层的观点对物体进行分类，用巨量的分类数据集数据来扩充检测数据集，从而把两种不同的数据集混合起来。联合训练算法的基本思路就是：同时在检测数据集和分类数据集上训练物体检测器（Object Detectors ），用检测数据集的数据学习物体的准确位置，用分类数据集的数据来增加分类的类别量、提升健壮性。

YOLO9000 就是使用联合训练算法训练出来的，他拥有 9000 类的分类信息，这些分类信息学习自 ImageNet 分类数据集，而物体位置检测则学习自 COCO 检测数据集。

YOLOv1 有很多缺点，作者希望改进的方向是：改善 recall，提升定位的准确度，同时保持分类的准确度。目前计算机视觉的趋势是更大更深的网络，更好的性能表现通常依赖于训练更大的网络或者把多种 model 综合到一起，但是 YOLOv2 则着力于简化网络。

2.1 YOLOv2的改进点

2.1.1 Batch Normalization（批归一化）

批量归一化有助于解决反向传播过程中的梯度消失和梯度爆炸问题，降低对一些超参数（比如学习率、网络参数的大小范围、激活函数的选择）的敏感性，并且每个 batch 分别进行归一化的时候，起到了一定的正则化效果（YOLOv2不再使用dropout），从而能够获得更好的收敛速度和收敛效果。

2.1.2 High resolution classifier（高分辨率）

用于图像分类的训练样本很多，而标注了边框的用于训练目标检测的样本相比而言就少了很多，因为标注边框的人工成本比较高。所以目标检测模型通常都先用图像分类样本训练卷积层，提取图像特征，但这引出另一个问题，就是图像分类样本的分辨率不是很高。所以 YOLOv1 使用 ImageNet 的图像分类样本采用 224 * 224 作为输入，来训练 CNN 卷积层。然后在训练目标检测时，检测用的图像样本采用更高分辨率的 448 * 448 像素图像作为输入，但这样不一致的输入分辨率肯定会对模型性能有一定影响。

所以 YOLOv2 在采用 224 * 224 图像进行分类模型预训练后，再采用 448 * 448 高分辨率样本对分类模型进行微调（10 个 epoch），使网络特征逐渐适应 448 * 448 的分辨率。然后再使用 448 * 448 的检测样本进行训练，缓解了分辨率突然切换造成的影响，最终通过使用高分辨率，mAP 提升了 4%。

2.1.3 Convolution with anchor boxes （采用 anchor boxes ）

YOLOv1 包含有全连接层，从而能直接预测 Bounding Boxes 的坐标值。Faster R-CNN 算法只用卷积层与 Region Proposal Network 来预测 Anchor Box 的偏移值与置信度，而不是直接预测坐标值，YOLOv2 作者发现通过预测偏移量而不是坐标值能够简化问题，让神经网络学习起来更容易。

借鉴 Faster RCNN 的做法，YOLOv2 也尝试采用先验框（anchor box）。在每个 grid 预先设定一组不同大小和宽高比的边框，来覆盖整个图像的不同位置和多种尺度，这些先验框作为预定义的候选区在神经网络中将检测其中是否存在对象，以及微调边框的位置。

之前 YOLOv1 并没有采用先验框，并且每个 grid 只预测两个 bounding box，也就是整个图像只有 98 个 bounding box。YOLOv2 如果每个 grid 采用 9 个先验框，总共有 13 * 13 * 9 = 1521 个先验框。所以最终 YOLOv2 去掉了全连接层，使用 Anchor Boxes 来预测 Bounding Boxes。作者去掉了网络中一个 Pooling 层，这让卷积层的输出能有更高的分辨率，同时对网络结构进行收缩让其运行在 416 * 416 而不是 448 * 448。

由于图片中的物体都倾向于出现在图片的中心位置，特别是那种比较大的物体，所以有一个单独位于物体中心的位置用于预测这些物体。YOLOv2 的卷积层采用 32 这个值来下采样图片，所以通过选择 416 * 41 6用作输入尺寸最终能输出一个 13 * 13 的 Feature Map。使用 Anchor Box 会让精确度稍微下降，但用了它能让 YOLOv2 能预测出大于一千个框，同时 recall 达到 88%，mAP 达到 69.2%。

2.1.4 Dimension clusters（聚类边界框）

之前 Anchor Box 的尺寸是手动选择的，所以尺寸还有优化的余地。YOLOv2 尝试统计出更符合样本中对象尺寸的先验框，这样就可以减少网络微调先验框到实际位置的难度。YOLOv2 的做法是对训练集中标注的边框进行 K-means 聚类分析，以寻找尽可能匹配样本的边框尺寸。如果我们用标准的欧式距离的 k-means，尺寸大的框比小框产生更多的错误。因为我们的目的是提高 IOU 分数，这依赖于 Box 的大小，所以距离度量的使用：

其中，centroid 是聚类时被选作中心的边框，box 就是其它边框，d 就是两者间的“距离”，IOU 越大，“距离”越近。

YOLOv2 给出的聚类分析结果如下图所示，通过分析实验结果（Figure 2），在 model复杂性与 high recall 之间权衡之后，选择聚类分类数 K=5。

2.1.5 Direct location prediction

用 Anchor Box 的方法，会让 model 变得不稳定，尤其是在最开始几次迭代的时候。大多数不稳定因素产生自预测 Box 的 (x,y) 位置的时候。按照之前 YOLOv1 的方法，网络不会预测偏移量，而是根据 YOLOv1 中的网格单元的位置来直接预测坐标，这就让 Ground Truth 的值介于 0 到 1 之间。而为了让网络的结果能落在这一范围内，网络使用一个 Logistic Activation 来对于网络预测结果进行限制，让结果介于 0 到 1 之间。网络在每一个网格单元中预测出 5 个 Bounding Boxes，每个 Bounding Boxes 有五个坐标值 tx，ty，tw，th，t0，它们的关系见下图。假设一个网格单元对于图片左上角的偏移量是 cx，cy，Bounding Boxes Prior 的宽度和高度是 pw，ph，那么预测的结果见下图右面的公式：

2.1.6 Fine-Grained Features

目标检测面临的一个问题是图像中的需要检测的目标会有大有小，输入图像经过多层网络提取特征，最后输出的特征图中（比如 YOLOv2 中输入 416 * 416 经过卷积网络下采样最后输出是13 * 13），较小的对象可能特征已经不明显甚至被忽略掉了。为了更好的检测出一些比较小的对象，最后输出的特征图需要保留一些更细节的信息。于是 YOLOv2 引入一种称为 passthrough 层的方法在特征图中保留一些细节信息。具体来说，就是在最后一个 pooling 之前，特征图的大小是 26 * 26 * 512，将其 1 拆 4，直接传递（passthrough）到 pooling 后（并且又经过一组卷积）的特征图，两者叠加到一起作为输出的特征图。

具体怎样将 1 个特征图拆成 4 个特征图，见下图，图中示例的是 1 个 4 * 4 拆成 4 个 2 * 2，因为深度不变，所以没有画出来。

2.1.7 Multi-ScaleTraining

作者希望 YOLOv2 能健壮的运行于不同尺寸的图片之上，所以把这一想法用于训练 model 中。区别于之前的补全图片的尺寸的方法，YOLOv2 每迭代几次都会改变网络参数。每 10 个 Batch，网络会随机地选择一个新的图片尺寸，由于使用了下采样参数是 32，所以不同的尺寸大小也选择为 32 的倍数 {320，352……608}，最小 320 * 320，最大 608 * 608，网络会自动改变尺寸，并继续训练的过程。这一政策让网络在不同的输入尺寸上都能达到一个很好的预测效果，同一网络能在不同分辨率上进行检测。当输入图片尺寸比较小的时候跑的比较快，输入图片尺寸比较大的时候精度高，所以可以在 YOLOv2 的速度和精度上进行权衡。

2.2 YOLOv2 Faster

YOLOv1 的 backbone 使用的是 GoogleLeNet，速度比 VGG-16 快，YOLOv1 完成一次前向过程只用 8.52 billion 运算，而 VGG-16 要 30.69billion，但是 YOLOv1 精度稍低于 VGG-16。

2.2.1 Draknet19

YOLOv2 基于一个新的分类 model，有点类似与 VGG。YOLOv2 使用 3 * 3 filter，每次 Pooling 之后都增加一倍 Channels 的数量。YOLOv2 使用 Global Average Pooling，使用 Batch Normilazation 来让训练更稳定，加速收敛，使 model 规范化。最终的 model–Darknet19，有 19 个卷积层和 5 个 maxpooling 层，处理一张图片只需要5.58 billion次运算，在 ImageNet 上达到 72.9%top-1 精确度，91.2%top-5 精确度。

2.2.2 Training for classiﬁcation

网络训练在 ImageNet 1000 类分类数据集上训练了 160 epochs，使用随机梯度下降，初始学习率为 0.1， polynomial rate decay with a power of 4, weight decay of 0.0005 and momentum of 0.9 。训练期间使用标准的数据扩大方法：随机裁剪、旋转、变换颜色（hue）、变换饱和度（saturation），变换曝光度（exposure shifts）。在训练时，把整个网络在更大的 44 8* 448 分辨率上 Fine Turnning 10个 epoches，初始学习率设置为 0.001，这种网络达到达到 76.5%top-1精确度，93.3%top-5精确度。

2.2.3 Training for detection

网络去掉了最后一个卷积层，而加上了三个 3 * 3 卷积层，每个卷积层有 1024 个Filters，每个卷积层紧接着一个 1 * 1 卷积层。对于 VOC 数据，网络预测出每个网格单元预测五个 Bounding Boxes，每个 Bounding Boxes 预测 5 个坐标和 20 类，所以一共 125 个 Filters，增加了 Passthough 层来获取前面层的细粒度信息，网络训练了 160epoches，初始学习率 0.001，数据扩大方法相同，对 COCO 与 VOC 数据集的训练对策相同。

3. YOLOv3

3.1 网络结构

这张图很好的总结了YOLOv3的结构，让我们对YOLO有更加直观的理解。

DBL: 代码中的 Darknetconv2d_BN_Leaky，是 YOLOv3 的基本组件，就是卷积 + BN + Leaky relu。
resn： n 代表数字，有 res1，res2, … ,res8 等等，表示这个 res_block 里含有多少个 res_unit。
concat： 张量拼接；将 darknet 中间层和后面的某一层的上采样进行拼接。拼接的操作和残差层 add 的操作是不一样的，拼接会扩充张量的维度，而 add 只是直接相加不会导致张量维度的改变。

3.1.1 Backbone：darknet-53

为了达到更好的分类效果，作者自己设计训练了darknet-53，在 ImageNet 数据集上实验发现这个 darknet-53 的确很强，相对于 ResNet-152 和 ResNet-101，darknet-53 不仅在分类精度上差不多，计算速度还比 ResNet-152 和 ResNet-101 强多了，网络层数也比他们少，测试结果如图所示。

darknet-53 的网络结构如下图所示。YOLOv3 使用了 darknet-53 的前面的 52层（没有全连接层），YOLOv3 这个网络是一个全卷积网络，大量使用残差的跳层连接，并且为了降低池化带来的梯度负面效果，作者直接摒弃了 POOLing，用 conv 的 stride 来实现降采样。在这个网络结构中，使用的是步长为 2 的卷积来进行降采样。

为了加强算法对小目标检测的精确度，YOLOv3 中采用类似 FPN 的 upsample 和融合做法（最后融合了3个 scale，其他两个 scale 的大小分别是 26 × 26 和 52 × 52），在多个 scale 的 feature map上做检测。

作者在3条预测支路采用的也是全卷积的结构，其中最后一个卷积层的卷积核个数是 255，是针对 COCO 数据集的 80 类：3 * (80+4+1) = 255，3 表示一个 grid cell 包含 3 个 bounding box，4 表示框的 4 个坐标信息，1 表示 objectness score。

3.1.2 output

所谓的多尺度就是来自这 3 条预测之路，y1,y2 和 y3 的深度都是 255，边长的规律是13 : 26 : 52。YOLOv3 设定的是每个网格单元预测 3 个 box，所以每个 box 需要有(x, y, w, h, confidence)五个基本参数，然后还要有 80 个类别的概率。所以 3 × (5 + 80) = 255，这个 255 就是这么来的。

具体看看y1,y2,y3是如何而来的

网络中作者进行了三次检测，分别是在 32 倍降采样，16 倍降采样，8 倍降采样时进行检测，这样在多尺度的 feature map 上检测跟 SSD 有点像。在网络中使用 up-sample（上采样）的原因：网络越深的特征表达效果越好，比如在进行 16 倍降采样检测，如果直接使用第四次下采样的特征来检测，这样就使用了浅层特征，这样效果一般并不好。如果想使用 32 倍降采样后的特征，但深层特征的大小太小，因此 YOLOv3 使用了步长为 2 的 up-sample（上采样），把 32 倍降采样得到的 feature map 的大小提升一倍，也就成了 16 倍降采样后的维度。同理 8 倍采样也是对 16 倍降采样的特征进行步长为 2 的上采样，这样就可以使用深层特征进行 detection。

作者通过上采样将深层特征提取，其维度是与将要融合的特征层维度相同的（channel不同）。如下图所示，85 层将 13 × 13 × 256 的特征上采样得到 26 × 26 × 256，再将其与 61 层的特征拼接起来得到 26 × 26 × 768。为了得到 channel255，还需要进行一系列的 3 × 3，1 × 1 卷积操作，这样既可以提高非线性程度增加泛化性能提高网络精度，又能减少参数提高实时性。52 × 52 × 255 的特征也是类似的过程。

3.1.3 Bounding Box

YOLOv3 的 Bounding Box 由 YOLOv2 又做出了更好的改进。 在 YOLOv2 和 YOLOv3 中，都采用了对图像中的 object 采用 k-means 聚类。feature map 中的每一个 cell 都会预测 3 个边界框（bounding box），每个 bounding box 都会预测三个东西：（1）每个框的位置（4个值，中心坐标 tx 和 ty，框的高度 bh 和宽度 bw），（2）一个 objectness prediction ，（3）N 个类别，coco 数据集 80 类，voc 20 类。

三次检测，每次对应的感受野不同，32 倍降采样的感受野最大，适合检测大的目标，所以在输入为 416 × 416 时，每个 cell 的三个 anchor box 为 (116 ,90); (156 ,198); (373 ,326)。16 倍适合一般大小的物体，anchor box 为(30,61); (62,45); (59,119)。8 倍的感受野最小，适合检测小目标，因此 anchor box 为(10,13); (16,30); (33,23)。所以当输入为416×416 时，实际总共有（52×52+26×26+13×13）×3 = 10647个proposal box。

感受一下 9 种先验框的尺寸，下图中蓝色框为聚类得到的先验框。黄色框式ground truth，红框是对象中心点所在的网格。

这里注意bounding box 与 anchor box 的区别：

Bounding box 它输出的是框的位置（中心坐标与宽高），confidence 以及 N 个类别。
anchor box 只是一个尺度即只有宽高。

3.1.4 LOSS Function

YOLOv3重要改变之一：No more softmaxing the classes。YOLOv3 现在对图像中检测到的对象执行多标签分类。

logistic 回归用于对 anchor 包围的部分进行一个目标性评分 (objectness score)，即这块位置是目标的可能性有多大。这一步是在 predict 之前进行的，可以去掉不必要 anchor，可以减少计算量。

如果模板框不是最佳的即使它超过我们设定的阈值，我们还是不会对它进行 predict。不同于 Faster R-CNN 的是，YOLOv3 只会对 1 个 prior 进行操作，也就是那个最佳 prior。而 logistic 回归就是用来从 9 个 anchor priors 中找到 objectness score (目标存在可能性得分)最高的那一个。logistic 回归就是用曲线对 prior 相对于 objectness score 映射关系的线性建模。

4. YOLOv4

YOLOv4 其实是一个结合了大量前人研究技术，加以组合并进行适当创新的算法，实现了速度和精度的完美平衡。可以说有许多技巧可以提高卷积神经网络 (CNN) 的准确性，但是某些技巧仅适合在某些模型上运行，或者仅在某些问题上运行，或者仅在小型数据集上运行；我们来码一码这篇文章里作者都用了哪些调优手段：加权残差连接 (WRC),跨阶段部分连接(CSP),跨小批量标准化(CmBN),自对抗训练(SAT),Mish 激活,马赛克数据增强,CmBN,DropBlock 正则化,CIoU Loss 等等。经过一系列的堆料，终于实现了目前最优的实验结果：43.5％的AP(在Tesla V100上，MS COCO数据集的实时速度约为 65 FPS)。

4.1 YOLOv4框架原理

4.1.1 CSPDarknet53

我们前面知道在 YOLOv3 中，特征提取网络使用的是 Darknet53，而在 YOLOv4 中，对 Darknet53 做了一点改进，借鉴了 CSPNet，CSPNet 全称是 Cross Stage Partial Networks，也就是跨阶段局部网络。CSPNet 解决了其他大型卷积神经网络框架 Backbone 中网络优化的梯度信息重复问题，将梯度的变化从头到尾地集成到特征图中，因此减少了模型的参数量和 FLOPS 数值，既保证了推理速度和准确率，又减小了模型尺寸。如下图：

CSPNet 实际上是基于 Densnet 的思想，复制基础层的特征映射图，通过dense block 发送副本到下一个阶段，从而将基础层的特征映射图分离出来。这样可以有效缓解梯度消失问题(通过非常深的网络很难去反推丢失信号) ，支持特征传播，鼓励网络重用特征，从而减少网络参数数量。CSPNet 思想可以和 ResNet、ResNeXt 和 DenseNet 结合，目前主要有 CSPResNext50 和 CSPDarknet53 两种改造 Backbone 网络。

考虑到几方面的平衡：输入网络分辨率/卷积层数量/参数数量/输出维度。一个模型的分类效果好不见得其检测效果就好，想要检测效果好需要以下几点：

更大的网络输入分辨率——用于检测小目标
更深的网络层——能够覆盖更大面积的感受野
更多的参数——更好的检测同一图像内不同size的目标

这样最终的 CSPDarknet53 结构就如下图：

为了增大感受野，作者还使用了 SPP-block，使用 PANet 代替 FPN 进行参数聚合以适用于不同 level 的目标检测。

4.1.2 SPP结构

SPP-Net 结构我们之前也有学过，SPP-Net 全称 Spatial Pyramid Pooling Networks，当时主要是用来解决不同尺寸的特征图如何进入全连接层的，直接看下图，下图中对任意尺寸的特征图直接进行固定尺寸的池化，来得到固定数量的特征。

如上图，以 3 个尺寸的池化为例，对特征图进行一个最大值池化，即一张特征图得取其最大值，得到 1 * d (d 是特征图的维度)个特征；对特征图进行网格划分为 2 x 2 的网格，然后对每个网格进行最大值池化，那么得到 4 * d 个特征；同样，对特征图进行网格划分为 4 x 4 个网格，对每个网格进行最大值池化，得到 16 * d 个特征。接着将每个池化得到的特征合起来即得到固定长度的特征个数（特征图的维度是固定的），接着就可以输入到全连接层中进行训练网络了。用到这里是为了增加感受野。

4.1.3 PAN结构

YOLOv4 使用 PANet (Path Aggregation Network)代替 FPN 进行参数聚合以适用于不同 level 的目标检测, PANet 论文中融合的时候使用的方法是 Addition，YOLOv4 算法将融合的方法由加法改为 Concatenation。如下图：

4.2 BackBone 训练策略

这里我们主要从数据增强，DropBlock 正则化，类标签平滑方面来学习下 BackBone 训练策略。

4.2.1 数据增强

1、CutMix
YOLOv4 选择用 CutMix 的增强方式，CutMix 的处理方式也比较简单，同样也是对一对图片做操作，简单讲就是随机生成一个裁剪框 Box,裁剪掉 A 图的相应位置，然后用 B 图片相应位置的 ROI 放到 A 图中被裁剪的区域形成新的样本，ground truth 标签会根据 patch 的面积按比例进行调整，比如 0.6 像狗，0.4 像猫，计算损失时同样采用加权求和的方式进行求解。这里借 CutMix 的地方顺带说下几种类似的增强方式：

上图是 CutMix 论文中作者对几种增强方式做的对比，结果显而易见，CutMix的增强方式在三个数据集上的表现都是最优的。其中 Mixup 是直接求和两张图，如同附身，鬼影一样，模型很难学到准确的特征图响应分布。Cutout 是直接去除图像的一个区域，这迫使模型在进行分类时不能对特定的特征过于自信。然而，图像的一部分充满了无用的信息，这是一种浪费。在 CutMix 中，将图像的一部分剪切并粘贴到另一个图像上,使得模型更容易区分异类。

CutMix论文： https://arxiv.org/pdf/1905.04899v2.pdf

2、Mosaic
Yolov4 的 Mosaic 数据增强是参考 CutMix 数据增强，理论上类似。区别在于Mosaic 是一种将 4 张训练图像合并成一张进行训练的数据增强方法(而不是 CutMix 中的 2 张)。这增强了对正常背景 (context) 之外的对象的检测，丰富检测物体的背景。此外，每个小批包含一个大的变化图像(4倍)，因此，减少了估计均值和方差的时需要大 mini-batch 的要求，降低了训练成本。如下图：

4.2.2 DropBlock正则化

正则化技术有助于避免数据科学专业人员面临的最常见的问题，即过拟合。对于正则化，已经提出了几种方法，如 L1 和 L2 正则化、Dropout、Early Stopping 和数据增强。这里 YOLOv4 用了 DropBlock 正则化的方法。

DropBlock 方法的引入是为了克服 Dropout 随机丢弃特征的主要缺点，Dropout 被证明是全连接网络的有效策略，但在特征空间相关的卷积层中效果不佳。DropBlock 技术在称为块的相邻相关区域中丢弃特征。这样既可以实现生成更简单模型的目的，又可以在每次训练迭代中引入学习部分网络权值的概念，对权值矩阵进行补偿，从而减少过拟合。如下图：

DropBlock 论文中作者最终在 ImageNet 分类任务上，使用 Resnet-50 结构，将精度提升1.6%个点，在 COCO 检测任务上，精度提升1.6%个点。

4.2.3 DropBlock正则化

对于分类问题，特别是多分类问题，常常把向量转换成 one-hot-vector，而one-hot 带来的问题：对于损失函数，我们需要用预测概率去拟合真实概率，而拟合 one-hot 的真实概率函数会带来两个问题：

无法保证模型的泛化能力，容易造成过拟合；
全概率和 0 概率鼓励所属类别和其他类别之间的差距尽可能加大，而由梯度有界可知，这种情况很难适应。会造成模型过于相信预测的类别。

对预测有 100% 的信心可能表明模型是在记忆数据，而不是在学习。标签平滑调整预测的目标上限为一个较低的值，比如 0.9。它将使用这个值而不是1.0来计算损失。这个概念缓解了过度拟合。说白了，这个平滑就是一定程度缩小 label 中 min 和 max 的差距，label 平滑可以减小过拟合。所以，适当调整 label，让两端的极值往中间凑凑，可以增加泛化性能。

4.3 BackBone 推理策略

5.3.1 Mish 激活函数

对激活函数的研究一直没有停止过，ReLU 还是统治着深度学习的激活函数，不过，这种情况有可能会被 Mish 改变。Mish 是另一个与 ReLU 和 Swish 非常相似的激活函数。正如论文所宣称的那样，Mish 可以在不同数据集的许多深度网络中胜过它们。公式如下：

Mish 是一个平滑的曲线，平滑的激活函数允许更好的信息深入神经网络，从而得到更好的准确性和泛化；在负值的时候并不是完全截断，允许比较小的负梯度流入。实验中，随着层深的增加，ReLU 激活函数精度迅速下降，而 Mish 激活函数在训练稳定性、平均准确率(1%-2.8%)、峰值准确率(1.2% - 3.6%)等方面都有全面的提高。如下图：

4.3.2 MiWRC 策略
MiWRC 是 Multi-input weighted residual connections 的简称，在 BiFPN 中，提出了用MiWRC 来执行标尺度级重加权，添加不同尺度的特征映射。我们已经讨论了 FPN 和 PAN 作为例子。下面的图(d)显示了另一种被称为 BiFPN 的 neck 设计，根据 BiFPN 的论文，该设计具有更好的准确性和效率权衡。

上图中 (a)FPN 引入自顶向下的路径，将多尺度特征从 3 级融合到 7 级 (P3-P7)；(b)PANET 在 FPN 之上增加一个额外的自下而上的路径；©NAS-FPN 使用神经网络搜索找到一个不规则的特征拓扑网络，然后重复应用同一块拓扑结构；(d)是这里的BiFPN，具有更好的准确性和效率权衡。将该 neck 放到整个整个网络的连接中如下图：

上图采用 EfficientNet 作为骨干网络，BiFPN 作为特征网络，共享 class/box 预测网络。基于不同的资源约束，BiFPN 层和类/盒网层都被重复多次。

4.4 检测头训练策略

4.4.1 CIoU-loss

损失函数给出了如何调整权重以降低 loss。所以在我们做出错误预测的情况下，我们期望它能给我们指明前进的方向。但如果使用 IoU，考虑两个预测都不与 ground truth 重叠，那么 IoU 损失函数不能告诉哪一个是更好的，或者哪个更接近 ground truth。这里顺带看下常用的几种 loss 的形式，如下：

经典IoU loss：

IoU算法是使用最广泛的算法，大部分的检测算法都是使用的这个算法。

可以看到 IOU 的 loss 其实很简单，主要是交集/并集，但其实也存在两个问题：

问题1： 即状态 1 的情况，当预测框和目标框不相交时，IOU = 0，无法反应两个框距离的远近，此时损失函数不可导，IOU_Loss 无法优化两个框不相交的情况。
问题2： 即状态 2 和状态 3 的情况，当两个预测框大小相同，两个 IOU 也相同， IOU_Loss 无法区分两者相交情况的不同。

因此2019年出现了GIOU_Loss来进行改进。

GIoU：Generalized IoU

GIoU 考虑到，当检测框和真实框没有出现重叠的时候 IoU 的 loss 都是一样的，因此 GIoU 就加入了 C 检测框（C 检测框是包含了检测框和真实框的最小矩形框），这样就可以解决检测框和真实框没有重叠的问题。其中，C 是指能包含 predict box 和 Ground Truth box 的最小box。

可以看到上图 GIOU_Loss 中，增加了相交尺度的衡量方式，缓解了单纯 IOU_Loss 时的尴尬。但为什么仅仅说缓解呢？因为还存在一种不足：

问题：状态1、2、3都是预测框在目标框内部且预测框大小一致的情况，这时预测框和目标框的差集都是相同的，因此这三种状态的 GIOU 值也都是相同的，这时 GIOU 退化成了 IOU，无法区分相对位置关系。

基于这个问题，2020年的 AAAI 又提出了 DIOU_Loss。

3、DIoU：Distance IoU

好的目标框回归函数应该考虑三个重要几何因素：重叠面积、中心点距离，长宽比。针对IOU 和 GIOU 存在的问题，作者从两个方面进行考虑

如何最小化预测框和目标框之间的归一化距离？
如何在预测框和目标框重叠时，回归的更准确？

针对第一个问题，提出了 DIOU_Loss（Distance_IOU_Loss）

DIOU_Loss 考虑了重叠面积和中心点距离，当目标框包裹预测框的时候，直接度量 2 个框的距离，因此 DIOU_Loss 收敛的更快。但就像前面好的目标框回归函数所说的，没有考虑到长宽比。

比如上面三种情况，目标框包裹预测框，本来 DIOU_Loss 可以起作用。但预测框的中心点的位置都是一样的，因此按照 DIOU_Loss 的计算公式，三者的值都是相同的。

针对这个问题，又提出了CIOU_Loss，不得不说，科学总是在解决问题中，不断进步！！

4、CIOU_Loss

CIOU_Loss 和 DIOU_Loss 前面的公式都是一样的，不过在此基础上还增加了一个影响因子，将预测框和目标框的长宽比都考虑了进去。

其中 v 是衡量长宽比一致性的参数，我们也可以定义为：

这样 CIOU_Loss 就将目标框回归函数应该考虑三个重要几何因素：重叠面积、中心点距离，长宽比全都考虑进去了。

再来综合的看下各个 Loss 函数的不同点：

IOU_Loss： 主要考虑检测框和目标框重叠面积。

GIOU_Loss： 在IOU的基础上，解决边界框不重合时的问题。

DIOU_Loss： 在IOU和GIOU的基础上，考虑边界框中心点距离的信息。

CIOU_Loss： 在DIOU的基础上，考虑边界框宽高比的尺度信息。

YOLOv4 中采用了 CIOU_Loss 的回归方式，使得预测框回归的速度和精度更高一些。

4.4.2 CmBN 策略

BN 就是仅仅利用当前迭代时刻信息进行 norm，而 CBN 在计算当前时刻统计量时候会考虑前 k 个时刻统计量，从而实现扩大 batch size 操作。同时作者指出 CBN 操作不会引入比较大的内存开销，训练速度不会影响很多，但是训练时候会慢一些，比 GN 还慢。

CmBN 是 CBN 的改进版本，其把大 batch 内部的 4 个 mini batch 当做一个整体，对外隔离。CBN 在第 t 时刻，也会考虑前 3 个时刻的统计量进行汇合，而 CmBN 操作不会，不再滑动 cross,其仅仅在 mini batch 内部进行汇合操作，保持 BN 一个 batch 更新一次可训练参数。

BN：无论每个 batch 被分割为多少个 mini batch，其算法就是在每个 mini batch前向传播后统计当前的BN数据（即每个神经元的期望和方差）并进行 Nomalization，BN 数据与其他 mini batch 的数据无关。CBN：每次 iteration 中的 BN 数据是其之前 n 次数据和当前数据的和（对非当前 batch 统计的数据进行了补偿再参与计算），用该累加值对当前的 batch 进行 Nomalization。好处在于每个 batch 可以设置较小的 size。CmBN：只在每个 Batch 内部使用 CBN 的方法，个人理解如果每个 Batch 被分割为一个 mini batch，则其效果与 BN 一致；若分割为多个 mini batch，则与 CBN 类似，只是把 mini batch 当作 batch 进行计算，其区别在于权重更新时间点不同，同一个batch 内权重参数一样，因此计算不需要进行补偿。

4.4.3 自对抗训练(SAT)

SAT 为一种新型数据增强方式。在第一阶段，神经网络改变原始图像而不是网络权值。通过这种方式，神经网络对其自身进行一种对抗式的攻击，改变原始图像，制造图像上没有目标的假象。在第二阶段，训练神经网络对修改后的图像进行正常的目标检测。

Self-Adversarial Training 是在一定程度上抵抗对抗攻击的数据增强技术。CNN 计算出 Loss, 然后通过反向传播改变图片信息，形成图片上没有目标的假象，然后对修改后的图像进行正常的目标检测。需要注意的是在 SAT 的反向传播的过程中，是不需要改变网络权值的。使用对抗生成可以改善学习的决策边界中的薄弱环节，提高模型的鲁棒性。因此这种数据增强方式被越来越多的对象检测框架运用。

4.4.4 消除网格敏感度

对于 bx = cx 和 bx = cx + 1 的情况，我们需要分别具有很大的负值和正值。但我们可以将与一个比例因子(>1.0)相乘，从而更轻松地实现这一目标

4.4.5 余弦模拟退火

余弦调度会根据一个余弦函数来调整学习率。首先，较大的学习率会以较慢的速度减小。然后在中途时，学习的减小速度会变快，最后学习率的减小速度又会变得很慢。

这张图展示了学习率衰减的方式（下图中还应用了学习率预热）及其对mAP的影响。可能看起来并不明显，这种新的调度方法的进展更为稳定，而不是在停滞一段时间后又取得进展。

4.5 检测头推理策略

4.5.1 SAM模块

注意力机制在 DL 设计中被广泛采用。在 SAM 中，最大值池化和平均池化分别用于输入 feature map，创建两组 feature map。结果被输入到一个卷积层，接着是一个 Sigmoid 函数来创建空间注意力。

将空间注意掩模应用于输入特征，输出精细的特征图。

在YOLOv4中，使用修改后的SAM而不应用最大值池化和平均池化。

在YOLOv4中，FPN概念逐渐被实现/替换为经过修改的SPP、PAN和PAN。

4.5.2 DIoU-NMS

NMS 过滤掉预测相同对象的其他边界框，并保留具有最高可信度的边界框。

DIoU (前面讨论过的) 被用作非最大值抑制(NMS)的一个因素。该方法在抑制冗余框的同时，采用IoU和两个边界盒中心点之间的距离。这使得它在有遮挡的情况下更加健壮。

5. YOLOv5

YOLOv4 出现之后不久，YOLOv5 横空出世。YOLOv5 在 YOLOv4 算法的基础上做了进一步的改进，检测性能得到进一步的提升。虽然 YOLOv5 算法并没有与 YOLOv4 算法进行性能比较与分析，但是 YOLOv5 在 COCO 数据集上面的测试效果还是挺不错的。大家对 YOLOv5 算法的创新性半信半疑，有的人对其持肯定态度，有的人对其持否定态度。在我看来，YOLOv5 检测算法中还是存在很多可以学习的地方，虽然这些改进思路看来比较简单或者创新点不足，但是它们确定可以提升检测算法的性能。其实工业界往往更喜欢使用这些方法，而不是利用一个超级复杂的算法来获得较高的检测精度。

5.1 YOLOv5算法简介

YOLOv5 是一种单阶段目标检测算法，该算法在 YOLOv4 的基础上添加了一些新的改进思路，使其速度与精度都得到了极大的性能提升。主要的改进思路如下所示：

输入端：在模型训练阶段，提出了一些改进思路，主要包括Mosaic数据增强、自适应锚框计算、自适应图片缩放；
基准网络：融合其它检测算法中的一些新思路，主要包括：Focus 结构与 CSP 结构；
Neck 网络：目标检测网络在 BackBone 与最后的 Head 输出层之间往往会插入一些层，Yolov5 中添加了 FPN+PAN 结构；
Head 输出层：输出层的锚框机制与 YOLOv4 相同，主要改进的是训练时的损失函数 GIOU_Loss，以及预测框筛选的 DIOU_nms。

5.2 YOLOv5算法详解

5.2.1 YOLOv5网络架构

上图展示了 YOLOv5 目标检测算法的整体框图。对于一个目标检测算法而言，我们通常可以将其划分为4个通用的模块，具体包括：输入端、基准网络、Neck 网络与 Head 输出端，对应于上图中的 4 个红色模块。YOLOv5 算法具有 4 个版本，具体包括：YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x 四种，本文重点讲解 YOLOv5s，其它的版本都在该版本的基础上对网络进行加深与加宽。

输入端-输入端表示输入的图片。该网络的输入图像大小为608*608，该阶段通常包含一个图像预处理阶段，即将输入图像缩放到网络的输入大小，并进行归一化等操作。在网络训练阶段，YOLOv5使用Mosaic数据增强操作提升模型的训练速度和网络的精度；并提出了一种自适应锚框计算与自适应图片缩放方法。
基准网络-基准网络通常是一些性能优异的分类器种的网络，该模块用来提取一些通用的特征表示。YOLOv5中不仅使用了CSPDarknet53结构，而且使用了Focus结构作为基准网络。
Neck网络-Neck网络通常位于基准网络和头网络的中间位置，利用它可以进一步提升特征的多样性及鲁棒性。虽然YOLOv5同样用到了SPP模块、FPN+PAN模块，但是实现的细节有些不同。
Head输出端-Head用来完成目标检测结果的输出。针对不同的检测算法，输出端的分支个数不尽相同，通常包含一个分类分支和一个回归分支。YOLOv4利用GIOU_Loss来代替Smooth L1 Loss函数，从而进一步提升算法的检测精度。

5.2.2 YOLOv5基础组件

CBL-CBL模块由Conv+BN+Leaky_relu激活函数组成，如上图中的模块1所示。
Res unit-借鉴ResNet网络中的残差结构，用来构建深层网络，CBM是残差模块中的子模块，如上图中的模块2所示。
CSP1_X-借鉴CSPNet网络结构，该模块由CBL模块、Res
unint模块以及卷积层、Concate组成而成，如上图中的模块3所示。
CSP2_X-借鉴CSPNet网络结构，该模块由卷积层和X个Res unint模块Concate组成而成，如上图中的模块4所示。
Focus-如上图中的模块5所示，Focus结构首先将多个slice结果Concat起来，然后将其送入CBL模块中。
SPP-采用1×1、5×5、9×9和13×13的最大池化方式，进行多尺度特征融合，如上图中的模块6所示。

5.2.3 输入端细节详解

Mosaic数据增强-YOLOv5中在训练模型阶段仍然使用了Mosaic数据增强方法，该算法是在CutMix数据增强方法的基础上改进而来的。CutMix仅仅利用了两张图片进行拼接，而Mosaic数据增强方法则采用了4张图片，并且按照随机缩放、随机裁剪和随机排布的方式进行拼接而成，具体的效果如下图所示。这种增强方法可以将几张图片组合成一张，这样不仅可以丰富数据集的同时极大的提升网络的训练速度，而且可以降低模型的内存需求。

自适应锚框计算-在YOLOv5系列算法中，针对不同的数据集，都需要设定特定长宽的锚点框。在网络训练阶段，模型在初始锚点框的基础上输出对应的预测框，计算其与GT框之间的差距，并执行反向更新操作，从而更新整个网络的参数，因此设定初始锚点框也是比较关键的一环。在YOLOv3和YOLOv4检测算法中，训练不同的数据集时，都是通过单独的程序运行来获得初始锚点框。YOLOv5中将此功能嵌入到代码中，每次训练时，根据数据集的名称自适应的计算出最佳的锚点框，用户可以根据自己的需求将功能关闭或者打开，具体的指令为parser.add_argument(’–noautoanchor’, action=‘store_ true’, help=‘disable autoanchor check’)，如果需要打开，只需要在训练代码时增加–noautoanch or选项即可。
自适应图片缩放-针对不同的目标检测算法而言，我们通常需要执行图片缩放操作，即将原始的输入图片缩放到一个固定的尺寸，再将其送入检测网络中。YOLO系列算法中常用的尺寸包括416*416，608 *608等尺寸。原始的缩放方法存在着一些问题，由于在实际的使用中的很多图片的长宽比不同，因此缩放填充之后，两端的黑边大小都不相同，然而如果填充的过多，则会存在大量的信息冗余，从而影响整个算法的推理速度。为了进一步提升YOLOv5算法的推理速度，该算法提出一种方法能够自适应的添加最少的黑边到缩放之后的图片中。

5.2.4 基准网络细节详解

Focus结构-该结构的主要思想是通过slice操作来对输入图片进行裁剪。如下图所示，原始输入图片大小为6086083，经过Slice与Concat操作之后输出一个30430412的特征映射；接着经过一个通道个数为32的Conv层（该通道个数仅仅针对的是YOLOv5s结构，其它结构会有相应的变化），输出一个30430432大小的特征映射。

CSP结构-YOLOv4网络结构中，借鉴了CSPNet的设计思路，仅仅在主干网络中设计了CSP结构。而YOLOv5中设计了两种CSP结构，以YOLOv5s网络为例，CSP1_X结构应用于Backbone主干网络中，另一种CSP2_X结构则应用于Neck网络中。CSP1_X与CSP2_X模块的实现细节如3.1所示。

5.2.5 Neck网络细节详解

FPN+PAN-YOLOv5的Neck网络仍然使用了FPN+PAN结构，但是在它的基础上做了一些改进操作，YOLOv4的Neck结构中，采用的都是普通的卷积操作。而YOLOv5的Neck网络中，采用借鉴CSPnet设计的CSP2结构，从而加强网络特征融合能力。下图展示了YOLOv4与YOLOv5的Neck网络的具体细节，通过比较我们可以发现：（1）灰色区域表示第1个不同点，YOLOv5不仅利用CSP2_\1结构代替部分CBL模块，而且去掉了下方的CBL模块；（2）绿色区域表示第2个不同点，YOLOv5不仅将Concat操作之后的CBL模块更换为CSP2_1模块，而且更换了另外一个CBL模块的位置；（3）蓝色区域表示第3个不同点，YOLOv5中将原始的CBL模块更换为CSP2_1模块。

Reference

1. YOLO系列算法精讲：从yolov1至yolov5的进阶之路（2万字超全整理）强推 ☆☆☆

2. YOLO系列详解：YOLOv1、YOLOv2、YOLOv3、YOLOv4、YOLOv5

3. yolo系列之yolo v3【深度解析】

4. 目标检测算法YOLOv4详解

5. 目标检测（九）–YOLO v1,v2,v3

你可能感兴趣的:(深度学习,深度学习,r语言,cnn)

PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
盲超分的核心概念小冷爱读书数学建模盲超分超分重建
一、盲超分的本质与数学建模1.退化过程的数学表达低分辨率图像（LR）可看作高分辨率图像（HR）经过退化模型后的结果：：观测到的低分辨率图像：待恢复的高分辨率图像：模糊核（BlurKernel）⊗：卷积操作↓：下采样（步长为）：加性噪声（如高斯噪声、泊松噪声等）盲超分的核心问题：在未知、、的情况下，从估计。2.为什么传统超分方法会失效？传统方法（如SRCNN、EDSR）假设退化是固定的（如双三次下采
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
【Qualcomm】高通SNPE框架简介、下载与使用 Jackilina_Stone 人工智能 Qualcomm SNPE
目录一高通SNPE框架1SNPE简介2QNN与SNPE3Capabilities4工作流程二SNPE的安装与使用1下载2Setup3SNPE的使用概述一高通SNPE框架1SNPE简介SNPE（SnapdragonNeuralProcessingEngine），是高通公司推出的面向移动端和物联网设备的深度学习推理框架。SNPE提供了一套完整的深度学习推理框架，能够支持多种深度学习模型，包括Pytor
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
目标检测中的NMS算法详解
好的，我们来详细解释一下目标检测中非极大值抑制（Non-MaximumSuppression,NMS）的相关概念和计算过程。1.为什么需要NMS？问题：目标检测模型（如FasterR-CNN,YOLO,SSD等）在推理时，对于同一个目标物体，通常会预测出多个重叠的、不同置信度（confidencescore）的候选边界框（BoundingBoxes）。直接输出所有这些框会导致：结果冗余：同一个物体
NumPy-@运算符详解 GG不是gg numpy numpy
NumPy-@运算符详解一、@运算符的起源与设计目标1.从数学到代码：符号的统一2.设计目标二、@运算符的核心语法与运算规则1.基础用法：二维矩阵乘法2.一维向量的矩阵语义3.高维数组：批次矩阵运算4.广播机制：灵活的形状匹配三、@运算符与其他乘法方式的核心区别1.对比`np.dot()`2.对比元素级乘法`*`3.对比`np.matrix`的`*`运算符四、典型应用场景：从基础到高阶1.深度学习
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
解决 Python 包安装失败问题：以 accelerate 为例
在使用Python开发项目时，我们经常会遇到依赖包安装失败的问题。今天，我们就以accelerate包为例，详细探讨一下可能的原因以及解决方法。通过这篇文章，你将了解到Python包安装失败的常见原因、如何切换镜像源、如何手动安装包，以及一些实用的注意事项。一、问题背景在开发一个深度学习项目时，我需要安装accelerate包来优化模型的训练过程。然而，当我运行以下命令时：bash复制pipins
从RNN循环神经网络到Transformer注意力机制：解析神经网络架构的华丽蜕变熊猫钓鱼>_> 神经网络 rnn transformer
1.引言在自然语言处理和序列建模领域，神经网络架构经历了显著的演变。从早期的循环神经网络（RNN）到现代的Transformer架构，这一演变代表了深度学习方法在处理序列数据方面的重大进步。本文将深入比较这两种架构，分析它们的工作原理、优缺点，并通过实验结果展示它们在实际应用中的性能差异。2.循环神经网络（RNN）2.1基本原理循环神经网络是专门为处理序列数据而设计的神经网络架构。RNN的核心思想
如何使用Python实现交通工具识别
如何使用Python实现交通工具识别文章目录技术架构功能流程识别逻辑用户界面增强特性依赖项主要类别内容展示该系统是一个基于深度学习的交通工具识别工具，具备以下核心功能与特点：技术架构使用预训练的ResNet50卷积神经网络模型（来自ImageNet数据集）集成图像增强预处理技术（随机裁剪、旋转、翻转等）采用多数投票机制提升预测稳定性基于置信度评分的结果筛选策略功能流程用户通过GUI界面选择待识别图
Python OpenCV教程从入门到精通的全面指南【文末送书】一键难忘 python opencv 开发语言
文章目录PythonOpenCV从入门到精通1.安装OpenCV2.基本操作2.1读取和显示图像2.2图像基本操作3.图像处理3.1图像转换3.2图像阈值处理3.3图像平滑4.边缘检测和轮廓4.1Canny边缘检测4.2轮廓检测5.高级操作5.1特征检测5.2目标跟踪5.3深度学习与OpenCVPythonOpenCV从入门到精通【文末送书】PythonOpenCV从入门到精通OpenCV(Ope
CNN 猫狗识别：从理论到实战的深度解析爱熬夜的小古 cnn 深度学习人工智能
在计算机视觉领域，卷积神经网络（ConvolutionalNeuralNetwork，CNN）凭借其强大的特征提取和模式识别能力，成为图像分类任务的主流技术。猫狗识别作为经典的图像分类问题，不仅能帮助我们理解CNN的工作原理，还能为实际应用提供技术支持。本文将深入探讨CNN在猫狗识别中的应用，从理论基础到实战代码，带你全面掌握这项技术。一、CNN基础理论概述（一）CNN的核心组件卷积层：是CNN的
第八周 tensorflow实现猫狗识别降花绘 365天深度学习 tensorflow系列 tensorflow 深度学习人工智能
本文为365天深度学习训练营内部限免文章（版权归K同学啊所有）**参考文章地址：[TensorFlow入门实战｜365天深度学习训练营-第8周：猫狗识别（训练营内部成员可读）]**作者：K同学啊文章目录一、本周学习内容:1、自己搭建VGG16网络2、了解model.train_on_batch（）3、了解tqdm，并使用tqdm实现可视化进度条二、前言三、电脑环境四、前期准备1、导入相关依赖项2、
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路一、医疗领域：AI驱动的精准诊疗与效率提升1.医学影像诊断AI算法通过深度学习技术，已实现对X光、CT、MRI等影像的快速分析，辅助医生检测癌症、骨折等疾病。例如，GoogleDeepMind的AI系统在乳腺癌筛查中，误检率比人类专家低9.4%；中国的推想医疗AI系统可在20秒内完成肺部CT扫描分析，为急诊救治争取黄金时间。2.药物研发传统药
目前主流图像分类模型的详细对比分析 @comefly 闲聊 linux 运维服务器
以下是目前主流图像分类模型的详细对比分析，结合性能、架构特点及应用场景进行整理：一、主流模型架构分类与定量对比模型名称架构类型核心特点ImageNetTop-1准确率参数量（百万）计算效率典型应用场景ResNetCNN残差连接解决梯度消失，支持超深网络（如ResNet-152）76.1%25.6中等通用分类、目标检测ViTTransformer将图像分割为patches，用标准Transforme
专题：2025云计算与AI技术研究趋势报告|附200+份报告PDF、原数据表汇总下载
原文链接：https://tecdat.cn/?p=42935关键词：2025,云计算，AI技术，市场趋势，深度学习，公有云，研究报告云计算和AI技术正以肉眼可见的速度重塑商业世界。过去十年，全球云服务收入激增8倍，中国云计算市场规模突破6000亿元，而深度学习算法的应用量更是暴涨400倍。这些数字背后，是企业从“自建机房”到“云原生开发”的转型，是AI从“实验室”走向“产业级应用”的跨越。本报告
【深度学习解惑】在实践中如何发现和修正RNN训练过程中的数值不稳定？云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习 rnn 人工智能 tensorflow pytorch 神经网络机器学习
在实践中发现和修正RNN训练过程中的数值不稳定目录引言与背景介绍原理解释代码说明与实现应用场景与案例分析实验设计与结果分析性能分析与技术对比常见问题与解决方案创新性与差异性说明局限性与挑战未来建议和进一步研究扩展阅读与资源推荐图示与交互性内容语言风格与通俗化表达互动交流1.引言与背景介绍循环神经网络(RNN)在处理序列数据时表现出色，但训练过程中常面临梯度消失和梯度爆炸问题，导致数值不稳定。当网络
【数据分析】多数据集网络分析：探索健康与退休研究中的变量关系生信学习者1 数据分析 (2025版)数据分析 r语言数据挖掘数据可视化
禁止商业或二改转载，仅供自学使用，侵权必究，如需截取部分内容请后台联系作者!文章目录介绍加载R包数据下载导入数据数据预处理函数网络分析画图保存图片总结系统信息介绍在医学和社会科学研究中，理解多个变量之间的复杂关系对于揭示潜在的病理生理机制和社会行为模式至关重要。本文介绍了一种基于R语言的网络分析方法，用于探索HRS（健康与退休研究）及其类似研究（CHARLS、ELSA、MHAS、SHARE）中的变
【深度学习实战】当前三个最佳图像分类模型的代码详解云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习人工智能分类模型机器学习 Transformer EfficientNet ConvNeXt
下面给出三个在当前图像分类任务中精度表现突出的模型示例，分别基于SwinTransformer、EfficientNet与ConvNeXt。每个模型均包含：训练代码（使用PyTorch）从预训练权重开始微调（也可注释掉预训练选项，从头训练）数据集目录结构：└──dataset_root├──buy#第一类图像└──nobuy#第二类图像随机拆分：80%训练，20%验证每个Epoch输出一次loss
第35周—————糖尿病预测模型优化探索
目录目录前言1.检查GPU2.查看数据编辑3.划分数据集4.创建模型与编译训练5.编译及训练模型6.结果可视化7.总结前言本文为365天深度学习训练营中的学习记录博客原作者：K同学啊1.检查GPUimporttorch.nnasnnimporttorch.nn.functionalasFimporttorchvision,torch#设置硬件设备，如果有GPU则使用，没有则使用cpudevice=
python——struct模块稚与 Python python 数据分析
文章目录structmodule简介常用函数常见format解析MINSTstructmodule最近在学CNN，想找一个合适的数据集，就想到了MINST。但是官网中挂出的文件是train-images-idx3-ubyte.gz等解压后为idx3-ubyte后缀文件。后缀名中idx3表示3维的数据。简介struct模块用于二进制和常用数据类型之间的互相转化，此模块中大部分函数接受一个实现了Buf
街道垃圾识别难？陌讯视觉算法实测准确率突破95% 2501_92487900 算法边缘计算目标检测视觉检测计算机视觉
开篇痛点：街道垃圾识别的技术挑战在智慧城市和环保监管场景中，街道垃圾的实时检测一直是个难题。传统视觉算法（如YOLOv5、FasterR-CNN）在复杂街道场景下表现不佳，主要面临以下问题：光照干扰：早晚光线变化导致误检（如阴影被识别为垃圾）小目标漏检：饮料瓶、烟头等小物体在640x640输入下仅占10x10像素遮挡问题：垃圾桶周边堆积物造成特征混淆某环保科技公司实测数据显示，开源模型在真实场景中
深度学习预备知识 AmazingMQ 深度学习人工智能
1.Tensor张量定义：张量（tensor）表示一个由数值组成的数组，这个数组可能有多个维度（轴）。具有一个轴的张量对应数学上的向量，具有两个轴的张量对应数学上的矩阵，具有两个以上轴的张量目前没有特定的数学名称。importtorch#arange创建一个行向量x，这个行向量包含以0开始的前12个整数。x=torch.arange(12)print("x=",x)#x=tensor([0,1,2
FasterRCNN源码解析（一）-——跑通代码_霹雳巴拉wz的代码看不懂 2401_84140023 2024年程序员学习运维 linux 面试
为了做好运维面试路上的助攻手，特整理了上百道【运维技术栈面试题集锦】，让你面试不慌心不跳，高薪offer怀里抱！这次整理的面试题，小到shell、MySQL，大到K8s等云原生技术栈，不仅适合运维新人入行面试需要，还适用于想提升进阶跳槽加薪的运维朋友。本份面试集锦涵盖了174道运维工程师面试题128道k8s面试题108道shell脚本面试题200道Linux面试题51道docker面试题35道Je
根茎式装配体（RA）作为下一代协同智能范式的理论、架构与应用由数入道人工智能思维框架软件工程智能体
一、引言——范式危机与新大陆的召唤1.1表征主义的黄昏：当前AI协同范式的认知天花板自艾伦·图灵在《计算机器与智能》中播下思想的种子以来，人工智能的漫长征途始终被一个强大而内隐的哲学范式所笼罩——我们称之为“表征主义”（Representationism）。这一范式，无论其外在形态如何演变，从早期的符号逻辑、专家系统，到如今风靡全球的深度学习神经网络，其核心信念从未动摇：智能的核心，在于构建一个关
【零基础学AI】第31讲：目标检测 - YOLO算法 1989 0基础学AI 人工智能目标检测 YOLO rnn lstm tensorflow
本节课你将学到YOLO算法的核心思想和工作原理如何使用YOLO进行物体检测构建一个简单的物体检测系统开始之前环境要求Python3.8+需要安装的包：opencv-python,numpy,matplotlib硬件要求：推荐使用GPU（非必须）前置知识基本Python编程能力了解卷积神经网络（CNN）的基本概念（第24讲内容）核心概念什么是目标检测？目标检测就像教计算机"看"图片中的物体。它不仅要
Manus AI与多语言手写识别
ManusAI与多语言手写识别背景与概述手写识别技术的发展现状与挑战ManusAI的核心技术与应用场景多语言手写识别的市场需求与难点ManusAI的技术架构深度学习在手写识别中的应用多语言支持的模型设计数据预处理与特征提取方法多语言手写识别的关键挑战不同语言字符的多样性处理上下文语义与书写风格适应性低资源语言的训练数据获取解决方案与优化策略迁移学习在多语言任务中的应用端到端模型的优化与轻量化用户反
mysql主从数据同步林鹤霄 mysql主从数据同步
配置mysql5.5主从服务器(转) 教程开始：一、安装MySQL 说明：在两台MySQL服务器192.168.21.169和192.168.21.168上分别进行如下操作，安装MySQL 5.5.22 二、配置MySQL主服务器（192.168.21.169）mysql -uroot -p &nb
oracle学习笔记 caoyong oracle
1、ORACLE的安装 a>、ORACLE的版本 8i,9i : i是internet 10g,11g : grid (网格) 12c : cloud (云计算) b>、10g不支持win7 &
数据库，SQL零基础入门天子之骄 sql 数据库入门基本术语
数据库，SQL零基础入门做网站肯定离不开数据库，本人之前没怎么具体接触SQL，这几天起早贪黑得各种入门，恶补脑洞。一些具体的知识点，可以让小白不再迷茫的术语，拿来与大家分享。数据库，永久数据的一个或多个大型结构化集合，通常与更新和查询数据的软件相关
pom.xml 一炮送你回车库 pom.xml
1、一级元素dependencies是可以被子项目继承的 2、一级元素dependencyManagement是定义该项目群里jar包版本号的，通常和一级元素properties一起使用，既然有继承，也肯定有一级元素modules来定义子元素 3、父项目里的一级元素<modules> <module>lcas-admin-war</module> <
sql查地区省市县 3213213333332132 sql mysql
-- db_yhm_city SELECT * FROM db_yhm_city WHERE class_parent_id = 1 -- 海南 class_id = 9 港、奥、台 class_id = 33、34、35 SELECT * FROM db_yhm_city WHERE class_parent_id =169 SELECT d1.cla
关于监听器那些让人头疼的事宝剑锋梅花香画图板监听器鼠标监听器
本人初学JAVA，对于界面开发我只能说有点蛋疼，用JAVA来做界面的话确实需要一定的耐心（不使用插件，就算使用插件的话也没好多少）既然Java提供了界面开发，老师又要求做，只能硬着头皮上啦。但是监听器还真是个难懂的地方，我是上了几次课才略微搞懂了些。
JAVA的遍历MAP darkranger map
Java Map遍历方式的选择 1. 阐述　　对于Java中Map的遍历方式，很多文章都推荐使用entrySet，认为其比keySet的效率高很多。理由是：entrySet方法一次拿到所有key和value的集合；而keySet拿到的只是key的集合，针对每个key，都要去Map中额外查找一次value，从而降低了总体效率。那么实际情况如何呢？　　为了解遍历性能的真实差距，包括在遍历ke
POJ 2312 Battle City 优先多列+bfs aijuans 搜索
来源：http://poj.org/problem?id=2312 题意：题目背景就是小时候玩的坦克大战，求从起点到终点最少需要多少步。已知S和R是不能走得，E是空的，可以走，B是砖，只有打掉后才可以通过。思路：很容易看出来这是一道广搜的题目，但是因为走E和走B所需要的时间不一样，因此不能用普通的队列存点。因为对于走B来说，要先打掉砖才能通过，所以我们可以理解为走B需要两步，而走E是指需要1
Hibernate与Jpa的关系，终于弄懂 avords java Hibernate 数据库 jpa
我知道Jpa是一种规范，而Hibernate是它的一种实现。除了Hibernate，还有EclipseLink(曾经的toplink)，OpenJPA等可供选择，所以使用Jpa的一个好处是，可以更换实现而不必改动太多代码。在play中定义Model时，使用的是jpa的annotations，比如javax.persistence.Entity, Table, Column, OneToMany
酸爽的console.log bee1314 console
在前端的开发中，console.log那是开发必备啊，简直直观。通过写小函数，组合大功能。更容易测试。但是在打版本时，就要删除console.log，打完版本进入开发状态又要添加，真不够爽。重复劳动太多。所以可以做些简单地封装，方便开发和上线。 /** * log.js hufeng * The safe wrapper for `console.xxx` functions *
哈佛教授：穷人和过于忙碌的人有一个共同思维特质 bijian1013 时间管理励志人生穷人过于忙碌
一个跨学科团队今年完成了一项对资源稀缺状况下人的思维方式的研究，结论是：穷人和过于忙碌的人有一个共同思维特质，即注意力被稀缺资源过分占据，引起认知和判断力的全面下降。这项研究是心理学、行为经济学和政策研究学者协作的典范。　　这个研究源于穆来纳森对自己拖延症的憎恨。他7岁从印度移民美国，很快就如鱼得水，哈佛毕业
other operate 征客丶 OS osx
一、Mac Finder 设置排序方式，预览栏在显示－》查看显示选项中二、有时预览显示时，卡死在那，有可能是一些临时文件夹被删除了，如：/private/tmp[有待验证] -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一
【Scala五】分析Spark源代码总结的Scala语法三 bit1129 scala
1. If语句作为表达式 val properties = if (jobIdToActiveJob.contains(jobId)) { jobIdToActiveJob(stage.jobId).properties } else { // this stage will be assigned to "default" po
ZooKeeper 入门 BlueSkator 中间件 zk
ZooKeeper是一个高可用的分布式数据管理与系统协调框架。基于对Paxos算法的实现，使该框架保证了分布式环境中数据的强一致性，也正是基于这样的特性，使得ZooKeeper解决很多分布式问题。网上对ZK的应用场景也有不少介绍，本文将结合作者身边的项目例子，系统地对ZK的应用场景进行一个分门归类的介绍。值得注意的是，ZK并非天生就是为这些应用场景设计的，都是后来众多开发者根据其框架的特性，利
MySQL取得当前时间的函数是什么格式化日期的函数是什么 BreakingBad mysql Date
取得当前时间用 now() 就行。在数据库中格式化时间用DATE_FORMA T(date, format) . 根据格式串format 格式化日期或日期和时间值date，返回结果串。可用DATE_FORMAT( ) 来格式化DATE 或DATETIME 值，以便得到所希望的格式。根据format字符串格式化date值: %S, %s 两位数字形式的秒（ 00,01,
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
4_JAVA+Oracle面试题(有答案) chenke oracle
基础测试题卷面上不能出现任何的涂写文字，所有的答案要求写在答题纸上，考卷不得带走。选择题 1、 What will happen when you attempt to compile and run the following code? （3） public class Static { static { int x = 5; // 在static内有效 } st
新一代工作流系统设计目标 comsci 工作算法脚本
用户只需要给工作流系统制定若干个需求，流程系统根据需求，并结合事先输入的组织机构和权限结构，调用若干算法，在流程展示版面上面显示出系统自动生成的流程图，然后由用户根据实际情况对该流程图进行微调，直到满意为止，流程在运行过程中，系统和用户可以根据情况对流程进行实时的调整，包括拓扑结构的调整，权限的调整，内置脚本的调整。。。。。在这个设计中，最难的地方是系统根据什么来生成流
oracle 行链接与行迁移 daizj oracle 行迁移
表里的一行对于一个数据块太大的情况有二种(一行在一个数据块里放不下) 第一种情况: INSERT的时候，INSERT时候行的大小就超一个块的大小。Oracle把这行的数据存储在一连串的数据块里(Oracle Stores the data for the row in a chain of data blocks)，这种情况称为行链接(Row Chain)，一般不可避免(除非使用更大的数据
[JShop]开源电子商务系统jshop的系统缓存实现 dinguangx jshop 电子商务
前言 jeeshop中通过SystemManager管理了大量的缓存数据，来提升系统的性能，但这些缓存数据全部都是存放于内存中的，无法满足特定场景的数据更新（如集群环境）。JShop对jeeshop的缓存机制进行了扩展，提供CacheProvider来辅助SystemManager管理这些缓存数据，通过CacheProvider,可以把缓存存放在内存,ehcache,redis，memcache
初三全学年难记忆单词 dcj3sjt126com english word
several 儿子；若干 shelf 架子 knowledge 知识；学问 librarian 图书管理员 abroad 到国外，在国外 surf 冲浪 wave 浪；波浪 twice 两次；两倍 describe 描写；叙述 especially 特别；尤其 attract 吸引 prize 奖品；奖赏 competition 比赛；竞争 event 大事；事件 O
sphinx实践 dcj3sjt126com sphinx
安装参考地址:http://briansnelson.com/How_to_install_Sphinx_on_Centos_Server yum install sphinx 如果失败的话使用下面的方式安装 wget http://sphinxsearch.com/files/sphinx-2.2.9-1.rhel6.x86_64.rpm yum loca
JPA之JPQL（三） frank1234 orm jpa JPQL
1 什么是JPQL JPQL是Java Persistence Query Language的简称，可以看成是JPA中的HQL， JPQL支持各种复杂查询。 2 检索单个对象 @Test public void querySingleObject1() { Query query = em.createQuery("sele
Remove Duplicates from Sorted Array II hcx2013 remove
Follow up for "Remove Duplicates":What if duplicates are allowed at most twice? For example,Given sorted array nums = [1,1,1,2,2,3], Your function should return length
Spring4新特性——Groovy Bean定义DSL jinnianshilongnian spring 4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装Mysql5.5 liuxingguome centos
CentOS下以RPM方式安装MySQL5.5 首先卸载系统自带Mysql： yum remove mysql mysql-server mysql-libs compat-mysql51 rm -rf /var/lib/mysql rm /etc/my.cnf 查看是否还有mysql软件： rpm -qa|grep mysql 去http://dev.mysql.c
第14章工具函数（下） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
POJ 1050 SaraWon 二维数组子矩阵最大和
POJ ACM第1050题的详细描述，请参照 http://acm.pku.edu.cn/JudgeOnline/problem?id=1050 题目意思：给定包含有正负整型的二维数组，找出所有子矩阵的和的最大值。如二维数组 0 -2 -7 0 9 2 -6 2 -4 1 -4 1 -1 8 0 -2 中和最大的子矩阵是 9 2 -4 1 -1 8 且最大和是15
Java8全新打造，英语学习supertool yangshangchuan java superword 闭包 java8 函数式编程
superword是一个Java实现的英文单词分析软件，主要研究英语单词音近形似转化规律、前缀后缀规律、词之间的相似性规律等等。Clean code、Fluent style、Java8 feature: Lambdas, Streams and Functional-style Programming。升学考试、工作求职、充电提高，都少不了英语的身影，英语对我们来说实在太重要