YOLO系列文章阅读--yolov2

Introduction

论文这里主要介绍了,如何合理detection任务的数据集和classification任务的数据集来做我们的yolo9000,进而生成yolo2.
YOLO系列文章阅读--yolov2_第1张图片
关键就是这段话吧,用被标记的检测图片来学习精准定位物体,同时用分类任务的图片来扩展种类和鲁棒性。

Better

使用的提升方法。

Batch Normalization

批处理规范化大大提高了收敛性,同时消除了对其他形式的规范化的需要。通过BN,我们可以在不过度拟合的情况下从模型中去除dropout。

High Resolution Classifier

就是之前很多sota检测都是基于Imagenet的预训练分类器。从AlexNet开始大多是分类器都采用的输入图片是256256的。初代YOLO将分辨率提高到了448448。这意味着网络必须同时切换到学习对象检测,并调整到新的输入分辨率。
所以在YOLOv2,先在基于ImageNet中448*448分辨率下微调了分类网络10epochs。这给网络时间来调整过滤器,以更好地工作在更高分辨率的输入。然后在检测时微调resulting网络。这个高分辨率的分类网络使mAP增加了近4%。

Convolution With Anchor Boxes

YOLO预测bounding box的坐标直接使用在卷积特征提取器后的全连接层。而不像Faster R-CNN那样,预测坐标使用手工挑选的先验bounding box。
首先,我们去掉一个池化层,以使网络卷积层的输出具有更高的分辨率。同时我们还缩小了网络,以操作416个输入图像,而不是448×448。是因为我们希望在特征图中有奇数个位置,所以有一个单一的中心单元格。
主要说了使用anchor boxes做预测和之前不用anchor boxes 的区别。mAP稍微降低了,recall提升了。

Dimension Custers

首先说使用锚框遇到的两个问题。anchor box的大小是手工挑选的,网络要学习适当地调整box,但如果我们为网络选择更好的先验开始,我们可以让网络更容易学习预测好的检测。
YOLO系列文章阅读--yolov2_第2张图片

然后我们不再手动选择先验,而是在训练集边界框上运行k-means聚类来自动找到好的先验。如果我们用标准的欧氏距离k-means
,较大的box比较小的box产生更多的误差。然而,我们真正想要的是导致良好IOU分数的先验,这与盒子的大小无关。因此,对于我们的距离度量,我们使用:

在这里插入图片描述

Direct location prediction

当使用YOLO锚框时,我们会遇到第二个问题:模型不稳定,特别是在早期迭代期间。大多数不稳定性来自于预测盒子的(x, y)位置。由于我们限制了位置预测,使得参数化更容易学习,使网络更加稳定。使用维度聚类以及直接预测边界框中心位置可以改进
YOLO比带锚框的版本提高了近5%。

Fine-Grained Features 细粒度特征

Faster R-CNN和SSD都在网络中的不同特征映射上运行它们的proposal网络,以获得一系列的分辨率。我们采用了一种不同的方法,简单地添加一个直通层,以26 × 26的分辨率从早期的层中提取特征。
直通层通过将相邻的特征堆叠到不同的通道而不是空间位置,来连接高分辨率的特征和低分辨率的特征,类似于ResNet中的身份映射。将26 × 26 × 512的特征图变成13 × 13 × 2048的特征图,意味着与原来的特征进行拼接。我们的检测器运行在这个扩展的特征映射之上,因此它可以访问细粒度的特征。这将带来1%的性能提升。

Multi-Scale Training

不是修改输入图片的尺寸,而是每隔几次迭代就改变网络。每10batch,我们的网络随机选择一个新的图像尺寸大小。由于我们的模型将样本降低了32倍,我们从以下32的倍数中提取:{320,352,…608}。因此,最小的选项是320 × 320,最大的是608 × 608。我们将网络调整到那个维度并继续训练。

Faster

Darknet-19

我们提出了一个新的分类模型作为YOLOv2的基础。我们的模型建立在先前的网络设计工作以及该领域的常识基础上。类似于我们经常使用的VGG模型3 × 3过滤器,并在每个池化步骤后将通道数量加倍。接下来在Network in Network(NIN)在3 × 3卷积之间使用全局平均池化和1 × 1滤波器压缩特征表示进行预测。我们使用批归一化来稳定训练,加速收敛,并正则化模型。我们使用BN来稳定训练,加速收敛,并正则化模型。
我们的最终模型叫做Darknet-19,它有19个卷积层和5个最大池化层。
YOLO系列文章阅读--yolov2_第3张图片

Stronger

大概就是讲了下在分类数据集和检测数据集之间的一些工作

你可能感兴趣的:(深度学习,目标检测,计算机视觉)