年后准备试试YOLOv5或者低一些的单阶段目标检测模型,所以时不时看看YOLO的各系列模型,是为了了解这一类模型,也是最终目标做一个各系列的简单对比,fighting!
YOLO9000可以实时检测各种各样的对象类别,是一种目标检测和分类联合训练的方法。
它是一个可以检测超过9000种不同对象类别的实时对象检测器。首先,我们改进了基础YOLO检测系统,以产生YOLOv2,一种最先进的实时检测器。然后我们使用我们的数据集组合方法和联合训练算法在来自ImageNet的9000多个类和来自COCO的检测数据上训练模型。
我们简化了网络,然后使表示更容易学习。我们汇集了过去工作中的各种想法和我们自己的新概念,以提高YOLO的性能。结果总结见表2。
批量归一化导致收敛性的显著改善,同时消除了对其他形式正则化的需要[7]。通过在YOLO中的所有卷积层上添加批量归一化,我们在mAP上获得了超过2%的改进。
对于YOLOv2,我们首先在ImageNet上以全448×448分辨率微调分类网络10个历元。这为网络提供了时间来调整其滤波器,以便在较高分辨率输入下更好地工作。然后,我们在检测时微调所得到的网络。这种高分辨率分类网络使我们的mAP增加了近4%。
YOLO直接使用卷积特征提取器顶部的全连接层来预测边界框的坐标。Faster R-CNN不是直接预测坐标,而是使用手工挑选的先验预测边界框,用RPN预测偏移量而不是坐标简化了问题,使网络更容易学习。
我们从YOLO中移除全连接层,并使用锚框来预测边界框:
YOLO只能预测每张图像98个盒子,但对于锚盒子,我们的模型预测超过1000个。使用锚框,对比YOLO,即使mAP降低(69.5–>69.2),**召回率的增加(81%–>88%)**意味着我们的模型还有更大的改进空间。
我们遇到两个问题与锚盒时,使用他们与YOLO。第一个是框尺寸是手工选择的。网络可以学习适当地调整盒子,但是如果我们为网络选择更好的先验来开始,我们可以使网络更容易学习预测好的检测。
我们在训练集边界框上运行k-均值聚类,以自动找到良好的先验,而不是手动选择先验。
在YOLO中使用锚盒时,我们遇到了第二个问题:模型不稳定性,尤其是在早期迭代期间.
大多数不稳定性来自于对盒子的(x,y)位置的预测。在RPN中,网络预测值tx和ty,并且(x,y)中心坐标被计算为:
例如,tx =1的预测会将框向右移动锚框的宽度,tx = -1的预测会将框向左移动锚框的宽度。
网络预测输出特征地图中每个单元处的5个边界框。网络预测每个边界框的5个坐标tx、ty、tw、th和to。如果单元从图像的左上角偏移(cx,cy)并且边界框先验具有宽度和高度pw,ph,则预测对应于:
使用维度聚类和直接预测边界框中心位置可以使YOLO比使用锚框的版本提高近5%。
我们预测盒子的宽度和高度作为离聚类质心的偏移量。我们使用sigmoid函数来预测框的中心坐标相对于滤波器应用的位置。
这种修改的YOLO预测在13 × 13特征图上的检测。虽然这对于大对象来说已经足够了,但是对于定位较小的对象来说,更细粒度的特征可能会使其受益。更快的R-CNN和SSD都在网络中的各种特征地图上运行他们的提案网络,以获得一系列的分辨率。我们采取了不同的方法,简单地添加一个穿透层,以26 × 26分辨率从早期层中提取特征。
原始的YOLO使用448 × 448的输入分辨率。增加锚盒后,我们将分辨率更改为416×416。然而,由于我们的模型只使用卷积层和池层,因此它可以动态调整大小。我们希望YOLOv2能够在不同大小的图像上运行,因此我们将其训练到模型中。
关于YOLOv2与VOC 2007的其他框架的比较,请参见表3。
我们希望检测准确,但我们也希望它是快速的。我们提出了一个新的分类模型作为YOLOv2的基础。我们的模型建立在以前的网络设计工作以及该领域的常识基础上。VGG模型相似,我们大多使用3 × 3滤波器,并在每个合并步骤后将通道数量加倍。在对网络中网络(NIN)的研究之后,我们使用全局平均池进行预测,并使用1 × 1滤波器在3 × 3卷积之间压缩特征表示。我们使用批量归一化来稳定训练、加速收敛并正则化模型。
我们的最终模型称为Darknet-19,有19个卷积层和5个最大池层。完整描述见表6。
Darknet-19只需要55.8亿次操作就可以处理图像,但在ImageNet上却达到了72.9%的前1准确率和91.2%的前5准确率。
我们提出了一种在分类和检测数据上联合训练的机制。我们的方法使用标记用于检测的图像来学习检测特定的信息,如边界框坐标预测和对象性以及如何对常见对象进行分类。它使用只有类别标签的图像来扩展它可以检测的类别数量。
最后,YOLO9000是一个通过联合优化检测和分类来检测9000多个对象类别的实时框架。我们使用WordTree联合收割机来自不同来源的数据,并使用联合优化技术在ImageNet和COCO上同时进行训练。YOLO9000是缩小检测和分类之间数据集大小差距的有力一步