目标检测学习笔记5——Yolo3 YOLOv3: An Incremental Improvement

文章目录

  • 1. 引言
  • 2. 网络结构——Darknet-53
  • 3. 9种尺度先验框
  • 4. Logistic
  • 5. 小结

1. 引言

YOLO3是在YOLO1和YOLO2基础上进行改进的。

  1. 调整了网络结构;
  2. 利用多尺度特征进行对象检测;
  3. 对象分类用Logistic取代Softmax;

2. 网络结构——Darknet-53

该网络用于图像提取特征,有53个卷积层,借鉴了残差网络(Residual Network),在一些层之间设置了快捷链路(shortcut connections),其结构如下图所示:

目标检测学习笔记5——Yolo3 YOLOv3: An Incremental Improvement_第1张图片

  • 网络输入:256 * 256 * 3
  • 左侧数字1、2、8、8、4代表有这样多个重复的残差组件每个残差组件有两个卷积层和一个快捷链路,示意图如下:
    目标检测学习笔记5——Yolo3 YOLOv3: An Incremental Improvement_第2张图片
    YOLO3整体网络结构示意图如下:
    目标检测学习笔记5——Yolo3 YOLOv3: An Incremental Improvement_第3张图片

YOLO3在YOLO2采用passthrough检测细粒度特征的基础上,采用了3个不同尺度的特征图来进行对象检测:

  1. 在第79层,经过下方几个黄色的卷积层得到一种尺度的检测结果。相比输入图像,这里用于检测的特征图有32倍的下采样。比如输入是416 * 416的话,这里的特征图就是13 * 13了。由于下采样倍数高,这里特征图的感受野较大,因此适合检测图像中尺寸比较大的对象

  2. 为了实现细粒度的检测,第79层的特征图又作上采样(从79层往右开始上采样卷积),然后与第61层特征图融合(Concatenation),这样得到第91层较细粒度的特征图,同样经过几个卷积层后得到相对输入图像16倍下采样的特征图。它具有中等尺度的感受野,适合检测中等尺度的对象。

  3. 第91层特征图再次上采样,并与第36层特征图融合(Concatenation),最后得到相对输入图像8倍下采样的特征图。它的感受野最小,适合检测小尺寸的对象。

目标检测学习笔记5——Yolo3 YOLOv3: An Incremental Improvement_第4张图片

如上表可见,Darknet-53是综合平衡了速度与准确率。

3. 9种尺度先验框

由于特征图的数量和尺度的变化,先验框的尺寸也需要相应的调整。YOLO3延续YOLO2采用K-means聚类的方法,为每种下采样尺度设定3种先验框,总共聚类出9种尺寸的先验框。在COCO数据集这9个先验框是:(10x13),(16x30),(33x23),(30x61),(62x45),(59x119),(116x90),(156x198),(373x326)。

在这里插入图片描述
感受一下9种先验框的尺寸,下图中蓝色框为聚类得到的先验框。黄色框是GT框,红框是对象中心点所在的网格。

4. Logistic

预测对象类别时不使用softmax,改成使用logistic的输出进行预测。这样能够支持多标签对象(比如一个人有Woman 和 Person两个标签)。
目标检测学习笔记5——Yolo3 YOLOv3: An Incremental Improvement_第5张图片
3种尺度的特征图,各有3个先验框,因此总共有 13 * 13 * 3 + 26 * 26 * 3 + 52 * 52 * 3 = 10647 个预测。每一个预测是一个(4+1+80)=85维向量,这个85维向量包含边框坐标(4个数值),边框置信度(1个数值),对象类别的概率(对于COCO数据集,有80种对象)。

对比一下,YOLO2采用13135 = 845个预测,YOLO3的尝试预测边框数量增加了10多倍,而且是在不同分辨率上进行,所以mAP以及对小物体的检测效果有一定的提升。

5. 小结

  • YOLO3借鉴了残差网络结构,形成更深的网络层次;
  • 多尺度检测,提升了mAP及小物体检测效果。

如果采用COCO mAP50做评估指标(不是太介意预测框的准确性的话),YOLO3的表现相当惊人,如下图所示,在精确度相当的情况下,YOLOv3的速度是其它模型的3、4倍。

目标检测学习笔记5——Yolo3 YOLOv3: An Incremental Improvement_第6张图片
不过如果要求更精准的预测边框,采用COCO AP做评估标准的话,YOLO3在精确率上的表现就弱了一些。如下图所示。
目标检测学习笔记5——Yolo3 YOLOv3: An Incremental Improvement_第7张图片

参考:
https://www.jianshu.com/p/d13ae1055302
yolo3论文地址:
https://arxiv.org/abs/1804.02767

你可能感兴趣的:(目标检测,深度学习,计算机视觉,人工智能,机器学习,卷积)