YOLOv3论文总结

YOLOv3: An Incremental Improvement

原文链接:

[1804.02767] YOLOv3: An Incremental Improvement (arxiv.org)

Abstract 摘要

YOLOv3比前作在体量上稍有扩大,在预测精确度上提升了。

  •  Introduction 简介

本文采用技术报告的形式编写,内容排版比较随性。

  • The Deal
  1. Bounding Box Prediction

与YOLOv2相同,预测量仍然是五个维度,他们对于边框的位置坐标bx和含有物体的概率p有如下映射关系:

 

 

这种映射关系时的边框更趋向于向中部集中,同时对参数也进行了归一化处理,使得模型更加稳定且易学。

  1. Class Prediction

       由于softmax逻辑回归在处理分类词汇表中含有词义重叠的词(如“女人”和“人”)的复杂情况时表现不好,在YOLOv3中用独立逻辑分类器进行推断。在训练时使用二元交叉熵损失进行分类预测。

  1. Predictions Across Scales

YOLOv3中采用类似特征金字塔网络(feature pyramid network)的概念进行多尺度的特征提取,从三个不同的尺度进行边框预测。每个尺度下预测3个边框,在COCO数据集中每个输出层的维度为N×N ×[ 3*(4+1+80)]。

对之前的2个特征层中进行2倍的上采样结合在网络前期获得的特征层进行合并(获得更多的语义信息)从早期的特征映射中获得更多细粒度的信息,再添加几个卷积层来处理这个组合特征层,并最终预测一个相似的张量,尽管现在是两倍的大小。

依旧使用K-均值聚类来进行边界框的先验。只是选择了9个Clusters和3个不同的尺度。注:在COCO数据集上:9个聚类是:(10×13),(16×30),(33×23),(30×61),(62×45),(59× 119),(116 × 90),(156 × 198),(373 × 326)

  1. Feature Extractor

YOLOv3采用的特种提取网络Darknet-53,是VOLOv2中采用的Darknet-19和残差网络的结合

YOLOv3论文总结_第1张图片

Darknet-53网络架构

Darknet-53和当时其他分类器表现不相上下,但是需要较少的浮点数运算,有更快的运行速度。Darknet-53也达到了最快的单秒内浮点数处理数,这表示Darknet-53的网络结构设计更契合GPU的架构,使其运行起来更加高效

YOLOv3论文总结_第2张图片

Darknet-53和当时其他同类网络的性能对比

  1. Training

对全图进行训练,不进行难例挖掘(hard negative mining)等类似操作。采用多尺度训练、大量的数据增强、批量归一化等常规优化方法。

  • How We Do

       YOLOv3在mAP方面和SSD相当(但运行速度是SSD的三倍),稍逊色于RetinaNet。

       在IOU=0.5时YOLOv3的表现和RetinaNet相当,且远优于SSD,而随着IOU阈值的上升YOLOv3的表现显著下降。这表示YOLOv3能够预测出相当不错的边框,但是在和物体对齐上存在问题。

       通过新的多尺度预测的方法,YOLOv3改善了过去版本中在小物体检测上的不足,但相对的在中等大小和大型物体的检测上变现有所下降。需要更多的后续研究来弄清楚其中的机理。

  • Things We Tried That Didn’t Work 未竟的尝试
  • Anchor box x, y offset predictions

使用常规的锚框定位(预测偏置)的方法,发现模型稳定性会下降

  • Linear x, y predictions instead of logistic

使用线性回归预测x、y,而不是逻辑回归,导致mAP下降

  • Focal loss

       使用焦点损失(focal loss)进行评估,导致mAP下降

  • Dual IOU thresholds and truth assignment

Faster R-CNN在训练中使用两阶IOU阈值对预测结果做一个优、中、差的三等区分,并在计算损失时加以区分,加速参数的收敛。作者在YOLOv3中尝试了相似的策略,但没有取得更好的效果。

你可能感兴趣的:(深度学习,人工智能)