目标检测学习之路——YOLOv3

相比于YOLOv2,YOLOv3主要做了如下改进:1、提出了新的特征提取器模型Darknet53,该模型相比于Darknet19采用了残差单元(类似ResNet),因此网络模型可以更深;2、采用FPN(feature pyramid networks)结构来实现多尺度预测;3、分类器的改变,使用多个多个 logistic 分类器替代原始的Softmax分类器。

1、Darknet53

目标检测学习之路——YOLOv3_第1张图片

Darknet53 与 ResNet-101 或 ResNet-152 准确率接近,但速度更快,对比如下:

目标检测学习之路——YOLOv3_第2张图片

检测模型网络结构如下所示:

目标检测学习之路——YOLOv3_第3张图片

2、多尺度预测

YOLOv3使用了3个尺度的feature map(当输入图像的分辨率为416×416时3个尺度的feature map为:13×13、26×26、52×52)来预测检测结果。每种尺度预设3个Anchor box(使用k-means聚类的方式得到9个Anchor box,并将其分配到3个不同尺度的feature map上,尺度越大的feature map使用更小的Anchor box,这一做法是为了使模型对小目标物体更友好),检测模型如上图所示:

scale 1:在基础网络的后面添加了一系列的卷积层,经过一系列的卷积操作后输出预测的bounding box信息。

scale 2:将scale1中的倒数第三个卷积层的输出进行1×1的卷积后进行上采样(x2),再与backbone中最后一个26×26的feature map进行concat拼接,之后经过一系列的卷积操作后输出预测的bounding box信息。

scale 3:将scale2中的倒数第三个卷积层的输出进行1×1的卷积后进行上采样(x2),再与backbone中最后一个52×52的feature map进行concat拼接,之后经过一系列的卷积操作后输出预测的bounding box信息。

3、分类器

YOLOv2中预测bounding box中目标所属类别时是用的Softmax分类器,Softmax分类器不适用于多标签分类。因此,在YOLOv3中使用多个独立的logistic 分类器来替代Softmax分类器。

YOLOv3的性能对比如下所示:

目标检测学习之路——YOLOv3_第4张图片

目标检测学习之路——YOLOv3_第5张图片

 可以看出YOLOv3模型的AP值虽然不是最好的,但是在速度方面YOLOv3完胜其它模型方法。YOLOv3 在 mAP-0.5 及小目标 APs 上的优势更加明显,但是随着 IOU的增大,性能开始下降,这说明 YOLOv3 不能很好地与 ground truth 贴合。

以上是自己学习YOLOv3时一些看法以及查阅相关资料的一些总结,如有理解错误之处请指正。

 

你可能感兴趣的:(YOLOv3,目标检测,深度学习,神经网络)