YOLO v3学习总结

别的不说,YOLOv3的论文确实是有意思呀,读论文感觉着实又被大佬虐了一把,强烈推荐阅读。

YOLOv3没有太多的创新,主要是借鉴一些好的方案融合到YOLO里面。不过效果还是不错的,在保持速度优势的前提下,提升了预测精度,尤其是加强了对小物体的识别能力。

正如作者所说,这仅仅是他们近一年的一个工作报告(TECH REPORT),不算是一个完整的paper,因为他们实际上是把其它论文的一些工作在YOLO上尝试了一下。相比YOLOv2,我觉得YOLOv3最大的变化包括两点:使用残差模型和采用FPN架构。YOLOv3的特征提取器是一个残差模型,因为包含53个卷积层,所以称为Darknet-53,从网络结构上看,相比Darknet-19网络使用了残差单元,所以可以构建得更深。另外一个点是采用FPN架构(Feature Pyramid Networks for Object Detection)来实现多尺度检测。YOLOv3采用了3个尺度的特征图(当输入为 416 × 416 416 \times 416 416×416时): ( 13 × 13 ) (13 \times 13) (13×13) ( 26 × 26 ) (26 \times 26) (26×26) ( 52 × 52 ) (52 \times 52) (52×52),VOC数据集上的YOLOv3网络结构如下图所示,其中红色部分为各个尺度特征图的检测结果。YOLOv3每个位置使用3个先验框,所以使用k-means得到9个先验框,并将其划分到3个尺度特征图上,尺度更大的特征图使用更小的先验框,和SSD类似。

Darknet-53:
YOLO v3学习总结_第1张图片
YOLOv3网络结构示意图:
YOLO v3学习总结_第2张图片
YOLO v3学习总结_第3张图片
YOLOv3与其它检测模型的对比如下图所示,可以看到在速度上YOLOv3完胜其它方法,虽然AP值并不是最好的(如果比较AP-0.5,YOLOv3优势更明显)

YOLO v3学习总结_第4张图片
从YOLO的三代变革中可以看到,在目标检测领域比较好的策略包含:设置先验框,采用全卷积做预测,采用残差网络,采用多尺度特征图做预测。期待未来有更好的策略出现。

done~

References

  • https://zhuanlan.zhihu.com/p/35325884
  • https://www.jianshu.com/p/d13ae1055302
  • https://www.jianshu.com/p/67163d52946f

你可能感兴趣的:(深度学习(DL),计算机视觉(CV))