目标检测之Yolov3与Anchor-Free

原文:目标检测之RCNN、Yolo、SSD、RetinaNet与Anchor-Free_dagongji10的博客-CSDN博客

2.2 Yolo v3(2018)


Yolo-v3 论文比 Yolo-v2 还要随意,具体优化内容主要有:

  1. bbox的预测:基本上还是沿用 Yolo-v2 那一套(对 anchor 的offset),但是 Yolo-v3 使用逻辑回归对每一个框打分,该分数用于选取与 GroundTruth 最为契合的 bbox(之前使用 IOU 最大的bbox),被舍弃掉的 bbox 将只会参与置信度损失的计算。
  2. 分类预测:Yolo-v2 对于分类使用的是softmax,得到一个20维的向量;Yolo-v3 改变这一做法,它使用多个逻辑分类器,每一个分类器用来判断 bbox 是否属于一个类,然后用二元交叉熵计算损失。这样做的好处是,可以应对 Open Images Dataset 这样的一个物体同时属于多个类的情况。
  3. 多尺度预测:Yolo-v3 效仿 FPN 的多级特征金字塔,通过上采样和 concat 大尺度特征,可以生成除 13*13 以外的 26*26、52*52 特征图,特征图的每一个特征点拥有3个 anchor,每一个 anchor 拥有4个 offset 数据、1个置信度、80个类别信息。这些 anchor 同样通过 K-means 来获得,只是 k = 9 k=9k=9,然后均分给多尺度的每一层。文章给出 416*416 尺度下图像的 anchor 尺寸:
(10×13)、(16×30)、(33×23)、(30×61)、(62×45)、(59×119)、(116 × 90)、(156 × 198)、(373 × 326)


1
特征提取:Yolo-v2 中使用了一个“透层”将 26*26 的特征图连接到 13*13 的特征图上,这有点类似于ResNet的残差思想;Yolo-v3 直接加入残差块,去掉池化的同时增加卷积的步长,保证输入图像经过5次下采样,由此诞生了Darknet-53。

在这里插入图片描述
2.3 Yolo v3的实现与效果
作为工程项目来说,Yolo-v3的检测效果应该是相当不错的,这里我们不去讨论mAP、COCO数据集上的表现等刷分用的参数,就仅仅看它在实际应用中的performance,速度、精度都很令人满意。重要的是,Yolo-v3开源代码的使用极其简单,即便是看源码、根据自己的需求修改源码都很方便(主要是代码写得很清晰)。参考Tensorflow版本的项目,得到下图结果。
 

你可能感兴趣的:(深度学习,深度学习,计算机视觉,python)