【论文解读】yolo-v3

论文:YOLOv3: An Incremental Improvement 
论文地址:https://pjreddie.com/media/files/papers/YOLOv3.pdf

        YOLOV3相比YOLOV2,YOLOV1虽然在网络结构上变得更复杂,但是有了V1,V2的基础,论文还是比较好理解的,而且作者写得着实比较随意,没办法,大牛嘛。YOLOV3主要在以下几个方面有所创新:

  • 1. 多尺度预测

  • 2. 更好的基础分类网络

        YOLOv3使用逻辑回归来预测每个bounding box的目标评分(objectness score),当某个先验框(bounding box prior)与ground truth的IoU大于其他所有先验框时,目标评分为1。如果一个先验框和某个ground truth的IoU虽然不是最大的那个,但是IoU也大于了某个阈值,我们仍然会忽略这个先验框(既不惩罚,也不奖励),这个借鉴了Faster RCNN。对于每个ground truth只分配给IoU最好的那个先验框。如果一个先验框没有分配给任何一个ground truth,那么訪框没有坐标和分类上的损失,我们只考虑它目标评分的损失,即试图减小其objectness score。

        类别预测方面使用多标签分类而非单标签分类使用独立的逻辑回归分类器(logistic classifier)取代softmax。我想这应该也是多标签分类的需要,使用softmax的话得到的是属于某一类的概率,而一个预测框中经常有多个类别。使用逻辑回归可以针对每一个类别使用一个分类器,当大于某个阈值的时候则认为存在訪类别。训练过程中类别损失函数使用二分类交叉熵损失。

        YOLOv3在3种不同的尺度上进行检测框预测。使用类似于特征金字塔网络(FPN,feature pyramid network)的思想,系统在这3种尺度上提取特征。这3种尺度我在下图中已经给出了,分别是13x13,26x26和52x52。仍然使用k-means聚类的方式来选择先验框(Anchor Boxes),最张在每种尺度上有3种先验框。这样虽然一个网络单元上只有3种先验框,而YOLOv2有5种先验框,但是因为YOLOV3有3种尺度,所以实际上YOLOv3的先验框要多很多。

【论文解读】yolo-v3_第1张图片

用于特征提取的基础网络这块,新的网络结构融合了YOLOv2,Darknet-19和最新的残差网络(Res-Net)。残差网络的引入很明显的作用就是让网络可以变得更深了。

你可能感兴趣的:(深度学习,darknet)