yolov3论文初读笔记

摘要:

yolov3与yolov2相比,主要改进三个方面,对应论文的2.2-2.4三个章节,其他思想基本延续yolov2:
1.预测方式
摒弃了softmax预测的办法(因为发现对提升性能没有带来帮助),而是采用了多标签多分类的逻辑回归层,解释一下我的理解,yolov2的时候预测是用softmax实现的,其预测结果包含每个grid cell负责预测对应对象的每个类别的概率(比如coco数据集是80类,即有这个物体可能是这80个类别对应的概率,总和为1,必然有最大概率值的那个,通过非极大值抑制最后选出一个概率最大的那个类别作为结果),可以看出yolov2其实还是一个gird只能预测一个对象是一种类别,显然不适合多标签的预测情况(比如预测的对象即是猫类别,也是蓝猫类别,这样的多标签结果),而且作者也提及softmax并没有为性能提升带来帮助,用多个独立的logistic回归(转为二分类问题)也能实现效果,而且可以解决多标签预测问题。
2.预测模型采用多尺度预测
最后预测结果会生成三种尺寸的特征图,由三个yolo层处理得来,分别是$13*13,26*26,52*52$,每个尺寸对应三个先验框,即三个先验框处理得出一个预测框,这样的目的是为了实现对不同尺寸物体的检测,特征越大的适合检测小物体。
3.改进了网络结构,darknet-53
image.png
网络结构图出处来源

你可能感兴趣的:(目标检测,深度学习,论文)