cv小白的yolov3学习笔记总结
论文下载地址:YOLOv3: An Incremental Improvement
yolov网址:https://pjreddie.com/darknet/yolo/
原文:
在yolov3中每一个预测框会输出输出85个值,其中的5个是中心点坐标,宽高,置信度,还有80个是条件类别概率。每一个类别,单独用一个二分类输出0到1之间的概率,也就说,可能会有多个类别的概率都是1,标签值为1,预测值为1。我们并不使用softmax因为我们发现它表现并不好,我们用各类别独立的逻辑回归。在训练过程中,每个类别单独用二分类交叉熵损失函数来训练。
这种方式帮助我们在更加复杂的任务领域,例如谷歌的Open Image数据集,在这个数据集中,一个预测框可以同时存在多个标签(例如同时存在女性和人这两个标签)。但是softmax会有假设各个类别的标签是互斥的,使用多标签的方式能够更好的给数据建模
解析:每个预测框的每个类别可以逐一的用逻辑回归输出二分类概率,可以有多个类别输出高概率
原文:
yolov3在3个尺度上进行预测。我们的系统受到feature pyramid networks(FPN特征金字塔)的启发,从特征提取的骨干网络可以延伸出三条路,即不同尺度的特征分别加不同尺度的卷积层,每一个尺度获得一个三维的feature map,每一个feature map都有255个通道。在我们yolov3的实验中用的是COCO数据集,有80个类别,每一个尺度的grid cell都产生3个anchor,每一个尺度的输出结果都是N×N×[3×(4+1+80)],此输出结果经过sigmod等函数进行处理后作为4个坐标偏移量
三条路:即输入任意尺度的三通道(RGB)的图像,经过yolov3之后,输出三种不同尺度的feature map(特征图)
255个通道:每一个grid cell有三个anchor(预测框),每一个anchor有80+5=85个值,3×85=255,所以一个feature map有255个通道
N×N×[3×(4+1+80)]:
N×N:该尺度下的grid cell个数
3:每一个grid cell生成3个anchor(预测框)
4:中心点坐标、宽、高
1:置信度
80:80个类别的条件类别概率