YOLO系列概览

1.YOLO V1

采用一个24层的卷积网络加2个全连接层。

将画面分成S*S个部分,每个部分负责预测B个框,每个框有x,y,w,h,confidence(是否有目标,IOU为多少)五个预测参数。

在VOC数据集中,有20个类别。

算法中,B=2,即每个分格预测2个框。所以,最后的输出向量维度为S*S*30,30=5+5+20,最后20个参数代表属于每一个类别的概率,这个概率由预测的2个框共享。

由此,也能看出V1的一个重大缺陷:每个分格实际只可以预测一个目标,因为分类概率共享,对于目标密集的画面,预测效果不佳。

2.YOLO V2

还未学习

3.YOLO V3

采用darknet53网络,该网络是全卷积网络,没有全连接层,网络结构为几个卷积层中加入一个残差层,可以理解为卷积网络和残差网络的一种组合。

画面分成S*S个部分,每个部分负责预测B个框,每个框有x,y,w,h,confidence(是否有目标,IOU为多少)五个预测参数。

论文中,每个部分预测3个框,分类为80个类别,类别概率不共享,故输出向量维度变为:S*S*(5+80)*3=S*S*255。

最终的输出层还加入了多感受维度,类似SSD算法。

 

你可能感兴趣的:(YOLO系列概览)