YOLOv3基本原理

由于是从Word文档直接复制过来,其中格式如果乱码或者不通顺,请评论区告知我

YOLOv3基本原理

参考链接:https://zhuanlan.zhihu.com/p/76802514

一、网络结构

YOLOv3基本原理_第1张图片
1、backbone:Darknet-53
backbone部分由Yolov2时期的Darknet-19进化至Darknet-53,加深了网络层数,引入了Resnet中的跨层加和操作。
YOLOv3基本原理_第2张图片
2、Darknet-53与其他网络的对比:
YOLOv3基本原理_第3张图片
Darknet-53处理速度每秒78张图,比Darknet-19慢不少,但是比同精度的ResNet快很多。Yolov3依然保持了高性能。
(这里解释一下Top1和Top5:模型在ImageNet数据集上进行推理,按照置信度排序总共生成5个标签。按照第一个标签预测计算正确率,即为Top1正确率;前五个标签中只要有一个是正确的标签,则视为正确预测,称为Top5正确率)

3、Yolov3网络结构全貌
Yolov3使用Darknet-53作为整个网络的分类骨干部分。在Yolov3论文中并未给出全部网络结构。根据代码,整理数据流图如下(参考多份Yolov3代码,正确性可以保证):
YOLOv3基本原理_第4张图片
4、网络结构解析:
YOLOv3基本原理_第5张图片

二、训练

1、输出编码
Yolov3中摒弃了之前的softmax,而是直接用逻辑回归对每个类别进行独立二分类判定,用交叉熵计算损失。作者提到,使用独立的逻辑回归代替softmax,可以适配具有重叠标签的数据集。1维Anchor Box置信度,同样使用逻辑回归作为激活函数,用交叉熵作为损失函数。

2、损失函数
YOLOv3基本原理_第6张图片YOLOv3基本原理_第7张图片
3、精度与性能
YOLOv3基本原理_第8张图片
YOLOv3基本原理_第9张图片结论:Yolov3精度与SSD相比略有小优,与Faster R-CNN相比略有逊色,几乎持平,比RetinaNet差。但是速度是SSD、RetinaNet、Faster R-CNN至少2倍以上。输入尺寸为320*320的Yolov3,单张图片处理仅需22ms,简化后的Yolov3 tiny可以更快。

三、先验框(anchor)和预测框

在YOLOv2中,作者用最后一层feature map的相对大小来定义anchor大小。也就是说,在YOLOv2中,最后一层feature map大小为13X13,相对的anchor大小范围就在(0x0,13x13],如果一个anchor大小是9x9,那么其在原图上的实际大小是288x288.
而在YOLOv3中,作者又改用相对于原图的大小来定义anchor,anchor的大小为(0*0,input_w * input_h]。

你可能感兴趣的:(目标检测学习)