【5】目标检测之YOLO v2

这里写目录标题

  • 相较于YOLOv1的改进
    • Batch Normalization 批标准化
    • High Resolution Classifier 高分辨率的分类器
    • Dimension Clusters 维度聚类
    • Convolutional With Anchor Boxes 使用Anchor Box机制来预测Bounding Box
    • Direct Location Prediction 直接位置预测
    • Fine-Grained Features 细粒度特征
    • Multi-Scale Training 多尺度训练
  • 网络结构
  • 知识点
    • PassThrough Layer

相较于YOLOv1的改进

Batch Normalization 批标准化

在每个卷积层上添加BN,加速了模型的收敛,实现了正则化,mAP也有所提升。

High Resolution Classifier 高分辨率的分类器

通过增加输入尺寸,mAP有所提升。

Dimension Clusters 维度聚类

使用K-Means算法生成生成先验框priors,即Anchor Box。

Convolutional With Anchor Boxes 使用Anchor Box机制来预测Bounding Box

不再直接预测Bounding Box的坐标,而是预测priors(Anchor Box)的偏移值与置信度,mAP有所提升。
【5】目标检测之YOLO v2_第1张图片

Direct Location Prediction 直接位置预测

对预测的先验框的偏移值进行约束,将预测的Bounding Box的中心限制在grid cell中,增加了模型训练的稳定性。

Fine-Grained Features 细粒度特征

使用Passthrough layer将浅层特征图连接到深层特征图,进行特征融合,有助于检测小目标
【5】目标检测之YOLO v2_第2张图片

Multi-Scale Training 多尺度训练

yolov1网络使用固定的448 * 448的图片作为输入,在加入anchor boxes后,yolov2的输入变成了416 * 416。由于yolov2只用到了卷积层和池化层,那么就可以进行动态调整(意思是可检测任意大小图片)。作者希望YOLOv2具有不同尺寸图片的鲁棒性,因此在训练的时候也考虑了这一点。

不同于固定输入网络的图片尺寸的方法,作者在几次迭代后就会微调网络。每经过10次训练(10 epoch),就会随机选择新的图片尺寸。YOLO网络使用的降采样参数为32,那么就使用32的倍数进行尺度池化{320,352,…,608},最终最小的尺寸为320 * 320,最大的尺寸为608 * 608,接着按照输入尺寸调整网络进行训练。这种机制使得网络可以更好地预测不同尺寸的图片,意味着同一个网络可以进行不同分辨率的检测任务,在小尺寸图片上YOLOv2运行更快,在速度和精度上达到了平衡。

原文链接:https://blog.csdn.net/weixin_40227656/article/details/116018040

网络结构

骨干网络为Darknet19,最后的输出为1313125,125表示预测5个Bounding Box,每个Bounding Box有(x,y,w,h,c)和20个类别。
【5】目标检测之YOLO v2_第3张图片

知识点

PassThrough Layer

【5】目标检测之YOLO v2_第4张图片

你可能感兴趣的:(目标检测,深度学习,深度学习)