You Only Look Once: Unified, Real-Time Object Detection(YOLOv1)论文学习笔记

摘要:

  • 提出了YOLO,将目标检测归为了回归问题,可以在完整图像中进行预测框和类别概率的计算,YOLO是一个端到端的预测框架
  • 非常快,可以达到45fps,而对于更小的版本,Fast YOLO,可以达到155fps,且依旧保持较高的mAP
  • 相比其他预测框架,YOLO可能会预测较多错误的预测框,但很少会有假阳性的出现
  • 总体上要比其他预测框架要好,比如DPM,R-CNN等

介绍:

  • 为了检测目标,一些检测器在图像的不同位置和尺度上进行检测和分类,DPM(Deformable parts models)则是采用了滑动窗口的思路进行搜索。R-CNN使用候选框方法来生成潜在的bbox,然后分类,NMS后处理。这很复杂,因为每个阶段都要单独训练,而且很慢。
  • YOLO作为单回归问题,直接从像素到bbox和类别进行预测,你只需要看一次图像就知道哪有啥物体。YOLO的模型如下图所示,首先图像进行resize到448x448,然后进行conv的特征提取并得到bbox和分类,最后进行NMS。
    You Only Look Once: Unified, Real-Time Object Detection(YOLOv1)论文学习笔记_第1张图片
    YOLO有几大优势:一是非常快,毕竟是端到端;二是全局推理和预测,相比滑动窗口和基于候选框的方法,有一定的上下文信息推断,因此相比Fast R-CNN,YOLO对背景错误的预测更少。 第三是YOLO学习对象的可概括表示。
  • YOLO的精度要比其他SOTA框架差一些。

YOLO:

  • YOLO是端到端的实时的检测网络框架,对图像进行全局的特征提取并获得候选框(box)和分类

  • YOLO网络将图像划分成为SxS的网格,如果物体落入网格中的某个格子,那么这个格子就负责预测这个物体。同时,这个格子将预测B个box以及对应的置信度,这些置信度分数反映了box是否包含物体,以及它认为box预测是物体的准确性,置信度如下图,如果没有物体,那么置信度值为0。IOU表示gt的box与预测的box的交集。
    在这里插入图片描述

  • 每个box由5个预测组成:x、y、w、h置信度。 **(x,y)**坐标表示box的中心(相对于网格单元的边界)。w、h是相对于整个图像的,预测的宽高结果值。置信度就是gt的box与预测的box的交集。

  • 同时,每个网格还预测C个类别的条件概率,这些概率取决于包含物体的网格。不管预测的box有多少,在网格中,只预测一个物体分类概率的结果。在测试的时候,我们把类别条件概率和每个框的预测的置信度值相乘,化简得到下面这个公式。公式的结果是每个box的特定类别的概率。这些分数体现了该类出现在框中的概率以及预测框拟合目标的程度。
    在这里插入图片描述

  • 如图所示,论文将预测SxSx(B*5+C)的tensor值,SxS表示网格数,B表示每个网格有B个预测框,5就是1个置信度和4个坐标值。论文的S设置为7,B设置为2
    You Only Look Once: Unified, Real-Time Object Detection(YOLOv1)论文学习笔记_第2张图片

  • 网络结果如下图,参考GoogLeNet,有24个卷积层和2个全连接层,没有用到inception结构,而是用1x1卷积接3x3卷积,1x1卷积用于降维。 Fast YOLO使用的神经网络具有较少的卷积层(9而不是24)和较少的滤波器在这些层。 除了网络的大小,所有的训练和测试参数在YOLO和Fast YOLO都是一样的,最终的输出是7x7x30,对应上述的SxSx(B*5+C)
    You Only Look Once: Unified, Real-Time Object Detection(YOLOv1)论文学习笔记_第3张图片

  • 训练。前20层用的ImageNet的预训练参数,后加入4个卷积网络和2个全连接以便提高精度,随机权重初始化,同时输入设置为448x448x3,增大细粒度。除了最后一层用线性激活函数,其他用的leakyReLU激活函数

  • 损失函数如下图所示,1表示网格对应的bbox中是否有物体;坐标预测是(x,y,w,h),含目标的和不含目标的预测分别下了损失;类别预测的1表示网格中是否有物体。有个问题是,坐标预测与不含object的box置信度预测两者的偏重肯定不能相同,坐标的预测要优先一些,因此设置λcoordλnoobj分别为5和0.5。注意,只有网格中有物体进行预测;只有当某个box predictor对某个ground truth box负责的时候,才会对box的coordinate error进行惩罚,而用哪个box就看其预测值和ground truth box的IoU最大的那个。

You Only Look Once: Unified, Real-Time Object Detection(YOLOv1)论文学习笔记_第4张图片
You Only Look Once: Unified, Real-Time Object Detection(YOLOv1)论文学习笔记_第5张图片
(图源网络)

论文链接:https://arxiv.org/abs/1506.02640

你可能感兴趣的:(论文学习总结,目标检测)