目标检测论文精读(1)- YOLOv1

YOLOv1阅读重点

  • Introduction
    • The YOLO Detection System
    • The Model
    • The architecture
    • Loss function
  • Innovation
  • Results
    • Real-Time Systems on Pascal VOC 2007
    • Error analysis
    • Generalization results on Picasso and People-Art datasets

YOLO v1原论文地址 https://arxiv.org/pdf/1506.02640.pdf

Introduction

目标检测论文精读(1)- YOLOv1_第1张图片
YOLOv1之前的目标检测算法基本都是通过重用分类器实现目标检测的,但是YOLOv1把目标检测看作一个单一的回归问题,从空间上分割边界框、预测有关的类别概率。

The YOLO Detection System

目标检测论文精读(1)- YOLOv1_第2张图片
YOLOv1的检测流程如上图所示,先输入一张图片,(1)然后将该图片裁剪成448*448,(2)再在这张图片运行单个卷积神经网络,(3)最后再根据求得的模型置信度对检测结果进行阈值处理。

The Model

目标检测论文精读(1)- YOLOv1_第3张图片
模型如上图所示,把裁剪后的图片划分成S*S的网格,每个网格预测B个边界框以及每个边界框的置信度,然后每个网格还得预测C个类别概率,所以最后预测到的目标标签是一个S * S * (B * 5 + C)的tensor,这里的5就是对应下图这5个数据(x,y:边界框中心点坐标;w,h:边界框宽度和高度;c:置信度)。
边界框置信度:如果边界框中没有目标,则置信度为0;否则,计算预测框与真实框交集与并集的并集.
目标检测论文精读(1)- YOLOv1_第4张图片

The architecture

目标检测论文精读(1)- YOLOv1_第5张图片
YOLOv1的网络结构如上图所示,有24个卷积层和2个全连接层,最后结果是7×7*30的维度,7*7就是网格的划分,论文里B=2,Pascal VOC有20个类别,所以30=(2*5+20)。

Loss function

目标检测论文精读(1)- YOLOv1_第6张图片
YOLOv1的损失函数由定位预测损失,置信度预测损失,类别预测损失构成。
解释:
(1)对定位预测损失中的w和h进行开根号处理,是为了强化小目标的损失。
(2)又因为实际情况往往是大多数网格并不包含目标,为了平衡这一点引入了2个参数λcoord(=5)和    λnoobj(=0.5)。

Innovation

目标检测论文精读(1)- YOLOv1_第7张图片
(1)首先YOLOv1非常快,输入一张新的图片,在基础网络上能达到45帧每秒,快速版本则达到了150帧每秒,而且,它的精度达到了之前其它实时系统的2倍多。
目标检测论文精读(1)- YOLOv1_第8张图片
(2)其次YOLOv1预测是在整张图片上进行全局的推理,也就隐式地编码了上下文信息,所以它的背景误检率也要小很多。
在这里插入图片描述
(3)第三点就是YOLOv1学习的是目标的泛化表示,所以它检测艺术品等时表现较好。

Results

Real-Time Systems on Pascal VOC 2007

目标检测论文精读(1)- YOLOv1_第9张图片
FPS<30的就视为Less Than Real-Time系统,YOLOv1在实时系统中精度大幅提升,速度也有所提升。

Error analysis

目标检测论文精读(1)- YOLOv1_第10张图片
与Fast R-CNN相比,YOLOv1的背景误检率要小了一大半,但是它的定位错误率也比Fast R-CNN高了很多。

Generalization results on Picasso and People-Art datasets

目标检测论文精读(1)- YOLOv1_第11张图片
上图是YOLOv1在检测艺术品时的表现,通过图b可以看出YOLOv1在VOC 2007上的精度虽然比别的算法稍好一些,但是在Picasso和People-Art这种艺术品数据集上的精度明显领先于其它的算法。

注:本页面绝大多数图片来自原论文,小部分图片来自网络博客,引用本博文请注明出处。

你可能感兴趣的:(目标检测论文精读,YOLOv1,目标检测,object,detection,YOLO,目标检测论文)