YOLOV1(You Only Look Once: Unified, Real-Time Object Detection)论文总结

YOLOV1(You Only Look Once: Unified, Real-Time Object Detection)论文总结

YOLOV1论文和PPT下载链接

链接:https://download.csdn.net/download/qq_22290797/87392586

论文摘要

我们介绍一种新的物体检测方法YOLO。与先前的物体检测方法是重新设置分类器来执行检测不同,我们将物体检测方法看做一个回归问题,去预测空间分离的边界框和相关类别概率。单个神经网络从整个图片中一次性预测边界框和类别概率。由于整个检测流程是一个单一网络,所以可以进行端到端的直接对检测性能进行优化。
  我们的这种单一网络结构体系速度非常快。我们的基本YOLO模型实时处理图像速度为每秒45帧。较小的YOLO模型版本,Fast YOLO可以实现每秒155帧的实时检测速度,同时实现mAP是其他物体检测网络的两倍左右。与当前最先进的物体检测方法相比,YOLO会出现较多的定位误差,但是从背景中检测出假阳性目标较少。最后,YOLO可以学习物体非常抽象的特征,所以在自然图像之外的其他检测领域比如艺术品的检测中,YOLO优于包括DPM和R-CNN在内的其他检测方法。

主要创新内容

1、DPM 使用sliding window(滑动窗口)方法执行物体检测。DPM使用不相交的管道来提取静态特征,对区域分类,预测高分边界框等。YOLOV1的系统用单个卷积神经网络取代了以上各个部分;
2、将候选边界框和目标类别预测整合到一起,不同于R-CNN和其变形体,R-CNN采用选择性搜索来产生潜在边界框、卷积网络提取特征、SVM给边界框打分、线性模型调整边界框、非极大抑制来消除重复边界框;
3、将目标检测的各个分离的组件组合成一个完整的神经网络(通过卷积神经网络进行特征提取、最后通过全连接层进行分类),将目标检测由分类问题转换为回归问题。

YOLOV1(You Only Look Once: Unified, Real-Time Object Detection)论文总结_第1张图片

YOLOV1(You Only Look Once: Unified, Real-Time Object Detection)论文总结_第2张图片
YOLOV1(You Only Look Once: Unified, Real-Time Object Detection)论文总结_第3张图片

主要效果

1、整体的检测率没有 Fast R-CNN高,在VOC 2007的检测数据集上,YOLOV1的检测率为69,Fast R-CNN的mAP为70;
2、在背景误检率上低,YOLOV1的背景误检率4.75%,Fast R-CNN的背景误检率为13.6%;
3、YOLOV1充分考虑了上下文信息,在艺术品等检测上,表现效果较好;
4、YOLOV1的速度快,Fast YOLOV1为当时最快的目标检测网络模型;

YOLOV1(You Only Look Once: Unified, Real-Time Object Detection)论文总结_第4张图片

网络模型的设计

YOLOV1的模型将检测当做一个回归问题,网络将输入图像划分成 S ×S个网格,每个网格预测B个边界框,B个confidence,类别C的条件概率。最后的预测结果为SS(B5+C),
  在PASCAL VOC数据集上评估YOLO,S = 7,B = 2,C = 20(因为PASCAL VOC数据集中有20个标记类) ,我们的最终预测结果是7 × 7 × 30(2
(x,y,w,h,有误目标概率*IOU)+类别(20个))张量。

YOLOV1(You Only Look Once: Unified, Real-Time Object Detection)论文总结_第5张图片

YOLOV1的检测网络包含24个卷积层和2个全连接层,交替使用1×1卷积层降低前一层的特征空间。我们使用一半分辨率(224×224输入图像)的输入在ImageNet图像分类任务中预训练卷积层,然后在检测时将输入图像大小恢复。

YOLOV1(You Only Look Once: Unified, Real-Time Object Detection)论文总结_第6张图片

损失函数的设计

1、为了抵消大部分区域没有目标的影响,引入有目标和无目标的参数控制;
2、为了抵消大目标和小目标区域面积的影响,采用平方根的方式;

YOLOV1(You Only Look Once: Unified, Real-Time Object Detection)论文总结_第7张图片

你可能感兴趣的:(深度学习,目标检测,计算机视觉,深度学习)