Yolov1--v3目标检测解读

Yolo v1
YOLO把目标检测设计成一个回归问题,使用一个神经网络直接在整张图上预测bounding box和类别概率。因为整个检测的流水线是单独的网络,所以可以端到端地优化。YOLO可以实时处理图像,达到45帧每秒

检测原理

Yolov1--v3目标检测解读_第1张图片
1.将图像resize到448 * 448作为神经网络的输入。
2.运行神经网络,得到一些bounding box坐标、box中包含物体的置信度和class probabilities。
3.进行非极大值抑制,筛选Boxes。
扩展:
非极大值抑制(Non-maximum suppression,NMS)是一种去除非极大值的算法,常用于计算机视觉中的边缘检测、物体识别等。
算法流程:
给出一张图片和上面许多物体检测的候选框(即每个框可能都代表某种物体),但是这些框很可能有互相重叠的部分,我们要做的就是只保留最优的框。假设有N个框,每个框被分类器计算得到的分数为Si, 1<=i<=N。
a. 建造一个存放待处理候选框的集合H,初始化为包含全部N个框;建造一个存放最优框的集合M,初始化为空集。
b. 将所有集合 H 中的框进行排序,选出分数最高的框 m,从集合 H 移到集合 M
c. 遍历集合 H 中的框,分别与框 m 计算交并比(Interection-over-union,IoU),如果高于某个阈值(一般为0~0.5),则认为此框与 m 重叠,将此框从集合 H 中去除。
d. 回到第1步进行迭代,直到集合 H 为空。集合 M 中的框为我们所需。
需要优化的参数:
IoU 的阈值是一个可优化的参数,一般范围为0~0.5,可以使用交叉验证来选择最优的参数。
示例:
比如人脸识别的一个例子:
Yolov1--v3目标检测解读_第2张图片
已经识别出了 5 个候选框,但是我们只需要最后保留两个人脸。
首先选出分数最大的框(0.98),然后遍历剩余框,计算 IoU,会发现露丝脸上的两个绿框都和 0.98 的框重叠率很大,都要去除。
然后只剩下杰克脸上两个框,选出最大框(0.81),然后遍历剩余框(只剩下0.67这一个了),发现0.67这个框与 0.81 的 IoU 也很大,去除。
至此所有框处理完毕,算法结果
Yolov1--v3目标检测解读_第3张图片
•本文中NMS:针对某一类别,选择得分最大的bounding box,然后计算它和其它bounding box的IOU值,如果IOU大于0.5,说明重复率较大,该得分设为0,如果不大于0.5,则不改;这样一轮后,再选择剩下的score里面最大的那个bounding box,然后计算该bounding box和其它bounding box的IOU,重复以上过程直到最后。
•它在整图上进行训练并且直接优化,具有以下三个好处:
1)非常快。把检测问题建模成一个回归问题就无需复杂的pipeline。每秒45帧(更快的版本每秒150帧)。
2)YOLO在预测时可以推理整张图片。也就是说,它能够在训练和预测阶段看到整幅图的信息,即包含类别及其外观的语义信息。这是个滑动窗方法不一样的地方。Fast RCNN会把背景误判为目标因为他不能看到大的场景信息。YOLO的background error比Fast RCNN少了一半。
3)YOLO能够学习到目标更加泛化的特征。当它被应用到新的场景或者输入不寻常的图像时,性能不会下降得很厉害
Yolov1--v3目标检测解读_第4张图片
首先,把输入图片分为S×S个格子,如果目标的中心落入到一个网格内,则这个网格负责检测该目标。每个网格预测出B个bounding boxes和分数,分数反映了这个box包含一个模型的置信度和这个模型预测的准确性。定义置信度为:
在这里插入图片描述
Pr(Object),当边界框包含目标时,为1,不包含目标时,为0.如果那个网格不包含这个目标,则置信度为0,如果包含,则置信度为预测的box和ground truth之间的IOU。
每个bounding box包含5个预测:x,y,w,h和confidence。(x,y)是box的中心相对于网格的坐标。注意,(x,y)是相对于每个单元格左上角坐标点的偏移值,单位是相对于单元格的大小。而边界框的宽高也是相对于整张图片的宽高的比例,这四个值的大小应该都在0-1之间。
每个网格也预测了C个条件类别概率,Pr(Classi|Object) .一个网格不论有多少个Bboxes,都只预测一组条件类别概率。
公式:在这里插入图片描述
计算每个box的特定类别的分数:该类别出现在这个box内的概率,以及这个box和目标的匹配程度。

网路设计

Yolov1--v3目标检测解读_第5张图片
网络的初始卷积层从图像中提取特征,而全连接层预测输出概率和坐标。
网络架构受到GoogLeNet图像分类模型的启发。网络有24个卷积层,后面是2个全连接层。只使用1x1降维层,然后跟着3x3的卷积层,而不是GoogLeNet使用的Inception模块。
在ImageNet分类任务上以一半的分辨率(224x224的输入图像)预训练卷积层,然后将分辨率加倍来进行检测。最终输出是7x7x30的预测张量。

训练

首先,在ImageNet1000类竞赛数据集上预训练前20层卷积层,然后,加了随机初始化的4层卷积层和2个全连接层。检测任务需要精细粒度的视觉信息,因此在检测的时候把网络的输入分辨率从224×224变成448×448。
为了防止过拟合,在第一个全连接层后面接了一个 ratio=0.5 的 Dropout 层。
Yolov1--v3目标检测解读_第6张图片
最后一层预测类别概率和bound ing box的坐标。
在最后一层使用一个线性激活函数,其他层都使用leaky rectified线性激活函数:
在这里插入图片描述

损失函数

Yolov1--v3目标检测解读_第7张图片
第一项是边界框的中心坐标误差,指的是第i个单元格存在目标,且该网格中的第j个边界框负责预测该目标。 第二项是边界框的宽高误差项。 第三项是包含目标的边界框的置信度误差项。 第四项是不包含边界框的置信度误差项。 最后一项是包含目标的单元格的分类误差项,指的是第i个单元格存在目标。
yolo v2改进
Batch Normalization
去掉了Dropout,在每个卷积层后面加了BN层,模型收敛速度有了很大提升,且不会过拟合。
-效果:mAP提升了2%
High Resolution Classifier
预训练尺寸从224224提高到448448
–效果:mAP提升了4%.
Convolutional With Anchor Boxes
YOLO直接使用卷积网络顶层的全连接层直接预测bounding box的坐标。
YOLOv2中,移除了全连接层并且使用anchor box来预测边界框。
首先,去掉了一个池化层来使得网络卷积层的输出具有更高的分辨率。
其次,调整网络输入为416×416,使得最后的feature map的宽高都为奇数,这样就只会产生一个center cell。原因是:大的物体一般都会占据图像的中心,这样在预测时就可以只使用中心cell,而不用周围的四个cell来预测,提高了效率。使用卷积层降采样,factor为32,这样最终得到(13×13)的输出特征图。
另外,使用anchor box之后,可以解耦类别预测和空间定位,由anchor box同时预测类别和坐标。
Dimension Cluster
由于使用anchor时,需要手动选择box的维度(个数,宽,高),因此设想能否一开始就选择了更好的、更有代表性的先验boxes维度,那么网络就应该更容易学到准确的预测位置。
使用统计学习中的K-means聚类方法,通过对数据集中的ground truth box做聚类,找到ground truth box的统计规律。以聚类个数k为anchor boxs个数,以k个聚类中心box的宽高维度为anchor box的维度。
传统的K-means聚类方法使用的是欧氏距离函数,也就意味着较大的框会比较小的框产生更多的误差,聚类结果可能会偏离。为此,作者采用IOU得分作为评价标准,这样的话,误差就和框的尺度无关了。
–公式:
d(box,centroid)=1−IOU(box,centroid)
未完待续

你可能感兴趣的:(深度学习,ObjectDetection)