目标检测->YOLO V1

YOLO v1是One-stage工作的开山之作。YOLO: You Only Look Once.  发表于CVPR2016

1、主要思想:

1)将一副图像分成S*S的网格(grid cell),如果某个object的中心落在这个网格中,则这个网格就负责预测这个object。

目标检测->YOLO V1_第1张图片

2)每个网格要预测B个bounding box,每个bbox除了要预测位置之外,还要附带预测一个confidence值,且每个网格还要预测C个类别的分数。

所以输出特征图的通道数为:5B+C

其中,5是指边界框的置信度和位置参数;B是每个位置预测的bbox数量,C是类别的数量。网络的输出就是S*S*(5B+C)维的向量,与输入存在一个数学上的映射关系,而中间的yolo网络只是求这个映射关系的一种工具。

如果S=7,B=2,C=20,则每个grid cell预测向量如下图:

目标检测->YOLO V1_第2张图片

每个bbox的位置(x,y,w,h),x,y是预测物体的中心坐标。由于物体的中心落在这个网格中,则这个网格才负责预测这个物体,所以物体的中心不会超出这个网格,它们都是相对于当前网格左上角坐标的相对位移值,在0~1之间的数。

目标检测->YOLO V1_第3张图片

而w,h是物体的宽高,它有可能比网格大,所以它们是相对整个图像宽高的相对值。(YOLOV1中没有anchor的概念。在SSD和fast RCNN中的bbox都是相对anchor的位置)

因此,YOLOv1就是在每个网格上去做预测,理想情况下,包含了物体中心点的网格会有很高的置信度输出,而不包含中心点的网格的置信度输出应该十分接近0。

总的来说,YOLOv1一共有三部分输出,分别是confidence、class和bbox:

confidence就是框的置信度,用于回归该网格是否有物体,及物体和真实位置的IOU;

class就是类别预测;

bbox就是边界框(bounding box)。

置信度的计算方法:

如果物体不在当前grid cell中,置信度为0,否则置信度为物体和真实位置的IOU。

最终预测的目标概率为:

目标检测->YOLO V1_第4张图片

2、网络结构:

目标检测->YOLO V1_第5张图片

3、YOLOv1损失函数

损失函数大致分为3个部分,第一个是坐标的预测,分别是边框的x, y, w, h。第二个是物体的置信度预测,第三个是物体的类别预测,损失函数与7*7*30维的向量相对应,是求取输入与输出之间映射关系的“数学表达式”。

目标检测->YOLO V1_第6张图片

为了平衡大小目标的位置偏差对bbox损失,w和h用了开根号。

1)坐标损失函数

之所以采用根号来计算物体的长和宽,是因为根号后的大物体的长宽损失与小物体的长宽损失相近,这样整个损失函数不会被大物体所操纵。若不采用根号计算,那么大物体的损失要比小物体损失大很多,那么这个损失函数会对大物体比较准确而忽略了小物体。公式前的系数是一个超参数,因为物体检测过程中,我们所要检测的物体相对与背景来说要少的很多,所以加入这个超参数是为了平衡“非物体”对结果的影响。

目标检测->YOLO V1_第7张图片

2)置信度损失函数

这里为什么要加入“非物体”的置信度呢,是因为网络要想学习分类n个物体,那他实际要学n+1个类别,那多出的“1”是背景或者就是真实意义上的非物体,这一类是占有很大一部分比例的,所以必须要学习这一类,才能保证网络的准确性。那这里为什么要在“非物体”的置信度前边加上超参数呢?也是因为我们所检测的目标物体相对于“非物体”是很少的,如果不加入这个超参数,那么“非物体”的置信度损失就会很大,所占权重比较大,这样会导致网络只学习到了“非物体”特征,而忽略了目标物体特征。

目标检测->YOLO V1_第8张图片

3)类别损失函数

类别损失是一个很粗暴的两个类别做减法,是YOLOv1不可取的一部分,当然后续就改掉了。

目标检测->YOLO V1_第9张图片

4、存在的问题:

1)对拥挤目标检测不好:YOLOV1每个网格只能预测2个bbox,而且它们是同一个类别的,所以小目标聚集时效果不好。

2)直接预测bbox的位置,没有采用相对anchor的参数,和基于region proposal类的方法相比召回率更低

你可能感兴趣的:(人工智能,计算机视觉,目标检测)