现有的目标检测器主要分为两种类型:两阶段(two-stage)和单阶段(one-stage)。这两种检测器的设计思想有很大的不同:两阶段检测器主要将检测问题归结为分类问题(classification),而单阶段检测器主要是将检测问题定义为回归问题(regression)。不仅如此,两种检测器在时间、性能上也有一定的差距。接下来我将会沿着单阶段的主线,根据时间顺序,进一步了解单阶段检测器的发展。
YOLO -> DenseBox -> SSD -> YOLO v2 -> Retina -> YOLO v3 -> CornerNet -> CenterNet -> AlignDet
论文地址:1506.02640
【从摘要(Abstract)和介绍(Introduction)】
YOLO 使用全图特征去预测检测框(bounding boxes)及其类别(classes)。与两阶段检测器的区域提议(region proposals)不同的是,YOLO不预先产生可能包含目标(objects)的区域(proposals),而是将一张图片分割成S x S的网格(grid),每个网格单元(cell)都可能包含目标,换句话说,这些网格单元便是YOLO给出的可能包含目标的区域。对于每个网格单元,如果目标的中心(center)落在其中,该网格便负责对该目标进行检测。
每个网格单元负责预测B个候选框及其对应的B个置信度(confidence scores), 此处置信度指网格单元包含目标及检测框预测准确的置信度(原文链接1),定义为 P r ( O b j e c t ) ∗ I O U p r e d t r u t h Pr(Object)*IOU_{pred}^{truth} Pr(Object)∗IOUpredtruth。
当预测的检测框(predicted boxes)中包含目标时, P r ( O b j e c t ) = 1 Pr(Object)=1 Pr(Object)=1,即置信度等于预测检测框与真实标注GT(ground truth)之间的IOU(intersection over union);当预测的检测框中不包含目标时, P r ( O b j e c t ) = 0 Pr(Object)=0 Pr(Object)=0,即置信度为0.
原文链接1: These confidence scores reflect how confident the model is that the box contains an object and also how accurate it thinks the box is that it predicts.
每个检测框包含五个预测值: x , y , w , h , c o n f i d e n c e x, y, w, h, confidence x,y,w,h,confidence。其中 ( x , y ) (x, y) (x,y)是该检测框与负责它的网格单元边界的相对坐标(relative coordinates / offset), w , h w, h w,h是该检测框与原图长宽的相对值,即 x , y , w , h x,y,w,h x,y,w,h都是在(0, 1)。 c o n f i d e n c e confidence confidence是上文提到的置信度。
每个网格单元除了预测B个候选框,还预测C个类别条件概率(conditional class probabilities),定义为 P r ( C l a s s i ∣ O b j e c t ) Pr(Class_i|Object) Pr(Classi∣Object)。需要注意的是,虽然每个网格单元预测B个候选框,但是只预测一组C个类别的条件概率。
在测试阶段,通过将类别条件概率与检测框预测的置信度进行乘积可以得到每个检测框的类别置信度(class-specific confidence scires),此处的置信度指该预测是该类及检测框合适的置信度(原文链接2)
原文链接2: These scores encode both the probability of that class appearing in the box and how well the predicted box fits the object.
在PASCAL VOC数据集上,作者设置S = 7, B = 2,C = 20,所以最后YOLO输出的预测结果是 7x7x(2x5+20) = 7x7x30。
论文中提出了两种版本:YOLO (45 FPS)与 Fast YOLO (155 FPS)
作者对模型的训练模式:预训练(pretrain) + 微调(finetune)
原文链接3: Ren etal. show that adding both convolutional and connected layers to pretrained networks can improve performance.
因为目标检测任务需要更细粒度 (fine-grained)的视觉信息,所以作者将输入的图片尺寸从 224x224 增加到448x448。
对于激活函数(activation),YOLO最后一层(final layer)使用的是线性激活函数,其他层使用的是Leaky ReLU(leaky rectified linear activation)
ϕ ( x ) = { x , if x > 0 0.1 x , otherwise \phi(x)=\left\{\begin{array}{ll} {x,} & {\text { if } x>0} \\ {0.1 x,} & {\text { otherwise }} \end{array}\right. ϕ(x)={x,0.1x, if x>0 otherwise
对于损失函数(loss fucntion),YOLO使用易于优化的平方和误差(sum square error, SSE)。不过需要考虑的是:
原文链接4: Also, in every image many grid cells do not contain any object. This pushes the “confidence” scores of those cells towards zero, often overpowering the gradient from cell that do contain objects. This can lead to model instability, causing training to diverge early on.
原文链接5: Our error metric should reflect that small deviations in large boxes matter less than in small boxes. To partially address this we predict the square root of the bounding box width and height instead of the width and height directly.
作者通过引入两个参数来解决优化时遇到的前两个问题: λ c o o r d = 5 , λ n o o b j = 0.5 \lambda_{coord}=5,\lambda_{noobj}=0.5 λcoord=5,λnoobj=0.5,通过预测检测框长宽的平方根来进一步减少第三个问题对模型训练的影响 (partially address),即并没完全解决这个问题。
回到训练时预测的检测框,YOLO规定每个网格单元产生的B个检测框中与标注(GT)之间的IOU最大的检测框,将负责该目标的检测。这样做的好处是可以使得检测框的预测更加专业(specialization),能够更好的预测特定大小(size),特定纵横比(aspect ratio),特定类别(class)的目标,从而提升召回率(原文链接6)。
原文链接6: We assign one predictor to be responsible for each object. We assign one predictor to be “responsible” for predicting an object based on which prediction has the highest current IOU with the ground truth. This leads to specialization between the bounding box predictors. Each predictor gets better at predicting certain sizes, aspect ratio, or classes of objects, improving overall recall.
在Pascal VOC上,YOLO对于一张图片预测98 (7x7x2) 个检测框,并为每个检测框产生一组类别概率 (训练中是给每个网格单元生成一组类别概率而不是为每个检测框产生一组)
对于一些大目标(large objects)或者靠近(near)多个网格单元边界(border)的目标会被多个网格单元定位(localize),从而产生重叠的检测(multiple detections)。作者采用非极大值抑制(Non-maximal supression, NMS)的方法去解决这个问题,可以提升(adds) 2~3% mAP。
YOLO是当时实时检测器中性能最好的,甚至Fast YOLO的性能是其他实时检测器的两倍。但是与两阶段检测器相比,还是有些许性能的差距。
论文中定义了五类错误:
Correct: correct class && IOU >.5
Localization: correct class && .1 < IOU < .5
Similar: class is similar, IOU > .1
Other: class is wrong, IOU > .1
Background: IOU < .1 for any object
从下图不难发现,YOLO在定位上(localization)上逊色于Fast R-CNN,但在假阳性(False Positive,FP)样本上的错误更少,这意味着YOLO将背景类识别成目标的比例要低于Fast R-CNN。
从上文的VOC 2007 错误分析,不难发现Fast R-CNN与YOLO可以进行优势互补。分别训练两个模型进行预测,对于二者预测相似的检测框,根据YOLO给出的概率(probability)和两个检测框的交叠(overlap)对预测进行改进(boost)。也就是将两个模型的结果进行融合(combination),在速度上并没有什么增益。
艺术作品(artwork)与自然图片(natural image)在像素层面上(pixel level)上有很大的不同,但在目标的大小(size)和形状(shape)方面相似,这也是YOLO为何能做出预测的可能解释。
YOLO是非常经典的单阶段检测器,首先它采用回归思想实现端到端训练的目标检测器,大大减少了模型的训练时间;其次,通过全图的特征去预测检测框和类别,而不去产生区域提议,大大提升了模型的检测速度。
下面推荐一篇解析YOLO不错的文章:
目标检测|YOLO原理与实现