阅读目标检测综述论文

阅读论文Imbalance Problems in Object Detection: A Review

一、目标检测整体模型框架介绍(针对Anchor-based)

阅读目标检测综述论文_第1张图片
上图为anchor-based的单阶段方法,主要分为三个部分:

  • 将输入的图片送入特征提取网络,一般为深度卷积神经网络。
  • 产生一个针对目标假设的稠密集合,即Anchors;之后通过将它们和真实值检测框进行匹配和采样(图中蓝色和黑色的groundtruth框,以下简称GT),得到一系列正样本框(绿色框Positive Bounding Boxes,以下简称BB)和负样本框(红色框Negative Bounding Boxes)。
  • 最后,带标签的anchors(也即BB)和相对应的特征(即Feature Extraction网络的输出)共同送入分类和回归网络进行训练。

  单阶段基于anchor的方法,包括SSD及其变体、YOLO及其变体、以及RetinaNet等,它们直接对anchors和GT进行匹配来输出预测结果。而两阶段的方法,在对输入的图像提取特征之后,还需要经过region proposals进一步缩小采样空间。在上图中,两阶段方法的差异主要表现在Anchor/RoI set之后首先利用其他的网络(例如RPN网络等)对object proposals进行提取。
  在Detection部分的Classification分类损失主要使用cross-entropy loss交叉熵损失函数,Regression回归损失主要包括Smooth L1 loss和IoU loss等。所以单阶段的方法总共有2大类损失函数,它们之间相互制约平衡。基于Anchors的两阶段方法与单阶段方法相比,增加了一个额外的用于region proposals的网络,所以总共有4大类损失函数,包括2个分类损失函数和2个回归损失函数。

二、四大不平衡问题及解决方法

2.1 四大不平衡问题

阅读目标检测综述论文_第2张图片

2.2 解决方法

阅读目标检测综述论文_第3张图片

三、Imbalance1:Class Imbalance

主要分为foreground-background问题和foreground-foreground问题。

3.1 foreground-background问题

  前景BBs和背景BBs在数量上不平衡。使用Sampling方法进行解决。
阅读目标检测综述论文_第4张图片

3.2 foreground-foreground问题

  最有代表性的是“long tail problem”长尾问题,即少量类别占据绝大多数样本,大量类别占据少量样本。作图分布会呈现“长尾状”。

四、Imbalance 2:Scale Imbalance

  该问题主要针对模型框架的特征金字塔部分。
阅读目标检测综述论文_第5张图片

四、Imbalance 3:Spatial Imbalance

  主要包括regression loss Imbalance、IoU Distribution Imbalance和Object Location Imbalance三类。
阅读目标检测综述论文_第6张图片
  关于overlapping BBs
阅读目标检测综述论文_第7张图片
This imbalance may affect the performance for two reasons:
(i) The number of highly sampled regions willplay more role in the final loss functions, which can lead the method to overfit for specific features.
(ii) The fact that some regions are over-sampled and some are undersampled might have adverse effects on learning, as the size of sample (i.e. batch size) is known to be related to the optimal learning rate [134].

五、Imbalance 4:Objective Imbalance

   主要针对多任务问题中的多损失函数不平衡问题。

你可能感兴趣的:(论文阅读笔记,目标检测,深度学习,计算机视觉)