Region CNN(RCNN)可以说是利用深度学习进行目标检测的开山之作。
经典的目标检测算法使用滑动窗法依次判断所有可能的区域,然后在区域中提取人工设定的特征(Haar,HOG)。RCNN则预先提取一系列较可能是物体的候选区域,之后仅在这些候选区域上利用训练好的深度网络进行特征提取。
RCNN算法分为4个步骤:
使用了Selective Search1方法从一张图像生成约2000-3000个候选区域。基本思路如下:
优先合并以下四种区域:
为尽可能不遗漏候选区域,上述操作在多个颜色空间中同时进行(RGB,HSV,Lab等)。在一个颜色空间中,使用上述四条规则的不同组合进行合并。所有颜色空间与所有规则的全部结果,在去除重复后,都作为候选区域输出。
使用深度网络提取特征之前,首先把候选区域归一化成同一尺寸227×227。
此处有一些细节可做变化:外扩的尺寸大小,形变时是否保持原比例,对框外区域直接截取还是补灰。会轻微影响性能。
网络结构
基本借鉴Hinton 2012年在Image Net上的分类网络2,略作简化3。
此网络提取的特征为4096维,之后送入一个4096->1000的全连接(fc)层进行分类。
学习率0.01。
使用ILVCR 2012的全部数据进行训练,输入一张图片,输出1000维的类别标号。
同样使用上述网络,最后一层换成4096->21的全连接网络。
学习率0.001,每一个batch包含32个正样本(属于20类)和96个背景。
使用PASCAL VOC 2007的训练集,输入一张图片,输出21维的类别标号,表示20类+背景。
考察一个候选框和当前图像上所有标定框重叠面积最大的一个。如果重叠比例大于0.5,则认为此候选框为此标定的类别;否则认为此候选框为背景。
对每一类目标,使用一个线性SVM二类分类器进行判别。输入为深度网络输出的4096维特征,输出是否属于此类。
由于负样本很多,使用hard negative mining方法。
本类的真值标定框。
考察每一个候选框,如果和本类所有标定框的重叠都小于0.3,认定其为负样本
目标检测问题的衡量标准是重叠面积:许多看似准确的检测结果,往往因为候选框不够准确,重叠面积很小。故需要一个位置精修步骤。
回归器
对每一类目标,使用一个线性脊回归器进行精修。正则项λ = 10000 \lambda=10000λ=10000。
输入为深度网络pool5层的4096维特征,输出为xy方向的缩放和平移。
训练样本
判定为本类的候选框中,和真值重叠面积大于0.6的候选框。
R-CNN 的主要性能瓶颈在于需要对每个提议区域独立的抽取特征。考虑到这些区域会有大量重叠,独立的特征抽取导致了大量的重复计算。Fast R-CNN 对 R-CNN 的一个主要改进在于首先对整个图像进行特征抽取,然后再选取提议区域,从而减少重复计算。如图:
Fast R-CNN 跟 R-CNN 的主要不同在于下面四点:
为了使得不同大小的proposal region 的CNN特征一致以便于传给后面的网络,这里采用了兴趣区域池化层。Fast R-CNN 中提出的 RoI 池化层跟我们之前介绍过的池化层有显著的不同。在池化层中,我们 通过设置池化窗口、填充和步幅来控制输出大小,而 RoI 池化层里我们直接设置每个区域的输出 大小。例如设置 n × m,那么对每一个区域我们得到 n × m 形状输出。具体来说,我们将每个区 域在高和宽上分别均匀划分 n 和 m 块,如果划分边界不是整数则定点化到最近的整数。然后对 于每一个划分区域,我们输出其最大元素值。如图:
即使有了这些进步,Faster R-CNN 中仍存在一个瓶颈问题——区域提案器(region proposer)。正如我们所知,检测目标位置的第一步是产生一系列的潜在边界框或者供测试的兴趣区域。在 Fast R-CNN,通过使用selective search创建这些提案,这是一个相当缓慢的过程,被认为是整个流程的瓶颈。
Faster R-CNN 的洞见是,区域提案取决于通过 CNN 的前向(forward pass)计算(分类的第一步)的图像特征。为什么不重复使用区域提案的相同的 CNN 结果,以取代单独运行选择性搜索算法?
这便是Faster R-CNN相对于Fast R-CNN 的最大改进,它提出了选择性搜索替换成区域提议网络(region proposal network,简称 RPN)。RPN 以锚框为起始点,通过一个小神经网络 来选择提议区域。
具体来说,RPN 里面有四个神经层。
1、卷积网络抽取的特征首先进入一个填充数为1、通道数为256的3×3卷积层,这样每个像 素得到一个 256 ⻓度的特征表示。
2、以每个像素为中心,生成多个大小和比例不同的锚框和对应的标注。每个锚框使用其中心 像素对应的 256 维特征来表示。
3、在锚框特征和标注上面训练一个两类分类器,判断其含有感兴趣物体还是只有背景。
4、对每个被判断成含有物体的锚框,进一步预测其边界框,然后进入 RoI 池化层。
锚框即对每一个“像素”(准确地说,是卷积层处理后得出的多维feature map 上的一点),生成多个大小不一,长宽比例不一的框。将这些框送给softmax层来二分判断其是背景还是物体。
解释一下上面这张图的数字。
256-d 是指输入给 rpn 的 feature map
rpn 在输入的 feature map 进一步做了一次3x3,pading=1 的卷积,同时256-d不变
若每个点上有k个anchor(默认k=9),因为每个anhcor要分foreground和background,所以每个点由256d feature转化为cls=2k scores;而每个anchor都有[x, y, w, h]对应4个偏移量,所以reg=4k coordinates
其实RPN最终就是在原图尺度上,设置了密密麻麻的候选Anchor。然后用cnn去判断哪些Anchor是里面有目标的foreground anchor,哪些是没目标的backgroud。
可以看到 RPN 通过标注来学习预测跟真实边界框更相近的提议区域,从而减小提议区域的数量,同时保证最终模型的预测精度。
为了获得像素级别的识别结果,Mask R-CNN 向 Faster R-CNN 添加一个分支来输出二进制 mask,以说明给定像素是否是目标的一部分。如上所述,分支(在上图中为白色)仅仅是 CNN 特征图上的简单的全卷积网络。以下是其输入和输出:
输入:CNN 特征图。
输出:在像素属于目标的所有位置上都有 1s 的矩阵,其他位置为 0s(这称为二进制 mask)。
注意到 RPN 输出的是实数坐标的提议区域,在输入到 RoI 池化层时我们将实数坐标定点化成整 数来确定区域中的像素。在计算过程中,我们将每个区域分割成多块然后同样定点化区域边缘到 最近的像素上。这两步定点化会使得定点化后的边缘和原始区域中定义的有数个像素的偏差,这 个对于边界框预测来说问题不大,但在像素级别的预测上则会带来麻烦。
Mask R-CNN 中提出了 RoI 对⻬层(RoI Align)。它去掉了 RoI 池化层中的定点化过程,从而使 得不管是输入的提议区域还是其分割区域的坐标均使用实数。如果边界不是整数,那么其元素值 则通过相邻像素插值而来。例如假设对于整数 x 和 y,坐标 (x, y) 上的值为 f (x, y)。对于一般的 实数坐标,我们先计算 f (x, ⌊y⌋) 和 f (x, ⌊y⌋ + 1),
然后有
1、RCNN介绍
2、Fast-RCNN、Faster-RCNN、Mask-RCNN介绍