本文首发自 CSDN
上几期我们讲过目标检测 One-Stage 的代表 YOLOv3 本来这一期是打算写 SSD(One-Stage 的另一个代表) 的,发现 SSD 其中涉及的知识是从 R-CNN(Two-Stage)来的,故此。这一期我们就来理理 R-CNN 系列的部分知识点,同样,我们会分为 理论、体验和代码实战 三期来进行讲解,今天就是理论部分。
在开始 R-CNN 系列之前,我们先引入几个概念,有助于后面的理解
作者:J. R. R. Uijlings 2012 提出的
在 Two-Stage 的目标检测中,一般是分为两个步骤,1) 先选取有可能存在目标的候选框,2) 然后对候选框进行预测,判断是否是对应的类别。所以选择性搜索干的就是第一步:选取候选框。当然候选框的选取也有很多算法,比如滑窗等,建议读者去看相应的资料。如下图,选择性搜索就是在输入图中找出可能存在目标的候选框,具体步骤如下:
首先通过将图像进行过分割得到若干等区域组成区域的集合 S,这是一个初始化的集合;然后利用颜色、纹理、尺寸和空间交叠等特征,计算区域集里每个相邻区域的相似度; 找出相似度最高的两个区域,将其合并为新集并从区域集合中删除原来的两个子集。重复以上的迭代过程,直到最开始的集合 S 为空,得到了图像的分割结果,得到候选的区域边界,也就是初始框。
下图就是上述过程的可视化,难怪有大佬会说,学目标检测,应该先学分割,哈哈哈~
RoI Pooling 全称就是 Region of Interesting Pooling,具体操作如下:
这样我们就可以从不同大小的方框得到固定大小的相应 的 feature maps。值得一提的是,输出的 feature maps 的大小不取决于 RoI 和卷积 feature maps 大小。RoI pooling 最大的好处就在于极大地提高了处理速度。 具体处理的方式如下动图所示:以左上角坐标为 (1,1) ,假设原图上的目标映射到 feature maps 是 (1, 4) ->(7, 8) 将这一块区域经过划分成不同的 section 做 max pooling 。
下面就是 R-CNN 系列的相关知识了
R-CNN 的设计流程如下:
由于特征提取存在全连接层,故要将目标区域缩放到指定大小,在论文中,使用到了两种缩放方案:
各向异性缩放:比较粗暴的方法:直接 resize 到所需大小
各向同性缩放:(1) 向外扩充至正方形 (2) 用固定的背景颜色填充
以下图检测猫为例,蓝色的框是 selective search 提取出的 region proposal 经过评分以后得到的边框,红色的框是 ground truth。当图中红色的框被分类器识别为猫,但是由于蓝色框的定位不准 (IoU<0.5),相当于没有正确检测出猫。所以为了使定位更准确,即使得 region proposal 更接近于 ground truth,我们可以对蓝色的框进行微调,微调就需要使用 bounding box regression,具体思路如下:
假设下面红色的框 P 是经过评分以后得到的某个类别的边框,蓝色的框是 ground truth ,为了使红色的框去拟合蓝色的框,我们需要找到一种映射关系,就是平移和缩放,公式如下
其中 代表偏移量,在训练的过程,我们输入的参数是 其中 是 region proposal 所对应的 pool 5 层的特征(R-CNN 使用的是 https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf 和 https://arxiv.org/abs/1409.1556 的 CNN 架构)
在测试时,根据变换关系进行转换,这里为什么宽高缩放需要进行对数变换可以看文后的考题解答
最终 R-CNN 的 mAP 是 58.5%
SPP 是空间金字塔池化层(Spatial Pyramid Pooling,SPP)的简称。
paper https://arxiv.org/pdf/1406.4729.pdf
上一节我们知道,R-CNN 有个缺陷:R-CNN 特征提取的 CNN 网络存在全连接层,所以输入的大小必须经过 crop(裁剪)或者warp (缩放),也就是下图的第一个流程,SPP 的设计理念是在在提取特征的过程中,在卷积层和全连接层之间加了一层空间金字塔池化层(Spatial Pyramid Pooling) 这一层的作用就是将输入图片经过卷积层提取以后得到的不同尺寸的特征图操作成一样的尺寸,保证全连接层的有效输入,如下图的第二个流程。
SPP 的理念不仅可以用在目标检测上面,同时也能用在图像分类上面,当然我们这里只讲目标检测方面的应用,不过设计理念是相通的,具体思路可以看原始论文。下面我们就来讲讲 SPP 的运算过程是怎么样的
SPP 其实就是一系列最大池化操作,那么池化操作就必须有两个参数,窗口的大小 win 和步长 stride,那么这两个是怎么计算的呢?我们需要说明几个变量的含义:
我们就以 a×a=13×13 为例来计算 win 的大小和 stride 的大小。win = a/n 向上取整,stride=a/n 向下取整,如 n=4 时 win = 13/4=3.25 向上取整就是 4,stride=13/4=3.25 向下取整就是 3。当 n=2 和 n=1 时计算也是类似。当不同 level 的池化计算结束后,就将其展开成一个向量,如这里的 4×4=16、2×2=4、1×1=1 并将其合并成一个长向量,得到的是一个 21 维度的向量,然后输入后续的全连接层。
在论文中还有张表,不过这里和上面有点不同的是这里第一个 pool 大小是 3×3 的,不过这是不影响的,这其中也可以说明的是,我们可以自行设计 pool 的 level 个数以及 pool 的大小,这其中存在很多人为设计的因素。
SPP 用在分类的精度比较如下所示:
SPP 用在目标检测上的精度比较如下所示:
综上可以看出 SPP 的使用虽然在目标检测取得了和 R-CNN 差不多的效果,但是,对于模型来说,使其可以接受更多尺度的输入,其速度也比较 R-CNN 快 24-102 倍
paper: https://arxiv.org/abs/1504.08083
Fast R-CNN 是基于 R-CNN 和 SPPnets 进行的改进。有些理念是相似的,这里就不在赘述。
从上面我们知道 R-CNN 有计算冗余的缺陷,我们能不能只需一步就将特征提取出来,而不是根据候选框来提取特征,并且不需要进行特征的保存,Fast R-CNN 就是为这样而设计的(借鉴了 SPP 的思想)
paper: https://arxiv.org/abs/1506.01497
R-CNN,SPPNet,Fast R-CNN 都没有解决一个问题,就是 selective search 方法低效率的滑动窗口选择问题,它仍然生成了大量无效区域,多了造成算力的浪费,少了则导致漏检。
Faster R-CNN 采用与 Fast R-CNN 相同的设计,只是它用内部深层网络代替了候选区域方法。新的候选区域网络(RPN)在生成 ROI 时效率更高
Faster R-CNN 是深度学习中的 two-stage 方法的奠基性工作,提出的 RPN 网络取代 Selective Search 算法后使得检测任务可以由神经网络端到端地完成。
下面就看看 RPN 的原理是怎么样的:
以一张任意大小的图片作为输入,输出一批矩形区域的提名,每一个区域都会对应目标的分数和位置信息。实际上就是在最终的卷积特征层上,在每个点利用滑窗生成 k 个不同的矩形框来提取区域,k 一般取为 9。
K 个不同的矩形框被称为 anchor,具有不同尺度和比例。用分类器来判断 anchor 覆盖的图像是前景还是背景。对于每一个 anchor,还需要使用一个回归模型来回归框的精细位置。
Faster R-CNN 的主要步骤如下:
Faster R-CNN 中 RPN 的结构如下:
(1) rcnn 框架中需要几个 svm 模型?几个边框回归模型?
有多少个类别就需要多少个 svm 模型,多少个回归模型
(2) rcnn 框架中边框回归为什么要做对数变换?使用时有哪些注意事项?
缩放的大小必须大于 0,约束到对数空间方便训练优化
(3) rcnn 框架中 nms 是每一类单独进行还是所有框一起进行?
对每一类单独进行 NMS 操作
(4) rcnn 框架中正负样本如何定义的?为什么 finetune cnn 和训练 svm 时不同?
rcnn 中候选区与 ground truth 的 iou 大于等于 0.5 为正样本,小于 0.5 为负样本。svm 中全部包含了目标体为正样本,iou 小于 0.3 为负样本。finetune 时的正负样本定义是为了增加样本数量,因为 cnn 对小样本容易过拟合,所以需要大量样本训练。svm 是为了提高精度。
(5) rcnn 框架中如何进行难负样本挖掘的?
训练 SVM 时,负样本远远大于正样本,因此,对每个候选区,只有和 ground truth 的 IoU 小于 0.3 的时候,才为负样本。
(6) Fast rcnn 与 SPPnet 的异同点?
(7) fast rcnn 框架中正负样本如何定义?
Fast-rcnn 中当候选区与一个 gt 的 iou 大于 0.5 时为正样本,与所有的 gt 的 iou 小于 0.5 时为负样本。
(8) faster rcnn 中 rpn 中使用了多少个回归器?
Faster rcnn 中使用了 9 个回归器,不同尺度长宽比的 ancher 分别对应一个回归器。
(9) faster rcnn 中 rpn 中使用了怎样的正负样本策略?
Faster rcnn 中 iou 大于 0.7 或者与一个 gt 的 iou 最大的 anchor 为正样本,iou 小于 0.3 的 anchor 为负样本。
(10) faster rcnn 中 rpn 和 fast rcnn 是如何训练的?
参考