目标检测之R-CNN通俗详解

算法介绍

R-CNN算法由rbg大神在2014年提出,在此之前,传统的目标检测算法还存在性能和速度上的巨大瓶颈,而R-CNN的提出无疑在性能和速度上都对传统目标检测算法是一个很大的提升。尽管R-CNN在算法框架和模型上仍然类似于传统目标检测算法,但是它的突破点就在于利用CNN卷积网络提取深度特征,区别于传统算法中的类似于颜色、纹理等低层次特征。
目标检测之R-CNN通俗详解_第1张图片
主要步骤

接下来,我们来看下R-CNN是如何使用CNN特征的:

1.提取候选框:
提取候选框有很多种方式,我们采用的是SS(Selective Search),区别于以前的滑动窗的方式,关于选择式搜索,后面会介绍;
这里我们提取出2000个region proposals。
2.正负样本的准备:
同样根据矩形框的IoU以及GT来确定正负样本;
3.训练分类模型:
.在ImageNet大数据集上训练一个分类模型,作者采用的是AlexNet,并且希望将ImageNet上训练的1000类图像识别模型迁移到PASCAL VOC 目标检测上(类别数是20,另外加上背景总共21类);
4.迁移学习:
用这个预训练模型进行迁移学习,即fine-tune(因为R-CNN不是直接拿一个CNN模型来训练的,而是进行fine-tuning),注意在做fine-tuning时,要将1000改成21,将所有proposals的尺寸resize到227x227;
5.svm分类器:

对每一个类别都要训练一个SVM分类器,使用Fc7层的输出特征作为svm输入,维度是2000x4096,输出就是是不是属于这个类别。

6.回归器:

利用池化层pool5的特征以及每一个矩形框的GT作为回归器的输入,对候选框的位置进行精修;
通过对pool5层的特征做线性变换,得到一个变换函数F,利用这个变换函数对每一个proposals进行坐标位置的回归,主要有平移和缩放两种操作,如下图:
目标检测之R-CNN通俗详解_第2张图片

提取候选框:选择性搜索

1)首先生成区域集合R,根据基于图的图片分割的方式来生成;
2)计算集合R里每两个相邻区域 的相似度,组成集合S;
3)找出相似度最高的两个区域,将他们合并为一个新的集合,添加进R;
4)从S集合中移除所有与2)中有关的子集;
5)计算新的集合与所有子集的相似度;
6)跳至2),直到集合S为空;

R-CNN缺点

文章开始我们也提到,R-CNN的算法框架跟传统的检测算法没什么太大的区别和改进,所以它仍然存在着传统检测算法中所具有的的缺陷,难以满足实际的需要,当然这也是后续检测算法应该研究的改进点。
R-CNN的缺点主要有:
1)候选框选取的过程仍然是耗时的;
2)属于two-stage的,需要分多次训练,过程繁琐;
3)重叠框会重复计算;

你可能感兴趣的:(DL,目标检测)