(R-CNN)Rich feature hierarchies for accurate object detection and semantic segmentation

    

     文章:《Rich feature hierarchies for accurate object detection and semantic segmentation》
     作者:Ross Girshick Jeff Donahue Trevor Darrell Jitendra Malik
     单位:
UC Berkeley CVPR2014
     是否开放代码:是
 ,地址:http://www.cs.berkeley.edu/˜rbg/rcnn
     主要方法
        1. 采用CNN对图像中可能的目标进行提取特征,2,由于用于检测的训练数据不够,所以采用NIPS2012识别   那篇文章的训练好的参数作为初始参数(预训练),然后再利用训练数据进行微调(Fine-Turing)。因为是采用对每张图像分开得到多个region proposal ,然后对每个region proposal提取CNN特征,在采用线性分类器进行分类

 

主要内容
基于
DPM的方法在检测上面这几年的效果提升不是很明显,很多都转向了DL的方法来做,CNN LeCun 20年前就提出来了,它采用随机梯度下降法来进行求解BP,但是随后被SVM方法给取代成为主流,但是在2012年之后重新火了起来,成为计算机视觉DL的主要方法,主要的改进是:1. 训练数据增多,计算能力增强(120万张训练数据),2. ReLU非线性函数的 使用,3. Dropout的采用。

目标检测的两个主要方法:
1. 采用回归目标窗口的方法,2. 滑动窗口地方法;

主要测试过程
1. 给定一张图片,利用selective search 方法来产生2000个候选窗口(大致类似于目标显著性)2. 然后利用CNN进行对每一个候选窗口提取特征,特征长度为4096维度。 3.最后用SVM分类器对这些特征进行分类(每一个目标类别一个SVM分类器)

具体实现:作者利用了
Caffe开源库,利用NIPS2012那篇的识别上面的网络结构参数作为用于检测的网络的初始参数(Pre-training),然后利用检测的训练数据进行微调(Fine-tuning)。而因为Caffe的网络输入图像的大小必须是要求一致的,所以先要对候选窗口进行简单的归一化(这里可能是最大的问题吧,不同的分辨率和不同的长宽比都归一化到一个大小,效果肯定会降低不少)。
 

其它细节:训练数据中正样本和负样本的选择,这里采用的是直接的与真实目标的重复部分的比重来确定是否为正样本,文章说正负样本的选择的阈值通过交叉验证来确定。


实验结果
1. 因为CNN的网络只需要一个,用来提取获选窗口的4096d的特征,SVM的分类器的参数个数为:4096*N,其中N为目标的类别个数,所以比较容易扩展目标类别数。2. 文章说明在Poscal VOC上的检测率比最好的高了30%

你可能感兴趣的:((R-CNN)Rich feature hierarchies for accurate object detection and semantic segmentation)