R-CNN目标检测学习笔记

 https://arxiv.org/pdf/1311.2524.pdf

摘要:

1、近些年大家都在OASCAL VOC数据集上来衡量自己目标检测模型的性能,

2、以往的高性能目标检测模型是复杂的整体系统,通常将多个低级图像特性与高级上下文结合在一起

3、根据以往模型的不足或者再目标检测网络独特的见解,作者提出了一个新的模型。

这个模型的mAP(平均正确率)从30%提升到了53.3%。

  1. 提出的新模型的关键:
    1. 、采用CNN
    2. 、采用监督方式预训练网络

引言:

1、介绍在计算机视觉目标检测领域近些年随有发展,但进步缓慢。介绍之前最常用的识别模型。

2、引出CNN网络特征提取和灵长类动物视觉系统的相关性。

3、简单介绍CNN发展,因为支持向量机的流行而没落,2012,后又因图像分类的正确率提高而流行。

4、引出新问题:在图像分类上的正确率提升在目标检测上有多大的影响、解决新问题用性能的提升来回答,为了提升性能:

  1. 、构建深网络
  2. 、带标注数据训练网络

5、介绍网络模型的构成 5个卷积层, strides32*32,在图像上生成2000个独立的区域,进行裁剪成一样大小,送给卷积网络,然后提取到的新特征向量使用SVM进行分类。

 

6、打上标签的数据量的不足也是一个问题:解决方法预训练,再在自己的数据集上微调。(迁移训练)。微调之后54%。

7、尝试过的错误方法(一个简单的限定框回归方法可以显著减少错误定位

8、在图像语义分割上作者也做了尝试得到47.9%的准确率(VOC2011)

使用R-CNN进行物体检测细节:

模型有三个部分组成:

  1. 在图像上生成2000个独立区域的网络(selective search 
  2. 深度神经网络进行特征提取:剪裁提取的区域至输入图像227*227*3,5层卷积网络,2层全连接网络,提取4096维特征向量
  3. SVM分类器

 

训练:R-CNN目标检测学习笔记_第1张图片

预训练模型: CNN网络在数据集(没有box标注)上进行预训练

微调:用(n+1)替换原来CNN最后一层1000输出,n是类别,1是背景。

IOU》0.5的定义为正样本,选取32正样本,96负样本组成128mini-batch

在多个数据集上对比多个经典模型的正确率

 

 

 

 

 

你可能感兴趣的:(R-CNN目标检测学习笔记)