RCNN文章出处:Girshick, Ross, et al. "Rich feature hierarchies for accurate object detection and semantic segmentation"
Region CNN(RCNN)是利用深度学习进行目标检测的方法,比较先进。
文章主要解决了目标检测中的两个关键问题:速度和训练集
第一个关键问题:速度
经典的目标检测算法使用滑动窗法依次判断所有可能的区域,文章则预先提取一系列较可能是物体的候选区域,之后仅在这些候选区域上提取特征,进行判断。
第二个关键问题:训练集
经典的目标检测算法在区域中提取人工设定的特征(Haar,HOG--该特征具体其它篇章里会整理),本文则需要训练深度网络进行特征提取。可以使用的两个数据库:
一个是较大的识别库(ImageNet ILSVC 2012):标定每张图片中物体的类别,一千万张图像,1000类。
一个是较小的检测库(PASCAL VOC 2007):标定每张图片中,物体的类别和位置,一万张图像,20类。
文章使用识别库进行预训练,然后使用检测库调优参数,最后在检测库上评测。
RCNN算法分为四步骤:
1. 一张图像生成1k - 2k个候选区域
2. 对每个候选区域,使用深度网络提取特征
3. 特征送入每一类的SVM分类器,判别是否属于该类
4. 使用回归器精细修正候选框位置
每一步如何实现?
1. 候选区域生成
使用了Selective Search方法从一张图像生成约2000-3000个候选区域,基本思路如下:
1. 使用一种过分割手段,将图像分割成小区域
2. 查看现有小区域,合并可能性最高的两个区域,重复直到整张图像合并成一个区域位置
3. 输出所有曾经存在过的区域,所谓候选区域
ps:候选区域生成和其它步骤相对独立,实际可以使用任意算法进行
2. 合并规则
优先合并以下四种区域:
1. 颜色(颜色直方图)相近的
2. 纹理(梯度直方图)相近的
3. 合并后总面积小的
4. 合并后,总面积在其BBOX中所占比例大的
上述3,保证合并操作的尺度较为均匀,避免一个大区域陆续“吃掉”其它小区域。例如:设有区域a - b - c - d - e - f - g - h,较好的合并方式是:ab - cd - ef - gh, abcd - efgh, abcdefgh,不好的合并方式是:ab - c - d - e - f - g - h, abcd - e - f -g -h, abcdef - g - h, abcdefgh.
上述4,保证合并后的形状规则
上述四条规则只涉及区域的颜色直方图、纹理直方图、面积和位置。合并后的区域特征可以直接由子区域特征计算而来,速度较快。
2.1 多样化与后处理
为了尽可能不遗漏候选区域,上述操作存在多个颜色空间中同时进行(RGB,HSV,Lab等),在一个颜色空间中,使用上述四条规则的不同组合进行合并,所有颜色空间与所有规则的全部结果,在去除重复后,都作为候选区域输出。
3. 特征提取
预处理
使用深度网络提取特征之前,首先把候选区域归一化成同一尺寸227*227.
此处有一些细节可做变化:外扩的尺寸大小,形变时是否保持原比例,对框外区域直接截取还是补灰,会轻微影响性能。
预训练
网络结构基本借鉴Hinton 2012年在Image Net上的分类网络2,简化后是3
此网络提取的特征为4096维,之后送入一个4096 -> 1000的全连接(fc)层进行分类。
学习率0.01
训练数据
使用ILSVCR 2012的全部数据进行训练,输入一张图片,输出1000维的类别标号
调优训练
网络结构
同样使用上述网络后,最后一层换成4096 -> 21的全连接网络。学习率0.001,每一个batch包含32个正样本(属于20类)和96个背景。
训练数据
使用PASCAL VOC 2007的训练集,输入一张图片,输出21维的类别标号,表示20类+背景
考察一个候选框和当前图像上所有标定框重叠面积最大的一个。如果比例大于0.5,则认为此候选框为此标定的类别;否则认为此候选框为背景。
类别判定
分类器
对每一类目标,使用一个线性SVM二类分类器进行判别,输入为深度网络输出的4096维特征,输出是否属于此类。
由于副样本很多,使用hard negative mining方法。
正样本
本类的真值标定框
负样本
考察每一个候选框,如果和本类所有标定框的重叠都小于0.3,认定其为负样本。
位置精修
目标检测问题的衡量标准是重叠面积:许多看似准确的检测结果,往往因为候选框不够准确,重叠面积很小,所以需要一个位置精修步骤。
回归器
对每一类目标,使用一个线性脊回归器进行精修,正则项=10000.
输入为深度网络pool5层的4096维特征,输出为xy方向的缩放和平移。
训练样本
判定为本类的候选框中,和真值重叠面积大于0.6的候选框