迁移学习与目标检测(faster RCNN)

前情回顾

我们在前两期介绍了

迁移学习与计算机视觉

迁移学习与图像分类

这一节为大家详细讲解迁移学习与目标检测的基本原理

目标检测的任务是将图像中不同种类的目标圈出来,而VGG16在目标检测任务中则是扮演充当图像特征抽取器的角色。当前,目标检测有很多种算法如YOLO、RCNN、fast RCNN和faster RCNN等。我们只需要学习最新最强的目标检测算法即可,为此,笔者将介绍由Shaoqing Ren等人[12]当前最优的目标检测算法faster RCNN。整个faster R-CNN分为4大部分:共享卷积网络、候选检测框生成网络RPN(Region Proposal Networks)、Roi(Region of Interest)Pooling和Classifier,如图 7.5所示。

迁移学习与目标检测(faster RCNN)_第1张图片

图 7.5 Faster RCNN

1. 共享卷积网络

G16模型提取图像特征给RPN与Roi网络。

2. RPN网络

对图像特征图生成候选框,如图 7.6所示。

迁移学习与目标检测(faster RCNN)_第2张图片

图 7.6 RPN网络

 1) anchor(锚点)

对每一个点使用3种尺寸与3种缩放率来生成候选框anchor(即对特征图中的每一个点初始化九个候选框),因此每一张特征图总共有W × H × k个anchor,又因为VGG输出的特征图有512张,因此总的锚点数为W × H × k × 512个anchor。其中,W为宽度,H为高度,k为9。

2) cls layer和reg layer

将512张特征图上的anchor转化为W × H × 512 × 2k scores和W × H × 512 × 4k coordinates。其中,2k scores被cls layer用以分类anchor是否属于positive(positive代表候选框,negative代表非候选框),最后我们用2×k的矩阵装载k个anchor是否属于候选框的概率。输出的矩阵大小为W × H × 512 × 2k。而4k coordinates则被reg layer用以编码每个anchor的4个坐标值,如公式(7.1)和(7.2)所示。

迁移学习与目标检测(faster RCNN)_第3张图片

迁移学习与目标检测(faster RCNN)_第4张图片

迁移学习与目标检测(faster RCNN)_第5张图片

3) 训练RNP网络

(1) 优化器:stochastic gradient descent (SGD)。

(2) 训练数据:每张图片随机选取128个positive anchors和128个negative anchors作为训练样本,若positive anchors数目不够,则用negative anchors来填充。这样做的好处是避免了负样本过多的情况与训练的anchors数目过多的情况,从而保证训练效果。

(3) 损失函数:如公式(7.3)所示。

(4) RPN网络的输出:W × H × 512 × 2k的分类特征矩阵和W × H × 512 × 4k的坐标回归矩阵。

(5) proposals:结合分类矩阵和坐标矩阵计算出更加精确的候选区域,送入Roi层。

总的来说,cls layer的用途是分类候选框, reg layer的用途是让预测的坐标值在训练过程中不断接近真实坐标值。

                                     

4) Roi(Region of Interest)Pooling

RPN在特征图中会产生尺寸不一致的Proposal区域,而在Faster RCNN中,之后的分类网络输入尺寸固定为7 × 7,所以对于任意大小的输入,都用7 × 7的网格覆盖原区域的每一个网格,而后在新形成的区域上,取原先格子覆盖区域内的最大值(max pooling)。这样的操作使得任意大小的Proposal都能被pooling成了7*7的尺寸,如图 7.7所示。

迁移学习与目标检测(faster RCNN)_第6张图片

图 7.7 Roi Pooling

5) Classifier

classifier部分利用已经获得的proposal feature maps,通过全连接层与Softmax计算每个proposal具体属于那个类别(如人,车,电视等),输出cls_prob概率向量;同时再次利用bounding box regression获得每个proposal的位置偏移量bbox_pred,用于回归更加精确的目标检测框。classifier网络结构如图 7.8所示。

迁移学习与目标检测(faster RCNN)_第7张图片

图 7.8 classifier网络结构

参考文献

[22]Williams A, Nangia N, Bowman S R. A broad-coverage challenge corpus for sentence understanding through inference[J]. arXiv preprint arXiv:1704.05426, 2017.

下一期,我们将继续讲授

语义分割与实例分割

敬请期待~

迁移学习与目标检测(faster RCNN)_第8张图片

关注我的微信公众号~不定期更新相关专业知识~

内容 |阿力阿哩哩 

编辑 | 阿璃 

点个“在看”,作者高产似那啥~

你可能感兴趣的:(迁移学习与目标检测(faster RCNN))