Two-stage Faster RCNN系列基础知识

作者:LSC 来源:投稿
编辑:学姐

1.1目标检测引入CNN

Two-stage Faster RCNN系列基础知识_第1张图片

「RCNN(Rich feature hierarcies for accurate object detection and semantic segmentation )」

「候选区域生成」: 一张图像生成1-2k个候选区域,采用选择性搜索(Selective Search)方法

「特征提取」: 对每个候选区域,使用深度卷积网络提取特征(CNN)

「类别判断」: 特征送入每一类的SVM分类器,判别是否属于该类

「位置精修」: 使用回归器精细修正候选框位置

R-CNN

Two-stage Faster RCNN系列基础知识_第2张图片

  • 将CNN引入目标检测的开山之作

  • 每个候选框就是RoI(感兴趣的区域,region of interest)

  • 选择性搜索,可以得到很多候选区

「ROI要warp到同样尺寸输入到CNN中」:

含有全连接层的CNN需要固定输入图片大小

Two-stage Faster RCNN系列基础知识_第3张图片

因为卷积层和池化层需要经过Flatten后,才能与全连接相连。

1.2 SPP-Net(空间金字塔池化,Spatial Pyramid Pooling)

在feature map上提取的ROI特征,这样就只需要在整幅图像上做一次卷积

Two-stage Faster RCNN系列基础知识_第4张图片

「原始图像的ROI映射到特征图: 等比例去找」

ROI的在特征图上对应的特征区域的维度不满足全连接层的输入要求怎么办?

「设了SPP模块,统一了进入全连接层的输入」

Two-stage Faster RCNN系列基础知识_第5张图片

三种尺寸池化,无视输入尺寸,输出(44+22+1*!)*256维度的特征

1.3 Fast-RCNN

RCNN训练过程比较繁琐(需要训练SVM分类器,需要额外的回归器)

时间和内存消耗

Two-stage Faster RCNN系列基础知识_第6张图片

ROI pooling

  • 根据输入image,将ROI映射到feature map对应位置

  • 将映射后的区域划分为相同大小的部件(sections, sections数量与输出维度相同)

  • 对每个sections进行max pooling操作

「例子」

「ROI pooling」: 假设有一个88大小的feature map,一个ROI,以及输出大小为22。

Two-stage Faster RCNN系列基础知识_第7张图片

RCNN训练步骤

(1)fine tuning(好的迁移模型)预训练的特征提取网络

(2)针对每个类别训练一个SVM分类器

(3)训练regressors对bounding-box进行回归

「解决训练步骤多的问题」:

  • 将regressor放进网络一起训练,每个类别对应一个

  • 用softmax代替原来的SVM分类器

  • 设计多任务损失

「Proposal Grund Truth 回归后的框」

Two-stage Faster RCNN系列基础知识_第8张图片

寻找一种关系使得输入原始的窗口P经过映射得到一个跟真实窗口G更接近的回归窗口。

1.6边界框回归(bounding box regression)

Two-stage Faster RCNN系列基础知识_第9张图片

(1)先做平移

(2)再做缩放

输入是某一层的特征图:

Two-stage Faster RCNN系列基础知识_第10张图片

使用最小二乘法或者梯度下降法求解表达式

Two-stage Faster RCNN系列基础知识_第11张图片

Two-stage Faster RCNN系列基础知识_第12张图片

「使用相对坐标差」:

Two-stage Faster RCNN系列基础知识_第13张图片

  • CNN具有尺度不变性,x1-p1=x2-p2显然不等

  • 使用相对位移可以解决这个问题

「宽高比取对数」:

  • 尺度缩放系数大于0,让自动学习的数能大于0,所以使用exp函数

  • IoU较大认为是线性变换

所以宽高必须近似相等,回归才准确。

1.7多任务损失

(1)分类损失使用log损失

(2)位置回归损失使用

Two-stage Faster RCNN系列基础知识_第14张图片

Two-stage Faster RCNN系列基础知识_第15张图片

1.8 Faster-RCNN

Two-stage Faster RCNN系列基础知识_第16张图片

  • 将整个检测过程整合到一个网络中,核心组件是RPN

  • 其余部分和Fast RCNN基本一致

Two-stage Faster RCNN系列基础知识_第17张图片

1.9 RPN(Region Proposal Network)

Two-stage Faster RCNN系列基础知识_第18张图片

  • RPN的输入是主干网络后的特征图

  • Sliding window是使用3*3卷积

  • 256-d特征向量是卷积后得到的(H*W)*256

  • 2k: k个anchor是物体和背景的概率

  • 4k: k个anchor的坐标(x,y,w,h)

「k个anchor是预先设计好的」

Two-stage Faster RCNN系列基础知识_第19张图片

「Faster RCNN整体结构」

Two-stage Faster RCNN系列基础知识_第20张图片

1.10性能表现

Two-stage Faster RCNN系列基础知识_第21张图片

1.11总结

Two-stage Faster RCNN系列基础知识_第22张图片

关注下方《学姐带你玩AI》

回复“卷CV”获取CV方向必读论文

(含10篇高分目标检测论文PDF)

码字不易,欢迎大家点赞评论收藏!

你可能感兴趣的:(粉丝的投稿,深度学习干货,人工智能干货,深度学习,计算机视觉,目标检测)