DeepLearing—CV系列(七)——多类多目标物体的侦测——R-CNN系列

文章目录

  • 一、R-CNN
  • 二、Fast R-CNN
  • 三、SPP-Net
  • 四、ASPP
  • 五、Faster-R-CNN
    • 5.1 Conv layers
    • 5.2 Region Proposal Networks(RPN)
    • 5.3 RoI pooling
    • 5.4 Classification
  • 六、mask-R-CNN
  • 七、总结

DeepLearing—CV系列(七)——多类多目标物体的侦测——R-CNN系列_第1张图片
计算机视觉的任务
分类->分类+回归->目标侦测->实例分割

单目标识别追踪
DeepLearing—CV系列(七)——多类多目标物体的侦测——R-CNN系列_第2张图片
多目标识别追踪:R-CNN系列

一、R-CNN

DeepLearing—CV系列(七)——多类多目标物体的侦测——R-CNN系列_第3张图片
在原图进行操作,根据聚类算法(颜色,边缘,纹理等)对图像区域分割成块,分割后的图像区域大小不一样,要做一个合并,再缩放到相同大小,再把不同大小的图像输入到同一个网络当中去,进行回归/分类(SVM),用全连接输出,所以输入的图像大小要固定。
缺点:
①慢,同一张图像会有2000张建议框,选择性搜索
②每个区域大小不一样,要缩放到固定大小
③SVM效果不够好

二、Fast R-CNN

DeepLearing—CV系列(七)——多类多目标物体的侦测——R-CNN系列_第4张图片
在特征图上进行操作把图像直接输入到卷积网络中,在特征图上进行操作,把相似区域合并,会减少一些特征图,在特征图上聚类也会聚类的少一些;对特征框进行聚类,再对特征框进行ROI Pooling,得到相同大小的特征图7*7,统一输入到全连接,进行分类(softmax)/回归(线性层)。

没用SPP(空间金字塔池化),用的ROI Pooling: 输入不同,得到相同大小的输出
对每个建议框,先进行下采样(Vgg下采样5次),再池化成7*7; 池化时,小数部分去掉
800x800里有665x665的目标,下采样时为20.78,取20,20除以7,画成7x7的格子,每个格子的大小为2.86,取为2x2,再取最大的值做为特征,即为7x7

三、SPP-Net

**空间金字塔池化:**设计池化核及步长不一样,使输出相同,不再需要缩放;9个建议框。
DeepLearing—CV系列(七)——多类多目标物体的侦测——R-CNN系列_第5张图片

四、ASPP

空洞空间卷积池化金字塔(atrous spatial pyramid pooling (ASPP)
DeepLearing—CV系列(七)——多类多目标物体的侦测——R-CNN系列_第6张图片

五、Faster-R-CNN

DeepLearing—CV系列(七)——多类多目标物体的侦测——R-CNN系列_第7张图片
如上图,Faster RCNN其实可以分为4个主要内容

1)Conv layers。作为一种CNN网络目标检测方法,Faster RCNN首先使用一组基础的conv+relu+pooling层提取image的feature maps。该feature maps被共享用于后续RPN层和全连接层。
2)Region Proposal Networks。RPN网络用于生成region proposals。该层通过softmax判断anchors属于positive或者negative,再利用bounding box regression修正anchors获得精确的proposals。
3)Roi Pooling。该层收集输入的feature maps和proposals,综合这些信息后提取proposal feature maps,送入后续全连接层判定目标类别。
4)Classification。利用proposal feature maps计算proposal的类别,同时再次bounding box regression获得检测框最终的精确位置。

5.1 Conv layers

DeepLearing—CV系列(七)——多类多目标物体的侦测——R-CNN系列_第8张图片

上图展示了python版本中的VGG16模型中的faster_rcnn_test.pt的网络结构,可以清晰的看到该网络对于一副任意大小PxQ的图像:

1)首先缩放至固定大小MxN,然后将MxN图像送入网络;
2)而Conv layers中包含了13个conv层+13个relu层+4个pooling层; RPN网络首先经过3x3卷积,再分别生成positive
3)anchors和对应bounding box regression偏移量,然后计算出proposals;
4) 而Roi Pooling层则利用proposals从feature maps中提取proposalfeature送入后续全连接和softmax网络作classification(即分类proposal到底是什么object)。

Conv layers包含了conv,pooling,relu三种层。这里有一个非常容易被忽略但是又无比重要的信息,在Conv layers中:

所有的conv层都是:kernel_size=3,pad=1,stride=1
所有的pooling层都是:kernel_size=2,pad=0,stride=2

在Faster RCNN Conv layers中对所有的卷积都做了扩边处理( pad=1,即填充一圈0),导致原图变为(M+2)x(N+2)大小,再做3x3卷积后输出MxN 。正是这种设置,导致Conv layers中的conv层不改变输入和输出矩阵大小。

类似的是,Conv layers中的pooling层kernel_size=2,stride=2。这样每个经过pooling层的MxN矩阵,都会变为(M/2)x(N/2)大小。综上所述,在整个Conv layers中,conv和relu层不改变输入输出大小,只有pooling层使输出长宽都变为输入的1/2。

那么,一个MxN大小的矩阵经过Conv layers固定变为(M/16)x(N/16)!这样Conv layers生成的featuremap中都可以和原图对应起来。

5.2 Region Proposal Networks(RPN)

经典的检测方法生成检测框都非常耗时,如
①OpenCV adaboost使用滑动窗口+图像金字塔生成检测框;
②或如R-CNN使用SS(Selective Search)方法生成检测框。
③而Faster RCNN则抛弃了传统的滑动窗口和SS方法,直接使用RPN生成检测框,这也是Faster R-CNN的巨大优势,能极大提升检测框的生成速度。
DeepLearing—CV系列(七)——多类多目标物体的侦测——R-CNN系列_第9张图片

上图展示了RPN网络的具体结构。可以看到RPN网络实际分为2条线,上面一条通过softmax分类anchors获得positive和negative分类,下面一条用于计算对于anchors的bounding box regression偏移量,以获得精确的proposal。而最后的Proposal层则负责综合positive anchors和对应bounding box regression偏移量获取proposals,同时剔除太小和超出边界的proposals。其实整个网络到了Proposal Layer这里,就完成了相当于目标定位的功能。

其实RPN最终就是在原图尺度上,设置了密密麻麻的候选Anchor。然后用cnn去判断哪些Anchor是里面有目标的positive anchor,哪些是没目标的negative anchor。所以,仅仅是个二分类而已!

改进:聚类聚出的特征框,进行筛选,不是目标的去掉,是目标的送到模型里进行分类和回归;
加了区域选择网络(RPN):根据置信度选择。
DeepLearing—CV系列(七)——多类多目标物体的侦测——R-CNN系列_第10张图片
DeepLearing—CV系列(七)——多类多目标物体的侦测——R-CNN系列_第11张图片

VGG16输出 [50x38x512] 的特征,对应设置 [50x38xk] 个anchors,而RPN输出:大小为[50x38x2k] 的positive/negative softmax分类特征矩阵 大小为 [50x38x4k] 的regression坐标回归特征矩阵恰好满足RPN完成positive/negative分类+bounding box regression坐标回归.
每个anhcor要分positive和negative,所以每个点由256维feature转化为cls=2k scores;而每个anchor都有(x, y, w, h)对应4个偏移量,所以reg=4k coordinates.

5.3 RoI pooling

RoI Pooling层则负责收集proposal,并计算出proposal feature maps,送入后续网络。从图2中可以看到Rol pooling层有2个输入:
1)原始的feature maps
2)RPN输出的proposal boxes(大小各不相同)

5.4 Classification

Classification部分利用已经获得的proposal feature maps,通过full connect层与softmax计算每个proposal具体属于那个类别(如人,车,电视等),输出cls_prob概率向量;同时再次利用bounding box regression获得每个proposal的位置偏移量bbox_pred,用于回归更加精确的目标检测框。Classification部分网络结构如下图。

DeepLearing—CV系列(七)——多类多目标物体的侦测——R-CNN系列_第12张图片
从RoI Pooling获取到7x7=49大小的proposal feature maps后,送入后续网络,可以看到做了如下2件事:

1)通过全连接和softmax对proposals进行分类,这实际上已经是识别的范畴了
2)再次对proposals进行bounding box regression,获取更高精度的rect box

六、mask-R-CNN

做图像分割
DeepLearing—CV系列(七)——多类多目标物体的侦测——R-CNN系列_第13张图片

七、总结

DeepLearing—CV系列(七)——多类多目标物体的侦测——R-CNN系列_第14张图片

自己总结的R-CNN系列思维导图:DeepLearing—CV系列(七)——多类多目标物体的侦测——R-CNN系列_第15张图片

你可能感兴趣的:(深度学习,pytorch,yolo)