【速读心得】Msak R-CNN

目标

1能直观感受整个过程

2学习新idea

计划

1过一遍英文论文(配合中文论文)——4days

2速读RCNN发展历史blog——5days

3学习RCNN、

4FastRCNN(7days)

5Faster-RCNN、MAskRCNN、后期

实际

1过一遍论文翻译(5days——2018/3/5)【Done】

2速读历史: 

RCNN(Done)

Fast R-CNN()

 

http://deeplearning.csail.mit.edu/

http://chuansong.me/n/353443351445

https://www.zhihu.com/people/jennywei528/answers

http://www.cnblogs.com/wuxiangli/p/7066707.html

https://zhuanlan.zhihu.com/p/21533724



1过一遍论文翻译(5days)【Done】

https://wenku.baidu.com/view/55616aeb03d276a20029bd64783e0912a2167ced.html

https://alvinzhu.xyz/2017/10/07/mask-r-cnn/#fn:18

http://blog.csdn.net/myGFZ/article/details/79136610


2难度太大,速读历史(2days)(RCNN  ——》Fast RCNN——》Faster RCNN)简介【Done】

阅读顺序

翻译了同一论文,第三篇有助理解前两篇

(1)https://zhuanlan.zhihu.com/p/26655034

(2)https://zhuanlan.zhihu.com/p/26652657

(3)https://zhuanlan.zhihu.com/p/30967656

图像检测=图像分类+边框检查



————————————————————————Fast R-CNN

https://zhuanlan.zhihu.com/p/30368989
https://www.jianshu.com/p/7c35ba55ad61
http://jacobkong.github.io/posts/1679631826/
https://zhuanlan.zhihu.com/p/24780395
http://blog.csdn.net/wopawn/article/details/52463853

https://www.jianshu.com/p/38bed2b9f49a

关于背景sppnet介绍:

https://www.davex.pw/2018/02/11/paper-reading-of-spp-net/
http://hellodfan.com/2017/09/30/%E7%89%A9%E4%BD%93%E6%A3%80%E6%B5%8B%E8%AE%BA%E6%96%87-SPPNet/
https://blog.csdn.net/skying_li/article/details/70158924

finetune:http://blog.csdn.net/u014381600/article/details/71511794


闪光点:
1)共享计算结果:ROI pooling 
原先1个图片有2000个候选区域,每个候选区域需要做1次的前向计算(在Alexnet中),得到每个候选区域的特征图——》对输入图片做一次前向计算输出整个图形的特征图,根据每个图形的特征图分别提取2000个候选区的特征图
2)multi-task:一个模型搞定上述2、3、4(end- end)
SVM:在CNN输出层用softmax函数

LR:在CNN输出层加入了用来输出边界框坐标的线性回归层。

【训练阶段】
 
A:输入训练集
(1)使用正样本(真实样本+IOU>0.5的建议框)负样本(0.1

         进行selective search得到2000个边框坐标


B:区域建议region proposal:2000个边框坐标+对应的特征图


(2)在特征图种找到建议框所映射的候选区域的特征框


(3)使用ROI处理特征框为为同一大小H*W
(3)特征框经过全连接层(SVD分解)得到固定大小的特征向量


C:固定大小的特征向量


(4)softmax分类得分


        bounding-box窗口回归


(5)用非极大值抑制,保留最有可能的区域


E:细化后的边框坐标
缺陷:1)3个训练模型2)使用SS搜索慢
【测试阶段】
A:输入一张图像

(1)送入imagenet获取整幅图像的特征,得到特征图

         进行selective search得到2000个边框坐标

B:区域建议region proposal:2000个边框坐标+对应的特征图

(2)在特征图种找到建议框所映射的候选区域的特征框

(3)使用ROI处理特征框为为同一大小H*W

(3)特征框经过全连接层(SVD分解)得到固定大小的特征向量

C:固定大小的特征向量

(4)softmax分类得分

        bounding-box窗口回归

(5)用非极大值抑制,保留最有可能的区域

E:细化后的边框坐标
缺陷:1)3个训练模型2)使用SS搜索慢



Faster R-CNN:改进(region proposer)

https://zhuanlan.zhihu.com/p/30720870

https://www.jianshu.com/p/8f78a9350117

http://jacobkong.github.io/posts/3802700508/

https://www.jianshu.com/p/3a2b92206658

输入:图像(不需要带有区域建议)

输出:每个区域的对象类别+相关的紧密边界框

区域建议网络(egion Proposal Network, RPN)使用CNN里的第一个卷积层前进传播过程中的图像特征(构建了k个anchor boxes(common aspect ratios),每个anchor box输出bounding box和对应的位置图像的分数))——fastcnn

1,单独训练RPN;

2,使用步骤中1得到的区域生成方法单独训练Fast R-CNN; 

3, 使用步骤2得到的网络作为初始网络训练RPN;

4, 再次训练Fast R-CNN, 微调参数。


Mask Fast-RCNN:扩展到像素级切割

1)RoIPool--》RoIAlign(双线性插值

2)Faster R-CNN的CNN特征顶部添加了一个完全卷积网络(Fully Convolutional Network,FCN),用来生成掩码(Binary Mask分割输出),判断给定像素是否属于物体【对各个区域分割时,解除不同类之间的耦合。假设有K类物体,一般的分割方法直接预测一个有K个通道的输出,其中每个通道代表对应的类别。而Mask R-CNN预测K个有2个通道(前景和背景)的输出,这样各个类别的预测是独立的

输入:CNN特征图。

输出:指示像素是否属于物体的二值矩阵【在像素属于对象的所有位置上都具有1s的矩阵,其他位置为0s,这种规则被称为二进制掩码。】


FastR-CNN;

Region Proposal Network(RPN: propose candidate object bounding boxes)+extract features using RoIpool(RoI: region of Interest) from each candidate box and performs classification and bounding-box regression

http://blog.csdn.net/gavin__zhou/article/details/51996615

http://blog.csdn.net/u014544555/article/details/79381342

http://blog.csdn.net/tigerda/article/details/78527870?locationNum=2&fps=1



http://blog.csdn.net/linolzhang/article/details/71774168

https://zhuanlan.zhihu.com/p/32830206

2 Mask R-CNN

Mask:A mask encodes an input object’s spatial layout. 

任务:

object instance segmentation

输出:

1 detect object  in an image 2 generate a high-quality segmentation mask for each instance 

一句话概括框架:

add a branch for predicting an object mask in parallel with the existing branch for bounding box recognition 

框架介绍:

(PRN)+(Fast R-CNN:output  bounding-box classification and regression +FCN:output abinary mask for each RoI)

提取特征:ResNet-FPN+ResNet C4 :the convolutional backbone architecture used for feature extraction over an entire image

分类:the network headfor bounding-box recognition (classification and regression)and mask prediction that is applied separately to each RoI.

Loss:

multi-task Loss:each sampled ROI as L=Lcls+Lbox+Lmask(定义:The mask branch has a Km2 dimensional output for each RoI, which encodes K binary masks of resolution m*m, one for each of the K classes;计算:sigmoid+average binary cross-entropy loss;真实类别为k的Rol,仅算第k个的Lmask)



安装:

https://www.cnblogs.com/Anita9002/p/8335710.html

http://blog.csdn.net/wei_guo_xd/article/details/78579534

http://blog.csdn.net/xiongchao99/article/details/79122428

https://yq.aliyun.com/articles/238716

你可能感兴趣的:(论文心得)