RCNN系列总结

1、RCNN:proposals,每个proposal在wrap之后输入到网络,提特征,输入到SVM(每一类都训练一个SVM二分类器),再输入到框的回归器进行精修(每一类也都训练一个框的回归器),最后非极大值抑制(每一类的框分别进行)

2、SPPNet:貌似类似RCNN,只是加了ROI Pooling,也是采取SVM一对多的二分类,并且训练网络的时候,没有对基准的网络更新。

3、Fast RCNN:proposals,整个图像输入网络,每个proposal在feature map中对应的位置利用ROI pooling的方式避免对proposal进行warp,在都由FCs层提取最后的特征,此特征一是输入到softmax分类器(所有类别用一个,K+1)中,一是输入到框的回归器(每类对应一个,4*K)中,都由网络完成,并且用的是分类和位置回归器放在一起联合训练的。

4、Faster RCNN:图,基础的卷积,在RPN之前生成一个feature map,feature map中的点都由9个anchors,用3*3*p的卷积核卷积,每个位置生成p维的特征向量,用它去训练一个含不含目标的二分类器,另外训练一个对anchors位置进行调整的回归器(输出为4*9),利用RPN调整的anchors的位置以及原来基础网络生成的feature map,可以得到RPN判定含有目标的proposals的特征,再用一个softmax分类(K+1),以及再对位置进行精修(这边就是每一类对应一个位置回归器4*k)

5、我很好奇的是为啥背景还有位置的回归器????其实是在训练的时候,框的精修中,背景根本不做任何贡献,所以有没有无所谓了

注意:以上的很多细节还是得看代码

你可能感兴趣的:(RCNN系列总结)