Fast RCNN论文总结

1. Region Proposal (候选区域)方法比传统的滑动窗口方法获取的质量要更高。
比较常用的Region Proposal方法有:SelectiveSearch(SS,选择性搜索)、Edge Boxes(EB)。

2. Fast RCNN 目标检测流程
Fast RCNN论文总结_第1张图片

第一步,将这个完整的图片经过若干卷积层与max pooling层,得到一个feature map。

第二步,用selective search算法从这完整的图片中提取出object proposals,即RoI。

第三步,根据映射关系,可以得到每个object proposal对应的feature map。

第四步,将第三步得到的feature map经过RoI pooling layer得到固定大小的feature map(变小了)。

第五步,经过2层全连接层(fc),得到固定大小的RoI特征向量。

第六步,特征向量经由各自的FC层,得到两个输出向量:第一个是分类,使用softmax,第二个是每一类的bounding box回归。


3. Fast RCNN 框架
Fast RCNN论文总结_第2张图片
4. Fast RCNN的优点
(1)比RCNN、SPPnet有更高的准确率(mAP)
(2)训练是单阶段的,使用多任务损失(multi-task loss)
(3)在训练阶段可以更新所有的网络层(SPPnet只能更新FC层,限制的mAP)
(4)对于特征缓存,不需要磁盘存储

5. RoI pooling layer
    作用:(1)将image中的rol定位到feature map中对应patch
                (2) 将这个feature map patch下采样为大小固定的feature再传入全连接层


6. multi-task loss

有两个损失: 分类loss(Lcls),是一个N+1路的softmax输出,其中的N是类别个数,1是背景;

                        回归loss(Lloc),是一个4xN路输出的regressor,也就是说对于每个类别都会训练一个单独的regressor。    

          

论文中=1, 用于调整2个损失之间的平衡;

当图片是背景时:k*=0  →  [k* ≥ 1]=0

当图片不是背景时:k*≥ 0  →  [k* ≥ 1]=1

这里regressor的loss不是L2的,而是一个平滑的L1(预防梯度爆炸),如下公式:

          
 7. 设计评估
(1)multi-task training 效果更好
(2)图像单一尺寸与多个尺寸效果相似
(3)更多的数据能够显著提升效果(论文中数据增强方法:50%概率进行水平翻转)
(4)不能盲目增加propsals数量,有可能导致mAP下降
(5)没有必要对所有的conv层进行finetune





你可能感兴趣的:(计算机视觉,深度学习)