博客中图片来自霹雳吧啦Wz
主干使用VGG-16,227 * 227图片大小
步骤:
1、一张图片生成1-2k个候选区域(ssh方法,select search)
2、对每个候选区域,使用深度网络提取特征
3、特征送入每一类的SVM分类,判别是否属于该类
4、使用回归器细修正候选框位置
保留最高阈值框,,计算其他框与最高值iou,删除高于设定阈值的框
1、一张图生成1-2 k候选区域
2、将整个图送入网络得到特征图,将候选框投影到特征图,得特征矩阵
3、将特征矩阵通过ROI pool缩放到7 *7 特征图,将特征图展平,全连接得到预测结果。
不限制输入图片大小
并联两个全连接层,1目标概率预测,2边界框回归参数的预测
分类损失用的交叉熵损失函数
1、多分类,用softmax;
2、二分类,用sigmoid输出
z主干同样使用VGG-16
1、整个图像输入网络得到特征图
2、使用RPN(region proposal network)结构生成候选框,候选框投影到特征图得特征矩阵
3、特征矩阵通过ROI pool得7 *7 特征图,进行展平全连接得预测结果
可将Faster-rcnn看成RPN+fast-RCNN
在特征图使用滑动窗口,分别输出目标概率2 k,k是k个anchor,分别为背景和目标的概率;边界框回归参数4k(x,y,w,h),256是zf网络channel,VGG是512深度;通过滑动窗口提取候选框,之前都是用ss算法
每个面积大小有3种尺度,每个中心点对应9个anchor
1、正样本:1anchor与GT的IOU大于设定0.7,为正样本
2,若anchor都没超过0.7,找最大IOU的anchor,认为它为正样本
2、负样本:anchor与GT的IOU小于0.3为负样本
3、除此之外的anchor丢弃
1、论文采用分布训练,先用ImageNet预训练网络参数,并开始单独训练RPN网络。
自己代码中直接PRN+fast-RCNN联合训练