OverFeat,分类、定位、检测

1、视觉任务

分类任务,每张图片安排一个标签联系图片上的主要物体;定位任务,一个边界框预测对象返回一个类比,必须和GT 的IoU>0.5;检测任务 每个图像中可以有任意数量的对象,FP通过mAp惩罚。

3.3多尺度分类测试

每个location多个尺度通过一个全卷积网络,每个尺度输出一个C-dimensional向量。

输入图片6个尺度再加上水平翻转输入网络,unpool层增广,池化过程增加一个偏移量,1个维度上输出3种池化结果,两个维度就是(3*3),假设layer5为1*20,输出层就为1*2,增加偏移量之后,输出层为1*6,每个格子内为1000类别向量。

二维从a->e:20*20*num——>6*6*9*256-->2*2*9*C-->2*2*9*C,求最后的输出类别,池化之后输出是原来的9倍(i)取每个格子中1000向量的最大值(ii)从多个尺度和翻转得出的C-dim向量,求平均值,???输出尺度不一样(iii)根据平均向量取top1或top5。

每张图片输入6个尺寸还水平翻转,卷积核大小5*5,步长为3  (17-5+2P+1)/3=5

OverFeat,分类、定位、检测_第1张图片

4定位

同时运行分类器和回归定位任务,只是最后一层计算不同,最终输出层4个边界框坐标。如上表第一个尺度输出3*3*4,在原图上画9个框,并标记1000向量最大类别的得分, 上表第二个尺度6*9*4,如下图为最后输出维度

                                                                                          OverFeat,分类、定位、检测_第2张图片

4.3 合并框(类似于非极大值抑制)

你可能感兴趣的:(paper,comprehension)