py-tf-fastrcnn代码解析

1,anchor 是什么?这里借用一点知乎作者马塔的回答:

anchor的本质是什么,本质是将相同尺寸的 conv5_3 层的输出,倒推得到不同尺寸的输入。接下来是anchor的窗口尺寸,详细说下这个尺寸的来源,最基本的anchor只有一个尺寸,是16*16的尺寸,然后设定了基本的面积scale是(8,16,32),用这三个scale乘以16就得到了三个面积尺寸(128^2,256^2,512^2),然后在每个面积尺寸下,取三种不同的长宽比例(1:1,1:2,2:1).这样一来,我们得到了一共9种面积尺寸各异的anchor。示意图如下:


py-tf-fastrcnn代码解析_第1张图片

2,对应到代码中,

1,在tf-fastrcnn代码中config.py的参数

ANCHOR_SCALES (8,16,32)

ANCHOR_RATIOS (1:1,1:2,2:1)

上述9个框的中心没有位于同一个中心点,实际上应该是同一个,上面只是给出了9个框的示意图,实际情况如下图:


py-tf-fastrcnn代码解析_第2张图片

看图一,9个框分成三个部分,每个部分三个框

其中(8,16,32)代表

        第一个部分,中间的框是宽8*16高8*16

        第二个部分,中间的框是宽16*16高16*16

        第三个部分,中间的框是宽32*16高32*16

其中(1:1,1:2,2:1)即(0.5,1,2),代表

        第一个部分,除了中间的框之外,还有两个框:

                宽6*16高12*16

                宽12*16高6*16

        第二个部分,除了中间的框之外,还有两个框:

                宽12*16高24*16

                宽24*16高12*16

        第三个部分,除了中间的框之外,还有两个框:

                宽24*16高42*16

                宽42*16高24*16

2,ANCHOR_SCALES  ANCHOR_RATIOS 实际使用中

ANCHOR_SCALES,和检测的物体的大小相关

    比如一张身份证照片,我们要检测其中姓名的位置,首先分成两步骤,

        第一步,检测出来身份证这个框的位置,将身份证框裁剪出来,此时需要检测的框比较大所以可以将

            ANCHOR_SCALES设置的大一点,其实8,16,32已经挺大的了,可以设置成(8,16,32)

        第二步,检测出来身份证的位置之后,再次检测姓名的位置,此时姓名的框比较小,可以将

            ANCHOR_SCALES设置的小一点,比如(2,4,6)

    ANCHOR_RATIOS,和检测物体的形状有关系

        还是比如检测身份证,身份证的长宽比例是8:5,可以设置

            ANCHOR_RATIOS为(0.62,1,1.6),即5/8,1,8/5这三个,就是身份证的形状            

你可能感兴趣的:(py-tf-fastrcnn代码解析)