对Faster R-CNN中anchors的理解

此处只是个人初步理解,或不准确!

  • 1、首先明确一下,anchors机制是在region proposal networks(rpn)中应用的,而rpn的作用是由图像生成候选区域(建议框)。以往,生成候选区域用的都是传统方法,比如选择性搜索(selective search),而faster rcnn首次提出用深度卷积神经网络来实现这一功能。
  • 2、首先关注一下这个卷积神经网络(亦即rpn)的输入和输出。比如,根据这个模型——models\rpn_prototxts\ZF\train_val.prototxt——的描述,我们可以知道,在训练rpn时,其输入是:data(图像数据),labels(建议框的分类标签:是前景还是背景),labels_weights(建议框分类损失的权重),bbox_targets(建议框的回归标签),bbox_loss_weights(建议框回归损失的权重)。其输出是:分类损失,回归损失,准确率。
  • 3、针对输入输出进一步分析。既然是监督学习,我们知道,在训练时需要给它一对数据映射:输入数据及其标签。而我们想让rpn做的是:给rpn输入一张图像,rpn可以输出一些建议框来,这些建议框包含图像中有用的前景信息。这样,很自然地,在训练rpn时,也应该是输入一张图像,同时告诉它,这张图像里面真实的建议框(亦即“标签”)有哪些。当然,因为rpn还有区分前景和背景的任务,所以在训练时还需要告诉它每一个建议框是前景还是背景(亦即“分类标签”)。
  • 4、anchors的作用就是用于生成前述第2段中的bbox_targets,同时也就是第3段中的“真实的建议框”。我们在准备训练faster rcnn的数据集时,准备的是某具体目标的类别标签和位置信息,并没有直接给定“真实建议框”的类别和位置信息。解决该问题的方法就是利用anchors机制,选择图像的m*n个位置,每个位置生成9个矩形框(也就是9个anchors),然后利用数据集中目标的类别和位置信息给anchors分类——如果某个anchor与真实目标的矩形框交叠率足够大,则认为该anchor类别为“正”;如果太小,则为“负”。此外还会用到其他一些机制,比如非极大值抑制,正anchor和负anchor各选128个用于训练,以及去除超出图像边界的anchor等。这样,图像中保留的anchors都分好了类别(前景/背景),而且它们都自带坐标信息,这些信息就可以作为建议框的标签信息,用于训练rpn了。
  • 5、anchors与conv_proposal1层有关,同时,训练时所谓建议框的坐标信息并非实际意义上的坐标,而是一种参数化的坐标。faster rcnn论文中有论述。

你可能感兴趣的:(目标检测)