理论介绍:有关Faster RCNN理论介绍的文章,可以自行搜索,这里就不多说理论部分了。
复现过程:代码配置过程没有记录,具体怎么把源码跑起来需要自己搜索一下。
faster rcnn源码确实挺复杂的,虽然一步步解析了,但是觉得还是没有领会其中的精髓,只能算是略知皮毛。在这里将代码解析的过程给大家分享一下,希望对大家有帮助。先是解析了代码的整体结构,然后对各个子结构进行了分析。代码中的注释,有的是原来就有的注释,有的是参考网上别人的,有的是自己理解的,里面或多或少会有些错误,如果发现,欢迎指正!
本文解析的源码地址:faster rcnn源码
不加函数说明,这样看着更清晰一些。 下面主要会根据代码的架构,按块对代码进行解析。
单独的函数,没有调用其他函数。
单独的函数,没有调用其他函数。
单独的函数,没有调用其他函数。
_build_netword用于创建网络,总体流程:
1)_image_to_head()函数,网络通过vgg1-5得到特征net_conv后
2)_anchor_component()函数,送入rpn网络得到候选区域anchors
3)_region_proposal()函数,去除超出图像边界的anchors并选出2000个anchors用于训练rpn网络(300个用于测试),并进一步选择256个anchors(用于rcnn分类)。
4)_crop_pool_layer()函数,之后将这256个anchors的特征根据rois进行裁剪缩放及pooling,得到相同大小7*7的特征pool5,
5)_head_to_tail()函数,pool5通过两个fc层得到4096维特征fc7,
6)_region_classification()函数,fc7送入_region_classification(2个并列的fc层),得到21维的cls_score和21*4维的bbox_pred。
'''
_build_netword用于创建网络,总体流程:
1)_image_to_head()函数,网络通过vgg1-5得到特征net_conv后
2)_anchor_component()函数,送入rpn网络得到候选区域anchors
3)_region_proposal()函数,去除超出图像边界的anchors并选出2000个anchors用于训练rpn网络(300个用于测试),并进一步选择256个anchors(用于rcnn分类)。
4)_crop_pool_layer()函数,之后将这256个anchors的特征根据rois进行裁剪缩放及pooling,得到相同大小7*7的特征pool5,
5)_head_to_tail()函数,pool5通过两个fc层得到4096维特征fc7,
6)_region_classification()函数,fc7送入_region_classification(2个并列的fc层),得到21维的cls_score和21*4维的bbox_pred。
'''
def _build_network(self, is_training=True):
# select initializers 选择初始化方式
if cfg.TRAIN.TRUNCATED:
initializer = tf.truncated_normal_initializer(mean=0.0, stddev=0.01)
initializer_bbox = tf.truncated_normal_initializer(mean=0.0, stddev=0.001)
else:
initializer = tf.random_normal_initializer(mean=0.0, stddev=0.01)
initializer_bbox = tf.random_normal_initializer(mean=0.0, stddev=0.001)
net_conv = self._image_to_head(is_training) # lib/nets/vgg16.py中定义,image_to_head用于得到输入图像的特征图像
with tf.variable_scope(self._scope, self._scope):
# build the anchors for the image 为图像建立anchors
self._anchor_component() #通过调用generate_anchors_pre_tf产生w*h*9个anchors
# region proposal network RPN用于产生候选区域,从w*h*9个anchors到256个
rois = self._region_proposal(net_conv, is_training, initializer)
# region of interest pooling
if cfg.POOLING_MODE == 'crop':
# _crop_pool_layer用于将256个archors从特征图中裁剪出来缩放到14*14,
# 并进一步max pool到7*7的固定大小,得到特征,方便rcnn网络分类及回归坐标。
pool5 = self._crop_pool_layer(net_conv, rois, "pool5")
else:
raise NotImplementedError
# _head_to_tail用于将上面得到的256个archors的特征(经过ROI_pooling操作后的pool5)增加两个fc层(ReLU)和两个dropout(train时有,test时无),
# 降维到4096维,用于_region_classification的分类及回归。_head_to_tail位于lib / nets / vgg16.py中
fc7 = self._head_to_tail(pool5, is_training)
with tf.variable_scope(self._scope, self._scope):
# 根据上面得到的fc7通过_region_classification进行分类及回归。
cls_prob, bbox_pred = self._region_classification(fc7, is_training,
initializer, initializer_bbox)
self._score_summaries.update(self._predictions)
return rois, cls_prob, bbox_pred
下面会对各个模块进行详细解析!