Faster-rcnn源码解析4

我们已经训练出了rpn网络，下面利用训练好的rpn网络来生成proposals。

下面来看一下rpn_generate函数：

首先设置参数：

然后得到一个pascal_voc类：imdb = get_imdb(imdb_name)

加载训练的rpn网络：rpn_net = caffe.Net(rpn_test_prototxt, rpn_model_path, caffe.TEST)

然后得到生成的proposals（候选区域，最多2000个）：rpn_proposals = imdb_proposals(rpn_net, imdb)，得到的rpn_proposals 是一个列表，列表中的每个元素是每个图片的rpn_proposals，，而且rpn_proposals是一个len(keep)行4列的矩阵，其中len(keep)的最大值为2000。

好了，下面看一下imdb_proposals函数的具体结构：

这里可以看到imdb_boxes是一个列表，列表中元素初始化为空。imdb_boxes也是返回值。在这个函数中，首先用cv2.imread读取图片数据，然后用im_proposals函数来得到proposals和对应的前景得分。

具体来看一下im_proposals函数：

首先获取网络的输入数据，_get_image_blob函数可以将imread读取的图片数据转化成blob需要的格式，这个函数返回两个值：blob（4维矩阵，当然这里的batch=1，通道数：3）和 im_info（1行3列的矩阵：[缩放后的图片高度、缩放后的图片宽度、缩放比例]）。

然后把这两个变量输入到net网络，net网络是什么呢，从rpn_generate函数中，可以看到：net对应的prototxt文件为：rpn_test_prototxt，我们进入到rpn_test_prototxt文件里面，可以看到这个网络的结果和我们前面训练的rpn网络基本上是一致的，只是把最后的loss部分改成了proposal layer，我们只需要看最后一层proposal layer的forward的结果就可以了。

layer {

name: 'proposal'

type: 'Python'

bottom: 'rpn_cls_prob_reshape'

bottom: 'rpn_bbox_pred'

bottom: 'im_info'

top: 'rois' # len(keep)行5列的矩阵，第1列元素：0，其余4列：proposals的左上角和右下角的坐标

top: 'scores' # len(keep)行1列的矩阵，矩阵元素为：前景得分

python_param {

module: 'rpn.proposal_layer'

layer: 'ProposalLayer'

param_str: "'feat_stride': 16"

}

先看一下输入：

bottom: 'rpn_cls_prob_reshape' ：batch * 18 * height * width ( 1 * 18 * 14 *14)

bottom: 'rpn_bbox_pred' ：batch * 36* height * width ( 1 * 36* 14 *14)

bottom: 'im_info' ：1行3列的矩阵：[缩放后的图片高度、缩放后的图片宽度、缩放比例]

下面，我们到对应的rpn.proposal_layer里面去看一下：

首先，是设置一些参数，然后得到一些基本数据：

scores：前景得分（ 1 * 9 * 14 * 14）

bbox_deltas：anchor的偏移量，即：tx, ty, tw, th ( 1 * 36* 14 *14 )

im_info：[缩放后的图片高度、缩放后的图片宽度、缩放比例]

height, width = scores.shape[-2:] ，得到feature的高度和宽度，然后利用height, width来生成所有的anchor，之后对anchor进行reshape：

anchors = anchors.reshape((K * A,4)) # 生成所有的anchor，K*A个，K=height * width ，A=9

然后，把bbox_deltas 和 scores 都reshape到同样的形式：

bbox_deltas = bbox_deltas.transpose((0,2,3,1)).reshape((-1,4))

scores = scores.transpose((0,2,3,1)).reshape((-1,1))

好了，到重点部分了，由anchor来生成proposals：

proposals = bbox_transform_inv(anchors, bbox_deltas) ：bbox_transform_inv函数很简单，就是根据anchors和anchor的偏移量（tx, ty, tw, th）来生成 proposals 。

接下来对proposals 进行一系列的过滤操作，过滤之后进行NMS操作：具体的流程是，先对前景得分scores进行从大到小的排序，然后把排序的结果做NMS：keep = nms(np.hstack((proposals, scores)), nms_thresh)，这里得到的keep是一个列表，列表的元素是进行NMS操作之后，剩余的proposals的索引，然后根据keep索引，取出剩余的proposals 和对应的scores： proposals = proposals[keep, :] scores = scores[keep]。

最后，把proposals增加1列，最前面增加1列的0，然后把proposals 和 scores 输出。

top: 'rois' # len(keep)行5列的矩阵，第1列元素：0，其余4列：proposals的左上角和右下角的坐标

top: 'scores' # len(keep)行1列的矩阵，矩阵元素为：前景得分

到这里，已经得到了net的forward的结果，下面回到im_proposals函数。

将boxes = blobs_out['rois'][:,1:].copy() / scale，得到的boxes是把proposals对应的原图的结果（proposals是在缩放后的图片中得到的）。然后输出boxes和scores。

接着返回到imdb_proposals函数：

imdb_boxes[i], scores = im_proposals(net, im)，从这里可以看出imdb_boxes[i]就是我们得到的box（ len(keep)行4列的矩阵），而且imdb_boxes[i]矩阵，就是im_proposals中的box。最后，返回imdb_boxes（列表，imdb中所有图片的proposals）。

下面，返回rpn_generate函数，我们最终得到了imdb_name中所有图片的rpn_proposals（列表）。

最后把rpn_proposals列表写入到rpn_proposals_path文件中。然后把rpn_proposals_path文件以字典的形式推入到子进程的队列中：queue.put({'proposal_path': rpn_proposals_path})。

经过以上步骤，我们就创建了一个子进程p：p = mp.Process(target=rpn_generate,kwargs=mp_kwargs)

然后启动子进程：p.start()

从进程中拿出rpn_proposals_path文件，得到rpn_proposals：rpn_stage1_out['proposal_path'] = mp_queue.get()['proposal_path']

等待进程结束：p.join()

Faster-rcnn源码解析4

你可能感兴趣的:(Faster-rcnn源码解析4)