Faster-rcnn源码解析4

我们已经训练出了rpn网络,下面利用训练好的rpn网络来生成proposals。


下面来看一下rpn_generate函数:

首先设置参数:


然后得到一个pascal_voc类:imdb = get_imdb(imdb_name)

加载训练的rpn网络:rpn_net = caffe.Net(rpn_test_prototxt, rpn_model_path, caffe.TEST)

然后得到生成的proposals(候选区域,最多2000个):rpn_proposals = imdb_proposals(rpn_net, imdb),得到的rpn_proposals 是一个列表,列表中的每个元素是每个图片的rpn_proposals,,而且rpn_proposals是一个len(keep)行4列的矩阵,其中len(keep)的最大值为2000。

好了,下面看一下imdb_proposals函数的具体结构:


这里可以看到imdb_boxes是一个列表,列表中元素初始化为空。imdb_boxes也是返回值。在这个函数中,首先用cv2.imread读取图片数据,然后用im_proposals函数来得到proposals和对应的前景得分。

具体来看一下im_proposals函数:


首先获取网络的输入数据,_get_image_blob函数可以将imread读取的图片数据转化成blob需要的格式,这个函数返回两个值:blob(4维矩阵,当然这里的batch=1,通道数:3)和 im_info(1行3列的矩阵:[缩放后的图片高度、缩放后的图片宽度、缩放比例])。

然后把这两个变量输入到net网络,net网络是什么呢,从rpn_generate函数中,可以看到:net对应的prototxt文件为:rpn_test_prototxt,我们进入到rpn_test_prototxt文件里面,可以看到这个网络的结果和我们前面训练的rpn网络基本上是一致的,只是把最后的loss部分改成了proposal layer,我们只需要看最后一层proposal layer的forward的结果就可以了。

layer {

name: 'proposal'

type: 'Python'

bottom: 'rpn_cls_prob_reshape'

bottom: 'rpn_bbox_pred'

bottom: 'im_info'

top: 'rois'    # len(keep)行5列的矩阵,第1列元素:0,其余4列:proposals的左上角和右下角的坐标

top: 'scores'  # len(keep)行1列的矩阵,矩阵元素为:前景得分

python_param {

module: 'rpn.proposal_layer'

layer: 'ProposalLayer'

param_str: "'feat_stride': 16"

}

}

先看一下输入:

bottom: 'rpn_cls_prob_reshape'  :batch * 18 * height * width  ( 1 * 18 * 14 *14)

bottom: 'rpn_bbox_pred'  :batch * 36* height * width  ( 1 * 36* 14 *14)

bottom: 'im_info'  :1行3列的矩阵:[缩放后的图片高度、缩放后的图片宽度、缩放比例]

下面,我们到对应的rpn.proposal_layer里面去看一下:


首先,是设置一些参数,然后得到一些基本数据:

scores:前景得分  ( 1 * 9 * 14 * 14)

bbox_deltas:anchor的偏移量,即:tx, ty, tw, th    ( 1 * 36* 14 *14 )

im_info:[缩放后的图片高度、缩放后的图片宽度、缩放比例]

height, width = scores.shape[-2:] ,得到feature的高度和宽度,然后利用height, width来生成所有的anchor,之后对anchor进行reshape:

anchors = anchors.reshape((K * A,4))           # 生成所有的anchor,K*A个,K=height * width ,A=9

然后,把bbox_deltas 和 scores 都reshape到同样的形式:

bbox_deltas = bbox_deltas.transpose((0,2,3,1)).reshape((-1,4))

scores = scores.transpose((0,2,3,1)).reshape((-1,1))

好了,到重点部分了,由anchor来生成proposals:

proposals = bbox_transform_inv(anchors, bbox_deltas) :bbox_transform_inv函数很简单,就是根据anchors和anchor的偏移量(tx, ty, tw, th)来生成 proposals 。

接下来对proposals 进行一系列的过滤操作,过滤之后进行NMS操作:具体的流程是,先对前景得分scores进行从大到小的排序,然后把排序的结果做NMS:keep = nms(np.hstack((proposals, scores)), nms_thresh),这里得到的keep是一个列表,列表的元素是进行NMS操作之后,剩余的proposals的索引,然后根据keep索引,取出剩余的proposals 和 对应的scores:            proposals = proposals[keep, :]                    scores = scores[keep]。

最后,把proposals增加1列,最前面增加1列的0,然后把proposals 和  scores 输出。

top: 'rois'    # len(keep)行5列的矩阵,第1列元素:0,其余4列:proposals的左上角和右下角的坐标

top: 'scores'  # len(keep)行1列的矩阵,矩阵元素为:前景得分


到这里,已经得到了net的forward的结果,下面回到im_proposals函数。

将boxes = blobs_out['rois'][:,1:].copy() / scale,得到的boxes是把proposals对应的原图的结果(proposals是在缩放后的图片中得到的)。然后输出boxes和scores。

接着返回到imdb_proposals函数:

imdb_boxes[i], scores = im_proposals(net, im),从这里可以看出imdb_boxes[i]就是我们得到的box( len(keep)行4列的矩阵 ),而且imdb_boxes[i]矩阵,就是im_proposals中的box。最后,返回imdb_boxes(列表,imdb中所有图片的proposals)。

下面,返回rpn_generate函数,我们最终得到了imdb_name中所有图片的rpn_proposals(列表)。

最后把rpn_proposals列表写入到rpn_proposals_path文件中。然后把rpn_proposals_path文件以字典的形式推入到子进程的队列中:queue.put({'proposal_path': rpn_proposals_path})。

经过以上步骤,我们就创建了一个子进程p:p = mp.Process(target=rpn_generate,kwargs=mp_kwargs)

然后启动子进程:p.start()

从进程中拿出rpn_proposals_path文件,得到rpn_proposals:rpn_stage1_out['proposal_path'] = mp_queue.get()['proposal_path']

等待进程结束:p.join()

你可能感兴趣的:(Faster-rcnn源码解析4)