我们已经训练出了rpn网络,下面利用训练好的rpn网络来生成proposals。
下面来看一下rpn_generate函数:
首先设置参数:
然后得到一个pascal_voc类:imdb = get_imdb(imdb_name)
加载训练的rpn网络:rpn_net = caffe.Net(rpn_test_prototxt, rpn_model_path, caffe.TEST)
然后得到生成的proposals(候选区域,最多2000个):rpn_proposals = imdb_proposals(rpn_net, imdb),得到的rpn_proposals 是一个列表,列表中的每个元素是每个图片的rpn_proposals,,而且rpn_proposals是一个len(keep)行4列的矩阵,其中len(keep)的最大值为2000。
好了,下面看一下imdb_proposals函数的具体结构:
这里可以看到imdb_boxes是一个列表,列表中元素初始化为空。imdb_boxes也是返回值。在这个函数中,首先用cv2.imread读取图片数据,然后用im_proposals函数来得到proposals和对应的前景得分。
具体来看一下im_proposals函数:
首先获取网络的输入数据,_get_image_blob函数可以将imread读取的图片数据转化成blob需要的格式,这个函数返回两个值:blob(4维矩阵,当然这里的batch=1,通道数:3)和 im_info(1行3列的矩阵:[缩放后的图片高度、缩放后的图片宽度、缩放比例])。
然后把这两个变量输入到net网络,net网络是什么呢,从rpn_generate函数中,可以看到:net对应的prototxt文件为:rpn_test_prototxt,我们进入到rpn_test_prototxt文件里面,可以看到这个网络的结果和我们前面训练的rpn网络基本上是一致的,只是把最后的loss部分改成了proposal layer,我们只需要看最后一层proposal layer的forward的结果就可以了。
layer {
name: 'proposal'
type: 'Python'
bottom: 'rpn_cls_prob_reshape'
bottom: 'rpn_bbox_pred'
bottom: 'im_info'
top: 'rois' # len(keep)行5列的矩阵,第1列元素:0,其余4列:proposals的左上角和右下角的坐标
top: 'scores' # len(keep)行1列的矩阵,矩阵元素为:前景得分
python_param {
module: 'rpn.proposal_layer'
layer: 'ProposalLayer'
param_str: "'feat_stride': 16"
}
}
先看一下输入:
bottom: 'rpn_cls_prob_reshape' :batch * 18 * height * width ( 1 * 18 * 14 *14)
bottom: 'rpn_bbox_pred' :batch * 36* height * width ( 1 * 36* 14 *14)
bottom: 'im_info' :1行3列的矩阵:[缩放后的图片高度、缩放后的图片宽度、缩放比例]
下面,我们到对应的rpn.proposal_layer里面去看一下:
首先,是设置一些参数,然后得到一些基本数据:
scores:前景得分 ( 1 * 9 * 14 * 14)
bbox_deltas:anchor的偏移量,即:tx, ty, tw, th ( 1 * 36* 14 *14 )
im_info:[缩放后的图片高度、缩放后的图片宽度、缩放比例]
height, width = scores.shape[-2:] ,得到feature的高度和宽度,然后利用height, width来生成所有的anchor,之后对anchor进行reshape:
anchors = anchors.reshape((K * A,4)) # 生成所有的anchor,K*A个,K=height * width ,A=9
然后,把bbox_deltas 和 scores 都reshape到同样的形式:
bbox_deltas = bbox_deltas.transpose((0,2,3,1)).reshape((-1,4))
scores = scores.transpose((0,2,3,1)).reshape((-1,1))
好了,到重点部分了,由anchor来生成proposals:
proposals = bbox_transform_inv(anchors, bbox_deltas) :bbox_transform_inv函数很简单,就是根据anchors和anchor的偏移量(tx, ty, tw, th)来生成 proposals 。
接下来对proposals 进行一系列的过滤操作,过滤之后进行NMS操作:具体的流程是,先对前景得分scores进行从大到小的排序,然后把排序的结果做NMS:keep = nms(np.hstack((proposals, scores)), nms_thresh),这里得到的keep是一个列表,列表的元素是进行NMS操作之后,剩余的proposals的索引,然后根据keep索引,取出剩余的proposals 和 对应的scores: proposals = proposals[keep, :] scores = scores[keep]。
最后,把proposals增加1列,最前面增加1列的0,然后把proposals 和 scores 输出。
top: 'rois' # len(keep)行5列的矩阵,第1列元素:0,其余4列:proposals的左上角和右下角的坐标
top: 'scores' # len(keep)行1列的矩阵,矩阵元素为:前景得分
到这里,已经得到了net的forward的结果,下面回到im_proposals函数。
将boxes = blobs_out['rois'][:,1:].copy() / scale,得到的boxes是把proposals对应的原图的结果(proposals是在缩放后的图片中得到的)。然后输出boxes和scores。
接着返回到imdb_proposals函数:
imdb_boxes[i], scores = im_proposals(net, im),从这里可以看出imdb_boxes[i]就是我们得到的box( len(keep)行4列的矩阵 ),而且imdb_boxes[i]矩阵,就是im_proposals中的box。最后,返回imdb_boxes(列表,imdb中所有图片的proposals)。
下面,返回rpn_generate函数,我们最终得到了imdb_name中所有图片的rpn_proposals(列表)。
最后把rpn_proposals列表写入到rpn_proposals_path文件中。然后把rpn_proposals_path文件以字典的形式推入到子进程的队列中:queue.put({'proposal_path': rpn_proposals_path})。
经过以上步骤,我们就创建了一个子进程p:p = mp.Process(target=rpn_generate,kwargs=mp_kwargs)
然后启动子进程:p.start()
从进程中拿出rpn_proposals_path文件,得到rpn_proposals:rpn_stage1_out['proposal_path'] = mp_queue.get()['proposal_path']
等待进程结束:p.join()