weixin_30572613

Faster RCNN代码理解（Python）

转自http://www.infocool.net/kb/Python/201611/209696.html#原文地址

第一步，准备

从train_faster_rcnn_alt_opt.py入：

初始化参数：args = parse_args() 采用的是Python的argparse
主要有–net_name，–gpu，–cfg等（在cfg中只是修改了几个参数，其他大部分参数在congig.py中，涉及到训练整个网络）。
cfg_from_file(args.cfg_file) 这里便是代用config中的函数cfg_from_file来读取前面cfg文件中的参数，同时调用_merge_a_into_b函数把所有的参数整合，其中__C = edict() cfg = __C cfg是一个词典（edict）数据结构。
faster rcnn采用的是多进程，mp_queue是进程间用于通讯的数据结构

import multiprocessing as mp
mp_queue = mp.Queue()

同时solvers, max_iters, rpn_test_prototxt = get_solvers(args.net_name)得到solver参数
接下来便进入了训练的各个阶段。

第二步，Stage 1 RPN, init from ImageNet model

cfg.TRAIN.SNAPSHOT_INFIX = 'stage1'
mp_kwargs = dict(
        queue=mp_queue,
        imdb_name=args.imdb_name,
        init_model=args.pretrained_model,
        solver=solvers[0],
        max_iters=max_iters[0],
        cfg=cfg)
p = mp.Process(target=train_rpn, kwargs=mp_kwargs)
p.start()
rpn_stage1_out = mp_queue.get()
p.join()

可以看到第一个步骤是用ImageNet的模型M0来Finetuning RPN网络得到模型M1。以训练为例，这里的args参数都在脚本 experiments/scrips/faster_rcnn_alt_opt.sh中找到。主要关注train_rpn函数。
对于train_rpn函数，主要分一下几步：

1.在config参数的基础上改动参数，以适合当前任务，主要有

cfg.TRAIN.HAS_RPN = True
cfg.TRAIN.BBOX_REG = False  # applies only to Fast R-CNN bbox regression
cfg.TRAIN.PROPOSAL_METHOD = 'gt'

这里，关注proposal method 使用的是gt，后面会使用到gt_roidb函数，重要。

2. 初始化化caffe

3. 准备roidb和imdb

主要涉及到的函数get_roidb
在get_roidb函数中调用factory中的get_imdb根据__sets[name]中的key（一个lambda表达式）转到pascol_voc类。class pascal_voc（imdb）在初始化自己的时候，先调用父类的初始化方法，例如：

{
    year:’2007’
    image _set:’trainval’
    devkit _path:’data/VOCdevkit2007’
    data _path:’data /VOCdevkit2007/VOC2007’
    classes:(…)_如果想要训练自己的数据，需要修改这里_
    class _to _ind:{…} _一个将类名转换成下标的字典 _ 建立索引0,1,2.... image _ext:’.jpg’ image _index: [‘000001’,’000003’,……]_根据trainval.txt获取到的image索引_ roidb _handler:  salt: