小白aaa

Faster RCNN代码理解（Python）

最近开始学习深度学习，看了下Faster RCNN的代码，在学习的过程中也查阅了很多其他人写的博客，得到了很大的帮助，所以也打算把自己一些粗浅的理解记录下来，一是记录下自己的菜鸟学习之路，方便自己过后查阅，二来可以回馈网络。目前编程能力有限，且是第一次写博客，中间可能会有一些错误。

目录

目录
- - 第一步准备
  - 第二步Stage 1 RPN init from ImageNet model
    - 在config参数的基础上改动参数以适合当前任务主要有
    - 初始化化caffe
    - 准备roidb和imdb
    - 设置输出路径output_dir get_output_dirimdb函数在config中用来保存中间生成的caffemodule等
    - 正式开始训练
    - 保存最后得到的权重参数
  - 第三步Stage 1 RPN generate proposals
    - 关注rpn_generate函数
    - 保存得到的proposal文件
  - 第四步Stage 1 Fast R-CNN using RPN proposals init from ImageNet model
  - 第五步Stage 2 RPN init from stage 1 Fast R-CNN model
  - 第六步Stage 2 RPN generate proposals
  - 第七步Stage 2 Fast R-CNN init from stage 2 RPN R-CNN model
  - 第八步输出最后模型
  - AnchorTargetLayer和ProposalLayer
  - 代码文件夹说明
    - tools
    - RPN
    - nms
  - 参考
  - 原文地址

第一步，准备

从train_faster_rcnn_alt_opt.py入：

初始化参数：args = parse_args() 采用的是Python的argparse
主要有–net_name，–gpu，–cfg等（在cfg中只是修改了几个参数，其他大部分参数在congig.py中，涉及到训练整个网络）。
cfg_from_file(args.cfg_file) 这里便是代用config中的函数cfg_from_file来读取前面cfg文件中的参数，同时调用_merge_a_into_b函数把所有的参数整合，其中__C = edict() cfg = __C cfg是一个词典（edict）数据结构。
faster rcnn采用的是多进程，mp_queue是进程间用于通讯的数据结构

import multiprocessing as mp
mp_queue = mp.Queue()

1
2

1
2

同时solvers, max_iters, rpn_test_prototxt = get_solvers(args.net_name)得到solver参数
接下来便进入了训练的各个阶段。

第二步，Stage 1 RPN, init from ImageNet model

cfg.TRAIN.SNAPSHOT_INFIX = 'stage1'
mp_kwargs = dict(
        queue=mp_queue,
        imdb_name=args.imdb_name,
        init_model=args.pretrained_model,
        solver=solvers[0],
        max_iters=max_iters[0],
        cfg=cfg)
p = mp.Process(target=train_rpn, kwargs=mp_kwargs)
p.start()
rpn_stage1_out = mp_queue.get()
p.join()

1
2
3
4
5
6
7
8
9
10
11
12

1
2
3
4
5
6
7
8
9
10
11
12

可以看到第一个步骤是用ImageNet的模型M0来Finetuning RPN网络得到模型M1。以训练为例，这里的args参数都在脚本 experiments/scrips/faster_rcnn_alt_opt.sh中找到。主要关注train_rpn函数。
对于train_rpn函数，主要分一下几步：

1.在config参数的基础上改动参数，以适合当前任务，主要有

cfg.TRAIN.HAS_RPN = True
cfg.TRAIN.BBOX_REG = False  # applies only to Fast R-CNN bbox regression
cfg.TRAIN.PROPOSAL_METHOD = 'gt'

1
2
3

1
2
3

这里，关注proposal method 使用的是gt，后面会使用到gt_roidb函数，重要。

2. 初始化化caffe

3. 准备roidb和imdb

主要涉及到的函数get_roidb
在get_roidb函数中调用factory中的get_imdb根据__sets[name]中的key（一个lambda表达式）转到pascol_voc类。class pascal_voc（imdb）在初始化自己的时候，先调用父类的初始化方法，例如：

{
    year:’2007’
    image _set:’trainval’
    devkit _path:’data/VOCdevkit2007’
    data _path:’data /VOCdevkit2007/VOC2007’
    classes:(…)_如果想要训练自己的数据，需要修改这里_
    class _to _ind:{…} _一个将类名转换成下标的字典 _  建立索引0,1,2....
    image _ext:’.jpg’
    image _index: [‘000001’,’000003’,……]_根据trainval.txt获取到的image索引_
    roidb _handler: 
    salt: