基于tensorflow框架下的cascade r-cnn的训练和测试
github代码:https://github.com/DetectionTeamUCAS/Cascade-RCNN_Tensorflow
环境:
python = 2.7
tensorflow-gpu = 1.3
cuda8
gpu:1080Ti
resnet101:http://download.tensorflow.org/models/resnet_v1_101_2016_08_28.tar.gz
resnet50:http://download.tensorflow.org/models/resnet_v1_50_2016_08_28.tar.gz
mobile:https://storage.googleapis.com/mobilenet_v2/checkpoints/mobilenet_v2_1.0_224.tgz
解压tar -xzf resnet_v1_101_2016_08_28.tar.gz
下载后解压,存入data/pretrained_weights/文件夹下面
cd $PATH_ROOT/libs/box_utils/cython_utils
python setup.py build_ext --inplace
如若训练VOC数据集不需要此步骤
若训练自己的数据集,需进行一下步骤:
修改/libs/configs/cfgs.py文件
第65行,CLASS_NUM设置为自己数据集中类别数目
注意:此类别数目是不算背景(background)的数量
第57行,MAX_ITERATION为迭代次数,可自行变动
第8行, NET_NAME 改变主干网络
第15行,GPU_GROUP = "0"改变gpu
注意:68行的BATCH_SIZE不能改变,只能为1
修改/libs/label_name_dict/label_dict.py文件
因为我自己的数据集按照VOC格式标注的,
因此修改第41行:
#添加类别名,第一个'back_ground':0不变,
#下面的改成自己数据集的类别名,序号按顺序即可
elif cfgs.DATASET_NAME == 'pascal':
NAME_LABEL_MAP = {
'back_ground': 0,
'Human': 1,
'occlusion': 2,
}
修改data/io/convert_data_to_tfrecord.py文件
由于每个人生成xml文件时,xmin,ymin,xmax,ymax的写入顺序不同,此处不修改可能会引起数据集标签位置信息读取错误,
导致之后的产生标签对anchors偏移量时发生np.log() runtime超时问题
因此第55行开始,修改为
if child_of_root.tag == 'object':
label = None
for child_item in child_of_root:
if child_item.tag == 'name':
label = NAME_LABEL_MAP[child_item.text]
if child_item.tag == 'bndbox':
tmp_box = [None]*5
for node in child_item:
#tmp_box.append(int(node.text))
if node.tag == "xmin":
tmp_box[0] = int(node.text)
if node.tag == "ymin":
tmp_box[1] = int(node.text)
if node.tag == "xmax":
tmp_box[2] = int(node.text)
if node.tag == "ymax":
tmp_box[3] = int(node.text)
assert label is not None, 'label is none, error'
#tmp_box.append(label)
tmp_box[4] = label
if tmp_box[2] -tmp_box[0] <= 0:
print(xml_path)
if tmp_box[3] -tmp_box[1] <= 0:
print(xml_path)
box_list.append(tmp_box)
依次输入命令
cd /data/io/
python convert_data_to_tfrecord.py --VOC_dir='/PATH/TO/VOCdevkit/VOCdevkit_train/' --xml_dir='train' --image_dir='JPEGImages' --save_name='train' --img_format='.jpg' --dataset='pascal'
上述命令需要把--VOC_dir='设置为自己数据集的存储路径',其余根据自己数据存储格式变化
--xml_dir是训练集xml标签文件存储的文件名,这点要注意,需要把训练集和测试集的标签分开存储
--image_dir是图片文件存储的文件名
注:提取测试集标签文件和测试图像的方法如下:
https://blog.csdn.net/qq_35153620/article/details/102647515
github项目地址(附有使用说明书):
https://github.com/A-mockingbird/VOCtype-datasetOperation
进入tools文件夹下面,输入命令:
python train.py
进入tools文件夹下面
python eval.py --eval_imgs='/PATH/TO/IMAGES/' --annotation_dir='/PATH/TO/TEST/ANNOTATION/' --GPU='0'
--eval_imgs是测试集图片存储位置
--annotation_dir是测试集标签存储位置
改变output/trained_weights/文件夹下的checkpoint文件中的信息,选择测试时使用第几次迭代保存的权重
注:提取测试集标签文件和测试图像的方法如下:
https://blog.csdn.net/qq_35153620/article/details/94739728