/home/doctorimage/kindlehe/common/dataset
是所有数据的存放目录,目录结构如下coco :
flower : 其中flower_photos包含5个文件夹,分别对应五种花的类型
Oxford-IIT_Pet:宠物的数据集
VOC2007: voc2007数据集
VOCdevkit: voc2012数据集
VOC0712: VOC2007与voc2012合并之后,转成tfrecord数据集后,所在的存放路径
在目录/home/doctorimage/kindlehe/project/SSD/SSD-Tensorflow-master/shell
下运行bash tf_convert_data.sh
会执行以下指令生成文件名为voc_2007_trainval_000.tfrecord
的tfrecord格式的数据:
DATASET_DIR=../../../../common/dataset/VOC2007/VOCtrainval_06-Nov-2007/VOCdevkit/VOC2007/
OUTPUT_DIR=../../../../common/dataset/VOC2007/VOCtrainval_06-Nov-2007/VOCdevkit/VOC2007_tfrecord/
python ../tf_convert_data.py \ #所执行的脚本文件
--dataset_name=pascalvoc \ #数据名字,这里不能修改,因为在tf_convert_data.py里被写死了,修改之后会报错
--dataset_dir=${DATASET_DIR} \ #输入数据的存放目录
--output_name=voc_2007_trainval \ #输出数据名的前缀
--output_dir=${OUTPUT_DIR} #输出数据的存放目录
对于voc2012只需要将输入数据和输出数据的目录更改为voc2012的目录即可,如下所示:
DATASET_DIR=#/home/doctorimage/kindlehe/common/dataset/VOCdevkit/VOC2012/
OUTPUT_DIR=#/home/doctorimage/kindlehe/common/dataset/VOCdevkit/VOC2012_tf
python ../tf_convert_data.py \ #所执行的脚本文件
--dataset_name=pascalvoc \ #数据名字,这里不能修改,因为在tf_convert_data.py里被写死了,修改之后会报错
--dataset_dir=${DATASET_DIR} \ #输入数据的存放目录
--output_name=voc_2012_trainval \ #这里改成2012
--output_dir=${OUTPUT_DIR} #输出数据的存放目录
转换成功会出现如下提示:
>> Converting image 17125/17125
Finished converting the Pascal VOC dataset!
如何根据不同的GPU内存,==设置每个数据文件包含的图片个数==呢?
在pascalvoc_to_tfrecords.py
中有一个参数
SAMPLES_PER_FILES = 5011 #控制转出的TFrecord文件的个数:比如一共17125张图,要求每个文件保存5011个图,那么最终输出17125/5011=4个文件/
ssd作者说自己用了voc2007中trainval和voc2012的数据一起训练的,那么如何将这两个数据一次性制作成tfrecord格式的数据呢?
当你生成完voc2007和voc2012后会生成以下文件:
#/home/doctorimage/kindlehe/common/dataset/VOC2007/VOCtrainval_06-Nov-2007/VOCdevkit/VOC2007_tfrecord/目录下生成1个文件:
voc_2007_trainval_000.tfrecord
#/home/doctorimage/kindlehe/common/dataset/VOCdevkit/VOC2012/目录下生成4个文件
voc_2012_trainval_000.tfrecord
voc_2012_trainval_001.tfrecord
voc_2012_trainval_002.tfrecord
voc_2012_trainval_003.tfrecord
不要怀疑你接下来看到的.没错
合并数据最难的方法是写自动化程序,一键搞定,但是没这个必要,因为有一个最简单的办法,就是把两个文件夹中的数据拷贝到同一个文件夹下,路径是:
/home/doctorimage/kindlehe/common/dataset/VOC0712/
但是,拷贝进去的5个文件,需要把voc_2007_trainval_000.tfrecord
改成voc_2012_trainval_004.tfrecord
,这时你就明白黄色部分为什么要着重突出了,因为如果单个文件包含的个数太少,生成的文件数量就会太多,改文件夹名字的时候就比较麻烦,当然也可以写自动化脚本批量修改也不是什么难事。==最重要在于增加单个文件包含的图片个数,可以减少内存的IO操作。==
数据存放目录为/home/doctorimage/kindlehe/project/CSDN/
下面的flower_photos
文件夹,可以按照这个文件夹的目录结构放入自己的数据
进入目录/home/doctorimage/kindlehe/project/SSD/SSD-Tensorflow-master/slim
,运行
bash convert_tfrecord.sh
会执行以下命令:
python download_and_convert_data.py --dataset_name=flowers --dataset_dir=/home/doctorimage/kindlehe/project/CSDN/
download_and_convert_data.py
最终会调用download_and_convert_flowers
去完成文件转换功能,这个文件里面有几个地方要注意一下
L43、L49
_NUM_VALIDATION = 350 #表示验证集的个数,验证集一般占所有图片的10%
_NUM_SHARDS = 5 #表示训练集或者测试集生成的tfrecord文件的个数,官方建议单个Tfrecords文件放1023张,生成文件的个数就可以根据总图片的数量计算得到
L83:
flower_root= os.path.join(dataset_dir,‘flower_photos’) # 如果是制作自己的数据,这一行的flower_photos改成自己的文件名即可
L190:
dataset_utils.download_and_uncompress_tarball(_DATA_URL, dataset_dir) #如果下载好了,一定要注释掉这一行,否则会坑到自己
L210:
_clean_up_temporary_files(dataset_dir) #下载压缩包,解压成图片,再转成tfrecords,中间这些图片被认为是临时图片,系统会自动清除
主要是要将数据制作成VOC的格式,可以参考自动化工具制作PASCAL VOC 数据集
主要的训练过程在《SSD-tensorflow使用文档(一)》中已经详细讲解了,这里补充一些使用细节:
要使用pyCharm进行调试,首先要将cuda的环境配置好,每个机器的环境都不一样,可以在linux终端输入vim ./bashrc
查看相应的路径。
配置好就可以点击run -> debug ‘train_ssd_networ’
进行单步调试了
也可以按照《SSD-tensorflow使用文档(一)》直接在终端中,进入ssd根目录下的shell目录,运行bash train_ssd_network.sh
对于train_ssd_network.sh
中的命令,通常存在以下几种训练方法:
方案1: 从vgg开始训练其中某些层的参数
# 通过加载预训练好的vgg16模型,对“voc07trainval+voc2012”进行训练
# 通过checkpoint_exclude_scopes指定哪些层的参数不需要从vgg16模型里面加载进来
# 通过trainable_scopes指定哪些层的参数是需要训练的,未指定的参数保持不变
DATASET_DIR=/home/doctorimage/kindlehe/common/dataset/VOC0712/
TRAIN_DIR=.././log_files/log_finetune/train_voc0712_20170816_1654_VGG16/
CHECKPOINT_PATH=../checkpoints/vgg_16.ckpt
python3 ../train_ssd_network.py \
--train_dir=${TRAIN_DIR} \ #训练生成模型的存放路径
--dataset_dir=${DATASET_DIR} \ #数据存放路径
--dataset_name=pascalvoc_2007 \ #数据名的前缀
--dataset_split_name=train \
--model_name=ssd_300_vgg \ #加载的模型的名字
--checkpoint_path=${CHECKPOINT_PATH} \ #所加载模型的路径
--checkpoint_model_scope=vgg_16 \ #所加载模型里面的作用域名
--checkpoint_exclude_scopes=ssd_300_vgg/conv6,ssd_300_vgg/conv7,ssd_300_vgg/block8,ssd_300_vgg/block9,ssd_300_vgg/block10,ssd_300_vgg/block11,ssd_300_vgg/block4_box,ssd_300_vgg/block7_box,ssd_300_vgg/block8_box,ssd_300_vgg/block9_box,ssd_300_vgg/block10_box,ssd_300_vgg/block11_box \
--trainable_scopes=ssd_300_vgg/conv6,ssd_300_vgg/conv7,ssd_300_vgg/block8,ssd_300_vgg/block9,ssd_300_vgg/block10,ssd_300_vgg/block11,ssd_300_vgg/block4_box,ssd_300_vgg/block7_box,ssd_300_vgg/block8_box,ssd_300_vgg/block9_box,ssd_300_vgg/block10_box,ssd_300_vgg/block11_box \
--save_summaries_secs=60 \ #每60s保存一下日志
--save_interval_secs=600 \ #每600s保存一下模型
--weight_decay=0.0005 \ #正则化的权值衰减的系数
--optimizer=adam \ #选取的最优化函数
--learning_rate=0.001 \ #学习率
--learning_rate_decay_factor=0.94 \ #学习率的衰减因子
--batch_size=24 \
--gpu_memory_fraction=0.9 #指定占用gpu内存的百分比
方案2: 从自己预训练好的模型开始训练(依然可以指定要训练哪些层)(当你的模型通过vgg训练的模型收敛到大概o.5mAP的时候,可以进行这一步的fine-tune)
# 通过加载预训练好的vgg16模型,对“voc07trainval+voc2012”进行训练
# 通过checkpoint_exclude_scopes指定哪些层的参数不需要从vgg16模型里面加载进来
# 通过trainable_scopes指定哪些层的参数是需要训练的,未指定的参数保持不变
DATASET_DIR=/home/doctorimage/kindlehe/common/dataset/VOC0712/
TRAIN_DIR=.././log_files/log_finetune/train_voc0712_20170816_1654_VGG16/
CHECKPOINT_PATH=./log_files/log_finetune/train_voc0712_20170712_1741_VGG16/model.ckpt-253287
python3 ../train_ssd_network.py \
--train_dir=${TRAIN_DIR} \ #训练生成模型的存放路径
--dataset_dir=${DATASET_DIR} \ #数据存放路径
--dataset_name=pascalvoc_2007 \ #数据名的前缀
--dataset_split_name=train \
--model_name=ssd_300_vgg \ #加载的模型的名字
--checkpoint_path=${CHECKPOINT_PATH} \ #所加载模型的路径
--checkpoint_model_scope=vgg_16 \ #所加载模型里面的作用域名
--checkpoint_exclude_scopes=ssd_300_vgg/conv6,ssd_300_vgg/conv7,ssd_300_vgg/block8,ssd_300_vgg/block9,ssd_300_vgg/block10,ssd_300_vgg/block11,ssd_300_vgg/block4_box,ssd_300_vgg/block7_box,ssd_300_vgg/block8_box,ssd_300_vgg/block9_box,ssd_300_vgg/block10_box,ssd_300_vgg/block11_box \
--trainable_scopes=ssd_300_vgg/conv6,ssd_300_vgg/conv7,ssd_300_vgg/block8,ssd_300_vgg/block9,ssd_300_vgg/block10,ssd_300_vgg/block11,ssd_300_vgg/block4_box,ssd_300_vgg/block7_box,ssd_300_vgg/block8_box,ssd_300_vgg/block9_box,ssd_300_vgg/block10_box,ssd_300_vgg/block11_box \
--save_summaries_secs=60 \ #每60s保存一下日志
--save_interval_secs=600 \ #每600s保存一下模型
--weight_decay=0.0005 \ #正则化的权值衰减的系数
--optimizer=adam \ #选取的最优化函数
--learning_rate=0.001 \ #学习率
--learning_rate_decay_factor=0.94 \ #学习率的衰减因子
--batch_size=24 \
--gpu_memory_fraction=0.9 #指定占用gpu内存的百分比
# 方案3:从头开始训练自己的模型
# 注释掉CHECKPOINT_PATH,不提供初始化模型,让模型自己随机初始化权重,从头训练
# 删除checkpoint_exclude_scopes和trainable_scopes,因为是从头开始训练
# CHECKPOINT_PATH=./log_files/log_finetune/train_voc0712_20170712_1741_VGG16/model.ckpt-253287
python3 ../train_ssd_network.py \
--train_dir=${TRAIN_DIR} \ #训练生成模型的存放路径
--dataset_dir=${DATASET_DIR} \ #数据存放路径
--dataset_name=pascalvoc_2007 \ #数据名的前缀
--dataset_split_name=train \
--model_name=ssd_300_vgg \ #加载的模型的名字
#--checkpoint_path=${CHECKPOINT_PATH} \ #所加载模型的路径,这里注释掉
--checkpoint_model_scope=vgg_16 \ #所加载模型里面的作用域名
--save_summaries_secs=60 \ #每60s保存一下日志
--save_interval_secs=600 \ #每600s保存一下模型
--weight_decay=0.0005 \ #正则化的权值衰减的系数
--optimizer=adam \ #选取的最优化函数
--learning_rate=0.00001 \ #学习率
--learning_rate_decay_factor=0.94 \ #学习率的衰减因子
--batch_size=32
出现如下错误,一般是保存模型的文件夹下之前已经有了模型,只需要把之前的模型删除,或者将模型保存在一个新的文件夹下就可以了
It was originally created here:
['File "../train_ssd_network.py", line 420, in \n
tf.app.run()', 'File "/usr/local/lib/python3.5/dist-packages/tensorflow/python
/platform/app.py", line 48, in run\n _sys.exit(main(_sys.argv[:1] +
flags_passthrough))', 'File "../train_ssd_network.py", line 416, in main\n
sync_optimizer=None)', 'File "/usr/local/lib/python3.5/dist-packages/tensorflow
/contrib/slim/python/slim/learning.py", line 655, in train\n ready_op =
tf_variables.report_uninitialized_variables()', 'File "/usr/local/lib/python3.5
/dist-packages/tensorflow/python/util/tf_should_use.py", line 170, in
wrapped\n return _add_should_use_warning(fn(*args, **kwargs))',
'File "/usr/local/lib/python3.5/dist-packages/tensorflow/python/util
/tf_should_use.py", line 139, in _add_should_use_warning\n
wrapped = TFShouldUseWarningWrapper(x)',
'File "/usr/local/lib/python3.5/dist-packages/tensorflow/python/
/tf_should_use.py", line 96, in __init__\n
stack = [s.strip() for s in traceback.format_stack()]']
在TRAIN_DIR路径下会产生四中文件:
1. checkpoint :文本文件,包含所有model.ckpt-xxxx,相当于是不同时间节点生成的所有ckpt文件的一个索引。
2. model.ckpt-2124.data-000000-of-000001:模型文件,保存模型的权重
3. model.ckpt-2124.meta: 图文件,保存模型的网络图
4. model.ckpt-2124.index : 这个没搞太清楚
5. graph.pbtxt: 用protobuf格式保存的模型的图
EVAL_DIR=../log_files/log_eval/train_voc0712_20170712_1741_VGG16/
CHECKPOINT_PATH=.././log_files/log_finetune/train_voc0712_20170712_1741_VGG16/model.ckpt-197442
python3 ../eval_ssd_network.py \
--eval_dir=${EVAL_DIR} \
--dataset_dir=${DATASET_DIR} \
--dataset_name=pascalvoc_2007 \
--dataset_split_name=test \
--model_name=ssd_300_vgg \
--checkpoint_path=${CHECKPOINT_PATH} \
--batch_size=64 \
--gpu_memory_fraction=0.8
打开/home/doctorimage/kindlehe/project/SSD/SSD-Tensorflow-master/shell
,运行bash inspect_checkpoint.sh
,会执行:
#!/usr/bin/env bash
python inspect_checkpoint.py \
--file_name=log_files/log_finetune/train_voc0712_20170703_1104_pb/model.ckpt-3069
输出结果如下:
eta1_power (DT_FLOAT) []
beta2_power (DT_FLOAT) []
global_step (DT_INT64) []
ssd_300_vgg/block10/conv1x1/biases (DT_FLOAT) [128]
ssd_300_vgg/block10/conv1x1/biases/Adam (DT_FLOAT) [128]
ssd_300_vgg/block10/conv1x1/biases/Adam_1 (DT_FLOAT) [128]
ssd_300_vgg/block10/conv1x1/weights (DT_FLOAT) [1,1,256,128]
ssd_300_vgg/block10/conv1x1/weights/Adam (DT_FLOAT) [1,1,256,128]
ssd_300_vgg/block10/conv1x1/weights/Adam_1 (DT_FLOAT) [1,1,256,128]
......(此处省略1万字)
ssd_300_vgg/conv7/biases (DT_FLOAT) [1024]
ssd_300_vgg/conv7/biases/Adam (DT_FLOAT) [1024]
ssd_300_vgg/conv7/biases/Adam_1 (DT_FLOAT) [1024]
ssd_300_vgg/conv7/weights (DT_FLOAT) [1,1,1024,1024]
ssd_300_vgg/conv7/weights/Adam (DT_FLOAT) [1,1,1024,1024]
ssd_300_vgg/conv7/weights/Adam_1 (DT_FLOAT) [1,1,1024,1024]
这里的pb文件不同于之前的model.ckpt-2124.meta文件,这个pb文件是一个graph, 它保存了ssd模型图的结构,不包含全权重信息,因此相比 .ckpt 模型文件,它的文件体积小。
打开/home/doctorimage/kindlehe/project/SSD/SSD-Tensorflow-master/shell
,运行bash export.sh
,会执行:
# 代码参考slim库做出修改:/home/doctorimage/kindlehe/project/models/slim/export_inference_graph.py
python -u ../export_inference_graph.py \
--model_name=ssd_300_vgg \
--output_file=../log_files/log_finetune/train_voc0712_20170703_1104_pb/train_voc0712_20170703_1104.pb \
--dataset_name=pascalvoc_2007 \
--dataset_dir=/home/doctorimage/kindlehe/common/dataset/VOC0712/ #指定用那些数据训练的模型,因为分类数和labels要从这里面取
如何修改自己的模型并生成对应的pb文件呢?
a. --model_name=ssd_300_vgg
意思是export_inference_graph.py
最终会进入/home/doctorimage/kindlehe/project/SSD/SSD-Tensorflow-master/nets
目录,根据ssd_vgg_300.py
里面定义好的模型,去生成对应的====pb文件====。所以想修改网络结构,只需要在ssd_vgg_300.py
这里修改,然后进行在训练的时候把model_name
改成你自己设置的名字即可。运行export.sh
脚本即可生成修改的模型所对应的pb文件。
b. --dataset_dir
这个参数用来指定章节“VOC数据转换成tfrecord格式”中生成的tfrecord文件及标签所在的路径,因为在生成pb文件的时候,会根据数据确定”分类类别的数目”并提取”label”.
c. 注意,这里生成的pb文件如果未设置tf.train.write_graph(,,as_text=False)当中as_text=true,那么会以二进制格式保存,在接下来的feeeze_graph.py固化操作中,应该加上一个参数--input_binary=true
实际上使用训练得到模型时,需要把权重固定,不然每次测试一张图片就相当于继续训练模型,权重也要重新变化一次,这会导致测试一张图片需要很久的时间。在固定权重的基础上,还需要集成图的定义。这个过程就是 freeze graph 。
这里freeze_graph.py的作用就是将上一个步骤生成的pb图文件和训练得到的ckpt参数文件固化到一个文件中,将变量参数类型替换成常量参数类型,模型大小从 降到
打开/home/doctorimage/kindlehe/project/SSD/SSD-Tensorflow-master/shell
,运行bash export.sh
,会执行:
#!/usr/bin/env bash
python ../freeze_graph.py \
--input_binary=true\
--input_graph=../log_files/log_finetune/train_voc0712_20170703_1104_pb/train_voc0712_20170703_1104.pb \
--input_checkpoint=../log_files/log_finetune/train_voc0712_20170703_1104_pb/model.ckpt-3069 \
--output_graph= ../log_files/log_finetune/train_voc0712_20170703_1104_pb/frozen_train_voc0712_20170703_1104.pb \
--output_node_names=output/output
参数说明
--input_binary=true :参见freeze_graph.py的bug清单
--input_graph: 模型的图的定义文件 train_voc0712_20170703_1104.pb(不包含权重);
--input_checkpoint: 模型的参数文件 model.ckpt-3069;
--output_graph: 绑定后包含参数的图模型文件 frozen_train_voc0712_20170703_1104.pb;
-- output_node_names: 输出待计算的tensor名字【重要】;
《freeze_graph.py的bug清单》
发现tensorflow不同版本下运行freeze_graph.py 脚本时可能遇到的Bug挺多的,列举一下:
# Bug1: google.protobuf.text_format.ParseError: 2:1 : Message type "tensorflow.GraphDef" has no field named "J".
# 原因: tf.train.write_graph(,,as_text=False) 之前写出的模型文件是Binary时,
# 读入文件格式应该对应之前设置参数 python freeze_graph.py [***] --input_binary=true,
# 如果as_text=True则可以忽略,因为默认值 --input_binary=false。
# 参考: https://github.com/tensorflow/tensorflow/issues/5780
# Bug2: Input checkpoint '...' doesn't exist!
# 原因: 可能是命令行用了 --input_checkpoint=data.ckpt ,
# 运行 freeze_graph.py 脚本,要在路径参数前加上 "./" 貌似才能正确识别路径。
# 如文件的路径 --input_checkpoint=data.ckpt 变为 --input_checkpoint=./data.ckpt
# 参考: http://www.it1me.seriousdigitalmedia.com/it-answers?id=42439233&ttl=How+to+use+freeze_graph.py+tool+in+TensorFlow+v1
# Bug3: google.protobuf.text_format.ParseError: 2:1 : Expected identifier or number.
# 原因: --input_checkpoint 需要找到 .ckpt.data-000*** 和 .ckpt.meta等多个文件,
# 因为在 --input_checkpoint 参数只需要添加 ckpt的前缀, 如: nn_model.ckpt,而不是完整的路径nn_model.ckpt.data-000***
# .meta .index .data checkpoint 4个文件
# Bug4: # you need to use a different restore operator?
# tensorflow.python.framework.errors_impl.DataLossError: Unable to open table file ./pos.ckpt.data-00000-of-00001: Data loss: not an sstable (bad magic number): perhaps your file is in a different file format and you need to use a different restore operator?
# Saver 保存的文件用格式V2,解决方法更新tensorflow....
# 欢迎补充
==如何确定一个模型的output_node_names
呢?==
如果不指定,会自动选择节点名
训练模型的时候,会生成一个graph.pbtxt
文件,里面包含了所有的节点名,阅读ssd_300_vgg.py
文件里的网络结构,找到希望输出的节点即可。对于ssd,我们希望输出预测框的位置,节点为:
打开/home/doctorimage/kindlehe/project/SSD/SSD-Tensorflow-master/shell
,运行bash print_node_name.sh
,根据上一个步骤生成的train_voc0712_20170703_1104.pb
文件,输出ssd网络结构实际用到的所有节点,保存到save_dir
目录下
#!/usr/bin/env bash
python ../print_node_name.py\
--graph_file=../log_files/log_finetune/train_voc0712_20170703_1104_pb/train_voc0712_20170703_1104.pb \
--save_dir=../log_files/log_finetune/train_voc0712_20170703_1104_pb/
参考《kindle教你手把手跑通ios-tensorflow版SSD模型(三)—— 模型裁剪》
参考《kindle教你手把手跑通ios-tensorflow版SSD模型(一)—— 编译ios-tensorflow》
参考《kindle教你手把手跑通ios-tensorflow版SSD模型(二)—— 配置Xcode》