使用的代码:kwotsin所写的Tensorflow版,180星
记录一下训练的过程,方便以后翻阅。
首先是数据集的准备,数据集的文件夹结构为:
├── test
├── testannot
├── train
├── trainannot
├── val
└── valannot
由上到下分别是测试集、测试集标签、训练集、训练集标签、验证集、验证集标签。
我的数据集为640*480的图片,1800张用于训练,74张用于验证,对应的标签(label)图片为灰度图,使用labelme标注的json文件得到。
这里要特别说明一下,json文件需要解析之后才能得到我们的标签图片,我使用了网上的几个脚本,都存在不同图片中相同的分类对应的序号不同,比如我的数据集中,道路类在第一张图中是2,第二张图中变成了3,这就导致训练的时候会造成神经网络产生困扰,无法有效的学习到特征。因此我使用了labelme作者的脚本,labelme2voc.py,是生成voc数据集格式的脚本,其中的label图可以保证每一类的编号都是统一的。但是这个脚本转换完成的label图却是8-bit的RGB图,是无法直接使用这个版本的ENet进行训练的,否则会遇到问题:
InvalidArgumentError (see above for traceback): assertion failed: [labels out of bound] [Condition x < y did not hold element-wise:] [x (mean_iou/confusion_matrix/control_dependency:0) = ] [0 0 0...] [y (mean_iou/ToInt64_1:0) = ] [9]
我们需要的label图必须8-bit的灰度图,而且每一类所在区域的像素值必须与该类对应的编号相同。才疏学浅,不知如何直接转换,于是自己写了小脚本,饶了绕弯路,“曲线救国”解决了这个问题。
我的思路是:
首先,把彩色的8位label图,使用openCV的bgr2gray进行色彩转换,转换成单通道的绘图度。但是转换完成后我发现每个类别的灰度值都很奇怪,比如我的1类对应的灰度值是38,2类对应75,3类对应113……毫无规律可寻。
好在,转换完的图是肉眼可以分辨的,我对照着原图记录了每一类对应的灰度值……
然后逐个像素的把它们重新赋予正确的灰度值。
自己的小脚本如下:
'''
This script is used to trans lableme fault gray lable to right gray lable.
@author:KH
20190428
'''
import os
from PIL import Image
x =0
y =0
img_path = ''
file_img = sorted(os.listdir(img_path))
for image in file_img:
img_name = str(image)
img = Image.open(os.path.join(img_path,image))
#img = img.convert("RGB")
img_weight = img.size[0]
img_hight = img.size[1]
w_range = range(img_weight)
h_range = range(img_hight)
for x in w_range:
for y in h_range:
pix = img.getpixel((x,y))
if pix == 0: # background
pix = img.putpixel((x,y),0)
elif pix == 15:
pix = img.putpixel((x,y),4)
elif pix == 19:
pix = img.putpixel((x,y),8)
elif pix == 38:
pix = img.putpixel((x,y),1)
elif pix == 75:
pix = img.putpixel((x,y),2)
elif pix == 90:
pix = img.putpixel((x,y),6)
elif pix == 57:
pix = img.putpixel((x,y),9)
elif pix == 113:
pix = img.putpixel((x,y),3)
elif pix == 128:
pix = img.putpixel((x,y),7)
elif pix == 53:
pix = img.putpixel((x,y),5)
img.save("" + img_name)
解决了数据集的问题,终于可以准备训练了。
训练自己的数据集,首先检查一下你的数据集图片格式,因为在train_enet.py文件中指定了图片格式为png,按需修改。
image_files = sorted([os.path.join(dataset_dir, 'train', file) for file in os.listdir(dataset_dir + "/train") if file.endswith('.png')])
annotation_files = sorted([os.path.join(dataset_dir, "trainannot", file) for file in os.listdir(dataset_dir + "/trainannot") if file.endswith('.png')])
image_val_files = sorted([os.path.join(dataset_dir, 'val', file) for file in os.listdir(dataset_dir + "/val") if file.endswith('.png')])
annotation_val_files = sorted([os.path.join(dataset_dir, "valannot", file) for file in os.listdir(dataset_dir + "/valannot") if file.endswith('.png')])
随后,get_class_weights.py第六行修改为你的训练集label图所在文件夹。按照类别数修改第9\48\102\103行,类别数为你的类别数+1,第7行注意图片格式。
最后,修改train.sh,按自己的需求修改,比如我:
python train_enet.py --dataset_dir=./bdz_dataset --logdir=./log/train_bdz_dataset --num_classes=10 --batch_size=4 --image_height=480 --image_width=640 --num_epochs=300 --weighting=MFB
其中dataset_dir是你的数据集地址,logdir是你保存训练生成文件的地址,num_classes是类别数,num_epochs是训练的总轮树,换算成step就是step=(训练集总数/batch_size)*epochs。最后一个是计算权重的方式,有MFB和ENET两种,按需设置吧。
都设置完成后,即可开始训练。