【学习笔记】使用Tensorflow版ENet训练自己的数据集&labelme生成灰度标签图片问题

使用的代码:kwotsin所写的Tensorflow版,180星

记录一下训练的过程,方便以后翻阅。

首先是数据集的准备,数据集的文件夹结构为:

├── test
├── testannot
├── train
├── trainannot
├── val
└── valannot

由上到下分别是测试集、测试集标签、训练集、训练集标签、验证集、验证集标签。

我的数据集为640*480的图片,1800张用于训练,74张用于验证,对应的标签(label)图片为灰度图,使用labelme标注的json文件得到。

这里要特别说明一下,json文件需要解析之后才能得到我们的标签图片,我使用了网上的几个脚本,都存在不同图片中相同的分类对应的序号不同,比如我的数据集中,道路类在第一张图中是2,第二张图中变成了3,这就导致训练的时候会造成神经网络产生困扰,无法有效的学习到特征。因此我使用了labelme作者的脚本,labelme2voc.py,是生成voc数据集格式的脚本,其中的label图可以保证每一类的编号都是统一的。但是这个脚本转换完成的label图却是8-bit的RGB图,是无法直接使用这个版本的ENet进行训练的,否则会遇到问题:

InvalidArgumentError (see above for traceback): assertion failed: [labels out of bound] [Condition x < y did not hold element-wise:] [x (mean_iou/confusion_matrix/control_dependency:0) = ] [0 0 0...] [y (mean_iou/ToInt64_1:0) = ] [9]

我们需要的label图必须8-bit的灰度图,而且每一类所在区域的像素值必须与该类对应的编号相同。才疏学浅,不知如何直接转换,于是自己写了小脚本,饶了绕弯路,“曲线救国”解决了这个问题。

我的思路是:

首先,把彩色的8位label图,使用openCV的bgr2gray进行色彩转换,转换成单通道的绘图度。但是转换完成后我发现每个类别的灰度值都很奇怪,比如我的1类对应的灰度值是38,2类对应75,3类对应113……毫无规律可寻。

好在,转换完的图是肉眼可以分辨的,我对照着原图记录了每一类对应的灰度值……

然后逐个像素的把它们重新赋予正确的灰度值。

自己的小脚本如下:

'''
This script is used to trans lableme fault gray lable to right gray lable.
@author:KH
20190428
'''
import os
from PIL import Image

x =0
y =0

img_path = ''
file_img = sorted(os.listdir(img_path))

for image in file_img:
	img_name = str(image)
	img = Image.open(os.path.join(img_path,image))
	#img = img.convert("RGB")
	img_weight = img.size[0]
	img_hight = img.size[1]
	w_range = range(img_weight)
	h_range = range(img_hight)
	for x in w_range:
		for y in h_range:
			pix = img.getpixel((x,y))
			if pix == 0: # background
				pix = img.putpixel((x,y),0)
			elif pix == 15: 
				pix = img.putpixel((x,y),4)
			elif pix == 19: 
				pix = img.putpixel((x,y),8)
			elif pix == 38: 
				pix = img.putpixel((x,y),1)
			elif pix == 75: 
				pix = img.putpixel((x,y),2)
			elif pix == 90: 
				pix = img.putpixel((x,y),6)
			elif pix == 57: 
				pix = img.putpixel((x,y),9)
			elif pix == 113: 
				pix = img.putpixel((x,y),3)
			elif pix == 128: 
				pix = img.putpixel((x,y),7)
			elif pix == 53: 
				pix = img.putpixel((x,y),5)
	img.save("" + img_name)

解决了数据集的问题,终于可以准备训练了。

训练自己的数据集,首先检查一下你的数据集图片格式,因为在train_enet.py文件中指定了图片格式为png,按需修改。

image_files = sorted([os.path.join(dataset_dir, 'train', file) for file in os.listdir(dataset_dir + "/train") if file.endswith('.png')])
annotation_files = sorted([os.path.join(dataset_dir, "trainannot", file) for file in os.listdir(dataset_dir + "/trainannot") if file.endswith('.png')])

image_val_files = sorted([os.path.join(dataset_dir, 'val', file) for file in os.listdir(dataset_dir + "/val") if file.endswith('.png')])
annotation_val_files = sorted([os.path.join(dataset_dir, "valannot", file) for file in os.listdir(dataset_dir + "/valannot") if file.endswith('.png')])

随后,get_class_weights.py第六行修改为你的训练集label图所在文件夹。按照类别数修改第9\48\102\103行,类别数为你的类别数+1,第7行注意图片格式。

最后,修改train.sh,按自己的需求修改,比如我:

python train_enet.py --dataset_dir=./bdz_dataset --logdir=./log/train_bdz_dataset --num_classes=10 --batch_size=4 --image_height=480 --image_width=640 --num_epochs=300 --weighting=MFB

其中dataset_dir是你的数据集地址,logdir是你保存训练生成文件的地址,num_classes是类别数,num_epochs是训练的总轮树,换算成step就是step=(训练集总数/batch_size)*epochs。最后一个是计算权重的方式,有MFB和ENET两种,按需设置吧。

都设置完成后,即可开始训练。

你可能感兴趣的:(学习笔记,TensorFlow学习记录,tensorflow,enet)