一. 制作自己的数据集
(1)安装labelme,然后在终端运行labelme,选择图像:
使用polygon对图像目标区域进行标注:
(2)标注完成后,产生一个个json文件:
使用labelme的 labelme-json-to-dataset.exe可执行文件将json文件转化为对应mask
如果需要转化的 json文件过多,可以自己编写一个批处理文件:
path ="./dataset/training/labelme_json/" #存放json的路径
json_file = os.listdir(path)
for file in json_file:
os.system("C:\Anaconda3\envs\AI\Scripts\labelme_json_to_dataset.exe %s" % (path + file))
# os.system创建一个子进程在系统上执行命令行
最后得到多个包含mask的文件夹:
文件夹包含:原始图像,标签mask,标签名,可标签可视化图像
然后将所有标签mask放到一个文件夹下
(3)上述mask转化为可训练的mask
(2)中得到的mask是单通道的(位深度为8),其像素值在0~255之间。我们需要根据它的分割类别,将对应像素值设置为0,1,2......等值,并将它们 resize 到统一大小:
source_path = "./dataset/training/mask/" # 未被处理的mask
save_path = "./dataset/training/instances/" # 用于训练的mask
for item in glob.glob(source_path+"*.png"):
image_name = ospath.split(item)[1] # os.path.split按照路径将文件名和路径分割开
image = cv2.imread(item,0) # image是numpy.ndarray ; 以灰度模式加载图片
t = np.unique(image) # 查看图像中的像素值分布,通常是0,38,75等数值
print(t)
image[image == 38] = 1 # 注:先转化,再resize,不然会出错
image = cv2.resize(image,(320,320))
cv2.imwrite(save_path+str(image_name),image)
因为像素值是0,1等较小的整数,所以看以来都是黑黑的:
注:这些得到的mask同样是单通道的,在训练之前还需 one-hot 化处理
二. 构建网络模型
因为训练数据太少,所以我只构建了一个简化版的U-Net:
该网络是一个简单的 Encode-Decode 结构
2+1+2 :2次降采样,2次上采样
整个模型使用 tensorflow的高级API--keras构建,过程非常简单。这是模型对应的源代码:
Class U_Net():
......
def LeftNetwork(self,inputs):
x = Conv2D(16,(3,3),padding="same",activation="relu")(inputs)
o_1 = Conv2D(16,(3,3),padding="same",activation="relu")(x)
x = MaxPooling2D(pool_size=(2,2),strides=(2,2))(o_1)
x = Conv2D(32,(3,3),padding="same",activation="relu")(x)
o_2 = Conv2D(32,(3,3),padding="same",activation="relu")(x)
x = MaxPooling2D(pool_size=(2,2),strides=(2,2))(o_2)
x = Conv2D(64,(3,3),padding="same",activation="relu")(x)
o_3 = Conv2D(64,(3,3),padding="same",activation="relu")(x)
return o_1,o_2,o_3
def RightNetwork(self,inputs):
i_1,i_2,i_3 = inputs
i_3 = UpSampling2D((2,2))(i_3)
x = concatenate([i_2,i_3],axis=3)
x = Conv2D(32,(3,3),padding="same",activation="relu")(x)
x = Conv2D(32,(3,3),padding="same",activation="relu")(x)
x = UpSampling2D((2,2))(x)
x = concatenate([i_1,x],axis=3)
x = Conv2D(16,(3,3),padding="same",activation="relu")(x)
x = Conv2D(16,(3,3),padding="same",activation="relu")(x)
x = Conv2D(self.num_classes,(1,1),padding="same",activation="relu")(x)
x = Activation("softmax")(x)
return x
def create_model(self):
inputs = Input(shape=[self.input_height,self.input_width,3])
left_output = self.LeftNetwork(inputs)
right_output = self.RightNetwork(left_output)
model = Model(inputs=inputs,outputs=right_output)
return model
......
三. 构建数据生成器
构建数据生成器 -- generator 来生成 训练/验证 数据:
Class U_Net():
......
def datagenerator(self,mode):
if mode == "training":
images = glob.glob(self.train_images+"*.jpg") # 返回所有匹配的文件路径--列表
images.sort() # 对原列表进行排序,默认升序
instances = glob.glob(self.train_instances+"*.png")
instances.sort()
# 排序之后,image和instance的顺序一致,一一对应
zipped = itertools.cycle(zip(images,instances)) #zip()函数用于将可迭代的对象作为参数,将对象中对应的元素打包成一个个元组,
# 然后返回由这些元组组成的列表;cycle()会把传入的一个序列无限循环重复下去
while True:
x_train = [] #必须定义个空集,使张量的维度增加一维
y_train = []
for _ in range(self.batch_size):
image,instance = next(zipped) # images,instances是图像和mask的路径
# image--(320,320,3)
image = cv2.resize(cv2.imread(image,1),(self.input_width,self.input_height))/255.0
# instance是1通道黑白图像的np.array;将整型的类别标签转为one-hot形式,变成num_classes个通道的np.array
instance = tf.keras.utils.to_categorical(cv2.imread(instance,0)) # instances--(320,320,2)
x_train.append(image)
y_train.append(instance)
yield np.array(x_train),np.array(y_train) # yield = return+generator
......
四. 编译,训练,保存
- 编译:使用Adam作为参数优化器,Crossentropy作为损失函数
-
训练:
- 保存:将模型保存为 .h5 格式,便于测试
五. 推理/测试
因为自己制作单位数据集太小,不忍心看模型的推理结果,所以直接用训练图像进行了测试:
其实,用其他的图像进行推理,效果是这样的:
六. 展望
尝试使用现有的数据集进行模型训练。