第一次语义分割实践

一. 制作自己的数据集

(1)安装labelme,然后在终端运行labelme,选择图像:


使用polygon对图像目标区域进行标注:

(2)标注完成后,产生一个个json文件


使用labelme的 labelme-json-to-dataset.exe可执行文件将json文件转化为对应mask
如果需要转化的 json文件过多,可以自己编写一个批处理文件:

path ="./dataset/training/labelme_json/"     #存放json的路径
json_file = os.listdir(path)
for file in json_file:
os.system("C:\Anaconda3\envs\AI\Scripts\labelme_json_to_dataset.exe %s" % (path + file)) 
 # os.system创建一个子进程在系统上执行命令行

最后得到多个包含mask的文件夹:



文件夹包含:原始图像,标签mask,标签名,可标签可视化图像



然后将所有标签mask放到一个文件夹下

(3)上述mask转化为可训练的mask

(2)中得到的mask是单通道的(位深度为8),其像素值在0~255之间。我们需要根据它的分割类别,将对应像素值设置为0,1,2......等值,并将它们 resize 到统一大小:

source_path = "./dataset/training/mask/"       # 未被处理的mask
save_path = "./dataset/training/instances/"    # 用于训练的mask
for item in glob.glob(source_path+"*.png"):  
    image_name = ospath.split(item)[1]         # os.path.split按照路径将文件名和路径分割开
    image = cv2.imread(item,0)                 # image是numpy.ndarray ; 以灰度模式加载图片
    t = np.unique(image)                       # 查看图像中的像素值分布,通常是0,38,75等数值
    print(t)
    image[image == 38] = 1                     # 注:先转化,再resize,不然会出错
    image = cv2.resize(image,(320,320))
    cv2.imwrite(save_path+str(image_name),image)

因为像素值是0,1等较小的整数,所以看以来都是黑黑的:


注:这些得到的mask同样是单通道的,在训练之前还需 one-hot 化处理

二. 构建网络模型

因为训练数据太少,所以我只构建了一个简化版的U-Net:


该网络是一个简单的 Encode-Decode 结构
2+1+2 :2次降采样,2次上采样
整个模型使用 tensorflow的高级API--keras构建,过程非常简单。这是模型对应的源代码:

 Class U_Net():
    ...... 
    def LeftNetwork(self,inputs):
        x = Conv2D(16,(3,3),padding="same",activation="relu")(inputs)
        o_1 = Conv2D(16,(3,3),padding="same",activation="relu")(x)
        x = MaxPooling2D(pool_size=(2,2),strides=(2,2))(o_1)
        
        x = Conv2D(32,(3,3),padding="same",activation="relu")(x)
        o_2 = Conv2D(32,(3,3),padding="same",activation="relu")(x)
        x = MaxPooling2D(pool_size=(2,2),strides=(2,2))(o_2)
        
        x = Conv2D(64,(3,3),padding="same",activation="relu")(x)
        o_3 = Conv2D(64,(3,3),padding="same",activation="relu")(x)
        
        return o_1,o_2,o_3
    
    def RightNetwork(self,inputs):
        i_1,i_2,i_3 = inputs
        
        i_3 = UpSampling2D((2,2))(i_3)
        x = concatenate([i_2,i_3],axis=3)
        x = Conv2D(32,(3,3),padding="same",activation="relu")(x)
        x = Conv2D(32,(3,3),padding="same",activation="relu")(x)
        
        x = UpSampling2D((2,2))(x)
        x = concatenate([i_1,x],axis=3)
        x = Conv2D(16,(3,3),padding="same",activation="relu")(x)
        x = Conv2D(16,(3,3),padding="same",activation="relu")(x)
        x = Conv2D(self.num_classes,(1,1),padding="same",activation="relu")(x)
        x = Activation("softmax")(x)       

        return x

    def create_model(self):
        inputs = Input(shape=[self.input_height,self.input_width,3])
        left_output = self.LeftNetwork(inputs)
        right_output = self.RightNetwork(left_output)
        model = Model(inputs=inputs,outputs=right_output)
        
        return model
  ......

三. 构建数据生成器

构建数据生成器 -- generator 来生成 训练/验证 数据:

Class U_Net():
    ...... 
  def datagenerator(self,mode):
        if mode == "training":
            images = glob.glob(self.train_images+"*.jpg")  # 返回所有匹配的文件路径--列表
            images.sort()                                   # 对原列表进行排序,默认升序
            instances = glob.glob(self.train_instances+"*.png")
            instances.sort()
            # 排序之后,image和instance的顺序一致,一一对应
             
            zipped = itertools.cycle(zip(images,instances))   #zip()函数用于将可迭代的对象作为参数,将对象中对应的元素打包成一个个元组,
            # 然后返回由这些元组组成的列表;cycle()会把传入的一个序列无限循环重复下去
            
            while True:
                x_train = []                                  #必须定义个空集,使张量的维度增加一维
                y_train = []
                
                for _ in range(self.batch_size):
                    image,instance = next(zipped)           # images,instances是图像和mask的路径
                    # image--(320,320,3)
                    image = cv2.resize(cv2.imread(image,1),(self.input_width,self.input_height))/255.0    
                    # instance是1通道黑白图像的np.array;将整型的类别标签转为one-hot形式,变成num_classes个通道的np.array
                    instance = tf.keras.utils.to_categorical(cv2.imread(instance,0))                      # instances--(320,320,2)
                    
                    x_train.append(image)
                    y_train.append(instance)
                    
                yield  np.array(x_train),np.array(y_train)   # yield = return+generator
       ......     

四. 编译,训练,保存

  • 编译:使用Adam作为参数优化器,Crossentropy作为损失函数
  • 训练:


  • 保存:将模型保存为 .h5 格式,便于测试

五. 推理/测试

因为自己制作单位数据集太小,不忍心看模型的推理结果,所以直接用训练图像进行了测试:




其实,用其他的图像进行推理,效果是这样的:



六. 展望

尝试使用现有的数据集进行模型训练。

你可能感兴趣的:(第一次语义分割实践)