创建自己数据集全套流程

目录

1、准备自己具有的数据集

2、标注数据----json格式

3、标注数据转为分割图----voc格式

4、增广数据集

5、分训练集以及验证集


1、准备自己具有的数据集

  注意:数据集必须是统一的后缀格式,jpg或者png

2、标注数据----json格式

采用labelme标注,自动保存为标注格式。可以查看这篇文章

注意;此过程是在anaconda prompt中进行的,进入自己创建的环境,然后输入labelme即可进入labelme工具中进行标注。

3、标注数据转为分割图----voc格式

 json转voc代码将json格式转化为png格式的分割图。

#运行命令
#data_annotated是标注图像的名字,data_dataset_voc是新创建的VOC格式的文件名字。
python labelme2voc.py data_annotated data_dataset_voc --labels labels.txt

注意:此命名还是在anaconda prompt中进行的,但是要注意将目录转到你放置json转voc格式的代码目录再运行。并将data_annotated换成自己标注图像的文件夹名字,data_dataset_voc是新创建的VOC格式的文件名字,可以自己更换。

4、增广数据集

此处是原图与标注图同时增广,可看这篇文章来了解如何同时实现增广。

注意:①此代码只能在cpu上运行,不能再gpu上运行;

第一步:由于voc格式的原图是jpg而分割图是png,在增广前需要将原图与标注图的后缀保持一致,如何批量一直可以看这篇文章实现过程。

第二部:由于我们的原图与分割图是一一对应的关系,包括名称都应该一致,而增广后的名称是不一样的,所以我们需要采用批量删除文件中的相同部分让增广后的原图与分割图的名称保持一样。

第三步:讲处理后的增广图恢复到voc的格式,也就是将原图的后缀再转为jpg的格式。将分割图的后缀转为png的格式。

5、分训练集以及验证集

可以看这篇文章来实现最后的划分。

注意:下边那一行代码表示分割图的路径,后缀是png的图像。

 经过如此繁琐的工序就可以完成数据的准备工作了。

棒呆!

你可能感兴趣的:(数据集,python,开发语言)