这是我的第一篇博客,本来打算先写YOLOV5的txt格式转V4的来着,结果过了很长时间,有点忘了。最近又在搞fasterRcnn所以来写这一篇。方便大家,也方便我自己后续在转。(我的都是笨办法,但是我都写在这篇博客了,方便一些和我一样的小白。)
注:本文的博客都是完全参考别人的,但是由于查询的太多了,所以不记得是参考那一篇的了,所以如果有侵权。请告诉我,然后请给个机会,让我把引用加上,而不是删除。
第一步:
首先就是先按照这个模块在fastercnn目录下创建文件夹。
第二步:
先用代码一进行val的转化,txt、images的路径你就写v5的文件路径,xml的保存路径就写第一步中你创建Annotations的路径。(因为val的数据集一般比较少,所以可以先用val的进行转化测试)。生成之后,先不要着急生成train的。(因为需要保持训练姐、验证集和测速集一致)
第三步:
将代码二放在VOC2007的目录下,然后直接运行,(不要问我为什么必须的这样,因为我不会修改路径,哈哈)会在ImageSets/Main下生成四个txt格式,分别为test、train、trainval、val。然后将test中的内容复制到trainval中即可。这就是最后val所需的txt文件,保存下来(里你对应一下你的数目,应该没问题),然后将这些Main文件夹清空。
第四步:
根据你的数据集,然后重复进行train、test的转化。最后你得到了val、test、train三个txt,然后你在新建一个trainval.txt,将val和train中的复制进去。这样所需的文件搞定。(test如果没有,应该可以直接不写。以防万一,你创建一个空的test.txt即可)
第五步:
将yolov5的train、val、test的所有图片放在JPEGImages中。大功告成。
感谢阅读,共同进步!(最后在附赠一个xml可视化的程序,以便大家看一下自己的转化是否成功)
代码一:txt格式转xml的代码如下。
# 代码1 txt格式转xml
from xml.dom.minidom import Document
import os
import cv2
# def makexml(txtPath, xmlPath, picPath): # txt所在文件夹路径,xml文件保存路径,图片所在文件夹路径
def makexml(picPath, txtPath, xmlPath): # txt所在文件夹路径,xml文件保存路径,图片所在文件夹路径
"""此函数用于将yolo格式txt标注文件转换为voc格式xml标注文件
"""
dic = {'0': "body", # 创建字典用来对类型进行转换
}
files = os.listdir(txtPath)
for i, name in enumerate(files):
xmlBuilder = Document()
annotation = xmlBuilder.createElement("annotation") # 创建annotation标签
xmlBuilder.appendChild(annotation)
txtFile = open(txtPath + name)
txtList = txtFile.readlines()
img = cv2.imread(picPath + name[0:-4] + ".jpg")
Pheight, Pwidth, Pdepth = img.shape
folder = xmlBuilder.createElement("folder") # folder标签
foldercontent = xmlBuilder.createTextNode("driving_annotation_dataset")
folder.appendChild(foldercontent)
annotation.appendChild(folder) # folder标签结束
filename = xmlBuilder.createElement("filename") # filename标签
filenamecontent = xmlBuilder.createTextNode(name[0:-4] + ".jpg")
filename.appendChild(filenamecontent)
annotation.appendChild(filename) # filename标签结束
size = xmlBuilder.createElement("size") # size标签
width = xmlBuilder.createElement("width") # size子标签width
widthcontent = xmlBuilder.createTextNode(str(Pwidth))
width.appendChild(widthcontent)
size.appendChild(width) # size子标签width结束
height = xmlBuilder.createElement("height") # size子标签height
heightcontent = xmlBuilder.createTextNode(str(Pheight))
height.appendChild(heightcontent)
size.appendChild(height) # size子标签height结束
depth = xmlBuilder.createElement("depth") # size子标签depth
depthcontent = xmlBuilder.createTextNode(str(Pdepth))
depth.appendChild(depthcontent)
size.appendChild(depth) # size子标签depth结束
annotation.appendChild(size) # size标签结束
for j in txtList:
oneline = j.strip().split(" ")
object = xmlBuilder.createElement("object") # object 标签
picname = xmlBuilder.createElement("name") # name标签
namecontent = xmlBuilder.createTextNode(dic[oneline[0]])
picname.appendChild(namecontent)
object.appendChild(picname) # name标签结束
pose = xmlBuilder.createElement("pose") # pose标签
posecontent = xmlBuilder.createTextNode("Unspecified")
pose.appendChild(posecontent)
object.appendChild(pose) # pose标签结束
truncated = xmlBuilder.createElement("truncated") # truncated标签
truncatedContent = xmlBuilder.createTextNode("0")
truncated.appendChild(truncatedContent)
object.appendChild(truncated) # truncated标签结束
difficult = xmlBuilder.createElement("difficult") # difficult标签
difficultcontent = xmlBuilder.createTextNode("0")
difficult.appendChild(difficultcontent)
object.appendChild(difficult) # difficult标签结束
bndbox = xmlBuilder.createElement("bndbox") # bndbox标签
xmin = xmlBuilder.createElement("xmin") # xmin标签
mathData = int(((float(oneline[1])) * Pwidth + 1) - (float(oneline[3])) * 0.5 * Pwidth)
xminContent = xmlBuilder.createTextNode(str(mathData))
xmin.appendChild(xminContent)
bndbox.appendChild(xmin) # xmin标签结束
ymin = xmlBuilder.createElement("ymin") # ymin标签
mathData = int(((float(oneline[2])) * Pheight + 1) - (float(oneline[4])) * 0.5 * Pheight)
yminContent = xmlBuilder.createTextNode(str(mathData))
ymin.appendChild(yminContent)
bndbox.appendChild(ymin) # ymin标签结束
xmax = xmlBuilder.createElement("xmax") # xmax标签
mathData = int(((float(oneline[1])) * Pwidth + 1) + (float(oneline[3])) * 0.5 * Pwidth)
xmaxContent = xmlBuilder.createTextNode(str(mathData))
xmax.appendChild(xmaxContent)
bndbox.appendChild(xmax) # xmax标签结束
ymax = xmlBuilder.createElement("ymax") # ymax标签
mathData = int(((float(oneline[2])) * Pheight + 1) + (float(oneline[4])) * 0.5 * Pheight)
ymaxContent = xmlBuilder.createTextNode(str(mathData))
ymax.appendChild(ymaxContent)
bndbox.appendChild(ymax) # ymax标签结束
object.appendChild(bndbox) # bndbox标签结束
annotation.appendChild(object) # object标签结束
f = open(xmlPath + name[0:-4] + ".xml", 'w')
xmlBuilder.writexml(f, indent='\t', newl='\n', addindent='\t', encoding='utf-8')
f.close()
if __name__ == "__main__":
picPath = "/root/autodl-tmp/CrowdHuamn/images/train/" # 图片所在文件夹路径,后面的/一定要带上
txtPath = "/root/autodl-tmp/CrowdHuamn/labels/train/" # txt所在文件夹路径,后面的/一定要带上
xmlPath = "/root/autodl-tmp/VOCdevkit2007/VOC2007/Annotations/" # xml文件保存路径,后面的/一定要带上
makexml(picPath, txtPath, xmlPath)
代码二:生成fasterrcnn所需要的TXT文件的代码
# !/usr/bin/python
# -*- coding: utf-8 -*-
import os
import random
trainval_percent = 0.8 #trainval占比例多少
train_percent = 0.7 #test数据集占比例多少
xmlfilepath = 'Annotations'
txtsavepath = 'ImageSets\Main'
total_xml = os.listdir(xmlfilepath)
num=len(total_xml)
list=range(num)
tv=int(num*trainval_percent)
tr=int(tv*train_percent)
trainval= random.sample(list,tv)
train=random.sample(trainval,tr)
ftrainval = open('ImageSets/Main/trainval.txt', 'w')
ftest = open('ImageSets/Main/test.txt', 'w')
ftrain = open('ImageSets/Main/train.txt', 'w')
fval = open('ImageSets/Main/val.txt', 'w')
for i in list:
name=total_xml[i][:-4]+'\n'
if i in trainval:
ftrainval.write(name)
if i in train:
ftrain.write(name)
else:
fval.write(name)
else:
ftest.write(name)
ftrainval.close()
ftrain.close()
fval.close()
ftest .close()
代码三:xml可视化
需要进行修改的是48行代码和51行代码
46行:为xml和图片的根目录,在这个根目录下创建三个文件夹,一个是Annotations(存放xml标签),一个是JPEGImages(存放对应图片),一个是save(存放已经打标签的图片)。
58行:为图片保存路径
import xml.etree.ElementTree as ET # 读取xml。
import os
from PIL import Image, ImageDraw, ImageFont
def parse_rec(filename):
tree = ET.parse(filename) # 解析读取xml函数
objects = []
img_dir = []
for xml_name in tree.findall('filename'):
img_path = os.path.join(pic_path, xml_name.text)
img_dir.append(img_path)
for obj in tree.findall('object'):
obj_struct = {}
obj_struct['name'] = obj.find('name').text
obj_struct['pose'] = obj.find('pose').text
obj_struct['truncated'] = int(obj.find('truncated').text)
obj_struct['difficult'] = int(obj.find('difficult').text)
bbox = obj.find('bndbox')
obj_struct['bbox'] = [int(bbox.find('xmin').text),
int(bbox.find('ymin').text),
int(bbox.find('xmax').text),
int(bbox.find('ymax').text)]
objects.append(obj_struct)
return objects, img_dir
# 可视化
def visualise_gt(objects, img_dir, save_path, save_name):
for id, img_path in enumerate(img_dir):
img = Image.open(img_path)
draw = ImageDraw.Draw(img)
for a in objects:
xmin = int(a['bbox'][0])
ymin = int(a['bbox'][1])
xmax = int(a['bbox'][2])
ymax = int(a['bbox'][3])
label = a['name']
draw.rectangle((xmin, ymin, xmax, ymax), fill=None, outline=(0, 255, 0), width=2)
draw.text((xmin - 10, ymin - 15), label, fill=(0, 255, 0), font=font) # 利用ImageDraw的内置函数,在图片上写入文字
img.show()
img.save(save_path + save_name + '.jpg')
fontPath = "C:\Windows\Fonts\Consolas\consola.ttf" # 字体路径
root = 'D:\python\project\yolov5-6.1\VOCdevkit\ksh'
ann_path = os.path.join(root, 'Annotations') # xml文件所在路径
pic_path = os.path.join(root, 'JPEGImages') # 样本图片路径
save_path = os.path.join(root, 'save') # 保存图片路径
font = ImageFont.truetype(fontPath, 16)
for filename in os.listdir(ann_path):
save_name = filename.split('.')[0]
xml_path = os.path.join(ann_path, filename)
object, img_dir = parse_rec(xml_path)
visualise_gt(object, img_dir, save_path, save_name)