YOLOv5从零建立自己的数据集

YOLOv5从零建立自己的数据集

  • 写在前面
  • 获取图片
  • 处理图片第一步——挑选并调整爬取到的图片
  • 处理图片第二步——检查图片的完整性
  • 处理图片第三步——对图片进行重新排序
  • 处理图片第四步——对图像中的目标进行标注
  • 处理图片第五步——将标注得到的xml文件转成txt文件
  • 可以创建数据集文件啦
  • 接下来可以愉快地进行训练啦!!!

写在前面

最近一直在处理yolov5的数据集,心血来潮想写一篇博客记录一下,如果有不足的地方还请指正。我主要是做图像处理目标检测方向的,有兴趣的小伙伴也可以一起交流一下呀~

如果是网上直接有数据集的大家可以下载使用,会方便很多!我这个是从0开始自己创建数据集,用的是python哦,创建数据集没有特别的环境要求,YOLO算法的环境和代码后续如果有整理我再更新吧……

代码有些是参考的,有些是自己写的,但是流程是自己摸索的!可能也会绕路或者有点不对,大家有更好的方法的可以评论区交流呀!【厚着脸皮说一句转载记得附上我的链接呀】

获取图片

获取图片我用的是一个简单的爬虫代码,通过关键字在百度图片中进行搜索并下载~ 这个代码是之前网上找的,具体出处有点找不到啦,非常感谢~但是下载下来的图片很杂且有时会出现重复下载的情况,不过反正都是要手动处理的,自己注意下就好啦!

'''
爬取指定关键字图片
'''
import re  
import requests  
import traceback
import os


def dowmloadPic(html, keyword, startNum):
    headers = {'user-agent': 'Mozilla/5.0'} 
    pic_url = re.findall('"objURL":"(.*?)",', html, re.S)  
    num = len(pic_url)
    i = startNum
    subroot = root + '/' + word
    txtpath = subroot + '/download_detail.txt'

    print('找到关键词:' + keyword + '的图片,现在开始下载图片...')

    for each in pic_url:
        a = '第' + str(i + 1) + '张图片,图片地址:' + str(each) + '\n'
        b = '正在下载' + a
        print(b)
        path = subroot + '/' + str(i + 1)
        try:
            if not os.path.exists(subroot):
                os.mkdir(subroot)
            if not os.path.exists(path):
                pic = requests.get(each, headers=headers, timeout=10)
                with open(path + '.jpg', 'wb') as f:
                    f.write(pic.content)
                    f.close()
                with open(txtpath, 'a') as f:
                    f.write(a)
                    f.close()

        except:
            traceback.print_exc()
            print('【错误】当前图片无法下载')
            continue
        i += 1

    return i


if __name__ == '__main__':

    headers = {'user-agent': 'Mozilla/5.0'}
    words = ['苹果']
    root = './download_images_of_'
    for word in words:
        root = root + word + '&'
    if not os.path.exists(root):
        os.mkdir(root)
    for word in words:
        lastNum = 0
        # word = input("Input key word: ")
        if word.strip() == "exit":
            break
        pageId = 0
        # 此处的参数为需爬取的页数,设置为1000for i in range(1000):
            url = 'http://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=' + word + "&pn=" + str(
                pageId) + "&gsm=?&ct=&ic=0&lm=-1&width=0&height=0"
            pageId += 20 
            html = requests.get(url, headers=headers)
            # print(html.text) 
            lastNum = dowmloadPic(html.text, word, lastNum, ) 


处理图片第一步——挑选并调整爬取到的图片

这一步主要是把一些不需要的照片删掉(比如“苹果”关键词可能会带出苹果手机的图片),然后对图片中的杂质进行处理,特别是一些混淆项(如你做的是水果分类,那么最好图中只有一种水果,方便后续处理【不过这里是我自己的理解,可能也可以一起标注出来,然后到转txt的时候修改class_id即可,我也还在摸索中,大家有好的方法可以分享给我呀!!1】)

题外话:有的时候处理数据集刚好是一些小哥哥小姐姐的照片,莫名就有爽到哈哈哈哈,可以光明正大看漂亮的小哥哥小姐姐诶,舔屏中~

处理图片第二步——检查图片的完整性

这一步是我在第3步中偶然发现的问题,下载下来的图片如果不完整的话下一步就会报错哦~
出现的错误如上

运行下列代码进行检查,如果不完整的图片会显示false,直接把对应的图片删掉就好啦~【即使图像能正常显示也最好运行一下这一步哦】

import os
import cv2 as cv

def is_valid_jpg(jpg_file):
    """判断JPG文件下载是否完整     """
    if jpg_file.split('.')[-1].lower() == 'jpg':
        with open(jpg_file, 'rb') as f:
            f.seek(-2, 2)
            return f.read() == b'\xff\xd9'
    else:
        return True


if __name__ == '__main__':
    pic_path = 'C:/Users/81457/Desktop/apple/'
    pics = os.listdir(pic_path)  # 列出path目录下所有的文件名和目录名
    for i in pics:
        if i[-4:] == '.png' or i[-4:] == '.jpg' or i[-5:] == '.jpeg':
            filename = pic_path + i
            out = is_valid_jpg(filename)
            if out == False:
                print(out, filename)
    cv.waitKey(0)

处理图片第三步——对图片进行重新排序

因为挑选过的图片通常很乱,对于自己建立数据集,我通常希望它能够更加有序,所以会对挑选好的图片进行排序整理

哈哈哈哈这个小代码是我自己写的…吧?记不太清了,反正找了好几个都不能用,就随便写了一个,可能会有不好用的情况~ 图片是从number+1进行排序的,例子里是1573进行排序哦!

import cv2 as cv
import os
from PIL import Image


def rename(src):
    global number
    pic_name = str(number + 1) + '.jpg'
    cv.imwrite('C:/Users/81457/Desktop/apple2/' + pic_name, src)
    number += 1


if __name__ == '__main__':
    pic_path = 'C:/Users/81457/Desktop/apple/'
    pics = os.listdir(pic_path)  # 列出path目录下所有的文件名和目录名
    global number
    number = 1572
    for i in pics:
        if i[-4:] == '.png' or i[-4:] == '.jpg' or i[-5:] == '.jpeg':
            filename = pic_path + i
            src = cv.imread(filename)
            if i[-4:] == '.png':
                src = src * 255
            rename(src)
    cv.waitKey(0)

处理图片第四步——对图像中的目标进行标注

用的是labelImg,方法可以直接参考下面这个博客哦~
链接: https://blog.csdn.net/python_pycharm/article/details/85338801.

处理图片第五步——将标注得到的xml文件转成txt文件

这里一定要特别特别注意自己的class_id,也就是txt文件中的第一个数字,一般来说类别都是从0开始的,如0代表苹果,1代表梨子,2代表香蕉;如果你已经有了0,1,2,3这四个类的话,想再添加一个类,就要变成5哦!【这里就是我前面提到的保持一张图片里最好只有一个类,因为有很多类的话,可能txt文件中要进行相应的调整,至少我傻乎乎一直都是这么处理的哈哈】

例子里我是从第2类开始的,我已经拥有了0和1两个类啦,如果要从0开始,删掉cls_id后面的+2即可【我有在代码中注释出来】

import xml.etree.ElementTree as ET
import pickle
import os
from os import listdir, getcwd
from os.path import join


def convert(size, box):
    x_center = (box[0] + box[1]) / 2.0
    y_center = (box[2] + box[3]) / 2.0
    x = x_center / size[0]
    y = y_center / size[1]

    w = (box[1] - box[0]) / size[0]
    h = (box[3] - box[2]) / size[1]

    return (x, y, w, h)


def convert_annotation(xml_files_path, save_txt_files_path, classes):
    xml_files = os.listdir(xml_files_path)
    print(xml_files)
    for xml_name in xml_files:
        print(xml_name)
        xml_file = os.path.join(xml_files_path, xml_name)
        out_txt_path = os.path.join(save_txt_files_path, xml_name.split('.')[0] + '.txt')
        out_txt_f = open(out_txt_path, 'w')
        tree = ET.parse(xml_file)
        root = tree.getroot()
        size = root.find('size')
        w = int(size.find('width').text)
        h = int(size.find('height').text)

        for obj in root.iter('object'):
            difficult = obj.find('difficult').text
            cls = obj.find('name').text
            if cls not in classes or int(difficult) == 1:
                continue
            cls_id = classes.index(cls)
            xmlbox = obj.find('bndbox')
            b = (float(xmlbox.find('xmin').text), float(xmlbox.find('xmax').text), float(xmlbox.find('ymin').text),
                 float(xmlbox.find('ymax').text))
            # b=(xmin, xmax, ymin, ymax)
            print(w, h, b)
            bb = convert((w, h), b)
            # 这里我是从第2类开始的,我已经拥有了01两个类啦,如果要从0开始,删掉cls_id后面的+2即可
            out_txt_f.write(str(cls_id+2) + " " + " ".join([str(a) for a in bb]) + '\n')


if __name__ == "__main__":
    # 把voc的xml标签文件转化为yolo的txt标签文件
    # 1、类别
    classes1 = ['apple']
    # 2、voc格式的xml标签文件路径
    xml_files1 = r'C:\Users\81457\Desktop\apple_label'
    # 3、转化为yolo格式的txt标签文件存储路径
    save_txt_files1 = r'C:\Users\81457\Desktop\apple_labels'
    convert_annotation(xml_files1, save_txt_files1, classes1)

可以创建数据集文件啦

把你得到的图片分成两份,一份训练集,一份验证集,还可以留一部分做测试集

  • 数据集文件【如fruit】
    • images
      • train【把训练集图片全部放进去】
      • val【把验证集图片全部放进去】
    • labels
      • train【把训练集图片对应的txt文件全部放进去】
      • val【把验证集图片对应的txt文件全部放进去】

接下来可以愉快地进行训练啦!!!

工具人就是这么简单!
如果要做网络就很痛苦啦!继续加油吧IT人!

你可能感兴趣的:(python)