码农编程录

【Python4】文件，xml操作

文章目录

1.文件
- 1.1 增：写入文件内容给文本文件
- 1.2 改：批量修改图片大小
- 1.3 查：查询文件夹中的文件
- - 查：读取文件
  - 查：搜索文件夹路径内含有指定内容的代码文件
2.xml
- 2.1 labelimg_yolo_txt转pascal voc_xml
- 2.2 删除 w label
- 2.3 检查不是people和obstacle的label
- 2.4 读取指定后缀
- 2.5 检查是否有图片漏标，并删除漏标图片
- 2.6 检测标记的box是否超过图片的边界，若有则显示删除与box相关的xml文件和图片文件
- 2.7 检查xmin<0....，并修改xmin....
- 2.8 读取classname
- 2.9 检查trainval.txt

1.文件

1.1 增：写入文件内容给文本文件

def writeTextFile(filePath, fileContent, encoding='utf8'):
    with open(filePath, 'w', encoding=encoding) as file:
        file.write(fileContent)

1.2 改：批量修改图片大小

import os
from PIL import Image

def getFilePathList(dirPath, partOfFileName=''):
    allFileName_list = list(os.walk(dirPath))[0][2]
    fileName_list = [k for k in allFileName_list if partOfFileName in k]
    filePath_list = [os.path.join(dirPath, k) for k in fileName_list]
    return filePath_list

def batchResizeImage(oldDirPath, newDirPath, height, width):
    if not os.path.isdir(newDirPath):
        os.mkdir(newDirPath)
    jpgFilePath_list = getFilePathList(oldDirPath, '.jpg')
    for jpgFilePath in jpgFilePath_list:
        image = Image.open(jpgFilePath)
        resized_image = image.resize((height, weight), Image.ANTIALIAS)
        jpgFileName = os.path.split(jpgFilePath)[1]
        saveFilePath = os.path.join(newDirPath, jpgFileName)
        resized_image.save(saveFilePath)

oldDirPath = 'source_images'
newDirPath = 'train_images'
height = 640
width = 640
batchResizeImage(oldDirPath, newDirPath, height, width)

1.3 查：查询文件夹中的文件

import os

def getFileNameList(dirPath, partOfFileName=''):
    allFileName_list = list(os.walk(dirPath))[0][2]
    fileName_list = [k for k in allFileName_list if partOfFileName in k]
    return fileName_list
    
def getFilePathList(dirPath, partOfFileName=''):
    allFileName_list = list(os.walk(dirPath))[0][2]
    fileName_list = [k for k in allFileName_list if partOfFileName in k]
    filePath_list = [os.path.join(dirPath, k) for k in fileName_list]
    return filePath_list

查：读取文件

def readTextFile(filePath, encoding='utf8'):
    with open(filePath, encoding=encoding) as file:
        return file.read()

查：搜索文件夹路径内含有指定内容的代码文件

import os
# 传入3个参数：文件夹路径dirPath、指定内容partOfFileContent、代码文件后缀名suffixOfFileName
def searchFileContent(dirPath, partOfFileContent, suffixOfFileName=''):
    dirPath = os.path.expanduser(dirPath)
    walk_list = list(os.walk(dirPath))
    result_list = []
    for walk in walk_list:
        filePath_list = [os.path.join(walk[0], k) for k in walk[2] \
            if k.rsplit('.', maxsplit=1)[1]==suffixOfFileName.strip('.')]
        for filePath in filePath_list:
            with open(filePath, encoding='=utf8') as file:
                fileContent = file.read()
            if partOfFileContent in fileContent:W
                print(filePath)
                result_list.append(filePath)
    return result_list

2.xml

2.1 labelimg_yolo_txt转pascal voc_xml

from PIL import Image
import os
    
#读取文件尺寸
def ImgSize(image):
    img = Image.open(image)
    w,h =  img.width,img.height
    return w,h

#labelimg中yolo转voc图位转换
#width,height就是原图的w,h  #xmin指中心点占横比例，xmax指中心点占竖比例  #ymin指bbox占整图宽比例，ymax指bbox占整图高比例
def ScaleCovertor(width,height,xmin,xmax,ymin,ymax): 
    center_x = round(float(xmin* width))           
    center_y = round(float(xmax * height))
    bbox_width = round(float(ymin * width))
    bbox_height = round(float(ymax * height))

    xmin = str(int(center_x - bbox_width / 2 ))
    ymin = str(int(center_y - bbox_height / 2))
    xmax = str(int(center_x + bbox_width / 2))
    ymax = str(int(center_y + bbox_height / 2))
    return xmin,ymin,xmax,ymax

def Main(filepath): #filepath是txt文件夹路径（里面全是需要转换的txt文件）
#设置xml内部格式
    xml_head = '''
    
        Desktop
        {}
        unknonw
        
            unknow
        
        
            {}
            {}
            3
        
        0
    '''
    xml_obj = '''
        
    '''
    xml_end = '''
    '''
          
    counter = 1  #计数器
    for filename in os.listdir(filepath): #现在的filename是带后缀的
        print ('Processing:->>',filename,'Number %s'%counter) #打印当前文件名 和 第几个文件
        
        #原图：      
        content=[]  #建立内容列表，class，中心点占比，bbox占比
        with open(filepath+'/'+filename,'r') as readlines:
            for linecontent in readlines.readlines():  #读取每一行内容
                 content.append(linecontent) #添加到列表中  
        w,h = ImgSize('C:/Users/lenovo/Desktop/yuantu'+'/'+filename.split('.')[0]+'.jpg')  #调用文件尺寸读取函数
        
        #xml：                    
        obj = ''   #这里创建xml，建立空字符串
        head = xml_head.format(str(filename.split('.')[0]+'.jpg'),str(w),str(h))  #向xml head里添加文件名 文件w和h
        for info in content:  #读取每个文件里的内容
            infodetail = info.split(' ') #以空格切割列表内的数据
            #单独读取每个数据保存到变量里
            Class,XMin,XMax,YMin,YMax = infodetail[0],infodetail[1],infodetail[2],infodetail[3],infodetail[4],
            xmin,ymin,xmax,ymax  = ScaleCovertor(w,h,float(XMin),float(XMax),float(YMin),float(YMax))
            label= {
     1:'obstacle',0:'people'} #确定label和类的映射关系，下行用到
            obj += xml_obj.format(label[int(Class)],xmin,ymin,xmax,ymax) #向主object里循环添加 一个图里的物体或类
            #写入xml文件
        with open('C:/Users/lenovo/Desktop/annotation2/xml'+filename.split('.')[0]+'.xml','w') as xmw:
            #创建写入 合并 三个 xml主体部分
            xmw.write(head+obj+xml_end)
        counter+=1    
Main('C:/Users/lenovo/Desktop/annotation2/txt') #txt文件夹

#验证转的对错
import matplotlib.pyplot as plt
import matplotlib.image as Image #这个读取库比较方便 不用把数据转来转去，plt可以直接使用
%matplotlib inline
img = Image.imread('/Users/Desktop/annotation2/test/yuantu/'+'20190721062948_000394_cc8cdaa5ee38.jpg') #读取
x1,y1,x2,y2 = 1344, 495, 1722, 1080 # 自己找验证
 
plt.gca().add_patch ( 
 
    plt.Rectangle(xy=(x1,y1),width=x2-x1,height=y2-y1,fill=False,edgecolor='red',linewidth=2) 
)
 
plt.imshow(img)
plt.show() #根据环境添加

2.2 删除 w label

import re 
import os
rawfolder='123'   #存放三张xml的文件夹
newfolder='33333' #生成的新的xml文件夹
for i in os.listdir(rawfolder):
    print (i)   #输出#20190720073948_000258_cc8cdaa5ee49.xml
                     #20190720073950_000257_cc8cdaa64390.xml
                     #20190720073950_000258_cc8cdaa5ee3e.xml
                         
    with open(rawfolder+'/'+i,'r') as r:
        content = r.readlines()
        #print(content)
#输出['\n', '\timg\n', '\t20190720073948_000258_cc8cdaa5ee49.JPG\n', ...]

        c = 0
        for j in content:
            if 'w' in j:
                print (j,'下标-》',c) #c为14行w，从0行开始
                start = 0
                end = c-1  # c-1为上一行