随机取样

python实现随机样本取样

可能在很多时候,我们需要在一批数据中随机取样,来检查数据的完整性,所以今天我来实现一下这个功能。
我所做的是对一批数据同时取样,意思就是说,假如现在一个xml对应到了一个jpg,他们的文件名相同,需要将着随机的xml和jpg同时取出,取到的是对应的文件,然后我将他们取出的样本放在了不同的文件下,我们来实现一下吧!!!

模块

  • os
  • random
  • shutil
    同样的文件路径操作,我所做的是可以做到对大量数据进行操作,但是文件夹中有不同结尾的文件时,执行效率就会变低,所有您可以进行优化!
import os
import random
import shutil

def moveFile(xml_path, jpgDir, pastDir1, pastDir2):
	# 文件路径
    path_txt = os.listdir(xml_path)
    path_png = os.listdir(jpgDir)
	
	# 随机取样
    filenumber = len(path_xml)
    rate = 0.2
    picknumber = int(filenumber * rate)
    sample = random.sample(path_xml, picknumber)
    for xml_name in sample:
    	# 判断相同的文件名
        for jpg_name in path_jpg:
            if xml_name.split('.')[0] == jpg_name.split('.')[0]:			
            	# 拼接路径
                xmlpath = os.path.join(xml_path, xml_name)
                jpgpath = os.path.join(jpgDir, jpg_name)
                # 判断是否存在文件夹
                path1 = os.path.exists(pastDir1)
                path2 = os.path.exists(pastDir2)
                if not path1:
                	# 不存在,创建
                    os.mkdir(pastDir1)
                    shutil.copyfile(xmlpath, pastDir1 + '\\' + xml_name)
                else:
                	# 存在拷贝
                    shutil.copyfile(xmlpath, pastDir1 + '\\' + xml_name)
                # 同理
                if not path2:
                    os.mkdir(pastDir2)
                    shutil.copyfile(jpgpath, pastDir2 + '\\' + jpg_name)
                else:
                    shutil.copyfile(jpgpath, pastDir2 + '\\' + jpg_name)


if __name__ == '__main__':
    fileDir = r""  # xml文件路径
    jpgDir = r""  # jpg文件路径
    create_xml = r''  # 保存xml
    create_jpg = r''  # 保存jpg
    moveFile(fileDir, jpgDir, create_xml, create_jpg)

这样就可以显示对一批数据进行取样了,若有什么问题请留言告知!!!

你可能感兴趣的:(Python脚本)