目录
背景
代码
总结
之前一篇论文代码使用此方式将数据进行了打包,然后再训练,实际上这种方式处理数据集能够提升读取耗费的时间。但是由于电脑性能有限,不得不将打包文件的方式替换掉,故也查了下这种方式打包数据的思路,以后备用。代码未细致整理,但是亲测可用。祝好!
打包
import os
import struct
# 判断文件夹中是否有目标类型图片,没有则返回0
def is_image_file(filename):
# 如果不都为空、0、false,则any()返回true
return any(filename.endswith(extension) for extension in IMG_EXTENSIONS)
# 创建图片数据集,存在列表中并返回
def make_dataset(dir):
images = []
assert os.path.isdir(dir), '%s is not a valid directory' % dir
# os.walk(top[, topdown=True[, onerror=None[, followlinks=False]]]) 通过在目录树中游走输出在目录中的文件名,top返回三项(root,dirs,files),分别代表:
# 当前正在遍历的这个文件夹的本身的地址; list类型,内容是该文件夹中所有的目录的名字(不包括子目录); list类型,内容是该文件夹中所有的文件(不包括子目录)
for root, _, fnames in sorted(os.walk(dir)):
for fname in fnames:
if is_image_file(fname):
# print(fname)
# 拼接出图片的地址,并加入到images列表
path = os.path.join(root, fname)
images.append(path)
return images
def pack(out_dir, indir, target_folders):
# 遍历存放数据集的文件夹
for target_folder in target_folders:
# 拼接生成存放数据集文件夹的路径
curr_indir = os.path.join(indir, target_folder)
# 生成的大文件路径(含问文件名)
curr_out_file = os.path.join(os.path.join(out_dir, '%s.bigfile' % (target_folder)))
image_lists = make_dataset(curr_indir)
image_lists.sort()
with open(curr_out_file, 'wb') as wfid:
# 写入文件数量
wfid.write(struct.pack('i', len(image_lists)))
for i, img_path in enumerate(image_lists):
# 写入文件名称
img_name = os.path.basename(img_path)
img_name_bytes = img_name.encode('utf-8')
wfid.write(struct.pack('i', len(img_name_bytes)))
wfid.write(img_name_bytes)
# 写入图片数据
with open(img_path, 'rb') as img_fid:
img_bytes = img_fid.read()
wfid.write(struct.pack('i', len(img_bytes)))
wfid.write(img_bytes)
if i % 1 == 0:
print('write %d files done' % i)
if __name__ == '__main__':
IMG_EXTENSIONS = [
'.jpg', '.JPG', '.jpeg', '.JPEG',
'.png', '.PNG', '.ppm', '.PPM', '.bmp', '.BMP', '.npy'
]
#打包结果存储位置
out_dir = 'C:/Users/Administrator/Desktop/test/bigdata'
#待打包文件的文件夹路径
indir = 'C:/Users/Administrator/Desktop/test'
#存储待打包文件的文件夹名字
target_folders = ['image', 'npy']
pack(out_dir, indir, target_folders)
解包
# -*- coding:utf-8 -*-
import io
import struct
import os
from PIL import Image
import numpy as np
def unpack(file_path,save_path,flag=1):
print('start load bigfile (%0.02f GB) into memory' % (os.path.getsize(file_path) / 1024 / 1024 / 1024))
with open(file_path, 'rb') as fid:
img_num = struct.unpack('i', fid.read(4))[0]
img_names = []
img_bytes = []
print('find total %d images' % img_num)
for i in range(img_num):
img_name_len = struct.unpack('i', fid.read(4))[0]
img_name = fid.read(img_name_len).decode('utf-8')
img_names.append(img_name)
img_bytes_len = struct.unpack('i', fid.read(4))[0]
img_bytes.append(fid.read(img_bytes_len))
if i % 5000 == 0:
print('load %d images done' % i)
print('load all %d images done' % img_num)
# 返回图片名字和图片
for index in range(0, len(img_names)):
try:
if flag == 1: #解包图片类型
img = Image.open(io.BytesIO(img_bytes[index])).convert('RGB')
path_img = os.path.join(save_path,img_names[index])
img.save(path_img)
elif flag == 0: #解包npy类型
npy= np.load(io.BytesIO(img_bytes[index]))
path_npy = os.path.join(save_path,img_names[index])
np.save(path_npy,npy)
except Exception:
print('file read error for index %d: %s' % (index, img_names[index]))
if __name__ == '__main__':
#打包图片类型后的文件路径
filepath1 = 'C:/Users/Administrator/Desktop/test/bigdata/image.bigfile'
#解包后图片存储地址
save_path1 = 'C:/Users/Administrator/Desktop/test/out1'
#打包npy类型后的文件路径
filepath2 = 'C:/Users/Administrator/Desktop/test/bigdata/npy.bigfile'
#解包后npy存储地址
save_path2 = 'C:/Users/Administrator/Desktop/test/out2'
##解包图片文件
#unpack(filepath1,save_path1,flag=1)
#解包npy矩阵文件
unpack(filepath2,save_path2,flag=0)
这样就能够得到一个非常大的文件,包含你所有的数据。
在深度学习模型中,使用此方式打包解包来读取文件能够大大减少时间,但是缺陷就是电脑需要较大的内存。