pytorch读取数据集(分类文件夹加载)—ImageFolder()

马上本科毕业了,毕业设计内容和图像深度学习有关,数据集在网上找了很久才找到,找到的数据集按类别存放在相应文件夹、没有标签文件。我不知道怎么读取,在CSDN上找了好久,只有很少的文章里提到了文件夹读取,但是也没有详细说明,大多数都是用标签读取的。
而且CSDN上将深度学习入门的博客大都直接用MNIST等一些可以直接使用的数据集,很少讲用自己的数据集的。
现在我的问题解决了,自己写一篇来帮助一些和我一样遇到问题的人。

  • 首先,把图像数据集放在你创建的python文件中,我这里的maize就是我的图像数据集
    pytorch读取数据集(分类文件夹加载)—ImageFolder()_第1张图片
  • 数据集文件里按train、valid和test分好,我的每个里面的分为(0、1、2、3)4个类别。
    pytorch读取数据集(分类文件夹加载)—ImageFolder()_第2张图片
    pytorch读取数据集(分类文件夹加载)—ImageFolder()_第3张图片
  • 文件夹读取代码,运用ImageFolder()和DataLoader()
from __future__ import print_function, division
import torchvision
import torchvision.transforms as transforms
from torch.utils.data import DataLoader

train_transform = transforms.Compose([
        transforms.RandomResizedCrop(224),
        transforms.RandomHorizontalFlip(),
        transforms.ToTensor(),
        transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
    ])

valid_transform=transforms.Compose([
            transforms.CenterCrop(224),
            transforms.ToTensor(),
            transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
        ])

train_dataset =torchvision.datasets.ImageFolder(root='maize/train',transform=train_transform)
train_loader =DataLoader(train_dataset,batch_size=1, shuffle=True,num_workers=0)#Batch Size定义:一次训练所选取的样本数。 Batch Size的大小影响模型的优化程度和速度。

valid_dataset =torchvision.datasets.ImageFolder(root='maize/valid',transform=valid_transform)
valid_loader =DataLoader(valid_dataset,batch_size=1, shuffle=True,num_workers=0)

这样就把数据放到train_loader和valid_loader里面了,接下来就用train_loader和valid_loader来调用数据就行,后面就可以参考CSDN上深度学习的文章了。

补充另一种数据集加载的形式:

data_transforms = {
    'train': transforms.Compose([
        transforms.RandomResizedCrop(224),
        transforms.RandomHorizontalFlip(),
        transforms.ToTensor(),
        transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
    ]),
    'valid': transforms.Compose([
        transforms.Resize(256),
        transforms.CenterCrop(224),
        transforms.ToTensor(),
        transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
    ]),
}

data_dir = 'maize'
image_datasets = {x: datasets.ImageFolder(os.path.join(data_dir, x),
                                          data_transforms[x])
                  for x in ['train', 'valid']}
dataloaders = {x: torch.utils.data.DataLoader(image_datasets[x], batch_size=4,
                                             shuffle=True, num_workers=1)
              for x in ['train', 'valid']}
dataset_sizes = {x: len(image_datasets[x]) for x in ['train', 'valid']}
class_names = image_datasets['train'].classes

希望对大家有帮助!有没写清楚的地方可以留言或者私信我,我看到了都会回复的哦!

你可能感兴趣的:(pytorch,笔记)