Matlab:数据集读取 imageDatastore() 的用法

在做机器学习时经常要分类读取数据,自己写还是有点繁琐的,MATLAB已经内嵌的imageDatastore使用起来很方便。
imageDatastore()函数用于读取指定路径下的所有文件
使用语法:
ImageDatastore(path,Name,Value)
输入参数为文件(夹)路径,以及一些键值对,输出为一个ImageDatastore对象。
直接看例子吧,现在要读取下图MNIST的训练集
Matlab:数据集读取 imageDatastore() 的用法_第1张图片

path_train = 'F:\手写体识别\新建文件夹\train';
imds_train = imageDatastore(path_train,'IncludeSubfolders',true,'FileExtensions','.jpg',...
                            'LabelSource','foldernames');
                            
path_train = 'F:\手写体识别\新建文件夹\train';
folders_train = fullfile(path_train,{'0' '1' '2' '3' '4' '5' '6' '7' '8' '9'});
imds_train = imageDatastore(folders_train, 'FileExtensions','.jpg',...
                            'LabelSource','foldernames');

两种输出结果是一样的,区别在于imageDatastore的输入路径,如果只输入上级目录(上图的train),则需要加上’IncludeSubfolders’,true键值对输入。上面代码已经涵盖了常用的三个键值对。Fullfile也是很好用的函数。
‘IncludeSubfolders’ :是否包含子文件夹
‘FileExtensions’ :文件扩展名
‘LabelSource’ :Label来源
此外,‘ReadSize’:使用read()函数每次读取多少文件
输出结果如下:

imds_train = 

  ImageDatastore - 属性:

                       Files: {
                              'F:\手写体识别\新建文件夹\train\0\0_1.jpg';
                              'F:\手写体识别\新建文件夹\train\0\0_10.jpg';
                              'F:\手写体识别\新建文件夹\train\0\0_100.jpg'
                               ... and 59997 more
                              }
                     Folders: {
                              'F:\手写体识别\新建文件夹\train'
                              }
                      Labels: [0; 0; 0 ... and 59997 more categorical]
    AlternateFileSystemRoots: {}
                    ReadSize: 1
      SupportedOutputFormats: [1×5 string]
         DefaultOutputFormat: "png"
                     ReadFcn: [function_handle]

已经读取到60000个训练数据的文件路径和对应的label,注意这里只读取了文件路径,并没有读入数据,而且也不需要专门读出来。

最后介绍ImageDatastore对象的几个常用对象函数

  • countEachLabel
    作用:对每种标签的数据进行计数
    用法:countEachLabel(imdsn)
    注:imds为ImageDatastore对象,下同
  • preview
    作用:读取一个数据,经过测试好像就是读取第一个,像是一个预览的功能
    用法:preview(imds)
  • read
    作用:从ImageDatastore对象中读出数据,注意这里直接是数据了,一次读取ReadSize个,而且是顺序读取,比如我第一次使用read(imds),返回前ReadSize个数据,再使用read(imds),返回的是ReadSize+1~2*ReadSize的数据,像是batchsize
    用法:read(imds)
  • readall
    作用:读取所有数据
    用法:readall(imds)
  • readimage
    作用:按索引读取图像
    用法:readimage(imds,i),i代表第i个数据
  • hasdata
    作用:判断是否有数据可读,如果ImageDatastore里的数据不够一个ReadSize了,则为hasdata(imds)会返回0
    用法:hasdata(imds)
  • reset
    作用:将数据存储重置为初始状态,相当于重置了read函数,从头开始读
    用法:reset(imds)
  • shuffle
    作用:打乱数据顺序
    用法:shuffle(imds)
  • splitEachLabel
    作用:按比例拆分数据,每个标签都拆分相同比例
    用法:splitEachLabel(imds,0.8,0.2)
  • combine
    作用:合并数据集
    用法:combine(imds1,imds2,…,imsdN)

你可能感兴趣的:(matlab)