五、pytorch加载数据初认识

一、读取数据的两个类

1、Dataset

1.1功能

(1)获取每一个数据及其lable值(标签)

(2)返回一共有多少个数据。神经网络是根据数据的多少确定要迭代多少次才能迭代完。

1.2下载数据集

         链接:https://pan.baidu.com/s/1R5mBwBo-AGydrwZX0EDbCA
         提取码:tkrp

数据集分为训练数据集train和验证数据集val

数据集的三种组织形式:

(1)hymenoptera_data文件夹中,train数据集分为ants(蚂蚁)和bees(蜜蜂)两个,其文件夹名称就是两个分别的标签名称

(2)练手数据集中,train分为ants_images和ants_lable,bees_image和bees_lable,用另一个文件夹*_lab存放标签,每个图片的.txt标签中存放的是对应图片文字的坐标信息和文字本身。

(3)直接用lable命名图片

1.3 使用Dataset类

(1)pycharm中加载Dataset类:from torch.utils.data import Dataset(在torch工具箱内,常用的工具区utils,其中关于数据的data区中import Dataset)

(2)查看Dataset类的使用方法:Jupyter中加载Dataset,使用help(Dataset)/Dataset??命令即可查看(运行命令可用shift+回车)

五、pytorch加载数据初认识_第1张图片

大致意思:Dataset是一个抽象类,所有的数据集(表示一个键到其数据样本的地图数据集)都要集成这个类,所有的子类都要重写__getitem__方法(获得每个数据及其对应的lable)。同时也可以选择去重写__len__类(长度类)

2、Dataloader

为后面的网络提供不同的数据形式。(将dataset中获取的数据进行相应的打包,以便为后面的网络服务)

你可能感兴趣的:(python,深度学习,神经网络,人工智能)