P5 Pytorch加载数据初认识

在Pytorch中如何读取数据,主要涉及两个类,Dataset和Dataloader,如下图,不同颜色代表不同类的垃圾,Dataset能够提取蓝色的垃圾并进行编号,还有其对应的真实的标签,主要是提供一种方式去获取数据及其label。对收集到的数据进行一个打包,就是一个所谓地batchsize,主要是为后面地网络提供不同的数据形式

P5 Pytorch加载数据初认识_第1张图片

接下来讲一下如何使用Dataset,首先下载一个数据集​​​​​​,查看数据集结构,可以看到是一个区分/识别蚂蚁还是蜜蜂的二分类数据集。(https://download.pytorch.org/tutorial/hymenoptera_data.zip)文件夹的名称就是所对应的label,还有另外的一种的形式,会告知训练的图片(train_images)以及对应的标签(train_labels,是一个txt文件,包括图片的位置信息以及名称),还有一种是图片命名直接会用label来命名。

P5 Pytorch加载数据初认识_第2张图片

 在Jupyter中输入,从torch这个工具箱里找到utils这个分隔栏,然后再找到data分隔栏,在data分隔栏中找到Dataset这个工具,查看Dataset的功能

也可以用一种更加清晰的方式

 可以看到,Dataset是一个抽象类,所有的数据集都需要去继承这个类,所有的子类都应该重写__getitem__的方法,该方法主要是获取每个数据及其对应的一个label;同时可以选择去重写__len__,该方法期望返回某些类的数据的尺寸。

教程与代码地址

笔记中,图片和代码基本源自up主的视频和代码

视频链接: PyTorch深度学习快速入门教程(绝对通俗易懂!)【小土堆】
视频代码: https://github.com/xiaotudui/PyTorch-Tutorial
如果想要爬虫视频网站一样的csdn目录,可以去这里下载代码:https://github.com/JeffreyLeal/MyUtils/tree/%E7%88%AC%E8%99%AB%E5%B7%A5%E5%85%B71

你可能感兴趣的:(深度学习快速入门,pytorch,深度学习,人工智能)