PyTorch深度学习 学习记录4

文章目录

  • 课程内容

课程内容

这节课的内容是加载数据集
几个概念:

Epoch:所有的训练样本进行了一次正向传播和反向传播

Batch Size:一次正向传播和反向传播所使用的训练样本数量

Iteration:传播(正向与反向传播)总数,每次传播使用Batch Size数量的样本

带打乱的dataloader过程示例图:
PyTorch深度学习 学习记录4_第1张图片用python实现的代码片如下:

import torch
from torch.utils.data import Dataset
from torch.utils.data import DataLoader

class DiabetesDataset(Dataset):
    def __init__(self):
        pass
    
    def __getitem__(self,index):#实现该方法,能支持下标操作
        pass
    
    def __len__(self):#通过len()返回数据集的长度
        pass
    
dataset=DiabetesDataset
train_loader=DataLoader(dataset=dataset,
										batch_size=32,
										shuffle=True,
										num_workers=2)#多进程(注意是进程不是线程)

对于__init__()的实现我们一般采用下述的两个方法:
1.数据量不大:一次性读进来(一般是结构化的数据)
2.数据量大:设计一个文件列表,通过下标在需要使用的时候读入(非结构数据,如音频、图像等)

接下来我们按部就班地填充各种内容__init__()内部用之前读入糖尿病数据的方式读入,加上之前的模型和训练模块,能得到一个像样的代码了
代码如下:

import torch
import numpy as np
from torch.utils.data import Dataset
from torch.utils.data import DataLoader

class DiabetesDataset(Dataset):
    def __init__(self,filepath):
        xy=np.loadtxt(filepath,delimiter=',',dtype=np.float32)
        self.len=xy.shape[0]
        self.x_data=torch.from_numpy(xy[:,:-1])
        self.y_data=torch.from_numpy(xy[:,[-1]])
        
        
    def __getitem__(self,index):#实现该方法,能支持下标操作
        #pass
        return self.x_data[index],self.y_data[index]
    
    def __len__(self):#通过len()返回数据集的长度
        return self.len
    
dataset=DiabetesDataset('diabetes.csv.gz')
train_loader=DataLoader(dataset=dataset,
                        batch_size=32,
                        shuffle=True,
                        num_workers=0)#读入数据时使用的线程数

class Model(torch.nn.Module):
    def __init__(self):
        super(Model,self).__init__()
        self.linear1=torch.nn.Linear(8,6)
        self.linear2=torch.nn.Linear(6,4)
        self.linear3=torch.nn.Linear(4,1)
        self.sigmoid=torch.nn.Sigmoid()
        
    def forward(self,x):
        x=self.sigmoid(self.linear1(x))
        x=self.sigmoid(self.linear2(x))
        x=self.sigmoid(self.linear3(x))
        return x

model=Model()

criterion=torch.nn.BCELoss(reduction='mean')
optimizer=torch.optim.SGD(model.parameters(),lr=0.01)


for epoch in range(1):
    for i,data in enumerate(train_loader,0):
        #1.Prepare data
        inputs,labels=data #这里是由__getitem__方法实现的
        #inputs和labels分别为torch.Size([32, 8]) torch.Size([32, 1])
        print(np.shape(inputs),np.shape(labels))
        print(inputs,labels)
        #2.Forward
        y_pred=model(inputs)
        loss=criterion(y_pred,labels)
        print(epoch,i,loss.item())
        #3.Backward
        optimizer.zero_grad()
        loss.backward()
        #4.Update
        optimizer.step()

我这里看了一下DataLoader的官方文档参数真的相当多,就不搬过来了。这里主要讲一点如果各位想在windows下使用num_workers这个参数的话除了需要把调用DataLoader的代码段封装进if函数下之外,还需要注意一下自己敲代码的环境,本人使用的ide是jupyter无论如何都跑不起来,似乎是由于jupyter自身的性质决定的,如果各位使用的是PyCharm的环境的话则可以放心运行。

顺带一提使用多进程的话运行速度会更慢,理由似乎是数据量过小,操作系统不会分配资源。

你可能感兴趣的:(深度学习,pytorch,学习)