所谓数据集,其实就是一个负责处理索引(index)到样本(sample)映射的一个类(class)。
Dataset和DataLoader是帮助加载数据的两个工具类。
Dataset主要是构建数据集,支持索引;DataLoader主要是创建一个读取小批量数据样本的DataLoader实例。
Pytorch提供两种数据集:Map式数据集和Iterable数据集。
一个Map式的数据集必须要重写getitem(self,index),len(self)两个内建方法,用来表示从索引到样本的映射(Map)。
torch.utils.data.Dataset 是一个抽象类,因此不能实例化,只能被其他子类去继承,构造一个自定义类。torch.utils.data.DataLoader 可以帮助加载数据,比如shuffle、读取小批量等,可以实例化。
import torch
from torch.utils.data import Dataset
from torch.utils.data import DataLoader
class DiabetesDatset(Dataset):
def __init__(self):
pass
def __getitem__(self,index):
pass
def __len__(self):
pass
dataset = DiabetesDataset()
train_loader = DataLoader(dataset=dataset,
batch_size=32,
shuffle=True,
num_workers=8)
实现getitem(self,index)方法用于实例化的对象支持下标操作,能通过索引获取数据;
实现len(self)方法用于返回对象的长度;
实例化DataLoader时,初始化时常使用4个参数:dataset【数据集】、batch_size【批量大小】、shuffle【是否打乱】、num_workers【读取mini-batch数据时开启多线程个数】。
数据集连接:添加链接描述
提取码:jl6w
import numpy as np
import torch
from torch.utils.data import Dataset,DataLoader
class DiabetesDataset(Dataset):
def __init__(self,filepath):#数据集较小,全部加载近了数据集中
xy = np.loadtxt(filepath,delimiter=',',dtype=np.float32)
self.len = xy.shape[0]
self.x_data = torch.from_numpy(xy[:,:-1])
self.y_data = torch.from_numpy(xy[:,[-1]])#得到矩阵
def __getitem__(self,index):
return self.x_data[index],self.y_data[index]
def __len__(self):
return self.len
path = "D:\\diabetes.csv.gz"
batch_size = 32
num_workers = 8
dataset = DiabetesDataset(path)
train_loader = DataLoader(dataset=dataset,batch_size=batch_size,shuffle=True,num_workers=num_workers)
共分成四个部分:
import numpy as np
import torch
from torch.nn import Module,Linear,Sigmoid,BCELoss
from torch.utils.data import Dataset,DataLoader
from torch.utils.tensorboard import SummaryWriter
#1. 准备数据集
class DiabetesDataset(Dataset):
def __init__(self,filepath):
xy = np.loadtxt(filepath,delimiter=',',dtype=np.float32)
self.len = xy.shape[0]
self.x_data = torch.from_numpy(xy[:,:-1])
self.y_data = torch.from_numpy(xy[:,[-1]])#得到矩阵
def __getitem__(self,index):
return self.x_data[index],self.y_data[index]
def __len__(self):
return self.len
path = "D:\\diabetes.csv.gz"
batch_size = 32
num_workers = 8
dataset = DiabetesDataset(path)
train_loader = DataLoader(dataset=dataset,batch_size=batch_size,shuffle=True,num_workers=num_workers)
#2. 构造模型
class Model(Module):
def __init__(self):
super(Model,self).__init__()
self.linear1 = Linear(8,6)
self.linear2 = Linear(6,4)
self.linear3 = Linear(4,1)
self.sigmoid = Sigmoid()
def forward(self,x):
x = self.sigmoid(self.linear1(x))
x = self.sigmoid(self.linear2(x))
x = self.sigmoid(self.linear3(x))
return x
model = Model()
#3. 构造损失和优化器
criterion = BCELoss(size_average=True) # 求平均损失
optimizer = torch.optim.SGD(model.parameters(), lr=0.01)
epochs = 100
#4. 训练(forward、backward和update)
if __name__ == '__main__':
for epoch in range(epochs):
#1. Prepare data
for i,(inputs,labels) in enumerate(train_loader):
#2. Forward
y_pred = model(inputs)
loss = criterion(y_pred,labels)
print(epoch,i,loss.item())
#3. Backward
optimizer.zero_grad()
loss.backward()
#4. Update
optimizer.step()