import torch
from torch import nn
from torch.utils.data import DataLoader
from torchvision import datasets
from torchvision.transforms import ToTensor
training_data = datasets.FashionMNIST(
root="data",
train=True,
download=True,
transform=ToTensor()
)
test_data = datasets.FashionMNIST(
root="data",
train=False,
download=True,
transform=ToTensor()
)
train_dataloader = DataLoader(training_data, batch_size=64)
test_dataloader = DataLoader(test_data, batch_size=64)
class NeuralNetwork(nn.Module):
def __init__(self):
super().__init__()
self.flatten = nn.Flatten()
self.linear_relu_stack = nn.Sequential(
nn.Linear(28*28, 512),
nn.ReLU(),
nn.Linear(512, 512),
nn.ReLU(),
nn.Linear(512, 10),
)
def forward(self, x):
x = self.flatten(x)
logits = self.linear_relu_stack(x)
return logits
model = NeuralNetwork()
超参数是可调整的参数,用于控制模型的优化过程。不同的超参数值会影响模型训练和收敛速度
在PyTorch中为训练模型定义了以下超参数:
learning_rate = 1e-3
batch_size = 64
epochs = 5
设置了超参数后,我们就可以通过优化循环来训练和优化我们的模型。优化循环的每一次迭代都被称为一个epoch。
每个epoch由两个主要部分组成:
损失函数衡量的是预测值与目标值的不同程度,在训练过程中会尝试最小化损失函数。为了计算损失,我们使用给定数据样本的输入进行预测,并将其与真实的数据标签值进行比较。
常见的损失函数包括用于回归任务的nn.MSELoss(均方误差)和用于分类的nn.NLLLoss(负对数似然)。nn.CrossEntropyLoss(交叉熵)结合了nn.LogSoftmax和nn.NLLLoss。
# 初始化损失函数
loss_fn = nn.CrossEntropyLoss()
优化是在每个训练步骤中调整模型参数以减少模型误差的过程。优化算法定义了该过程的执行方式(在本例中,我们使用随机梯度下降)。所有优化逻辑都封装在优化器对象中。这里,我们使用随机梯度下降进行优化;此外,PyTorch中还有许多不同的优化器,如ADAM
和RMSProp
,以更好地适用于不同类型的模型和数据。
可以通过注册需要训练的模型参数并传递学习率超参数来初始化优化器。
optimizer = torch.optim.SGD(model.parameters(), lr=learning_rate)
在训练循环中,优化分为三个步骤:
optimizer.zero_grad()
来重置模型参数的梯度。默认情况下,梯度相加;为防止重复计数,在每次迭代时都会将它们归零。loss.backward()
反向传播预测损失。PyTorch存储每个参数的损失梯度。optimizer.step()
,根据反向传播过程中收集的梯度来调整参数。定义在优化代码上循环的train_loop,以及根据测试数据评估模型性能的test_loop。
def train_loop(dataloader, model, loss_fn, optimizer):
size = len(dataloader.dataset)
# 将模型设置为训练模式-对于批处理规范化和丢弃层很重要
model.train()
for batch, (X, y) in enumerate(dataloader):
# 计算预测值和损失
pred = model(X)
loss = loss_fn(pred, y)
# 反向传播
loss.backward()
optimizer.step()
optimizer.zero_grad()
if batch % 100 == 0:
loss, current = loss.item(), (batch + 1) * len(X)
print(f"loss: {loss:>7f} [{current:>5d}/{size:>5d}]")
def test_loop(dataloader, model, loss_fn):
# 将模型设置为评估模式-对于批处理规范化和丢弃层很重要
model.eval()
size = len(dataloader.dataset)
num_batches = len(dataloader)
test_loss, correct = 0, 0
# 使用torch.no_grad()评估模型,保证在测试模式期间不计算梯度,也有助于requires_grad=True时减少不必要的梯度计算和张量的内存使用
with torch.no_grad():
for X, y in dataloader:
pred = model(X)
test_loss += loss_fn(pred, y).item()
correct += (pred.argmax(1) == y).type(torch.float).sum().item()
test_loss /= num_batches
correct /= size
print(f"Test Error: \n Accuracy: {(100*correct):>0.1f}%, Avg loss: {test_loss:>8f} \n")
初始化损失函数和优化器,并将其传递给train_loop和test_loop。
loss_fn = nn.CrossEntropyLoss()
optimizer = torch.optim.SGD(model.parameters(), lr=learning_rate)
epochs = 10
for t in range(epochs):
print(f"Epoch {t+1}\n-------------------------------")
train_loop(train_dataloader, model, loss_fn, optimizer)
test_loop(test_dataloader, model, loss_fn)
print("Done!")
Epoch 10
loss: 0.840482 [ 64/60000]
loss: 0.915633 [ 6464/60000]
loss: 0.686901 [12864/60000]
loss: 0.889719 [19264/60000]
loss: 0.771013 [25664/60000]
loss: 0.778391 [32064/60000]
loss: 0.864675 [38464/60000]
loss: 0.834869 [44864/60000]
loss: 0.834454 [51264/60000]
loss: 0.789746 [57664/60000]
Test Error:
Accuracy: 70.6%, Avg loss: 0.793307