PyTorch学习笔记(12)--神经网络优化器

PyTorch学习笔记(12)–神经网络优化器

    本博文是PyTorch的学习笔记,第12次内容记录,主要是在上一篇文章中提到的损失函数的基础上,研究神经网络优化器的使用方法。

目录

  • PyTorch学习笔记(12)--神经网络优化器
  • 1.优化器是什么
  • 2.优化器的使用
    • 2.1SGD优化器的使用
    • 2.2使用SGD优化器进行多轮训练
  • 3.学习小结

1.优化器是什么

    神经网络的学习的目的就是寻找合适的参数,使得损失函数的值尽可能小。解决这个问题的过程为称为最优化。解决这个问题使用的算法叫做优化器。在PyTorch官网中,将优化器放置在torch.optim中,并详细介绍了各种优化器的使用方法。

2.优化器的使用

2.1SGD优化器的使用

    现以CIFAR10数据集为例,损失函数选取交叉熵函数,优化器选择SGD优化器,搭建神经网络,并计算其损失值,用优化器优化各个参数,使其朝梯度下降的方向调整,完整代码如下:

# coding :UTF-8
# 文件功能: 代码实现神经网络优化器的使用
# 开发人员: dpp
# 开发时间: 2021/8/18 4:52 下午
# 文件名称: nn_optim.py
# 开发工具: PyCharm

import torch
import torchvision
from torch import nn
from torch.nn import Conv2d, MaxPool2d, Flatten, Linear, Sequential
from torch.utils.data import DataLoader

dataset = torchvision.datasets.CIFAR10("CIFAR10", train=False,
                                       transform=torchvision.transforms.ToTensor(), download=True)

dataloader = DataLoader(dataset, batch_size=1)

class Test(nn.Module):
    def __init__(self):
        super(Test, self).__init__()
        self.model1 = Sequential(
            Conv2d(in_channels=3, out_channels=32, kernel_size=5, padding=2),
            MaxPool2d(kernel_size=2),
            Conv2d(in_channels=32, out_channels=32, kernel_size=5, padding=2),
            MaxPool2d(kernel_size=2),
            Conv2d(in_channels=32, out_channels=64, kernel_size=5, padding=2),
            MaxPool2d(kernel_size=2),
            Flatten(),
            Linear(1024, 64),
            Linear(64, 10)
        )

    def forward(self, x):
        x = self.model1(x)
        return x

test = Test()
loss = nn.CrossEntropyLoss()
optim = torch.optim.SGD(test.parameters(), lr=0.01)
for data in dataloader:
    imgs, targets = data
    outputs = test(imgs)
    result_loss = loss(outputs, targets)
    optim.zero_grad()   # 将上一轮的每个参数的梯度清零,必须做的,否则梯度计算会出问题
    result_loss.backward()  # 进行反向传播 并计算每个参数的梯度值
    optim.step()    # 对每个参数进行调优
    print(result_loss)

    上述代码中有关键的几行需要解释一下:
(1)optim = torch.optim.SGD(test.parameters(), lr=0.01)是在构建SGD优化器,其中的参数test.parameters()表示:待优化参数的iterable或者是定义了参数组的dict;lr=0.01表示学习率,一开始学习率一般设置为0.01。
(2)optim.zero_grad()是将上一轮计算的梯度清零,这一步是必须要做,否则上一轮的梯度值会影响下一轮的梯度值计算。
(3)result_loss.backward()是反向传播过程,与之前的forward()前向传播相反,在反向传播过程中会计算每个参数的梯度值。
(4) optim.step():所有的optimizer都实现了step()方法,这个方法会更新所有的参数。
    上述代码的输出结果如下所示:

tensor(2.3462, grad_fn=)
tensor(2.2783, grad_fn=)
tensor(2.1884, grad_fn=)
tensor(2.3619, grad_fn=)
tensor(2.2983, grad_fn=)
tensor(2.2581, grad_fn=)
...

    观察上述完整的结果,发现损失函数值并没有明显的下降趋势,这是因为上述代码只进行了一次训练,因此想要损失函数值有明显的下降趋势,要进行多轮训练才行。

2.2使用SGD优化器进行多轮训练

    设置epoch,让其执行20次,并将每一次完整的训练的损失函数值求和输出,完整代码如下:

# coding :UTF-8
# 文件功能: 代码实现神经网络优化器的使用
# 开发人员: dpp
# 开发时间: 2021/8/18 4:52 下午
# 文件名称: nn_optim.py
# 开发工具: PyCharm

import torch
import torchvision
from torch import nn
from torch.nn import Conv2d, MaxPool2d, Flatten, Linear, Sequential
from torch.utils.data import DataLoader

dataset = torchvision.datasets.CIFAR10("CIFAR10", train=False,
                                       transform=torchvision.transforms.ToTensor(), download=True)

dataloader = DataLoader(dataset, batch_size=1)

class Test(nn.Module):
    def __init__(self):
        super(Test, self).__init__()
        self.model1 = Sequential(
            Conv2d(in_channels=3, out_channels=32, kernel_size=5, padding=2),
            MaxPool2d(kernel_size=2),
            Conv2d(in_channels=32, out_channels=32, kernel_size=5, padding=2),
            MaxPool2d(kernel_size=2),
            Conv2d(in_channels=32, out_channels=64, kernel_size=5, padding=2),
            MaxPool2d(kernel_size=2),
            Flatten(),
            Linear(1024, 64),
            Linear(64, 10)
        )

    def forward(self, x):
        x = self.model1(x)
        return x

test = Test()
loss = nn.CrossEntropyLoss()
optim = torch.optim.SGD(test.parameters(), lr=0.01)
for epoch in range(20):
    running_loss = 0.0
    for data in dataloader:
        imgs, targets = data
        outputs = test(imgs)
        result_loss = loss(outputs, targets)
        optim.zero_grad()   # 将上一轮的每个参数的梯度清零,必须做的,否则梯度计算会出问题
        result_loss.backward()  # 进行反向传播 并计算每个参数的梯度值
        optim.step()    # 对每个参数进行调优
        running_loss = running_loss + result_loss
    print(running_loss)

    运行上述代码,得到如下结果,损失函数值呈现出下降的趋势。

tensor(18698.8438, grad_fn=)
tensor(16183.4062, grad_fn=)
tensor(15517.0400, grad_fn=)
...

3.学习小结

    在本文重点讲解了优化器的使用,并用一个实际的例子训练了神经网络,用到了SGD优化器,在一下一篇博文,将介绍现有网络模型的使用和修改方法。

你可能感兴趣的:(PyTorch学习笔记,python,pytorch,神经网络)