jho9o5

【实战篇】PyTorch入门指南

本文是对 Neural Network Programming - Deep Learning with PyTorch 系列博客的翻译与整理，英语基础比较好的同学推荐阅读原汁原味的博客。

文章目录

- 1. 什么是MNIST数据集
- 2. 什么是Fashion-MNIST数据集
- 3. Extract, Transform, and Load (ETL) data
- 4. Dataset 和 DataLoader 的工作机制
- 5. torch.nn 包
- 6. 构建一个神经网络
- 7. 卷积神经网络超参数
- 8. 卷积神经网络可学习的参数
- 9. 权重张量的形状
- 10. torch.nn.Linear源码分析
- 11. 实现前向传播算法
- 12. 预测单张图片的类别
- 13. 预测批量图片的类别
- 14 训练一个神经网络

计算机程序通常由两个主要部分组成：代码和数据。在传统的编程中，程序员的工作是直接编写软件或代码，但是在深度学习和神经网络中，可以说软件就是网络本身，特别是在训练过程中自动产生的网络权值。数据是深度学习的主要组成部分，尽管让我们的神经网络从数据中学习是我们作为神经网络程序员的任务，但我们仍然有责任了解我们实际用于训练的数据的性质和历史。

1. 什么是MNIST数据集

MNIST数据集，全称是 Modified National Institute of Standards and Technology database，它是一个著名的手写数字数据集，通常用于训练机器学习的图像处理系统。NIST是国家标准与技术协会的缩写，M 代表修改过的，这是因为有一个原始的NIST数据集被修改为MNIST。

MNIST因其被使用的频率而闻名，常见的原因有两个：

初学者使用它很容易上手
研究人员使用它来基准化（比较）不同的模型。

这个数据集包含 70,000 张手写体图片，并进行如下分割:

60,000 张训练图片
10,000 张测试图片

由于 MNIST 数据集对于深度学习来说，有点太简单，所以后面有人创建了 Fashion-MNIST 数据集。

2. 什么是Fashion-MNIST数据集

顾名思义，Fashion-MNIST是一个关于时尚产品的数据集。具体来说，该数据集有以下十类时尚项目：

Index	Label
0	T-shirt/top
1	Trouser
2	Pullover
3	Dress
4	Coat
5	Sandal
6	Shirt
7	Sneaker
8	Bag
9	Ankle boot

数据集中的部分图片如下所示：

Fashion-MNIST 数据集来源于Zalando，该公司内部员工创建了此数据集，之所以名字中带MNIST，是因为他们想用Fashion-MNIST来代替MNIST，出于此原因，Fashion-MNIST 数据集被设计成尽可能接近原始MNIST数据集(60,000张训练图片，10,000张测试图片，28 * 28的灰度图)，但是由于拥有比手写图像更复杂的数据而在训练中引入更高的难度。

该数据集被设计为原始MNIST的完全替代，通过使Fashion-MNIST数据集规格与原始MNIST规格相匹配，可以顺利地实现从旧规范到新规范的转换。该论文声称，切换数据集所需的唯一更改是通过指向Fashion数据集来更改MNIST数据集的获取位置的URL。

PyTorch 提供的 torchvision 包，可以使我们更方便地导入 Fashion-MNIST数据集。

3. Extract, Transform, and Load (ETL) data

机器学习/深度学习工程的第一步是准备数据，我们将遵循以下的 ETL 流程：

从数据源提取(extract)数据
将数据转换(transform)为期望格式
把数据加载(load)到合适的结构中

在我们的项目中，该过程分别对应为：

Extract – 从数据源中获取Fashion-MNIST图像
Transform – 把数据转换为 tensor 的格式
Load – 将我们的数据放在DataLoader类的实例对象中，以便于访问

基于这些目的，PyTorch 提供了以下两个类：

类	描述
torch.utils.data.Dataset	用于表示数据集的抽象类
torch.utils.data.DataLoader	包装数据集并提供对基础数据的访问

抽象类 是一个Python类，它里面的方法我们必须要实现，我们可以通过创建一个子类来扩展Dataset类的功能，从而创建一个自定义数据集类，这个新的子类可以被传递到PyTorch的 DataLoader对象。

我们将使用 torchvision 包内置的Fashion-MNIST数据集，因此我们的项目不必再重新创建一个新的子类，只需知道时尚MNIST内置的dataset类是在幕后完成这项工作的。

torchvision 包允许我们访问以下资源：

Datasets (like MNIST and Fashion-MNIST)
Models (like VGG16)
Transforms
Utils

我们用下面代码来获取 Fashion-MNIST 数据集：

> train_set = torchvision.datasets.FashionMNIST(
    root='./data' # 数据集保持在硬盘中的路径
    ,train=True # 是否为训练集
    ,download=True
    ,transform=transforms.Compose([transforms.ToTensor()]) # 转换操作
)

要为我们的训练集创建一个DataLoader包装器，我们这样做：

train_loader = torch.utils.data.DataLoader(
	train_set
    ,batch_size=1000
    ,shuffle=True
)

4. Dataset 和 DataLoader 的工作机制

PyTorch Dataset: Working with the training set

我们先看一下，Dataset 的实例 train_set，有哪些可以执行的操作，来探索我们的数据。

> len(train_set) # 数据集的大小
60000

# Before torchvision 0.2.2
> train_set.train_labels 
tensor([9, 0, 0, ..., 3, 0, 5])

# Starting with torchvision 0.2.2
> train_set.targets 
tensor([9, 0, 0, ..., 3, 0, 5])

如果我们想知道，数据集中每个标签对应的样本数量，调用bincount()方法：

# Before torchvision 0.2.2
> train_set.train_labels.bincount()
tensor([6000, 6000, 6000, 6000, 6000, 6000, 6000, 6000, 6000, 6000])

# Starting with torchvision 0.2.2
> train_set.targets.bincount()
tensor([6000, 6000, 6000, 6000, 6000, 6000, 6000, 6000, 6000, 6000])

要访问训练集中的单个元素，我们首先将 train_set 对象传递给Python内置的iter()函数，该函数返回一个数据流对象，然后再用Python内置的next()函数来获取数据流中的下一个元素。

> sample = next(iter(train_set))
> len(sample)
2

我们看到返回的 sample 的长度为2，那是因为一个 sample 对象包含一个对。

> type(image)
torch.Tensor

# Before torchvision 0.2.2
> type(label)
torch.Tensor

# Starting at torchvision 0.2.2
> type(label)
int

我们可以再看看 image 和 label 的形状：

> image.shape
torch.Size([1, 28, 28]) 

> torch.tensor(label).shape
torch.Size([])

> image.squeeze().shape
torch.Size([28, 28])

PyTorch DataLoader: Working with batches of data

我们将开始创建一个批处理大小为10的数据加载器：

> display_loader = torch.utils.data.DataLoader(
    train_set, batch_size=10
  )

和前面从 train_set 中获取一个数据实例一样，我们从 display_loader 中获取一个 batch 数据，也是通过调用 iter() 和 next() 函数。

# note that each batch will be different when shuffle=True
> batch = next(iter(display_loader))
> print('len:', len(batch))
len: 2

这里 batch 的长度为2是因为 batch 由两个张量组成：

> images, labels = batch

> print('types:', type(images), type(labels))
> print('shapes:', images.shape, labels.shape)
types: <class 'torch.Tensor'> <class 'torch.Tensor'>
shapes: torch.Size([10, 1, 28, 28]) torch.Size([10])

如果想要绘制一个 batch 中的所有图像，可以采用torchvision.utils.make_grid()函数，具体如下：

> grid = torchvision.utils.make_grid(images, nrow=10)

> plt.figure(figsize=(15,15))
> plt.imshow(np.transpose(grid, (1,2,0)))
> # plt.imshow(grid.permute(1,2,0)) # 和上面效果一样

> print('labels:', labels)
labels: tensor([9, 0, 0, 3, 0, 2, 7, 2, 5, 5])

现在我们了解了一些 prepare the data 的方法，接下来开始第二步
build the model。

5. torch.nn 包

在PyTorch中构建神经网络，需要使用torch.nn包，这是PyTorch的神经网络(nn)库，我们通常是这样导入包的：

import torch.nn as nn

构建神经网络所需的主要组件是layer，而PyTorch的神经网络库torch.nn 中包含一些类，可以帮助我们构建层。而神经网络中的layer，主要包含两个组件：

转换操作 (code)
权重参数的集合 (data)

在torch.nn包中，有一个类叫做Module，它是所有神经网络模块的基类，包括layer。这意味着PyTorch中的所有layer都扩展了nn.Module类，并继承了PyTorch在nn.Module类中的所有内置功能。在OOP（面向对象编程）中，这个理念被称为继承。

当我们将一个张量作为输入传递给网络时，张量通过每一层转换向前流动，直到张量到达输出层，张量通过网络向前流动的过程称为向前传递，也因此， nn.module类中提供了一个forward()方法，每个继承它的类，都必须实现这个方法，它其实也就是我们前面提到的转换操作。

当我们在具体实现 forward() 方法时，一般需要调用 nn.functional 包中提供的函数，这个包为我们提供了许多可以用于构建层的神经网络操作。

6. 构建一个神经网络

基于前面的学习，我们知道了构建一个网络主要分为下面几步：

创建一个继承了 nn.Module 类的神经网络类
在该类的构造函数中，用torch.nn中预构的层来定义网络层，作为类属性
使用网络层和nn.functional中的函数来定义 forward() 函数

我们首先来看第一步，创建一个简单的类来表示神经网络：

class Network:
    def __init__(self):
        self.layer = None

    def forward(self, t):
        t = self.layer(t)
        return t

我们的类要继承 nn.Module，所以我们还要再做两件事情：

class Network(nn.Module): # 1. 指定nn.Module类
    def __init__(self):
        super().__init__() # 2. 对父类构造函数的调用
        self.layer = None

    def forward(self, t):
        t = self.layer(t)
        return t

这两点小改变将我们简单的神经网络转换为PyTorch神经网络，使得我们的 Network 类有了 nn.Module 类的所有函数。

我们再来看第二步，定义网络层作为类属性：

class Network(nn.Module):
    def __init__(self):
        super().__init__()
        self.conv1 = nn.Conv2d(in_channels=1, out_channels=6, kernel_size=5)
        self.conv2 = nn.Conv2d(in_channels=6, out_channels=12, kernel_size=5)
        
        self.fc1 = nn.Linear(in_features=12 * 4 * 4, out_features=120)
        self.fc2 = nn.Linear(in_features=120, out_features=60)
        self.out = nn.Linear(in_features=60, out_features=10)
        
    def forward(self, t):
        return t

可以看到，在我们的 Network 类中，有五个层被定义为属性。我们有两个卷积层self.conv1和self.conv2，以及三个线性层self.fc1、self.fc2和self.out。

我们在fc1和fc2中使用缩写fc，因为linear layers也称为fully connected layers。它们还有第三个名字，叫做ldense layers。这三种叫法都是指的同一类型的层，PyTorch使用单词 linear，因此命名为 nn.linear。

7. 卷积神经网络超参数

我们的每一层都扩展了PyTorch的nn.Module类，所以每一层中都封装了两个部分，前向传播函数和权重向量，例如下面的卷积层nn.Conv2d：

self.conv1 = nn.Conv2d(in_channels=1, out_channels=6, kernel_size=5)

为了更好的理解我们定义的层，我们来看看层的构造函数中所包含的参数值。当我们构造一个层时，我们需要将参数值传递给层的构造函数，在我们的卷积层中有三个参数，线性层中有两个参数。

Convolutional layers
- in_channels
- out_channels
- kernel_size
Linear layers
- in_features
- out_features

我们先来看看需要程序员手动设定的超参数：

Paremeter	Description
kernel_size	设置filter大小（filter和kernel含义相同）
out_channels	设置filter个数
out_features	设置输出张量的大小

还有一些超参数，它的设定依赖于我们的数据流。在self.conv1层中的超参数in_channels，它的值应该等于输入图像的颜色通道数；在其后的几个卷积层的in_channels的值则需等于它上一层的out_channels；当我们从卷积层切换到全连接层时，我们需要 flatten 我们的 tensor，于是第一个全连接层的in_features的值为 $12 * 4 * 4$ ；最后到输出层时，我们的数据集总共有10个类别，因此我们的输出层的out_features的值应该为10。

8. 卷积神经网络可学习的参数

可学习参数指的是在训练过程中会不断更新的参数，我们会给它们随机初始化一些值，然后在每一轮的迭代中，更新这些值。那么在我们前面设计的网络中，这些可学习参数在哪呢？

class Network(nn.Module):
    def __init__(self):
        super().__init__()
        self.conv1 = nn.Conv2d(in_channels=1, out_channels=6, kernel_size=5)
        self.conv2 = nn.Conv2d(in_channels=6, out_channels=12, kernel_size=5)
        
        self.fc1 = nn.Linear(in_features=12*4*4, out_features=120)
        self.fc2 = nn.Linear(in_features=120, out_features=60)
        self.out = nn.Linear(in_features=60, out_features=10)
        
    def forward(self, t):
        # implement the forward pass
        return t

我们的可学习参数，实际上就是神经网络中的权重，而它们就位于我们定义的网络层之中，我们先获取一个Network类的实例，再来观察我们的权重：

> network = Network()

当这段代码执行时，类构造函数__init__(self)中的代码将会被调用，我们定义的网络层会被初始化，然后再返回一个网络类的实例，在我们开始使用我们的 network 实例之前，我们先看看打印它会输出什么：

> print(network)
Network(
    (conv1): Conv2d(1, 6, kernel_size=(5, 5), stride=(1, 1))
    (conv2): Conv2d(6, 12, kernel_size=(5, 5), stride=(1, 1))
    (fc1): Linear(in_features=192, out_features=120, bias=True)
    (fc2): Linear(in_features=120, out_features=60, bias=True)
    (out): Linear(in_features=60, out_features=10, bias=True)
)

我们接下来看看如何获取我们定义的网络层：

> network.conv1
Conv2d(1, 6, kernel_size=(5, 5), stride=(1, 1))

> network.conv2
Conv2d(6, 12, kernel_size=(5, 5), stride=(1, 1))

> network.fc1
Linear(in_features=192, out_features=120, bias=True)

> network.fc2                                    
Linear(in_features=120, out_features=60, bias=True)

> network.out
Linear(in_features=60, out_features=10, bias=True)

下一步我们可以获取网络层的权重，通过 network.conv1.weight 这行代码，它输出的是一个 tensor.

> network.conv1.weight
Parameter containing:
tensor([[[[ 0.0692,  0.1029, -0.1793,  0.0495,  0.0619],
            [ 0.1860,  0.0503, -0.1270, -0.1240, -0.0872],
            [-0.1924, -0.0684, -0.0028,  0.1031, -0.1053],
            [-0.0607,  0.1332,  0.0191,  0.1069, -0.0977],
            [ 0.0095, -0.1570,  0.1730,  0.0674, -0.1589]]],

        [[[-0.1392,  0.1141, -0.0658,  0.1015,  0.0060],
            [-0.0519,  0.0341,  0.1161,  0.1492, -0.0370],
            [ 0.1077,  0.1146,  0.0707,  0.0927,  0.0192],
            [-0.0656,  0.0929, -0.1735,  0.1019, -0.0546],
            [ 0.0647, -0.0521, -0.0687,  0.1053, -0.0613]]],

        [[[-0.1066, -0.0885,  0.1483, -0.0563,  0.0517],
            [ 0.0266,  0.0752, -0.1901, -0.0931, -0.0657],
            [ 0.0502, -0.0652,  0.0523, -0.0789, -0.0471],
            [-0.0800,  0.1297, -0.0205,  0.0450, -0.1029],
            [-0.1542,  0.1634, -0.0448,  0.0998, -0.1385]]],

        [[[-0.0943,  0.0256,  0.1632, -0.0361, -0.0557],
            [ 0.1083, -0.1647,  0.0846, -0.0163,  0.0068],
            [-0.1241,  0.1761,  0.1914,  0.1492,  0.1270],
            [ 0.1583,  0.0905,  0.1406,  0.1439,  0.1804],
            [-0.1651,  0.1374,  0.0018,  0.0846, -0.1203]]],

        [[[ 0.1786, -0.0800, -0.0995,  0.1690, -0.0529],
            [ 0.0685,  0.1399,  0.0270,  0.1684,  0.1544],
            [ 0.1581, -0.0099, -0.0796,  0.0823, -0.1598],
            [ 0.1534, -0.1373, -0.0740, -0.0897,  0.1325],
            [ 0.1487, -0.0583, -0.0900,  0.1606,  0.0140]]],

        [[[ 0.0919,  0.0575,  0.0830, -0.1042, -0.1347],
            [-0.1615,  0.0451,  0.1563, -0.0577, -0.1096],
            [-0.0667, -0.1979,  0.0458,  0.1971, -0.1380],
            [-0.1279,  0.1753, -0.1063,  0.1230, -0.0475],
            [-0.0608, -0.0046, -0.0043, -0.1543,  0.1919]]]], 
            requires_grad=True
)

9. 权重张量的形状

站在卷积层的角度，权重张量就在我们设定的filter之中，而在代码中，filter实际上就是权重张量自身。

层内的卷积运算是指该层的所有输入通道的feature map与该层的filter之间的运算，这意味着我们实际上进行的是两个张量之间的运算。（一次卷积是某个卷积核对所有输入通道的同一个区域进行卷积，而不是单个输入通道）

对于第一个卷积层，我们有1个颜色通道，用6个大小为 $5 * 5$ 的卷积核进行卷积，所以最后输出的通道数也有6个。在PyTorch中，我们不会用6个权重张量来表示每个的filter，而是集中用一个权重张量来表示，注意每一个维度所代表的含义。

> network.conv1
Conv2d(1, 6, kernel_size=(5, 5), stride=(1, 1))

> network.conv1.weight.shape
torch.Size([6, 1, 5, 5])

> network.conv2
Conv2d(6, 12, kernel_size=(5, 5), stride=(1, 1))

> network.conv2.weight.shape
torch.Size([12, 6, 5, 5])

我们需要记住两点：

所有的filter都只用一个张量来表示
每个filter都具有depth维，该值对应输入的通道数

在全连接层中，我们的输入、输出都是一阶张量，所以我们只需要一个二阶张量对它们进行转换即可，二阶张量也常被称为权重矩阵。

> network.fc1.shape
torch.Size([120, 192])

> network.fc2.shape                                    
torch.Size([60, 120])

> network.out.shape
torch.Size([10, 60])

由于我们的输入输出都是列向量，我们所进行的运算为：
$z^l=W^la^{l-1}$

于是我们权重矩阵的shape，第一个元素值对应的是out_features，第二个元素值对应的是in_features，这一点我们需要理解。在PyTorch中，矩阵乘法用tensor.matmul()函数来表示：

> weight_matrix.matmul(in_features)
tensor([30., 40., 50.])

最后一个问题是，如果想要一次性获取到网络中的所有参数，应该怎么做呢？可以通过下面的代码：

for name, param in network.named_parameters():
    print(name, '\t\t', param.shape)

conv1.weight 	 torch.Size([6, 1, 5, 5])
conv1.bias 		 torch.Size([6])
conv2.weight 	 torch.Size([12, 6, 5, 5])
conv2.bias 		 torch.Size([12])
fc1.weight 		 torch.Size([120, 192])
fc1.bias 		 torch.Size([120])
fc2.weight 		 torch.Size([60, 120])
fc2.bias 		 torch.Size([60])
out.weight 		 torch.Size([10, 60])
out.bias 		 torch.Size([10])

10. torch.nn.Linear源码分析

我们先来看看如何用矩阵乘法，把输入的特征向量转换为输出的特征向量：

in_features = torch.tensor([1,2,3,4], dtype=torch.float32)

weight_matrix = torch.tensor([
    [1,2,3,4],
    [2,3,4,5],
    [3,4,5,6]
], dtype=torch.float32)

> weight_matrix.matmul(in_features)
tensor([30., 40., 50.])

再来看如何用 nn.Linear类来实现上面的转换：

> fc = nn.Linear(in_features=4, out_features=3, bias=False)

> fc.weight  # 随机初始化的权重
Parameter containing:
tensor([[ 0.2845,  0.4056,  0.0574, -0.2942],
        [-0.1213, -0.2582, -0.1599,  0.3142],
        [-0.0050,  0.1562,  0.3690, -0.4962]], requires_grad=True)

那权重矩阵是在哪里生成的呢？不急，我们来看源码进行分析：

# torch/nn/modules/linear.py (version 1.0.1)

def __init__(self, in_features, out_features, bias=True):
    super(Linear, self).__init__()
    self.in_features = in_features
    self.out_features = out_features
    self.weight = Parameter(torch.Tensor(out_features, in_features)) # 权重矩阵
    if bias:
        self.bias = Parameter(torch.Tensor(out_features))
    else:
        self.register_parameter('bias', None)
    self.reset_parameters()

传入一个特征向量，查看输出：

> in_features = torch.tensor([1,2,3,4], dtype=torch.float32)

> fc(in_features)
tensor([ 0.0912,  0.1394, -0.5704], grad_fn=<SqueezeBackward3>)

我们发现一件事：PyTorch的神经网络模块是可以调用的 Python 对象！ 关于这一点，我们稍后详细说明。现在的问题是，线性层的输出和我们上面的例子的输出还是有差别的，这是因为我们的权重矩阵是随机初始化的，我们可以显示地指定线性层的权重矩阵。

> fc.weight = nn.Parameter(weight_matrix)  
> fc(in_features)
tensor([30., 40., 50.], grad_fn=<SqueezeBackward3>)

现在我们的输出和矩阵乘法的结果是一致的了，接下来我们来分析，为什么PyTorch的神经网络模块像个函数一样可以被调用（如 fc(in_features)），这是因为 PyTorch 的模块类，实现了 Python 中的另一个特殊函数__call__()，如果一个类实现了该方法，则只要调用对象实例，就会执行特殊的调用方法，我们再来看看源代码：

# torch/nn/modules/module.py (version 1.0.1)

def __call__(self, *input, **kwargs):
    for hook in self._forward_pre_hooks.values():
        hook(self, input)
    if torch._C._get_tracing_state():
        result = self._slow_forward(*input, **kwargs)
    else:
        result = self.forward(*input, **kwargs)
    for hook in self._forward_hooks.values():
        hook_result = hook(self, input, result)
        if hook_result is not None:
            raise RuntimeError(
                "forward hooks should never return any values, but '{}'"
                "didn't return None".format(hook))
    if len(self._backward_hooks) > 0:
        var = result
        while not isinstance(var, torch.Tensor):
            if isinstance(var, dict):
                var = next((v for v in var.values() if isinstance(v, torch.Tensor)))
            else:
                var = var[0]
        grad_fn = var.grad_fn
        if grad_fn is not None:
            for hook in self._backward_hooks.values():
                wrapper = functools.partial(hook, self)
                functools.update_wrapper(wrapper, hook)
                grad_fn.register_hook(wrapper)
    return result

11. 实现前向传播算法

我们先回顾一下前面定义的Network类：

class Network(nn.Module):
    def __init__(self):
        super().__init__()
        self.conv1 = nn.Conv2d(in_channels=1, out_channels=6, kernel_size=5)
        self.conv2 = nn.Conv2d(in_channels=6, out_channels=12, kernel_size=5)
        
        self.fc1 = nn.Linear(in_features=12*4*4, out_features=120)
        self.fc2 = nn.Linear(in_features=120, out_features=60)
        self.out = nn.Linear(in_features=60, out_features=10)
        
    def forward(self, t):
        # implement the forward pass
        return t

神经网络的第一层是输入层，输入层返回的就是我们输入的向量：

# (1) input layer
t = t

第二、三层是卷积层，需要进行卷积、激活和池化等操作，激活和池化是nn.functional包中的函数：

# (2) hidden conv layer
t = self.conv1(t)
t = F.relu(t) # import nn.functional as F
t = F.max_pool2d(t, kernel_size=2, stride=2)

# (3) hidden conv layer
t = self.conv2(t)
t = F.relu(t)
t = F.max_pool2d(t, kernel_size=2, stride=2)

第四、五层是全连接层，其中第一个全连接层要进行flatten()操作，经过前向传播之后，还要进行激活操作。

# (4) hidden linear layer
t = t.reshape(-1, 12 * 4 * 4)
t = self.fc1(t)
t = F.relu(t)

# (5) hidden linear layer
t = self.fc2(t)
t = F.relu(t)

第六层（最后一层）是输出层，它输出的向量长度，对应我们的类别数。

# (6) output layer
t = self.out(t)
# t = F.softmax(t, dim=1) # 可选

在神经网络内部，我们通常使用relu()作为我们的非线性激活函数，但是对于输出层，当我们试图预测一个类别时，我们使用softmax()。此函数可以为每个预测类返回一个概率值，总和为1。

但是在我们的例子中，我们不需要使用softmax()，因为我们将使用的cross_entropy()损失函数，已经隐式地对其输入执行softmax()操作，所以我们只返回上次线性转换的结果。

将前面代码进行汇总，即可得到我们的前向传播算法。

def forward(self, t):
    # (1) input layer
    t = t

    # (2) hidden conv layer
    t = self.conv1(t)
    t = F.relu(t)
    t = F.max_pool2d(t, kernel_size=2, stride=2)

    # (3) hidden conv layer
    t = self.conv2(t)
    t = F.relu(t)
    t = F.max_pool2d(t, kernel_size=2, stride=2)

    # (4) hidden linear layer
    t = t.reshape(-1, 12 * 4 * 4)
    t = self.fc1(t)
    t = F.relu(t)

    # (5) hidden linear layer
    t = self.fc2(t)
    t = F.relu(t)

    # (6) output layer
    t = self.out(t)
    # t = F.softmax(t, dim=1)

    return t

12. 预测单张图片的类别

注意，我们现在的网络还是未经训练过的。 目前只是测试如何预测单张图片，检查我们的网络是否为畅通的。所以我们先关闭PyTorch的梯度计算功能，避免它在有张量流过网络时自动建立计算图，这个图主要用于计算损失函数的梯度，帮助我们后面更新网络参数。

> torch.set_grad_enabled(False)
<torch.autograd.grad_mode.set_grad_enabled object at 0x7f6bb575fcf8>

接下来我们创建一个Network类的实例，并从训练集中获取一个 image 对象。

> network = Network()

> sample = next(iter(train_set)) 
> image, label = sample 
> image.shape 
torch.Size([1, 28, 28])

需要注意的是，我们的网络期望的输入是一个batch，于是我们只需要再增加一个维度：

> image.unsqueeze(0).shape
torch.Size([1, 1, 28, 28])

于是再将它输入到网络中，进行预测：

> pred = network(image.unsqueeze(0)) # image shape needs to be 
  									 # (batch_size × in_channels × H × W)

> pred
tensor([[0.0991, 0.0916, 0.0907, 0.0949, 0.1013, 0.0922,
		 0.0990, 0.1130, 0.1107, 0.1074]])

> pred.shape
torch.Size([1, 10])

> pred.argmax(dim=1)
tensor([7])

> label
9

注意到我们的network也是一个可以调用的对象，原因和前面的网络层一样。另外，我们发现pred.shape的值为 $[1, 10]$ ，这是因为我们输入的batch中，图像的个数只有一个，第一个轴中的元素个数等于batch size，如果我们希望输出的值代表图像属于每一类的概率，采用下面的代码：

> F.softmax(pred, dim=1)
tensor([[0.1096, 0.1018, 0.0867, 0.0936, 0.1102, 0.0929, 0.1083, 0.0998, 0.0943, 0.1030]])

> F.softmax(pred, dim=1).sum()
tensor(1.)

13. 预测批量图片的类别

整个过程和预测单张图片类别是类似的，区别在于我们需要用到DataLoader.

> data_loader = torch.utils.data.DataLoader(
     train_set, batch_size=10)

> batch = next(iter(data_loader))
> images, labels = batch

> images.shape
torch.Size([10, 1, 28, 28])

> labels.shape
torch.Size([10])

然后将images喂到我们的网络中，输出预测结果：

> preds = network(images)

> preds.shape
torch.Size([10, 10])

> preds
tensor(
    [
        [ 0.1072, -0.1255, -0.0782, -0.1073,  0.1048,  0.1142, -0.0804, -0.0087,  0.0082,  0.0180],
        [ 0.1070, -0.1233, -0.0798, -0.1060,  0.1065,  0.1163, -0.0689, -0.0142,  0.0085,  0.0134],
        [ 0.0985, -0.1287, -0.0979, -0.1001,  0.1092,  0.1129, -0.0605, -0.0248,  0.0290,  0.0066],
        [ 0.0989, -0.1295, -0.0944, -0.1054,  0.1071,  0.1146, -0.0596, -0.0249,  0.0273,  0.0059],
        [ 0.1004, -0.1273, -0.0843, -0.1127,  0.1072,  0.1183, -0.0670, -0.0162,  0.0129,  0.0101],
        [ 0.1036, -0.1245, -0.0842, -0.1047,  0.1097,  0.1176, -0.0682, -0.0126,  0.0128,  0.0147],
        [ 0.1093, -0.1292, -0.0961, -0.1006,  0.1106,  0.1096, -0.0633, -0.0163,  0.0215,  0.0046],
        [ 0.1026, -0.1204, -0.0799, -0.1060,  0.1077,  0.1207, -0.0741, -0.0124,  0.0098,  0.0202],
        [ 0.0991, -0.1275, -0.0911, -0.0980,  0.1109,  0.1134, -0.0625, -0.0391,  0.0318,  0.0104],
        [ 0.1007, -0.1212, -0.0918, -0.0962,  0.1168,  0.1105, -0.0719, -0.0265,  0.0207,  0.0157]
    ]
)

查看每一个图像预测结果最大值对应的类别：

> preds.argmax(dim=1)
tensor([5, 5, 5, 5, 5, 5, 4, 5, 5, 4])

> F.softmax(preds).argmax(dim=1) #  发现softmax之后的结果和原张量的结果一致
tensor([5, 5, 5, 5, 5, 5, 4, 5, 5, 4])

> labels
tensor([9, 0, 0, 3, 0, 2, 7, 2, 5, 5])

如果我们想要判断 preds 的预测结果的准确性，采用下面的做法：

> preds.argmax(dim=1).eq(labels)
tensor([False, False, False, False, False, False, False, False,  True, False])

> preds.argmax(dim=1).eq(labels).sum() # 在Python中，True用1表示，False用0表示
tensor(1)

所以我们可以自定义一个返回预测正确的图片个数的函数，如下所示：

def get_num_correct(preds, labels):
    return preds.argmax(dim=1).eq(labels).sum().item()

14 训练一个神经网络

前面我们花了很大的篇幅介绍如何 build the model，主要涉及到的是网络层和前向传播算法。现在我们开始学习如何 train the model，我们将训练过程主要分为以下步骤：

从 train_set 获取批量图像
把批量图像输入到神经网络中
计算模型损失（预测值与真实值之间的误差）
计算损失关于权重参数的梯度值
用梯度值来更新权重参数
重复前面1-5步，直到一个epoch处理完毕
重复前面1-6步，直到模型损失逼近最小值

在进行训练过程时，我们需要打开PyTorch的梯度跟踪功能（它默认是开启的，我们在前面进行测试的时候将前关闭了）。

> torch.set_grad_enabled(True)
<torch.autograd.grad_mode.set_grad_enabled at 0x15b22d012b0>

获取一个batch的数据：

> network = Network()

> train_loader = torch.utils.data.DataLoader(train_set, batch_size=100)
> batch = next(iter(train_loader)) # Getting a batch
> images, labels = batch

前向传播并计算batch的损失：

> preds = network(images)
> loss = F.cross_entropy(preds, labels) # Calculating the loss

> loss.item()
2.307542085647583

计算损失对权重参数的梯度，通过backward()方法：

> network.conv1.weight.grad # before backward() called
None

> loss.backward() # Calculating the gradients

> network.conv1.weight.grad.shape
torch.Size([6, 1, 5, 5])

这些梯度值计算完之后，将根据我们设定的优化器，来按照对应的方式来更新模型的权重参数，优化器通过 torch.optim 来创建：

> optimizer = optim.Adam(network.parameters(), lr=0.01)
> optimizer.step() # Updating the weights

我们可以来检查以下，更新完模型参数，同一个批次的图像所对应的损失是不是减小了：

> preds = network(images)
> loss = F.cross_entropy(preds, labels)

> loss.item() # 可以发现值变小了
2.262690782546997

整合前面的所有步骤，我们得到了以下训练单个batch的完整代码：

network = Network()

train_loader = torch.utils.data.DataLoader(train_set, batch_size=100)
optimizer = optim.Adam(network.parameters(), lr=0.01)

batch = next(iter(train_loader)) # Get Batch
images, labels = batch

preds = network(images) # Pass Batch
loss = F.cross_entropy(preds, labels) # Calculate Loss

loss.backward() # Calculate Gradients
optimizer.step() # Update Weights

print('loss1:', loss.item())
preds = network(images)
loss = F.cross_entropy(preds, labels)
print('loss2:', loss.item())

继续完善我们的代码，实现可以训练单个epoch中的所有batch图像，只需修改为：

network = Network()

train_loader = torch.utils.data.DataLoader(train_set, batch_size=100)
optimizer = optim.Adam(network.parameters(), lr=0.01)

total_loss = 0
total_correct = 0

for batch in train_loader: # Get Batch
    images, labels = batch 

    preds = network(images) # Pass Batch
    loss = F.cross_entropy(preds, labels) # Calculate Loss

    optimizer.zero_grad()
    loss.backward() # Calculate Gradients
    optimizer.step() # Update Weights

    total_loss += loss.item()
    total_correct += get_num_correct(preds, labels)
    
print(
    "epoch:", 0, 
    "total_correct:", total_correct, 
    "loss:", total_loss
)

继续完善我们的代码，实现可以训练多个epoch的图像，只需一点小修改：

network = Network()

train_loader = torch.utils.data.DataLoader(train_set, batch_size=100)
optimizer = optim.Adam(network.parameters(), lr=0.01)

for epoch in range(10):
    
    total_loss = 0
    total_correct = 0
    
    for batch in train_loader: # Get Batch
        images, labels = batch 

        preds = network(images) # Pass Batch
        loss = F.cross_entropy(preds, labels) # Calculate Loss

        optimizer.zero_grad()
        loss.backward() # Calculate Gradients
        optimizer.step() # Update Weights

        total_loss += loss.item()
        total_correct += get_num_correct(preds, labels)

    print(
        "epoch", epoch, 
        "total_correct:", total_correct, 
        "loss:", total_loss
    )

当我们执行这个代码，输出如下所示：

epoch 0 total_correct: 43301 loss: 447.59147948026657
epoch 1 total_correct: 49565 loss: 284.43429669737816
epoch 2 total_correct: 51063 loss: 244.08825492858887
epoch 3 total_correct: 51955 loss: 220.5841210782528
epoch 4 total_correct: 52551 loss: 204.73878084123135
epoch 5 total_correct: 52914 loss: 193.1240530461073
epoch 6 total_correct: 53195 loss: 184.50964668393135
epoch 7 total_correct: 53445 loss: 177.78808392584324
epoch 8 total_correct: 53629 loss: 171.81662507355213
epoch 9 total_correct: 53819 loss: 166.2412590533495

以上就是我们利用PyTorch建立一个卷积神经网络对Fashion-MNIST数据集进行预测的全过程，我们一块砖、一片瓦的搭起了整个神经网络，了解了如何build the model和train the model。麻雀虽小，五脏俱全，通过本文的案例，我们了解了PyTorch底层的工作原理，希望大家能够举一反三，应用PyTorch深度学习框架去解决更多的实际问题，加油！

你可能感兴趣的:(深度学习,PyTorch,Fashion-MNIST)

基于YOLOv5的野生动物检测与监控系统：猫、狗、鸟、猴子、狮子、老虎、象的实时识别与分析深度学习&目标检测实战项目 YOLO 目标跟踪人工智能深度学习 ui 目标检测机器学习
1.引言随着人工智能技术的飞速发展，尤其是深度学习在计算机视觉领域的突破，目标检测技术已广泛应用于各类场景。从城市交通监控到安防系统，再到野生动物保护和生态监测，目标检测技术为我们提供了实时、精确的解决方案。在众多目标检测算法中，YOLO（YouOnlyLookOnce）系列因其高效性和实时性，已成为解决多类别目标检测任务的首选方法。本文将介绍如何使用YOLOv5进行野生动物检测与监控，包括猫、狗
LLaMA Factory添加新模型template的实战解析 herosunly 大模型 llama factory 新模型 template 实战解析
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于大模型算法的研究与应用。曾担任百度千帆大模型比赛、BPAA算法大赛评委，编写微软OpenAI考试认证指导手册。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。授权多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。
电商图书行业类目AI导购Agent系统详细设计与开发实战 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 LLM大模型落地实战指南计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍随着电子商务的蓬勃发展，图书行业也迎来了线上销售的黄金时代。然而，海量的图书种类、复杂的读者需求，使得用户在选购图书时常常面临选择困难。传统的搜索和推荐方式往往无法精准匹配用户的个性化需求，导致用户体验不佳，转化率低。为了解决这一痛点，AI导购Agent系统应运而生。该系统利用人工智能技术，模拟专业的图书导购员，为用户提供个性化的图书推荐和导购服务。通过深度学习、自然语言处理等技术，A
PyTorch数据加载：实战入门秋‍. pytorch 人工智能 python 数据加载
"好的数据加载是成功训练的第一步"一、为什么要用DataLoader？当我们刚开始学习深度学习时，常常会这样处理数据：#传统方式加载数据images=[...]#所有图片数据labels=[...]#所有标签foriinrange(0,len(images),32):batch_images=images[i:i+32]batch_labels=labels[i:i+32]#训练代码...这种方式
大模型国产化迁移大模型到昇腾教程（Pytorch版）科技互联人生科技数码人工智能 AIGC 语言模型
大模型国产化适配10-快速迁移大模型到昇腾910B保姆级教程（Pytorch版）随着ChatGPT的火爆，AI大模型时代来临，但算力紧张。中美贸易战及美国制裁AI芯片，国产化势在必行。已有国产AI芯片和Mindformers框架，基于昇腾910训练大模型，使用MindIE实现大模型服务化。本文介绍如何迅速将大型模型迁移到昇腾910B,许多入门者都是从斯坦福羊驼开始的。我们将利用羊驼的训练代码和数据
大模型微调入门（Transformers + Pytorch）昵称不能为null python llm 机器学习人工智能
目标输入：你是谁？输出：我们预训练的名字。训练为了性能好下载小参数模型，普通机器都能运行。下载模型#方式1：使用魔搭社区SDK下载#down_deepseek.pyfrommodelscopeimportsnapshot_downloadmodel_dir=snapshot_download('deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B')#方式2：gitl
计算机视觉实战：YOLOv8在工业质检中的应用（附完整代码+数据集） emmm形成中深度学习人工智能 python 计算机视觉
计算机视觉实战：YOLOv8在工业质检中的应用（附完整代码+数据集）摘要：本文为零基础读者系统讲解目标检测核心原理，基于YOLOv8实现工业缺陷检测实战项目。从数据标注到模型部署，包含环境配置、数据增强、模型训练全流程详解，手把手教你打造高精度智能质检系统！关键词：YOLOv8、目标检测、工业质检、缺陷识别、PyTorch一、为什么选择YOLOv8做工业质检？1.1工业质检的三大痛点人工成本高：传
RNN原理+实战 pytorch--lstm--gru 甜辣uu python从入门到精通 tensorflow python pytorch 深度学习
rnn原理：https://blog.csdn.net/qq_39422642/article/details/78676567其中每个圆圈可以看作是一个单元，而且每个单元做的事情也是一样的，因此可以折叠呈左半图的样子。用一句话解释RNN，就是一个单元结构重复使用。RNN中的结构细节：1.可以把StSt当作隐状态，捕捉了之前时间点上的信息。就像你去考研一样，考的时候记住了你能记住的所有信息。2.o
深度学习-136-LangGraph之应用实例(五)构建RAG问答系统同时从不同的角度对比优化效果皮皮冰燃深度学习深度学习人工智能 LangGraph RAG
文章目录1大语言模型2小粒度分割文档2.1处理文本构建Document2.2向量存储2.3创建图2.4测试调用3大粒度分割文档3.1构建Document3.2向量存储3.3创建图3.4测试调用4总结与优化4.1问题分析4.2对比不同的返回文档数4.3对比不同的嵌入模型4.3.1嵌入模型nomic-embed-text4.3.2嵌入模型bge-m34.4对比不同的大模型4.4.1大模型qwen2:7
大语言模型技术专栏（三）：Attention机制——从RNN到Transformer的惊世一跃！北海yy 大语言模型技术专栏语言模型 rnn transformer
文章目录概要一、Attention机制：让AI学会「划重点」二、Attention机制的核心原理三、Self-Attention：Transformer的核心四、代码实战：用PyTorch实现Attention五、Attention的进化：从Transformer到GPT概要大家好，我是北海yy，继续带来大语言模型技术专栏的深度解析！在上一期《RNN语言模型——让AI真正「记住」上下文的秘密武器》
56、深度学习-自学之路-自己搭建深度学习框架-17、关于为什么LSTM可以解决RNN的梯度爆炸和梯度消失的问题的解析。小宇爱深度学习-自学之路深度学习 rnn lstm
我的话太苍白，你们可以去哔哩哔哩上搜索一个"大白话讲解LSTM长短期记忆网络如何缓解梯度消失，手把手公式推导反向传播”不仅仅解释了为什么，还把公式的推导也给了出来。讲的已经非常好了。还可以看一下他的专辑内容，其中有RNN，LSTM,GRU的详细解释。比我说的好。
Transformer 代码剖析7 - 词元嵌入(TokenEmbedding) （pytorch实现） lczdyx Transformer代码剖析 transformer pytorch 深度学习人工智能 python
一、类定义与继承关系剖析1.1代码结构图示神经网络基础模块词嵌入基类自定义词元嵌入构造函数定义基类初始化词汇量参数维度参数填充标识参数1.2代码实现精讲"""@author:Hyunwoong@when:2019-10-22@homepage:https://github.com/gusdnd852"""fromtorchimportnnclassTokenEmbedding(nn.Embeddi
卷积神经网络（Convolutional Neural Network，CNN）详细解释（带示例）浪九天人工智能理论人工智能神经网络深度学习机器学习
目录卷积神经网络示例Python案例代码解释卷积神经网络概述：卷积神经网络是一种专门为处理具有网格结构数据（如图像、音频）而设计的深度学习模型。它通过卷积层、池化层和全连接层等组件，自动提取数据的特征，大大减少了模型的参数数量，降低计算量，同时提高了模型的泛化能力。主要组件卷积层：是CNN的核心组件，由多个卷积核组成。卷积核在数据上滑动，通过卷积操作提取数据的局部特征。卷积操作是将卷积核与数据的局
如何学习训练大模型——100条建议（附详细说明）_如何训练自己的大模型_大模型如何训练大耳朵爱学习人工智能语言模型产品经理大模型 AI大模型
摘要：通过深入了解本文中的这些细节，并在实际项目中应用相关知识，将能够更好地理解和利用大模型的潜力，不仅在学术研究中，也在工程实践中。通过不断探索新方法、参与项目和保持热情，并将其应用于各种领域，从自然语言处理到计算机视觉和自动驾驶。通过不断学习、实践和探索，可以不断提升自己在深度学习领域的技能和洞察力，同时也能为社会和行业带来创新和改进。从小规模的项目和模型开始，逐渐迭代和扩展到更大的模型，逐步
DeepSeek在地铁应急响应与处理中的具体实现方案，包括技术架构、功能实现和代码示例：人工智能专属驿站架构计算机视觉
以下是关于DeepSeek在地铁应急响应与处理中的具体实现方案，包括技术架构、功能实现和代码示例：1.事件检测与预警技术实现：视频监控与传感器数据融合：利用地铁站内的视频监控系统和传感器（如烟雾传感器、压力传感器）实时采集数据。通过深度学习算法（如目标检测和行为识别）对视频流进行分析，结合传感器数据，快速识别突发事件。自动警报触发：一旦检测到异常事件（如火灾、拥挤踩踏），系统立即通过预设的警报机制
使用深度学习模型U-Net进行训练基于哨兵2的作物分割数据集。PyTorch框架为例，如何构建和训练U-Net模型来完成基于哨兵2的作物分割检测计算机C9硕士_算法工程师分割数据深度学习 pytorch 人工智能
使用深度学习模型如U-Net进行训练基于哨兵2的作物分割。PyTorch框架为例，如何构建和训练U-Net模型来完成基于哨兵2的作物分割检测基于哨兵2的作物分割，共18种作物类型（背景，草地，软冬小麦，玉米，冬季大麦，冬季油菜，春季大麦，向日葵，葡萄藤，甜菜，冬季小黑麦，冬季硬质小麦，水果、蔬菜、花卉，土豆，豆科饲料，大豆，果园，混合谷物，高粱），38到61个不同时间段同一位置10通道多光谱图像，
matlab连接散射点,使用小波散射做信号分类死月絲卡蕾特 matlab连接散射点
在时间序列信号的深度学习第二部分，我们将介绍一下怎样使用小波散射做信号分类。本视频将分为两部分。第一部分中我们已经简单介绍一下深度学习，包括它的概念和工作流程等。并且我们演示了如何用时频变换，和基于卷积神经网络的迁移学习来做心电图信号的分类。第二部分中我们将首先介绍什么是小波散射，之后将聚焦在怎样使用小波散射技术也就是不变散射卷积网络做自动特征提取，和使用长短期记忆网络也就是LSTM(LongSh
周志华机器学习西瓜书第五章神经网络-学习笔记(超详细) Sodas（填坑中....）周志华西瓜书——详细笔记附例题图解机器学习神经网络学习人工智能数据挖掘算法
在机器学习中，神经网络一般指的是"神经网络学习"，是机器学习与神经网络两个学科的交叉部分。所谓神经网络，目前用的最广泛的一个定义是"神经网络是由具有适应性的简单单元组成的广泛并行互连的网络，它的组织能够模拟生物神经系统对真实世界物体做出交互反应"。神经网络是一门重要的机器学习技术。它是目前最为火热的研究方向--深度学习的基础。学习神经网络不仅可以让你掌握一门强大的机器学习方法，同时也可以更好地帮助
Matlab 大量接单 matlabgoodboy matlab 开发语言
分享一个matlab接私活、兼职的平台1、技术方向满足任一即可2、技术要求3、最后技术方向满足即可MATLAB：熟练掌握MATLAB编程语言，能够使用MATLAB进行数据处理、机器学习和深度学习等相关工作。机器学习、深度学习、强化学习、仿真、复现、算法、神经网络、建模、图像识别、数据挖掘、数据获取、爬虫、数据分析、目标检测、算法创新、因子分析、相关分析、方差分析、判别分析、方程分析、线性回归、中介
深度学习五大模型：CNN、Transformer、BERT、RNN、GAN解析大模型_学习路线深度学习 cnn transformer 人工智能 AI大模型大模型 LLM
今天探讨它们各自适用的场景，让您知道在何种情况下选择何种模型；同时分析它们的优势与局限，助您全面评估这些模型的性能。一、卷积神经网络（ConvolutionalNeuralNetwork,CNN）原理：CNN主要由卷积层、池化层和全连接层组成。卷积层通过卷积核在输入数据上进行卷积运算，提取局部特征；池化层则对特征图进行下采样，降低特征维度，同时保留主要特征；全连接层将特征图展开为一维向量，并进行分
Slurm作业调度系统常见操作（使用超算运行深度学习）坐在云朵上的kiwi 工程项目 #deep learning 深度学习服务器
1.传输下载文件sftp远程命令cd,pwd等，本地命令lcd,lpwdget远程地址本地地址put本地地址远程地址上传文件夹1.在远程建立和本地一样名称的文件夹如data/2.put-rdata/2.建立虚拟环境moduleloadpython/3.8#加载modulevirtualenv--no-downloadENV#建立一个叫ENV的虚拟环境激活虚拟环境sourceENV/bin/acti
深度学习框架之主流学习框架 uu1224 深度学习学习人工智能机器学习神经网络
深度学习框架是一类专门设计用来简化和加速神经网络模型开发过程的软件工具。它们提供了构建、训练和部署神经网络所需的各种功能和库。以下是一些主流的深度学习框架及其特点：TensorFlow：由Google开发，是一个广泛使用的开源深度学习框架。它以强大的图计算模型和分布式计算能力著称，并且通过高级API如Keras，为用户提供了易于上手的开发体验。PyTorch：由Facebook开发，以其动态计算图
pytorch 机械臂逆运动学迭代数值解 chase。机器人机器人
https://github.com/UM-ARM-Lab/pytorch_kinematics分享一个求解运动学逆解的第三方库pytorch_kinematics，以下是我写的一份集成样例。importsysimportitertoolsimporttypingfromconcurrent.futuresimportThreadPoolExecutor,as_completedfromconte
【Pytorch】基于LSTM-KAN、BiLSTM-KAN、GRU-KAN、TCN-KAN、Transformer-KAN(各种KAN修改一行代码搞定)的共享单车租赁预测研究(数据可换)Python 冒泡芳 python pytorch lstm
欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录⛳️赠与读者1概述一、研究背景与意义二、TCN与KAN简介三、基于TCN-KAN的共享单车租赁预测模型四、研究挑战与展望基于LSTM-KAN、BiLSTM-KAN、GRU-KAN、TCN-KAN、Transformer-KAN的共享单车租赁预测研究1.引言2.模型介绍
Transformer 代码剖析9 - 解码器模块Decoder （pytorch实现） lczdyx Transformer代码剖析 transformer pytorch 深度学习人工智能 python
一、模块架构全景图1.1核心功能定位Transformer解码器是序列生成任务的核心组件，负责根据编码器输出和已生成序列预测下一个目标符号。其独特的三级注意力机制架构使其在机器翻译、文本生成等任务中表现出色。下面是解码器在Transformer架构中的定位示意图：解码器层组件解码器内部结构Transformer自注意力交叉注意力前馈网络残差连接+层归一化嵌入层位置编码解码器层1解码器层2...解码
Pytorch神经网络魔改之：模型融合 - 速通（1） lczdyx pytorch 神经网络深度学习 python 人工智能
本文将以几种常见方法为例，介绍如何进行Pytorch神经网络的模型融合：1.子模型串联(SequentialConcatenation)在这个方法中，输入数据x首先通过FeatureExtractor(即：子模型1)，处理后的结果再传递给Classifier(即：子模型2)。最后，返回Classifier的输出。这种方式允许将两个子模型串联起来，形成一个组合模型：importtorch.nnasn
Transformer预测 | 基于TCN-Transformer的股票价格预测（Pytorch）机器学习之心 #Transformer模型 transformer pytorch 深度学习 TCN-Transformer 股票价格预测
文章目录预测效果文章概述程序设计参考资料预测效果文章概述Transformer预测|基于TCN-Transformer的股票价格预测（Python）Transformer模型本质上都是预训练语言模型，大都采用自监督学习(Self-supervisedlearning)的方式在大量生语料上进行训练，也就是说，训练这些Transformer模型完全不需要人工标注数据。Transformer模型的标志就
win11编译pytorchvision cuda128版本流程 System_sleep pytorch python 编译 windows cuda
1.前置条件本篇续接自win11编译pytorchcuda128版本流程，阅读前请先参考上一篇配置环境。访问https://kkgithub.com/pytorch/vision/archive/refs/tags/v0.21.0.tar.gz下载源码，下载后解压。2.编译打开MiniforgePrompt，依次执行如下代码：condaactivatetorch_build_envcondains
DeepSeek应用场景及其解决的问题杏花春雨江南自然语言处理
DeepSeek是一种基于深度学习的智能技术，能够处理复杂的非结构化数据（如文本、图像、语音等），并在企业级应用开发中发挥重要作用。以下是DeepSeek在企业级应用开发中的典型应用场景及其解决的问题：1.企业知识管理与智能搜索场景：企业拥有大量的文档、报告、邮件、会议记录等非结构化数据，员工需要快速找到相关信息。DeepSeek的作用：通过语义搜索和自然语言处理（NLP），DeepSeek可以理
pytorch与深度学习随记——AlexNet 黑色的山岗在沉睡深度学习随记深度学习 pytorch 人工智能
AlexNet和LeNet的设计理念非常相似，但也存在显著差异：基本结构对比网络深度：AlexNet比LeNet-5要深得多，AlexNet由八层组成：五个卷积层、两个全连接隐藏层和一个全连接输出层。激活函数：AlexNet使用ReLU而不是sigmoid作为其激活函数，这有助于缓解梯度消失问题并加速训练过程。AlexNet架构的创新点局部响应归一化(LRN)：AlexNet引入LRN层，可以创建
java责任链模式 3213213333332132 java 责任链模式村民告县长
责任链模式，通常就是一个请求从最低级开始往上层层的请求，当在某一层满足条件时，请求将被处理，当请求到最高层仍未满足时，则请求不会被处理。就是一个请求在这个链条的责任范围内，会被相应的处理，如果超出链条的责任范围外，请求不会被相应的处理。下面代码模拟这样的效果：创建一个政府抽象类,方便所有的具体政府部门继承它。 package 责任链模式; /** *
linux、mysql、nginx、tomcat 性能参数优化 ronin47
一、linux 系统内核参数 /etc/sysctl.conf文件常用参数 net.core.netdev_max_backlog = 32768 #允许送到队列的数据包的最大数目 net.core.rmem_max = 8388608 #SOCKET读缓存区大小 net.core.wmem_max = 8388608 #SOCKET写缓存区大
php命令行界面 dcj3sjt126com PHP cli
常用选项 php -v php -i PHP安装的有关信息 php -h 访问帮助文件 php -m 列出编译到当前PHP安装的所有模块执行一段代码 php -r 'echo "hello, world!";' php -r 'echo "Hello, World!\n";' php -r '$ts = filemtime("
Filter&Session 171815164 session
Filter HttpServletRequest requ = (HttpServletRequest) req; HttpSession session = requ.getSession(); if (session.getAttribute("admin") == null) { PrintWriter out = res.ge
连接池与Spring,Hibernate结合 g21121 Hibernate
前几篇关于Java连接池的介绍都是基于Java应用的，而我们常用的场景是与Spring和ORM框架结合，下面就利用实例学习一下这方面的配置。 1.下载相关内容： &nb
[简单]mybatis判断数字类型 53873039oycg mybatis
昨天同事反馈mybatis保存不了int类型的属性,一直报错，错误信息如下: Caused by: java.lang.NumberFormatException: For input string: "null" at sun.mis
项目启动时或者启动后ava.lang.OutOfMemoryError: PermGen space 程序员是怎么炼成的 eclipse jvm tomcat catalina.sh eclipse.ini
在启动比较大的项目时，因为存在大量的jsp页面，所以在编译的时候会生成很多的.class文件，.class文件是都会被加载到jvm的方法区中，如果要加载的class文件很多，就会出现方法区溢出异常 java.lang.OutOfMemoryError: PermGen space. 解决办法是点击eclipse里的tomcat，在
我的crm小结 aijuans crm
各种原因吧，crm今天才完了。主要是接触了几个新技术： Struts2、poi、ibatis这几个都是以前的项目中用过的。 Jsf、tapestry是这次新接触的，都是界面层的框架，用起来也不难。思路和struts不太一样，传说比较简单方便。不过个人感觉还是struts用着顺手啊，当然springmvc也很顺手，不知道是因为习惯还是什么。jsf和tapestry应用的时候需要知道他们的标签、主
spring里配置使用hibernate的二级缓存几步 antonyup_2006 java spring Hibernate xml cache
．在spring的配置文件中 applicationContent.xml，hibernate部分加入 xml 代码 <prop key="hibernate.cache.provider_class">org.hibernate.cache.EhCacheProvider</prop> <prop key="hi
JAVA基础面试题百合不是茶抽象实现接口 String类接口继承抽象类继承实体类自定义异常
/* * 栈（stack）：主要保存基本类型（或者叫内置类型）（char、byte、short、 *int、long、 float、double、boolean）和对象的引用，数据可以共享，速度仅次于 * 寄存器（register），快于堆。堆（heap）：用于存储对象。 */ &
让sqlmap文件 "继承" 起来 bijian1013 java ibatis sqlmap
多个项目中使用ibatis , 和数据库表对应的 sqlmap文件（增删改查等基本语句)，dao, pojo 都是由工具自动生成的, 现在将这些自动生成的文件放在一个单独的工程中，其它项目工程中通过jar包来引用，并通过"继承"为基础的sqlmap文件，dao,pojo 添加新的方法来满足项
精通Oracle10编程SQL(13)开发触发器 bijian1013 oracle 数据库 plsql
/* *开发触发器 */ --得到日期是周几 select to_char(sysdate+4,'DY','nls_date_language=AMERICAN') from dual; select to_char(sysdate,'DY','nls_date_language=AMERICAN') from dual; --建立BEFORE语句触发器 CREATE O
【EhCache三】EhCache查询 bit1129 ehcache
本文介绍EhCache查询缓存中数据，EhCache提供了类似Hibernate的查询API，可以按照给定的条件进行查询。要对EhCache进行查询，需要在ehcache.xml中设定要查询的属性数据准备 @Before public void setUp() { //加载EhCache配置文件 Inpu
CXF框架入门实例白糖_ spring Web 框架 webservice servlet
CXF是apache旗下的开源框架，由Celtix + XFire这两门经典的框架合成，是一套非常流行的web service框架。它提供了JAX-WS的全面支持，并且可以根据实际项目的需要，采用代码优先（Code First）或者 WSDL 优先（WSDL First）来轻松地实现 Web Services 的发布和使用，同时它能与spring进行完美结合。在apache cxf官网提供
angular.equals boyitech AngularJS AngularJS API AnguarJS 中文API angular.equals
angular.equals 描述: 比较两个值或者两个对象是不是相等。还支持值的类型，正则表达式和数组的比较。两个值或对象被认为是相等的前提条件是以下的情况至少能满足一项：两个值或者对象能通过=== （恒等）的比较两个值或者对象是同样类型，并且他们的属性都能通过angular
java-腾讯暑期实习生-输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A[0]*A[1]*...*A[i-1]*A[i+1] bylijinnan java
这道题的具体思路请参看何海涛的微博：http://weibo.com/zhedahht import java.math.BigInteger; import java.util.Arrays; public class CreateBFromATencent { /** * 题目：输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A
FastDFS 的安装和配置修订版 Chen.H linux fastDFS 分布式文件系统
FastDFS Home:http://code.google.com/p/fastdfs/ 1. 安装 http://code.google.com/p/fastdfs/wiki/Setup http://hi.baidu.com/leolance/blog/item/3c273327978ae55f93580703.html 安装libevent (对libevent的版本要求为1.4.
[强人工智能]拓扑扫描与自适应构造器 comsci 人工智能
当我们面对一个有限拓扑网络的时候,在对已知的拓扑结构进行分析之后,发现在连通点之后,还存在若干个子网络,且这些网络的结构是未知的,数据库中并未存在这些网络的拓扑结构数据....这个时候,我们该怎么办呢? 那么,现在我们必须设计新的模块和代码包来处理上面的问题
oracle merge into的用法 daizj oracle sql merget into
Oracle中merge into的使用 http://blog.csdn.net/yuzhic/article/details/1896878 http://blog.csdn.net/macle2010/article/details/5980965 该命令使用一条语句从一个或者多个数据源中完成对表的更新和插入数据. ORACLE 9i 中，使用此命令必须同时指定UPDATE 和INSE
不适合使用Hadoop的场景 datamachine hadoop
转自：http://dev.yesky.com/296/35381296.shtml。　　Hadoop通常被认定是能够帮助你解决所有问题的唯一方案。当人们提到“大数据”或是“数据分析”等相关问题的时候，会听到脱口而出的回答：Hadoop! 实际上Hadoop被设计和建造出来，是用来解决一系列特定问题的。对某些问题来说，Hadoop至多算是一个不好的选择，对另一些问题来说，选择Ha
YII findAll的用法 dcj3sjt126com yii
看文档比较糊涂，其实挺简单的： $predictions=Prediction::model()->findAll("uid=:uid",array(":uid"=>10)); 第一个参数是选择条件：”uid=10″。其中:uid是一个占位符，在后面的array(“:uid”=>10)对齐进行了赋值；更完善的查询需要
vim 常用 NERDTree 快捷键 dcj3sjt126com vim
下面给大家整理了一些vim NERDTree的常用快捷键了，这里几乎包括了所有的快捷键了，希望文章对各位会带来帮助。切换工作台和目录 ctrl + w + h 光标 focus 左侧树形目录ctrl + w + l 光标 focus 右侧文件显示窗口ctrl + w + w 光标自动在左右侧窗口切换ctrl + w + r 移动当前窗口的布局位置 o 在已有窗口中打开文件、目录或书签，并跳
Java把目录下的文件打印出来蕃薯耀列出目录下的文件文件夹下面的文件目录下的文件
Java把目录下的文件打印出来 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月11日 11:02:
linux远程桌面----VNCServer与rdesktop hanqunfeng Desktop
windows远程桌面到linux，需要在linux上安装vncserver，并开启vnc服务，同时需要在windows下使用vnc-viewer访问Linux。vncserver同时支持linux远程桌面到linux。 linux远程桌面到windows，需要在linux上安装rdesktop，同时开启windows的远程桌面访问。下面分别介绍，以windo
guava中的join和split功能 jackyrong java
guava库中，包含了很好的join和split的功能，例子如下： 1）将LIST转换为使用字符串连接的字符串 List<String> names = Lists.newArrayList("John", "Jane", "Adam", "Tom");
Web开发技术十年发展历程 lampcy android Web 浏览器 html5
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
架构师之mima-----------------mina的非NIO控制IOBuffer(说得比较好) nannan408 buffer
1.前言。如题。 2.代码。 IoService IoService是一个接口，有两种实现：IoAcceptor和IoConnector；其中IoAcceptor是针对Server端的实现，IoConnector是针对Client端的实现；IoService的职责包括： 1、监听器管理 2、IoHandler 3、IoSession
ORA-00054:resource busy and acquire with NOWAIT specified Everyday都不同 oracle session Lock
[Oracle] 今天对一个数据量很大的表进行操作时，出现如题所示的异常。此时表明数据库的事务处于“忙”的状态，而且被lock了，所以必须先关闭占用的session。 step1，查看被lock的session： select t2.username, t2.sid, t2.serial#, t2.logon_time from v$locked_obj
javascript学习笔记 tntxia JavaScript
javascript里面有6种基本类型的值:number、string、boolean、object、function和undefined。number：就是数字值，包括整数、小数、NaN、正负无穷。string:字符串类型、单双引号引起来的内容。boolean:true、false object:表示所有的javascript对象，不用多说function:我们熟悉的方法，也就是
Java enum的用法详解 xieke90 enum 枚举
Java中枚举实现的分析：示例： public static enum SEVERITY{ INFO,WARN,ERROR } enum很像特殊的class，实际上enum声明定义的类型就是一个类。而这些类都是类库中Enum类的子类 (java.l