10000hours

【DeepLizard】Pytorch神经网络编程学习笔记(第二部分)

视频地址（B站）：适用于初学者的PyTorch神经网络编程教学
课程官方博客地址：DEEPLIZARD
个人笔记第一部分：DeepLizard：Pytorch神经网络编程教学(第一部分)

说明：

笔记为个人学习笔记，如有错误，欢迎指正。
本篇笔记整理的内容为课程的第二部分，对应视频为 $P_{14}\sim P_{43}$
DeepLizard课程为全英文授课，B站视频为中文字幕，且每个视频都有配套的博客与课后测试题。

文章目录

Section 1：数据和数据处理
- P14：fashion-mnist数据集
- P15：使用torchvision演示一种简单的提取、转换和加载流程(ETL)
- - ETL过程
  - 使用PyTorch准备数据
  - - PyTorch Dataset Class
    - PyTorch DataLoader Class
- P16：使用DataSet和DataLoader
- - 查看数据
  - 访问训练集中的数据
  - PyTorch DataLoader：处理成批的数据
Section 2：神经网络和 PyTorch 设计
- P17：构建PyTorch CNN
- - 一些包和函数
  - 构建神经网络
- P18：CNN层，理解构建CNN时使用的参数
- - CNN层
  - CNN层参数
- P19：CNN内部的权重张量
- - 可学习参数
  - 获取实例网络
  - 访问层的权重
  - 权重张量形状
  - 权重矩阵
- P20：PyTorch可调用的神经网络模块，以及网络和层的前向方法是如何调用的
- - Linear类中的权重
  - 特殊的调用方法：__call()__函数
- P21：调试PyTorch源代码
- P22：实现一个卷积神经网络的前向方法
- P23：使用卷积神经网络由数据集的样本输入生成输出预测答案
- P24：将一批图像传递到网络并解释输出
- P25：一个输入张量在通过CNN的过程中的变化
- - CNN输出尺寸公式（方形）
  - CNN输出尺寸公式（非方形）
Section 3：训练神经网络
- P26：训练卷积神经网络（单个批次）
- - 训练卷积神经网络所需的步骤
  - 代码实现
- P27：构建一个卷积神经网络的训练循环
- P28：构建混淆矩阵
- P29：拼接张量和堆叠张量
- P30：使用tensorboard来可视化CNN在网络训练过程中的指标
- P31：神经网络超参数
- - 每次修改单个超参数值
  - 循环遍历不同的超参数值
  - 添加更多的参数
Section 4：神经网络实验#
- P32：编写Run Builder类，使不同的参数值生成多个运行
- P33：同步超参数测试
- P34：加速神经网络训练过程
- P35：使用 CUDA 训练神经网络
- - tensor with CUDA
  - network with CUDA
  - 检测系统中CUDA能否使用
  - GPU vs CPU
- P36：数据集规范化
- - 均值和标准差
  - 归一化和不归一化的效果区别
- P37：调试PyTorch 数据加载器源代码
- P38：使用Sequential类来建立神经网络的顺序
- - 准备工作
  - 建立神经网络的顺序
  - - 方式一
    - 方式二
    - 方式三
  - 使用Sequential类建一个Network类
  - - 原始Network
    - 方式一
    - 方式二
    - 方式三
    - 预测image
- P39：PyTorch 中的批处理规范
- - 创建网络
  - 准备数据
  - 测试
Section 5：补充学习
- P40：重置reset网络的权重
- - 重置单个层的权重
  - 重置网络中的层的权重
  - - all weights layer by layer
    - all weights using snapshot
    - all weights using re-initialization
- P41：改进测试框架
- P42：Max Pooling vs No Max Pooling
- P43：结束课程

Section 1：数据和数据处理

对应视频： $P_{14}\sim P_{16}$

P14：fashion-mnist数据集

略。

P15：使用torchvision演示一种简单的提取、转换和加载流程(ETL)

ETL过程

Extract data from a data source. 从数据源中提取数据。
Transform data into a desirable format. 将数据转换为所需的格式。
Load data into a suitable structure. 将数据加载到合适的结构中。

使用PyTorch准备数据

torchvision包，它可以使我们访问以下资源：Datasets；Models；Transforns；Utils

PyTorch Dataset Class

如要使用torchvision获取FashionMNIST数据集，可以通过以下代码实现：

train_set = torchvision.datasets.FashionMNIST(
    root='./data'
    ,train=True
    ,download=True
    ,transform=transforms.Compose([
        transforms.ToTensor()
    ])
)

参数	说明
root	磁盘上数据所在的位置
train	数据集是否是训练集
download	是否下载数据
transform	应对数据集元素执行的转换组合

当第一次运行完此代码后，FashionMNIST数据集将会下载到本地。

PyTorch DataLoader Class

为训练集创建一个DataLoader包装器：

train_loader = torch.utils.data.DataLoader(train_set
    ,batch_size=1000
    ,shuffle=True
)

P16：使用DataSet和DataLoader

查看数据

# 查看训练集中有多少图像
len(train_set) # 6000

# 查看每个图像的标签
train_set.targets # tensor([9, 0, 0,  ..., 3, 0, 5])

# 查看数据集中每个标签有多少个
train_set.targets.bincount() # tensor([6000, 6000, 6000, 6000, 6000, 6000, 6000, 6000, 6000, 6000])

访问训练集中的数据

sample = next(iter(train_set))
len(sample) # 2

为访问训练集中的单个元素，先将train_set传给函数iter()，该函数返回一个表示数据流的对象，之后就可以用Python的内置函数next()来获取数据流中的下一个数据元素。

由函数的输出可知，每个样本(sample)包含两项，这是数据集中包含的图像标签对。可以使用序列解包来分配图像和标签：

image, label = sample
print(type(image)) # 
print(type(label)) #

查看元素：

print(image.shape) # torch.Size([1, 28, 28])
print(torch.tensor(label).shape) # torch.Size([])

# 调用squeeze（）,删除维度
print(image.squeeze().shape) # torch.Size([28, 28])

绘制图像：

plt.imshow(image.squeeze(), cmap='gray')
print(torch.tensor(label)) # tensor(0)
# 说明：这里sample为train_set[2]，也就是第三个元素，它的标签为0，对照上面的train_set.targets输出，可以看到第三个图像的标签就是0

PyTorch DataLoader：处理成批的数据

# 先创建一个批处理大小为10的数据加载程序：
display_loader = torch.utils.data.DataLoader(train_set, batch_size = 10)

# 注意：当shuffle=True时，每个batch都会不同
batch = next(iter(display_loader))
print(len(batch)) # 2

# 查看返回批次的长度
images, labels = batch
print(type(images)) #  
print(type(labels)) # 
print(images.shape) # torch.Size([10, 1, 28, 28]) # (批量大小，颜色通道数，图像高度，图像宽度) 
print(labels.shape) # torch.Size([10])

绘制一批图像：

# 绘制一批图像
# 方法一：
grid = torchvision.utils.make_grid(images, nrow=10)
plt.figure(figsize=(15,15))
plt.imshow(np.transpose(grid, (1,2,0)))

# 方法二：
grid = torchvision.utils.make_grid(images, nrow=10)
plt.figure(figsize=(15,15))
plt.imshow(grid.permute(1,2,0))

Section 2：神经网络和 PyTorch 设计

P17：构建PyTorch CNN

一些包和函数

nn.Module
PyTorch的神经网络库中包含了构建神经网络所需的所有典型组件。深度神经网络是使用多层构建的，神经网络中每一层都有两个主要组成部分：变换（代码），权重的集合（数据）。

PyTorch中的nn.Module是所有包含层的神经网络模块的基类，这意味着PyTorch中的所有层都扩展了nn.Module。
forward()
前向传播：当把一个张量传递给我们的网络作为输入，张量通过每个层变换向前流动，直到张量达到输出层。这个通过网络向前流动的张量的过程被称为前向传播。

每一层都有它自己的变换，张量向前通过每一层的变换。所有单独的层的前向传播的组合定义了网络本身的整体向前转换。

在PyTorch中，每个nn.module都有一个前向方法来代表前向传输。因此在神经网络中构建层时，必须提供前向方法（forward method）的实现，前向方法就是实际的变换。
nn.functional
nn.functional包为我们提供了许多可用于构建层的神经网络操作。

构建神经网络

在 PyTorch 中构建神经网络的大纲：

创建一个扩展神经网络模块基类的神经网络类
在类构造函数中将网络的层定义为类属性
使用网络层属性以及nn.functional API的操作来定义网络的前向传播forward()

import torch.nn as nn

# 基础版
class Network:
    def __init__(self):
        self.layer = None # 层
        
    def forward(self, t): # 前向传播函数
        t = self.layer(t)
        return t
    
# 进阶版
class Netword(nn.Module): # 定义一个扩展基类的神经网络类
    def __init__(self):
        super().__init__()
        # 卷积层
        self.conv1 = nn.Conv2d(in_channels=1, out_channels=6, kernel_size=5)
        self.conv2 = nn.Conv2d(in_channels=6, out_channels=12, kernel_size=5)
        
        # 线性层
        self.fc1 = nn.Linear(in_features=12 * 4 * 4, out_features=120)
        self.fc2 = nn.Linear(in_features=120, out_features=60)
        self.out = nn.Lineat(in_features=60, out_features=10)
        
    def forward(self, t): 
        # t = self.layer(t)
        return t

P18：CNN层，理解构建CNN时使用的参数

CNN层

在P17中，我们定义了两个卷积层和三个线性层。我们的每一层都扩展了PyTorch的神经网络模块基类。

对于每一层，有两个主要项目封装其中：前向函数定义和权重张量。每层中的权重张量包含了随着我们的网络在训练过程中学习而更新的权重值。在神经网络模块类中，PyTorch可以跟踪每一层的权重张量。由于我们扩展了神经网络模块基类，我们自动继承了这个功能。

CNN层参数

parameter 和 argument

parameter在函数定义中使用，由于这个原因，我们可以把参数看成是占位符。
argument是当函数被调用时传递给函数的实际值。
或者说，parameter是形参，argument是实参
超参数和数据相关超参数
超参数的值是手动设置和任意选择的，主要是根据试错来选择超参数的值，并更多地使用过去已被证明有效的值。e.g. CNN层中的超参数
- kernel_size：内核大小设置了在该层中使用的滤波器的大小。（在DL中，内核kernel和滤波器filter是一个意思，所以卷积核和卷积滤波器是一个东西）
- out_channels：设置滤波器的深度。这是滤波器的内核数。（在一个卷积层中，输入通道与一个卷积滤波器配对来执行卷积运算。滤波器包含输入通道，这个操作的结果是一个输出通道。所以一个包含输入通道的滤波器可以给我们一个相应的输出通道。因此我们在设置输出通道数时，其实是在设置滤波器的数量。）
- out_features：设置输出张量的大小。
数据相关超参数是其值依赖于数据的参数。e.g. 第一个卷积层in_channels和输出层out_features。

P19：CNN内部的权重张量

可学习参数

可学习参数是在训练过程中学习的参数。对于可学习参数，通常重一组任意的值开始，当网络学习时，这些值就会以迭代的方式更新。

可学习参数是网络内部的权重，它们存在于每一层中。

获取实例网络

network = Network()
print(network)

# 输出
Network(
  (conv1): Conv2d(1, 6, kernel_size=(5, 5), stride=(1, 1))
  (conv2): Conv2d(6, 12, kernel_size=(5, 5), stride=(1, 1))
  (fc1): Linear(in_features=192, out_features=120, bias=True)
  (fc2): Linear(in_features=120, out_features=60, bias=True)
  (out): Linear(in_features=60, out_features=10, bias=True)
)

kernel_size=(5, 5)：当我们传递单个数字时，层构造函数假定我们想要的是一个方形滤波器。
stride=(1, 1)：告诉conc层在每次卷积操作后滤波器应该滑动多远。

访问层的权重

network.conv1.weight

其输出是一个张量，其中的值或标量分量是我们网络的可学习参数。当网络训练时，这些权重值会以一种方式更新，以使损失函数最小化。

权重张量形状

传递给层的参数值将直接影响网络的权重。

对于卷积层，权重值位于滤波器内部，在代码中，滤波器实际上是权重张量本身。层内的卷积操作是层的输入通道与层内的滤波器之间的操作。

network.conv1.weight.shape
# 输出：torch.Size([6, 1, 5, 5])

第一个轴的长度为6，这说明有6个滤波器。
第二个轴的长度为1，说明只有单个输入通道。
第三、四个轴的数值代表滤波器的高度和宽度。

network.conv2.weight.shape
# 输出：torch.Size([12, 6, 5, 5])

第二个conv层有12个滤波器，说明有来自前一层的6个输入通道。
可以将值6看做是赋予每个滤波器一定的深度，滤波器没有迭代的卷积所有的通道，而是具有与通道数相匹配的深度。

关于这些卷积层的两个要点：滤波器使用一个张量来表示，张量内的每个滤波器也有一个深度来说明正在卷积的输入通道数。

这里的张量是秩为4的张量，第一个轴表示滤波器的数量；第二个轴表示每个滤波器的深度，对应于被卷积的输入通道数量；最后两个轴表示每个滤波器的高和宽。
$(滤波器数量，深度，高度，宽度)$

权重矩阵

network.fc1.weight.shape # torch.Size([120, 192])
network.fc2.weight.shape # torch.Size([60, 120])
network.out.weight.shape # torch.Size([10, 60])
len(network.out.weight.shape) # 2

每个线性层都有一个秩为2的权重张量。以fc1的权重张量为例，由权重张量的形状可知，row120是输出特征的大小，column192是输入特征的大小，也就是说，权重张量的形状是根据输入特征和输出特征的大小得来的。通过矩阵乘法来直观感受：

线性层使用矩阵乘法来将它们的输入特征转换为输出特征：当输入特征被线性层接收时，它们以一个扁平的一维张量的形式传递，然后乘以权重矩阵，得到的结果就是输出特征。

这就是线性层的工作原理：它们使用一个权重矩阵将一个输入特征空间映射到一个输出特征空间。

P20：PyTorch可调用的神经网络模块，以及网络和层的前向方法是如何调用的

Linear类中的权重

定义输入特征和权重矩阵：

import torch

in_features = torch.tensor([1,2,3,4], dtype=torch.float32)

weight_matrix = torch.tensor([
    [1,2,3,4],
    [2,3,4,5],
    [3,4,5,6]
],dtype=torch.float32)

执行矩阵乘法，由P19的内容可知，得到的输出就是输出特征out_features：

weight_matrix.matmul(in_features)
# 输出：tensor([30., 40., 50.])

定义一个线性层，输入特征大小为4，输出特征大小为3：

fc = nn.Linear(in_features=4, out_features=3)

这一步要注意的是：通过使用权重矩阵将4维空间映射到3维空间。权重矩阵位于PyTorch线性层类中，由PyTorch创造，PyTorch线性层类通过将4和3传递给构造函数，以创建一个3x4的权重矩阵

调用对象实例

fc(in_features)
# 输出：tensor([ 0.2730, -0.4860, -1.7627], grad_fn=)

这里的值[ 0.2730, -0.4860, -1.7627]与[30., 40., 50.]相差甚远，这是因为PyTorch创建了一个权重矩阵，并用随机值来初始化。

权重矩阵中的值定义了一个线性函数( $y = A x + b$ )。这表明了在训练过程中，当权重被更新时，网络的映射是如何变化的，当更新权重时，我们在改变函数（更改了 $A$ 和 $b$ ）。

再使用新的输入进行测试：

fc.weight = nn.Parameter(weight_matrix)
fc(in_features)
# 输出：tensor([30.4673, 40.0535, 50.3319], grad_fn=)

输出结果更接近[30,40,50]但又不完全相等，这是因为有偏置值的存在。

特殊的调用方法：call()函数

如果一个类实现了特殊的__call()__方法，每当调用对象实例时，都会调用__call()__方法。

我们不直接调用前向方法forward()，而是调用对象实例，在调用对象实例之后，__call()__方法会被调用，而__call()__方法又反过来调用forward()方法。

PyTorch在__call()__方法中运行的额外代码是我们从未直接调用forward()方法的原因：

P21：调试PyTorch源代码

略

P22：实现一个卷积神经网络的前向方法

我们的forward()方法接收一个张量作为输入，然后返回一个张量作为输出。

forward()方法的实现将使用我们在构造函数中定义的所有层。forward()方法是输入张量到一个预测的输出张量的映射。

关于input layer：

任何神经网络的输入层都是由输入数据决定的。
比如，若输入张量中包含三个元素，那网络将有三个节点包含在它的输入层中，因此可将输入层看做恒等转换（ $f (x) = x$ ）
输入层通常隐藏。但在以下代码中，将输入层用代码显示表示出来：t = t

import torch  
import torch.nn as nn  
import torch.nn.functional as F  
  
class Network(nn.Module):  
    def __init__(self):  
        super().__init__()  
        self.conv1 = nn.Conv2d(in_channels=1, out_channels=6, kernel_size=5)  
        self.conv2 = nn.Conv2d(in_channels=6, out_channels=12, kernel_size=5)  
  
        self.fc1 = nn.Linear(in_features=12 * 4 * 4, out_features=120)  
        self.fc2 = nn.Linear(in_features=120, out_features=60)  
        self.out = nn.Linear(in_features=60, out_features=10)  
  
    def forward(self, t):  
        # （1）输入层input layer(输入层在代码中通常隐藏)  
        t = t  
  
        # （2）卷积层 hidden conv layer        t = self.conv1(t) # 其中封装了权重  
        t = F.relu(t)  
        t = F.max_pool2d(t, kernel_size=2, stride=2)  
  
        # （3）卷积层 hidden conv layer        t = self.conv2(t) # 其中封装了权重  
        t = F.relu(t)  
        t = F.max_pool2d(t, kernel_size=2, stride=2)  
  
        # 注：每层都由一组权重和一组操作组成。  
        # 权重被封装在神经网络模块层类实例中：e.g. self.conv1(t)  
        # relu()和max_pool2d()都是操作  
  
        # 在把输入传递给第一个线性层之前，必须重塑张量。每当把卷积层的输出输入到一个线性层时，就会出现这种情况  
  
        # （4）线性层 hidden liner layer        # 12是由之前的卷积层产生的输出通道数决定的  
        # 4 * 4是12个输出通道的高和宽  
        t = t.reshape(-1, 12 * 4 * 4)  
        t = self.fc1(t)  
        t = F.relu(t)  
  
        # （5）线性层 hidden liner layer        t = self.fc2(t)  
        t = F.relu(t)  
  
        # （6）输出层 output layer        t = self.out(t)  
        t = F.softmax(t, dim=1)  
  
        return t

P23：使用卷积神经网络由数据集的样本输入生成输出预测答案

再来理解一下前向传播：

前向传播是将输入张量转换为输出张量的过程。
神经网络是将输入张量映射到输出张量的函数，而前向传播只是将输入张量传递给网络并从网络接收输出的过程的一个特殊名称。

代码实现：

import torch
import torch.nn as nn
import torch.nn.functional as F

import torchvision
import torchvision.transforms as transforms

torch.set_printoptions(linewidth=120)

# 建立训练集
train_set = torchvision.datasets.FashionMNIST(
    root='./data/FashionMNIST'
    ,train=True
    ,download=True
    ,transform=transforms.Compose([
        transforms.ToTensor()
    ])
)

# 建立模型
class Network(nn.Module):
    def __init__(self):
        super().__init__()
        self.conv1 = nn.Conv2d(in_channels=1, out_channels=6, kernel_size=5)
        self.conv2 = nn.Conv2d(in_channels=6, out_channels=12, kernel_size=5)

        self.fc1 = nn.Linear(in_features=12 * 4 * 4, out_features=120)
        self.fc2 = nn.Linear(in_features=120, out_features=60)
        self.out = nn.Linear(in_features=60, out_features=10)

    def forward(self, t):
        # （1）输入层input layer(输入层在代码中通常隐藏)
        t = t

        # （2）卷积层 hidden conv layer
        t = self.conv1(t) # 其中封装了权重
        t = F.relu(t)
        t = F.max_pool2d(t, kernel_size=2, stride=2)

        # （3）卷积层 hidden conv layer
        t = self.conv2(t) # 其中封装了权重
        t = F.relu(t)
        t = F.max_pool2d(t, kernel_size=2, stride=2)

        # 注：每层都由一组权重和一组操作组成。
        # 权重被封装在神经网络模块层类实例中：e.g. self.conv1(t)
        # relu()和max_pool2d()都是操作

        # 在把输入传递给第一个线性层之前，必须重塑张量。每当把卷积层的输出输入到一个线性层时，就会出现这种情况

        # （4）线性层 hidden liner layer
        # 12是由之前的卷积层产生的输出通道数决定的
        # 4 * 4是12个输出通道的高和宽
        t = t.reshape(-1, 12 * 4 * 4)
        t = self.fc1(t)
        t = F.relu(t)

        # （5）线性层 hidden liner layer
        t = self.fc2(t)
        t = F.relu(t)

        # （6）输出层 output layer
        t = self.out(t)
        t = F.softmax(t, dim=1)

        return t

# 关闭PyTorch的梯度跟踪功能
torch.set_grad_enabled(False)

# 创建一个网络实例
network = Network()

# 获取样本并解压
sample = next(iter(train_set))
image, label = sample # image.shape:[1,28,28]，一个颜色通道，高度和宽度均为28

# 当把数据传给网络时，网络期待的是一批数据，因此要将这些单张图像转换为一个批次
# 把单个样本图像张量放入一个大小为1的批次中，只需unsqueeze()方法来为张量增加一个额外的维度
image.unsqueeze(0) # [1, 1, 28, 28]，批次大小为1


# 预测
pred = network(image.unsqueeze(0)) # 图像的形状应为(batch_size * in_channels * H * W)

# 至此，通过使用前向方法从网络得到了一个预测
# 网络返回一个预测张量，它包含了10个类别的预测值
print(pred) # tensor([[0.1183, 0.1015, 0.0903, 0.0977, 0.1076, 0.1084, 0.0925, 0.0954, 0.0982, 0.0901]])

P24：将一批图像传递到网络并解释输出

import torch
import torch.nn as nn
import torch.nn.functional as F

import torchvision
import torchvision.transforms as transforms

#torch.set_printoptions(linewidth=120)


# 建立模型
class Network(nn.Module):
    def __init__(self):
        super().__init__()
        self.conv1 = nn.Conv2d(in_channels=1, out_channels=6, kernel_size=5)
        self.conv2 = nn.Conv2d(in_channels=6, out_channels=12, kernel_size=5)

        self.fc1 = nn.Linear(in_features=12 * 4 * 4, out_features=120)
        self.fc2 = nn.Linear(in_features=120, out_features=60)
        self.out = nn.Linear(in_features=60, out_features=10)

    def forward(self, t):
        # （1）输入层input layer(输入层在代码中通常隐藏)
        t = t

        # （2）卷积层 hidden conv layer
        t = self.conv1(t) # 其中封装了权重
        t = F.relu(t)
        t = F.max_pool2d(t, kernel_size=2, stride=2)

        # （3）卷积层 hidden conv layer
        t = self.conv2(t) # 其中封装了权重
        t = F.relu(t)
        t = F.max_pool2d(t, kernel_size=2, stride=2)

        # 注：每层都由一组权重和一组操作组成。
        # 权重被封装在神经网络模块层类实例中：e.g. self.conv1(t)
        # relu()和max_pool2d()都是操作

        # 在把输入传递给第一个线性层之前，必须重塑张量。每当把卷积层的输出输入到一个线性层时，就会出现这种情况

        # （4）线性层 hidden liner layer
        # 12是由之前的卷积层产生的输出通道数决定的
        # 4 * 4是12个输出通道的高和宽
        t = t.reshape(-1, 12 * 4 * 4)
        t = self.fc1(t)
        t = F.relu(t)

        # （5）线性层 hidden liner layer
        t = self.fc2(t)
        t = F.relu(t)

        # （6）输出层 output layer
        t = self.out(t)
        t = F.softmax(t, dim=1)

        return t

# 关闭PyTorch的梯度跟踪功能
torch.set_grad_enabled(False)

# 创建一个网络实例
network = Network()

# 建立训练集
train_set = torchvision.datasets.FashionMNIST(
    root='./data/FashionMNIST'
    ,train=True
    ,download=False
    ,transform=transforms.Compose([
        transforms.ToTensor()
    ])
)

# 数据加载器
data_loader = torch.utils.data.DataLoader(
    train_set
    ,batch_size=10
)

batch = next(iter(data_loader)) # 一次返回10张图像
images, labels = batch # image.shape:[10, 1, 28, 28]; labels.shape:[10]

# 预测
preds = network(images)
# preds.shape:[10, 10]，有10张图像，对于这10张图，有10个预测类

将预测类别与标签进行比较：

# 将预测值与标签进行比较
preds.argmax(dim=1).eq(labels)
# 输出：tensor([False, False, False, False, False,  True, False,  True, False, False])
# 只有两个预测正确

P25：一个输入张量在通过CNN的过程中的变化

CNN输出尺寸公式（方形）

假设输入尺寸为 $n\times n$
假设滤波器尺寸为 $f\times f$
假设填充padding为 $p$ ，步长stride为 $s$
输出尺寸 $O$ 的计算公式为：
$\frac{n-f+2p}{s} + 1$

以我们之前构建的的CNN为例，输入张量在通过CNN的过程中的尺寸变化如下：

操作	输出尺寸
初始输入	[1,1,28,28]
卷积（ $5\times5$ ）	[1,6,24,24
最大池化（ $2\times2$ ）	[1,6,12,12]
卷积（ $5\times5$ ）	[1,12,8,8]
最大池化（ $2\times2$ ）	[1,12,4,4]
Flatten展平	[1,192]( $192 = 12 * 4 * 4$ )
线性转换	[1,120]
线性转换	[1,60]
线性转换	[1,10]
可以将值带入计算一下。

CNN输出尺寸公式（非方形）

假设输出尺寸为 $n_h\times n_w$
假设滤波器尺寸为 $f_h\times f_w$
假设填充padding为 $p$ ，步长stride为 $s$
输出尺寸的高度 $O_h$ 为：
$O_h=\frac{n_h-f_h+2p}{s}+1$
输出尺寸的宽度 $O_w$ 为：
$O_w= \frac{n_w-f_w+2p}{s}+1$

Section 3：训练神经网络

对应视频： $P_{26}\sim P_{31}$

P26：训练卷积神经网络（单个批次）

训练卷积神经网络所需的步骤

从训练集中得到一批数据
将这批数据传递给网络
计算损失
计算损失函数的梯度和网络的权值
更新权重，使用梯度来减少损失
重复1~5，直到一个epoch完成
重复1~6，以获得所期望的精度

代码实现

import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim

import torchvision
import torchvision.transforms as transforms

torch.set_printoptions(linewidth=120) # 设置输出行宽
torch.set_grad_enabled(True) # 默认情况下即为True，开启梯度跟踪功能

def get_num_correct(preds, labels):
    return preds.argmax(dim=1).eq(labels).sum().item()

class Network(nn.Module):
    def __init__(self):
        super().__init__()
        self.conv1 = nn.Conv2d(in_channels=1, out_channels=6, kernel_size=5)
        self.conv2 = nn.Conv2d(in_channels=6, out_channels=12, kernel_size=5)

        self.fc1 = nn.Linear(in_features=12 * 4 * 4, out_features=120)
        self.fc2 = nn.Linear(in_features=120, out_features=60)
        self.out = nn.Linear(in_features=60, out_features=10)

    def forward(self, t):
        t = F.relu(self.conv1(t))
        t = F.max_pool2d(t, kernel_size=2, stride=2)

        t = F.relu(self.conv2(t))
        t = F.max_pool2d(t, kernel_size=2, stride=2)

        t = t.reshape(-1, 12 * 4 * 4)
        t = F.relu(self.fc1(t))

        t = F.relu(self.fc2(t))

        t = self.out(t)

        return t

train_set = torchvision.datasets.FashionMNIST(
    root='./data/FashionMNIST'
    ,train=True
    ,download=True
    ,transform=transforms.Compose([
        transforms.ToTensor()
    ])
)

# 单批次训练
network = Network()

train_loader = torch.utils.data.DataLoader(train_set, batch_size=100)
optimizer = optim.Adam(network.parameters(), lr=0.01)

batch = next(iter(train_loader)) # 获取批次
images, labels = batch

preds = network(images) # 传递批次
loss = F.cross_entropy(preds, labels) # 计算损失

loss.backward() # 计算梯度
optimizer.step() # 更新梯度

# 打印损失和预测正确的图像数
print('loss1:', loss.item())
print('correct1:',get_num_correct(preds, labels))
preds = network(images)
loss = F.cross_entropy(preds, labels)
print('loss2:',loss.item())
print('correct2:',get_num_correct(preds, labels))

输出结果：

loss1: 2.3046135902404785
correct1: 11
loss2: 2.288461208343506
correct2: 11

以上都是针对单个批次的训练

P27：构建一个卷积神经网络的训练循环

import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim

import torchvision
import torchvision.transforms as transforms

torch.set_printoptions(linewidth=120) # 设置输出行宽
torch.set_grad_enabled(True) # 默认情况下即为True，开启梯度跟踪功能

def get_num_correct(preds, labels):
    return preds.argmax(dim=1).eq(labels).sum().item()

class Network(nn.Module):
    def __init__(self):
        super().__init__()
        self.conv1 = nn.Conv2d(in_channels=1, out_channels=6, kernel_size=5)
        self.conv2 = nn.Conv2d(in_channels=6, out_channels=12, kernel_size=5)

        self.fc1 = nn.Linear(in_features=12 * 4 * 4, out_features=120)
        self.fc2 = nn.Linear(in_features=120, out_features=60)
        self.out = nn.Linear(in_features=60, out_features=10)

    def forward(self, t):
        t = F.relu(self.conv1(t))
        t = F.max_pool2d(t, kernel_size=2, stride=2)

        t = F.relu(self.conv2(t))
        t = F.max_pool2d(t, kernel_size=2, stride=2)

        t = t.reshape(-1, 12 * 4 * 4)
        t = F.relu(self.fc1(t))

        t = F.relu(self.fc2(t))

        t = self.out(t)

        return t

train_set = torchvision.datasets.FashionMNIST(
    root='./data/FashionMNIST'
    ,train=True
    ,download=False
    ,transform=transforms.Compose([
        transforms.ToTensor()
    ])
)

# Training Loop
network = Network()

train_loader = torch.utils.data.DataLoader(train_set, batch_size=100)
optimizer = optim.Adam(network.parameters(), lr=0.01)

for epoch in range(5):
    total_loss = 0
    total_correct = 0
    for batch in train_loader:
        images, labels = batch

        preds = network(images) # 传递批次
        loss = F.cross_entropy(preds, labels) # 计算损失

        optimizer.zero_grad() # 告诉优化器把梯度属性中的权重的梯度归零，这是因为pytorch会积累梯度，
        loss.backward() # 计算梯度
        optimizer.step() # 更新梯度

        total_loss += loss.item()
        total_correct += get_num_correct(preds, labels)

    print('epoch:', epoch, 'total_correct:', total_correct, 'loss:', total_loss)

print(total_correct / len(train_set))

输出结果：

epoch: 0 total_correct: 46839 loss: 345.08213037252426
epoch: 1 total_correct: 51307 loss: 234.14958696067333
epoch: 2 total_correct: 51962 loss: 215.7918103337288
epoch: 3 total_correct: 52259 loss: 206.81365805864334
epoch: 4 total_correct: 52613 loss: 198.79174283146858
0.8768833333333333

注：

为什么优化器可以更新权重？因为优化器知道网络的权重，我们将权重传递给优化器构造器。
在视频的11:00左右，作者进行代码调试，可以清晰的看到梯度和权重的变化。

P28：构建混淆矩阵

要创建混淆矩阵，需要一个预测张量和一个有相应真值或标签的张量。

def get_all_preds(model, loader):
    all_preds = torch.tensor([])
    for batch in loader:
        images, labels = batch
        
        preds = model(images)
        all_preds = torch.cat( # 将这些预测连接起来
            (all_preds, preds)
            , dim=0
        )
    return all_preds

prediction_loader = torch.utils.data.DataLoader(train_set, batch_size=10000)
train_preds = get_all_preds(network, prediction_loader) # 包含了训练集中每个样本的预测

# 需要在不跟踪梯度的情况下的得到我们的预测，或者不需要创建图表,使用更少的内存
with torch.no_grad():
    prediction_loader = torch.utils.data.DataLoader(train_set, batch_size=10000)
    train_preds = get_all_preds(network, prediction_loader)

preds_correct = get_num_correct(train_preds, train_set.targets)
print('total correct:',preds_correct)
print('accuracy:', preds_correct / len(train_set))

# 输出
total correct: 51211
accuracy: 0.8535166666666667

接下来，建立混淆矩阵，需要标签以及一个相应的预测张量

print(train_set.targets)
print(train_preds.argmax(dim=1))
# 输出
tensor([9, 0, 0,  ..., 3, 0, 5])
tensor([9, 0, 0,  ..., 3, 0, 5])

接下来我们需要将这些预测标签和目标标签配对：

stacked = torch.stack(
    (
        train_set.targets
        ,train_preds.argmax(dim=1)
    )
    ,dim=1
)

接着，创建一个空的矩阵，并将数据导入空矩阵：

# 创建一个混淆矩阵
cmt = torch.zeros(10,10,dtype=torch.int64) # 10 * 10

for p in stacked:
    true_label, pred_label = p.tolist()
    cmt[true_label, pred_label] = cmt[true_label, pred_label] + 1 # 实际上是要计算相应类别的出现次数

查看这个混淆矩阵：

tensor([[5626,    0,   35,   55,   14,    2,  231,    0,   36,    1],
        [  80, 5752,    4,  132,    5,    2,   13,    0,   12,    0],
        [ 142,    0, 4003,   59, 1086,    1,  667,    1,   41,    0],
        [ 537,    9,    6, 5096,  164,    1,  183,    0,    3,    1],
        [  24,    3,  166,  238, 4764,    0,  781,    2,   22,    0],
        [   1,    0,    2,    6,    0, 5347,    0,  496,   36,  112],
        [1627,    2,  368,   81,  394,    1, 3440,    0,   87,    0],
        [   0,    0,    0,    0,    0,    5,    0, 5914,   15,   66],
        [  65,    0,   13,   32,   33,   10,   31,    4, 5806,    6],
        [   1,    0,    0,    1,    0,   10,    0,  524,    1, 5463]])

下面展示一种通过调包的方式画出混淆矩阵

# 画一个混淆矩阵,使用包
import matplotlib.pyplot as plt

from sklearn.metrics import confusion_matrix
# from plotcm import plot_confusion_matrix

import itertools
import numpy as np
import matplotlib.pyplot as plt

def plot_confusion_matrix(cm, classes, normalize=False, title='Confusion matrix', cmap=plt.cm.Blues):
    if normalize:
        cm = cm.astype('float') / cm.sum(axis=1)[:, np.newaxis]
        print("Normalized confusion matrix")
    else:
        print('Confusion matrix, without normalization')

    print(cm)
    plt.imshow(cm, interpolation='nearest', cmap=cmap)
    plt.title(title)
    plt.colorbar()
    tick_marks = np.arange(len(classes))
    plt.xticks(tick_marks, classes, rotation=45)
    plt.yticks(tick_marks, classes)

    fmt = '.2f' if normalize else 'd'
    thresh = cm.max() / 2.
    for i, j in itertools.product(range(cm.shape[0]), range(cm.shape[1])):
        plt.text(j, i, format(cm[i, j], fmt), horizontalalignment="center", color="white" if cm[i, j] > thresh else "black")

    plt.tight_layout()
    plt.ylabel('True label')
    plt.xlabel('Predicted label')

cm = confusion_matrix(train_set.targets, train_preds.argmax(dim=1))
print(type(cm))
print(cm)

# 打印
<class 'numpy.ndarray'>
array([[5626,    0,   35,   55,   14,    2,  231,    0,   36,    1],
       [  80, 5752,    4,  132,    5,    2,   13,    0,   12,    0],
       [ 142,    0, 4003,   59, 1086,    1,  667,    1,   41,    0],
       [ 537,    9,    6, 5096,  164,    1,  183,    0,    3,    1],
       [  24,    3,  166,  238, 4764,    0,  781,    2,   22,    0],
       [   1,    0,    2,    6,    0, 5347,    0,  496,   36,  112],
       [1627,    2,  368,   81,  394,    1, 3440,    0,   87,    0],
       [   0,    0,    0,    0,    0,    5,    0, 5914,   15,   66],
       [  65,    0,   13,   32,   33,   10,   31,    4, 5806,    6],
       [   1,    0,    0,    1,    0,   10,    0,  524,    1, 5463]],
      dtype=int64)

names = ('T-shirt','Trouser','Pullover','Dress','Coat','Sandal','Shirt','Sneaker','Bag','Ankel boot')
plt.figure(figsize=(10,10))
plot_confusion_matrix(cm, names)

输出：

Confusion matrix, without normalization
[[5626    0   35   55   14    2  231    0   36    1]
 [  80 5752    4  132    5    2   13    0   12    0]
 [ 142    0 4003   59 1086    1  667    1   41    0]
 [ 537    9    6 5096  164    1  183    0    3    1]
 [  24    3  166  238 4764    0  781    2   22    0]
 [   1    0    2    6    0 5347    0  496   36  112]
 [1627    2  368   81  394    1 3440    0   87    0]
 [   0    0    0    0    0    5    0 5914   15   66]
 [  65    0   13   32   33   10   31    4 5806    6]
 [   1    0    0    1    0   10    0  524    1 5463]]

混淆矩阵：

P29：拼接张量和堆叠张量

拼接是在一个现有的轴上连接一系列张量，堆叠是在一个新的轴上连接一系列的张量。

如何选择拼接还是堆叠？
假设现有三个图像张量，每个都有三个轴，每个张量都是相互独立的：

假设我们的任务是将这些张量结合在一起形成一个三个图像的单张量。
在这个例子中，只有三个维度，但对于一批数据，需要四个维度，所以说要沿着一个新的轴将张量堆叠起来，新轴就是批次轴：

如果沿着任何现有的轴将这个张量拼接起来，我们就会把颜色通道、高度或宽度弄乱。
假设图像已有了批处理的一个维度，这意味着我们有三个批次，其大小为1：

假设我们的任务是获得一批三张图像。我们可以在批处理维度上进行拼接：

代码演示：

# stack VS cat
import torch
t1 = torch.tensor([1,1,1])
t2 = torch.tensor([2,2,2])
t3 = torch.tensor([3,3,3])

torch.cat(
    (t1,t2,t3)
    ,dim=0
)
# 在现有的轴上进行拼接
tensor([1, 1, 1, 2, 2, 2, 3, 3, 3])

torch.stack(
    (t1,t2,t3)
    ,dim=0
)
# 创建一个新轴，并沿着这个轴将这些张量堆叠起来
tensor([[1, 1, 1],
        [2, 2, 2],
        [3, 3, 3]])

P30：使用tensorboard来可视化CNN在网络训练过程中的指标

tensorboard是tensorflow的可视化工具，它是一个前端web界面，从一个文件中读取数据，然后显示它。它使我们能跟踪和可视化度量标准，比如我们的损失和准确率，还能可视化我们的网络图。

import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim

import torchvision
import torchvision.transforms as transforms

torch.set_printoptions(linewidth=120) # 设置输出行宽
torch.set_grad_enabled(True) # 默认情况下即为True，开启梯度跟踪功能

from torch.utils.tensorboard import SummaryWriter

def get_num_correct(preds, labels):
    return preds.argmax(dim=1).eq(labels).sum().item()

class Network(nn.Module):
    def __init__(self):
        super().__init__()
        self.conv1 = nn.Conv2d(in_channels=1, out_channels=6, kernel_size=5)
        self.conv2 = nn.Conv2d(in_channels=6, out_channels=12, kernel_size=5)

        self.fc1 = nn.Linear(in_features=12 * 4 * 4, out_features=120)
        self.fc2 = nn.Linear(in_features=120, out_features=60)
        self.out = nn.Linear(in_features=60, out_features=10)

    def forward(self, t):
        t = F.relu(self.conv1(t))
        t = F.max_pool2d(t, kernel_size=2, stride=2)

        t = F.relu(self.conv2(t))
        t = F.max_pool2d(t, kernel_size=2, stride=2)

        t = t.reshape(-1, 12 * 4 * 4)
        t = F.relu(self.fc1(t))

        t = F.relu(self.fc2(t))

        t = self.out(t)

        return t

# train_set = './PyTorchLearning/data/FashionMNIST'
train_set = torchvision.datasets.FashionMNIST(
    root='./data/FashionMNIST'
    ,train=True
    ,download=False
    ,transform=transforms.Compose([
        transforms.ToTensor()
    ])
)

train_loader = torch.utils.data.DataLoader(train_set, batch_size=100, shuffle=True)

#------------------------------------------
tb = SummaryWriter()

network = Network()
images, labels = next(iter(train_loader))
grid = torchvision.utils.make_grid(images)

tb.add_image('images', grid)
tb.add_graph(network, images)
tb.close()
#------------------------------------------

运行上述代码之后，在根目录下会出现一个名为runs的文件夹:
进入终端，并进入根目录，之后执行指令tensorboard --logdir=runs，将http://localhost:6006/粘贴到浏览器打开，就可以看到界面了。

tensorboard界面

（1）首先可以看到IMAEGS界面已经出现了图片：

（2）在GRAPHS界面可以看到我们的网络图：

双击可以看到里面的详细结构：

（3）将单批次训练改为循环。循环的代码如下：

# LOOP
network = Network()
optimizer = optim.Adam(network.parameters(), lr=0.01)

images, labels = next(iter(train_loader))
grid = torchvision.utils.make_grid(images)

tb = SummaryWriter()
tb.add_image('images', grid)
tb.add_graph(network, images)

for epoch in range(5):
    total_loss = 0
    total_correct = 0
    for batch in train_loader:
        images, labels = batch

        preds = network(images) # 传递批次
        loss = F.cross_entropy(preds, labels) # 计算损失

        optimizer.zero_grad() # 告诉优化器把梯度属性中的权重的梯度归零，这是因为pytorch会积累梯度，
        loss.backward() # 计算梯度
        optimizer.step() # 更新梯度

        total_loss += loss.item()
        total_correct += get_num_correct(preds, labels)

    # 添加值
    tb.add_scalar('Loss', total_loss, epoch)
    tb.add_scalar('Number Correct', total_correct, epoch)
    tb. add_scalar('Accuracy', total_correct / len(train_set), epoch)

    # 创建直方图
    tb.add_histogram('conv1.bias', network.conv1.bias, epoch)
    tb.add_histogram('conv1.weight', network.conv1.weight, epoch)
    tb.add_histogram('conv1.weight.grad', network.conv1.weight.grad, epoch)

    print('epoch:', epoch, 'total_correct:', total_correct, 'loss:', total_loss)
tb.close()

运行结束后刷新tensorboard界面，可以看到新增的条目：

<1>SCALARS界面：

<2>HSITOGRAMS界面：
||
—|—|—

P31：神经网络超参数

每次修改单个超参数值

batch_size = 100
lr = 0.01

network = Network()
train_loader = torch.utils.data.DataLoader(train_set, batch_size=batch_size, shuffle=True)
optimizer = optim.Adam(network.parameters(), lr=lr)

images, labels = next(iter(train_loader))
grid = torchvision.utils.make_grid(images)

comment = f'batch_size={batch_size} lr={lr}' # 添加注释字符串
tb = SummaryWriter(comment=comment)
tb.add_image('images', grid)
tb.add_graph(network, images)

for epoch in range(5):
    total_loss = 0
    total_correct = 0
    for batch in train_loader:
        images, labels = batch

        preds = network(images) # 传递批次
        loss = F.cross_entropy(preds, labels) # 计算损失

        optimizer.zero_grad() # 告诉优化器把梯度属性中的权重的梯度归零，这是因为pytorch会积累梯度，
        loss.backward() # 计算梯度
        optimizer.step() # 更新梯度

        total_loss += loss.item() * batch_size # 调整损失计算
        total_correct += get_num_correct(preds, labels)

    # 添加值
    tb.add_scalar('Loss', total_loss, epoch)
    tb.add_scalar('Number Correct', total_correct, epoch)
    tb. add_scalar('Accuracy', total_correct / len(train_set), epoch)

    # 添加所有参数
    for name, weight in network.named_parameters():
        tb.add_histogram(name, weight, epoch)
        tb.add_histogram(f'{name}.grad', weight.grad, epoch)


    print('epoch:', epoch, 'total_correct:', total_correct, 'loss:', total_loss)

tb.close()

循环遍历不同的超参数值

batch_size_list = [100, 1000, 10000]
lr_list = [0.01, 0.001, 0.0001, 0.00001]

for batch_size in batch_size_list:
    for lr in lr_list:
        network = Network()

        train_loader = torch.utils.data.DataLoader(
            train_set, batch_size=batch_size
        )
        optimizer = optim.Adam(
            network.parameters(), lr=lr
        )

        images, labels = next(iter(train_loader))
        grid = torchvision.utils.make_grid(images)

        comment = f'batch_size={batch_size} lr={lr}'  # 添加注释字符串
        tb = SummaryWriter(comment=comment)
        tb.add_image('images', grid)
        tb.add_graph(network, images)

        for epoch in range(5):
            total_loss = 0
            total_correct = 0
            for batch in train_loader:
                images, labels = batch

                preds = network(images)  # 传递批次
                loss = F.cross_entropy(preds, labels)  # 计算损失

                optimizer.zero_grad()  # 告诉优化器把梯度属性中的权重的梯度归零，这是因为pytorch会积累梯度，
                loss.backward()  # 计算梯度
                optimizer.step()  # 更新梯度

                total_loss += loss.item() * batch_size  # 调整损失计算
                total_correct += get_num_correct(preds, labels)

            # 添加值
            tb.add_scalar('Loss', total_loss, epoch)
            tb.add_scalar('Number Correct', total_correct, epoch)
            tb.add_scalar('Accuracy', total_correct / len(train_set), epoch)

            # 添加所有参数
            for name, weight in network.named_parameters():
                tb.add_histogram(name, weight, epoch)
                tb.add_histogram(f'{name}.grad', weight.grad, epoch)

            print('epoch:', epoch, 'total_correct:', total_correct, 'loss:', total_loss)

        tb.close()

添加更多的参数

创建一个参数字典，并使用product函数，生成参数
之间的笛卡尔积，然后遍历。

from itertools import product

parameters = dict(
    lr = [0.01, 0.001]
    ,batch_size = [10, 100, 1000]
    ,shuffle = [True, False]
)

param_values = [v for v in parameters.values()]

for lr, batch_size, shuffle in product(*param_values):
    print(lr, batch_size, shuffle)
    # comment = f'batch_size={batch_size} lr={lr} shuffle={shuffle}'

    network = Network()

    train_loader = torch.utils.data.DataLoader(
        train_set, batch_size=batch_size
    )
    optimizer = optim.Adam(
        network.parameters(), lr=lr
    )

    images, labels = next(iter(train_loader))
    grid = torchvision.utils.make_grid(images)

    comment = f'batch_size={batch_size} lr={lr} shuffle={shuffle}'
    tb = SummaryWriter(comment=comment)
    tb.add_image('images', grid)
    tb.add_graph(network, images)

    for epoch in range(5):
        total_loss = 0
        total_correct = 0
        for batch in train_loader:
            images, labels = batch

            preds = network(images)  # 传递批次
            loss = F.cross_entropy(preds, labels)  # 计算损失

            optimizer.zero_grad()  # 告诉优化器把梯度属性中的权重的梯度归零，这是因为pytorch会积累梯度，
            loss.backward()  # 计算梯度
            optimizer.step()  # 更新梯度

            total_loss += loss.item() * batch_size  # 调整损失计算
            total_correct += get_num_correct(preds, labels)

        # 添加值
        tb.add_scalar('Loss', total_loss, epoch)
        tb.add_scalar('Number Correct', total_correct, epoch)
        tb.add_scalar('Accuracy', total_correct / len(train_set), epoch)

        # 添加所有参数
        for name, weight in network.named_parameters():
            tb.add_histogram(name, weight, epoch)
            tb.add_histogram(f'{name}.grad', weight.grad, epoch)

        print('epoch:', epoch, 'total_correct:', total_correct, 'loss:', total_loss)

    tb.close()

刷新tensorboard就可以看到新的输出。

Section 4：神经网络实验#

对应视频： $P_{32}\sim P_{39}$

P32：编写Run Builder类，使不同的参数值生成多个运行

from collections import OrderedDict
from collections import namedtuple
from itertools import product

# 能让我们在训练过程中尝试不同的值时，拥有更大的控制能力
class RunBuilder():
    @staticmethod # 这意味着我们不需要类的实例来调用该方法
    def get_runs(params):
        Run = namedtuple('Run', params.keys())

        runs = []
        for v in product(*params.values()): # product函数给了一组定义我们运行的顺序对
            runs.append(Run(*v)) # 为每一个都添加一个运行列表

        return runs

RunBuilder的运行：

# 如何构建
params = OrderedDict(
    lr = [.01, 0.001]
    ,batch_size = [1000, 10000]
)

runs = RunBuilder.get_runs(params)
runs

输出：

[Run(lr=0.01, batch_size=1000),
 Run(lr=0.01, batch_size=10000),
 Run(lr=0.001, batch_size=1000),
 Run(lr=0.001, batch_size=10000)]

可以看到RunBuilder已经构建并返回了一个四次运行的列表。

如果我们将额外的值添加到测试中，就是将它们添加到原始的参数列表中。如果想要添加一个全新的参数，新参数将自动在运行中被使用，运行输出的字符串也会更新。下图展示了添加新参数后的运行效果：

通过这个方法，我们就可以将之前的这种代码：

for lr batch_size, shuffle in product(*param_values):
	comment = f'batch_size={batch_size} lr={lr} shuffle={shuffle}'
	# 给定参数集的训练过程

修改为以下代码：

for fun in RunBuilder.get_runs(params):
	comment = f'-{run}'
	# 给定参数集的训练过程

P33：同步超参数测试

在本节中将演示如何轻松地实验大量的超参数值，同时保持训练循环和结果。

我们的目标是能够在顶部添加参数和值，并在多次训练中测试或尝试这些值。另外，我们希望能够添加任意数量的参数和任意数量的参数值，并仍然能推断出结果和组成循环训练的代码，为此我们需要新建类：RunBuilder（上节已经构建），RunManager（它允许我们管理运行循环中的每个运行）。

构建RunManager：

class RunManager():
    def __init__(self):

        self.epoch_count = 0
        self.epoch_loss = 0
        self.epoch_num_correct = 0
        self.epoch_start_time =  None

        self.run_params = None
        self.run_count = 0
        self.run_data = []
        self.run_start_time = None

        self.network = None
        self.loader = None
        self.tb = None

    def begin_run(self, run, network, loader):

        self.run_start_time = time.time()

        self.run_params = run
        self.run_count += 1

        self.network = network
        self.loader = loader
        self.tb = SummaryWriter(comment=f'-{run}')

        images, labels = next(iter(self.loader))
        grid = torchvision.utils.make_grid(images)

        self.tb.add_image('images',grid)
        self.tb.add_graph(self.network, images)

    def end_run(self):
        self.tb.close()
        self.epoch_count = 0

    def begin_epoch(self):
        self.epoch_start_time = time.time()

        self.epoch_count += 1
        self.epoch_loss = 0
        self.epoch_num_correct = 0

    def end_epoch(self):
        epoch_duration = time.time() - self.epoch_start_time
        run_duration = time.time() - self.run_start_time

        loss = self.epoch_loss / len(self.loader.dataset)
        accuracy = self.epoch_num_correct / len(self.loader.dataset)

        self.tb.add_scalar('Loss', loss, self.epoch_count)
        self.tb.add_scalar('Accuracy', accuracy, self.epoch_count)

        for name, param in self.network.named_parameters():
            self.tb.add_histogram(name, param, self.epoch_count)
            self.tb.add_histogram(f'{name}.grad', param.grad, self.epoch_count)

        results = OrderedDict()
        results['run'] = self.run_count
        results['epoch'] = self.epoch_count
        results['loss'] = loss
        results['accuracy'] = accuracy
        results['epoch duration'] = epoch_duration
        results['run duration'] = run_duration
        for k,v in self.run_params._asdict().items(): results[k] = v
        self.run_data.append(results)
        df = pd.DataFrame.from_dict(self.run_data, orient='columns')

        # 如果在Jupyter notebook中运行，加上下面两句
        from IPython.display import clear_output # 提醒我clear_out没定义,于是我import了一下
        clear_output(wait=True)
        display(df)

    def track_loss(self, loss):
        self.epoch_loss += loss.item() * self.loader.batch_size

    def track_num_correct(self, preds, labels):
        self.epoch_num_correct += self._get_num_correct(preds, labels)

    @torch.no_grad()
    def _get_num_correct(self, preds, labels):
        return preds.argmax(dim=1).eq(labels).sum().item()

    def save(self, fileName):
        pd.DataFrame.from_dict(
            self.run_data
            ,orient='columns'
        ).to_csv(f'{fileName}.csv')

        import json
        with open(f'{fileName}.json', 'w', encoding='utf-8') as f:
            json.dump(self.run_data, f, ensure_ascii=False, indent=4)

测试运行一下：

params = OrderedDict(
    lr = [.01, 0.001]
    ,batch_size = [1000, 10000]
    ,shuffle = [True, False]
)

m = RunManager()
for run in RunBuilder.get_runs(params):
    network = Network()
    loader = torch.utils.data.DataLoader(train_set, batch_size=run.batch_size, shuffle=run.shuffle)
    optimizer = optim.Adam(network.parameters(), lr=run.lr)
    
    m.begin_run(run, network, loader)
    for epoch in range(5):
        m.begin_epoch()
        for batch in loader:
            
            images = batch[0]
            labels = batch[1]
            preds = network(images)
            loss = F.cross_entropy(preds, labels)
            optimizer.zero_grad()
            loss.backward()
            optimizer.step()
            
            m.track_loss(loss)
            m.track_num_correct(preds, labels)
            
        m.end_epoch()
    m.end_run()
m.save('results')

输出结果如下图所示。我们可以看到不同参数设置下的不同loss和accuracy值，由此能便于我们做进一步的分析。

P34：加速神经网络训练过程

num_worker告诉数据加载器有多少子进程用于数据加载，它的值通常为0，表明在主进程中加载数据，表明训练过程将按顺序进行。

如何知道应该添加多少个工作进程（num_worker=?）？最好是测试：

params = OrderedDict(
    lr = [.01,]
    ,batch_size = [1000, 10000]
    , num_workers = [0, 1, 2, 4, 8, 16]
    #,shuffle = [True, False]
)

m = RunManager()
for run in RunBuilder.get_runs(params):
    network = Network()
    loader = torch.utils.data.DataLoader(train_set, batch_size=run.batch_size,num_workers=run.num_workers)
    optimizer = optim.Adam(network.parameters(), lr=run.lr)
    
    m.begin_run(run, network, loader)
    for epoch in range(5):
        m.begin_epoch()
        for batch in loader:
            
            images = batch[0]
            labels = batch[1]
            preds = network(images)
            loss = F.cross_entropy(preds, labels)
            optimizer.zero_grad()
            loss.backward()
            optimizer.step()
            
            m.track_loss(loss)
            m.track_num_correct(preds, labels)
            
        m.end_epoch()
    m.end_run()
m.save('results')

查看输出结果：
当num_worker从0增加到1时，可以看到epoch duration和run duration都有一定程度的减小：

增加到2效果也较为明显，然而继续增加到4，epoch duration和run duration竟增加了，从4到8变化也不大：

当增加到16时，直接出现错误（如下图所示）。出现死锁，导致程序卡住，线程阻塞：

可见num_worker的值并非越大越好，需要仔细斟酌后再设定。

P35：使用 CUDA 训练神经网络

tensor with CUDA

定义张量t1和t2之后，它们的默认计算设备为CPU，使用.to('cuda')可以将计算设备换成GPU，此时t1的计算设备就是GPU了：

此时，若让两个位于不同计算设备的张量进行计算，会出现下面这样的问题。可以看出，机器希望参与运算的第二个参数拥有与第一个参数相同的计算设备：

将二者的计算设备都改为’cuda’，计算可以顺利执行：

network with CUDA

定义一个网络，输出其参数，以及所在的计算设备：

这说明在默认情况下，当我们创建一个pytorch网络，它的所有参数都是在CPU上初始化的。

将网络移动到GPU上：

创建一个样本，并将该样本传递给网络（样本在CPU上初始化）捕捉到异常：

将样本移动到CUDA之后，可以正常计算：

检测系统中CUDA能否使用

可以用以下语句检测：

torch.cuda.is_available()

GPU vs CPU

测试GPU到底加速多少?
首先修改RunManager的begin_run方法：

然后执行以下测试代码：

params = OrderedDict(
    lr = [.01,]
    , batch_size = [1000, 10000, 20000]
    , num_workers = [0, 1]
    , device = ['cuda', 'cpu']
)

m = RunManager()
for run in RunBuilder.get_runs(params):
    
    # device 
    device = torch.device(run.device)    
    network = Network().to(device)
    
    loader = torch.utils.data.DataLoader(train_set, batch_size=run.batch_size,num_workers=run.num_workers)
    optimizer = optim.Adam(network.parameters(), lr=run.lr)
    
    m.begin_run(run, network, loader)
    for epoch in range(5):
        m.begin_epoch()
        for batch in loader:
            
            # to device
            images = batch[0].to(device)
            labels = batch[1].to(device)
            
            preds = network(images)
            loss = F.cross_entropy(preds, labels)
            optimizer.zero_grad()
            loss.backward()
            optimizer.step()
            
            m.track_loss(loss)
            m.track_num_correct(preds, labels)
            
        m.end_epoch()
    m.end_run()
m.save('results')

可以看到输出结果：
然后将输出结果按epoch duration排序：

# 排序
pd.DataFrame.from_dict(m.run_data, orient='columns').sort_values('epoch duration')

可以看到cuda遥遥领先：

P36：数据集规范化

均值和标准差

先创建数据集：

# 数据集规范化
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
import torchvision
import torchvision.transforms as transforms

from torch.utils.data import DataLoader
import matplotlib.pyplot as plt

train_set = torchvision.datasets.FashionMNIST(
    root='./data/FashionMNIST'
    ,train=True
    ,download=True
    ,transform=transforms.Compose([
        transforms.ToTensor()
        # normalize
    ])
)

先用一种简单的方式计算数据集的均值和标准差：

# easy way
loader = DataLoader(train_set, batch_size=len(train_set),num_workers=1)
data = next(iter(loader))
data[0].mean(), data[0].std()

输出

(tensor(0.2860), tensor(0.3530))

另一种方式：

# harder way
# 迭代多批数据。如果数据太大，我们将其分解为多个批次处理
loader = DataLoader(train_set, batch_size=1000, num_workers=1)
num_of_pixels = len(train_set) * 28 * 28 # 图像中总像素数

total_sum = 0
for batch in loader : total_sum += batch[0].sum()
mean = total_sum / num_of_pixels

sum_of_squared_error = 0
for batch in loader : sum_of_squared_error += ((batch[0] - mean).pow(2)).sum()
std = torch.sqrt(sum_of_squared_error / num_of_pixels)
    
mean, std

输出：

(tensor(0.2860), tensor(0.3530))

可以看到两种方式下的结果是相同的。

数据的直方图如下，中间的竖线就是其均值：

归一化和不归一化的效果区别

创建一个归一化的数据集：

# 使用均值和方差
train_set_normal = torchvision.datasets.FashionMNIST(
    root='./data/FashionMNIST'
    ,train=True
    ,download=True
    ,transform=transforms.Compose([
        transforms.ToTensor()
        , transforms.Normalize(mean, std)
    ])
)

查看数据集的均值和标准差：

loader = DataLoader(train_set_normal, batch_size=len(train_set),num_workers=1)
data = next(iter(loader))
data[0].mean(), data[0].std()

输出：

(tensor(-9.3670e-08), tensor(1.))

可以看到均值为0，标准差为1，这是归一化的结果。

测试归一化和不归一化的训练效果：

trainsets = {
    'not_normal' : train_set
    , 'normal' : train_set_normal
}

params = OrderedDict(
    lr = [.01]
    ,batch_size = [1000]
    ,num_workers = [1]
    , device = ['cuda']
    , trainset = ['not_normal', 'normal']
)

m = RunManager()
for run in RunBuilder.get_runs(params):
    
    device = torch.device(run.device)    
    network = Network().to(device)    
    loader = torch.utils.data.DataLoader(trainsets[run.trainset], batch_size=run.batch_size,num_workers=run.num_workers)
    optimizer = optim.Adam(network.parameters(), lr=run.lr)
    
    m.begin_run(run, network, loader)
    for epoch in range(10):
        m.begin_epoch()
        for batch in loader:
            
            images = batch[0].to(device)
            labels = batch[1].to(device)            
            preds = network(images)
            loss = F.cross_entropy(preds, labels)
            optimizer.zero_grad()
            loss.backward()
            optimizer.step()
            
            m.track_loss(loss)
            m.track_num_correct(preds, labels)
            
        m.end_epoch()
    m.end_run()
m.save('results')

得到的运行结果如下：

按照accuracy对结果进行排序：

pd.DataFrame.from_dict(m.run_data).sort_values('accuracy',ascending=False)

可以看到归一化有利于得到更高的精确度。但是并非每次都要归一化，要针对不同的数据做相应的处理。

P37：调试PyTorch 数据加载器源代码

略。

P38：使用Sequential类来建立神经网络的顺序

准备工作

import torch
import torch.nn as nn
import torch.nn.functional as F

import torchvision
import torchvision.transforms as transforms

import matplotlib.pyplot as plt
import math

from collections import OrderedDict

torch.set_printoptions(linewidth=150)

train_set = torchvision.datasets.FashionMNIST(
    root='./data/FashionMNIST'
    ,train=True
    ,download=True
    ,transform=transforms.Compose([
        transforms.ToTensor()
    ])
)

image, label = train_set[0] # image.shape:torch.Size([1, 28, 28])

in_features = image.numel() # 784
out_features = math.floor(in_features / 2) # 392
out_classes = len(train_set.classes) # 10

建立神经网络的顺序

方式一

network1 = nn.Sequential(
    nn.Flatten(start_dim=1)
    , nn.Linear(in_features, out_features)
    , nn.Linear(out_features, out_classes)
)

network1

输出：

Sequential(
  (0): Flatten(start_dim=1, end_dim=-1)
  (1): Linear(in_features=784, out_features=392, bias=True)
  (2): Linear(in_features=392, out_features=10, bias=True)
)

预测iamge：

image = image.unsqueeze(0)
network1(image)

输出：(这些是每个类别的10个预测，这个预测不够准确，因为我们还没有训练网络)

tensor([[-0.1980, -0.0317,  0.2527,  0.2140, -0.0549, -0.0994, -0.0038, -0.1374,  0.1117,  0.1083]], grad_fn=)

方式二

layers = OrderedDict([
    ('flat', nn.Flatten(start_dim=1))
    ,('hidden', nn.Linear(in_features, out_features))
    ,('output', nn.Linear(out_features, out_classes))          
])

network2 = nn.Sequential(layers)
network2

输出：

Sequential(
  (flat): Flatten(start_dim=1, end_dim=-1)
  (hidden): Linear(in_features=784, out_features=392, bias=True)
  (output): Linear(in_features=392, out_features=10, bias=True)
)

预测image：

network2(image)

输出：(预测结果不同。虽然network1和network2有着相同的结构，但是两个网络中的权重不同)

tensor([[-0.1359,  0.2879, -0.3738,  0.0343, -0.0800,  0.2685,  0.5197,  0.0467, -0.0519,  0.1609]], grad_fn=)

若想要这两个网络得到相同的预测，需设置随机数种子：

torch.manual_seed(50)
network1 = nn.Sequential(
    nn.Flatten(start_dim=1)
    , nn.Linear(in_features, out_features)
    , nn.Linear(out_features, out_classes)
)

torch.manual_seed(50)
layers = OrderedDict([
    ('flat', nn.Flatten(start_dim=1))
    ,('hidden', nn.Linear(in_features, out_features))
    ,('output', nn.Linear(out_features, out_classes))          
])
network2 = nn.Sequential(layers)

network1(image), network2(image)

输出：(这次的预测是相同的)

(tensor([[ 0.1681,  0.1028, -0.0790, -0.0659, -0.2436,  0.1328, -0.0864,  0.0016,  0.1819, -0.0168]], grad_fn=),
 tensor([[ 0.1681,  0.1028, -0.0790, -0.0659, -0.2436,  0.1328, -0.0864,  0.0016,  0.1819, -0.0168]], grad_fn=))

方式三

torch.manual_seed(50)
network3 = nn.Sequential()
network3.add_module('flat', nn.Flatten(start_dim=1))
network3.add_module('hidden', nn.Linear(in_features, out_features))
network3.add_module('output', nn.Linear(out_features, out_classes)) 
network3

输出：

Sequential(
  (flat): Flatten(start_dim=1, end_dim=-1)
  (hidden): Linear(in_features=784, out_features=392, bias=True)
  (output): Linear(in_features=392, out_features=10, bias=True)
)

使用随机数种子后，3个网络的预测是一致的：

network1(image), network2(image), network3(image)

(tensor([[ 0.1681,  0.1028, -0.0790, -0.0659, -0.2436,  0.1328, -0.0864,  0.0016,  0.1819, -0.0168]], grad_fn=),
 tensor([[ 0.1681,  0.1028, -0.0790, -0.0659, -0.2436,  0.1328, -0.0864,  0.0016,  0.1819, -0.0168]], grad_fn=),
 tensor([[ 0.1681,  0.1028, -0.0790, -0.0659, -0.2436,  0.1328, -0.0864,  0.0016,  0.1819, -0.0168]], grad_fn=))

使用Sequential类建一个Network类

原始Network

class Network(nn.Module):
    def __init__(self):
        super().__init__()
        self.conv1 = nn.Conv2d(in_channels=1, out_channels=6, kernel_size=5)
        self.conv2 = nn.Conv2d(in_channels=6, out_channels=12, kernel_size=5)

        self.fc1 = nn.Linear(in_features=12 * 4 * 4, out_features=120)
        self.fc2 = nn.Linear(in_features=120, out_features=60)
        self.out = nn.Linear(in_features=60, out_features=10)

    def forward(self, t):
        t = F.relu(self.conv1(t))
        t = F.max_pool2d(t, kernel_size=2, stride=2)

        t = F.relu(self.conv2(t))
        t = F.max_pool2d(t, kernel_size=2, stride=2)

        t = t.reshape(-1, 12 * 4 * 4)
        t = F.relu(self.fc1(t))

        t = F.relu(self.fc2(t))

        t = self.out(t)

        return t

创建网络实例：

torch.manual_seed(50)
network = Network()

方式一

torch.manual_seed(50)
sequential1 = nn.Sequential(
    nn.Conv2d(in_channels=1, out_channels=6, kernel_size=5)
    ,nn.ReLU()
    ,nn.MaxPool2d(kernel_size=2, stride=2)
    ,nn.Conv2d(in_channels=6, out_channels=12, kernel_size=5)
    ,nn.ReLU()
    ,nn.MaxPool2d(kernel_size=2, stride=2)
    ,nn.Flatten(start_dim=1)
    ,nn.Linear(in_features=12 * 4 * 4, out_features=120)
    ,nn.ReLU()
    ,nn.Linear(in_features=120, out_features=60)
    ,nn.ReLU()
    ,nn.Linear(in_features=60, out_features=10)
)
sequential1

输出：

Sequential(
  (0): Conv2d(1, 6, kernel_size=(5, 5), stride=(1, 1))
  (1): ReLU()
  (2): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
  (3): Conv2d(6, 12, kernel_size=(5, 5), stride=(1, 1))
  (4): ReLU()
  (5): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
  (6): Flatten(start_dim=1, end_dim=-1)
  (7): Linear(in_features=192, out_features=120, bias=True)
  (8): ReLU()
  (9): Linear(in_features=120, out_features=60, bias=True)
  (10): ReLU()
  (11): Linear(in_features=60, out_features=10, bias=True)
)

方式二

torch.manual_seed(50)
layers = OrderedDict([
    ('conv1',nn.Conv2d(in_channels=1, out_channels=6, kernel_size=5))
    ,('relu1', nn.ReLU())
    ,('maxpool1', nn.MaxPool2d(kernel_size=2, stride=2))
    
    ,('conv2', nn.Conv2d(in_channels=6, out_channels=12, kernel_size=5))
    ,('relu2', nn.ReLU())
    ,('maxpool2', nn.MaxPool2d(kernel_size=2, stride=2))
    
    ,('flatten', nn.Flatten(start_dim=1))
    ,('fc1', nn.Linear(in_features=12 * 4 * 4, out_features=120))
    ,('relu3', nn.ReLU())
    
    ,('fc2', nn.Linear(in_features=120, out_features=60))
    ,('relu4', nn.ReLU())
    ,('out', nn.Linear(in_features=60, out_features=10))
])
sequential2 = nn.Sequential(layers)
sequential2

输出：

Sequential(
  (conv1): Conv2d(1, 6, kernel_size=(5, 5), stride=(1, 1))
  (relu1): ReLU()
  (maxpool1): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
  (conv2): Conv2d(6, 12, kernel_size=(5, 5), stride=(1, 1))
  (relu2): ReLU()
  (maxpool2): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
  (flatten): Flatten(start_dim=1, end_dim=-1)
  (fc1): Linear(in_features=192, out_features=120, bias=True)
  (relu3): ReLU()
  (fc2): Linear(in_features=120, out_features=60, bias=True)
  (relu4): ReLU()
  (out): Linear(in_features=60, out_features=10, bias=True)
)

方式三

方式三就是add_module，不再赘述

预测image

network(image), sequential1(image), sequential2(image)

输出：（因为使用了随机数种子，所以预测结果相同）

(tensor([[-0.0957,  0.1053, -0.1055,  0.1547, -0.0366, -0.0132,  0.0749, -0.1152,  0.0426,  0.0639]], grad_fn=),
 tensor([[-0.0957,  0.1053, -0.1055,  0.1547, -0.0366, -0.0132,  0.0749, -0.1152,  0.0426,  0.0639]], grad_fn=),
 tensor([[-0.0957,  0.1053, -0.1055,  0.1547, -0.0366, -0.0132,  0.0749, -0.1152,  0.0426,  0.0639]], grad_fn=))

P39：PyTorch 中的批处理规范

创建网络

torch.manual_seed(50)
network1 = nn.Sequential(
    nn.Conv2d(in_channels=1, out_channels=6, kernel_size=5)
    ,nn.ReLU()
    ,nn.MaxPool2d(kernel_size=2, stride=2)
    ,nn.Conv2d(in_channels=6, out_channels=12, kernel_size=5)
    ,nn.ReLU()
    ,nn.MaxPool2d(kernel_size=2, stride=2)
    ,nn.Flatten(start_dim=1)
    ,nn.Linear(in_features=12 * 4 * 4, out_features=120)
    ,nn.ReLU()
    ,nn.Linear(in_features=120, out_features=60)
    ,nn.ReLU()
    ,nn.Linear(in_features=60, out_features=10)
)
# 添加nn.BatchNorm2d()和nn.BatchNorm1d
torch.manual_seed(50)
network2 = nn.Sequential(
    nn.Conv2d(in_channels=1, out_channels=6, kernel_size=5)
    ,nn.ReLU()
    ,nn.MaxPool2d(kernel_size=2, stride=2)
    ,nn.BatchNorm2d(6) # 6是因为out_channels=6
    ,nn.Conv2d(in_channels=6, out_channels=12, kernel_size=5)
    ,nn.ReLU()
    ,nn.MaxPool2d(kernel_size=2, stride=2)
    ,nn.Flatten(start_dim=1)
    ,nn.Linear(in_features=12 * 4 * 4, out_features=120)
    ,nn.ReLU()
    ,nn.BatchNorm1d(120) # 120是因为out_features=120
    ,nn.Linear(in_features=120, out_features=60)
    ,nn.ReLU()
    ,nn.Linear(in_features=60, out_features=10)
)

准备数据

# train_set
train_set = torchvision.datasets.FashionMNIST(
    root='./data/FashionMNIST'
    ,train=True
    ,download=True
    ,transform=transforms.Compose([
        transforms.ToTensor()
    ])
)
loader = DataLoader(train_set, batch_size=len(train_set),num_workers=1)
data = next(iter(loader))
mean = data[0].mean()
std = data[0].std()

train_set_normal = torchvision.datasets.FashionMNIST(
    root='./data/FashionMNIST'
    ,train=True
    ,download=True
    ,transform=transforms.Compose([
        transforms.ToTensor()
        , transforms.Normalize(mean, std)
    ])
)

trainsets = {
    'not_normal' : train_set
    , 'normal' : train_set_normal
}

networks = {
    'no_batch_norm':network1
    ,'batch_norm':network2
}

测试

params = OrderedDict(
    lr = [.01]
    ,batch_size = [1000]
    ,num_workers = [1]
    , device = ['cuda']
    , trainset = ['normal']
    , network = list(networks.keys())
)

m = RunManager()
for run in RunBuilder.get_runs(params):
    
    device = torch.device(run.device)    
    network = networks[run.network].to(device)
    loader = torch.utils.data.DataLoader(trainsets[run.trainset], batch_size=run.batch_size,num_workers=run.num_workers)
    optimizer = optim.Adam(network.parameters(), lr=run.lr)
    
    m.begin_run(run, network, loader)
    for epoch in range(20):
        m.begin_epoch()
        for batch in loader:
            
            images = batch[0].to(device)
            labels = batch[1].to(device)            
            preds = network(images)
            loss = F.cross_entropy(preds, labels)
            optimizer.zero_grad()
            loss.backward()
            optimizer.step()
            
            m.track_loss(loss)
            m.track_num_correct(preds, labels)
            
        m.end_epoch()
    m.end_run()
m.save('results')

将测试结果排序：

pd.DataFrame.from_dict(m.run_data).sort_values('accuracy',ascending=False)

排序后的结果为：

可以看到batch_norm的网络的准确率达到了93.5%（最高），no_batch_norm的网络的准确率达到了91.4%（最高）。batch_norm 的网络能更快收敛。

Section 5：补充学习

对应视频： $P_{40}\sim P_{43}$

P40：重置reset网络的权重

重置单个层的权重

torch.manual_seed(50)
layer = nn.Linear(2,1) # 创建一个最基本的线性层

查看这个层的权重：

layer.weight

输出：

Parameter containing:
tensor([[ 0.1669, -0.6100]], requires_grad=True)

更新权重：

t = torch.rand(2)
o = layer(t)
o.backward()

optimizer = optim.Adam(layer.parameters(), lr=0.01)
optimizer.step()

再次查看layer.weight，可以看到权重已经更新：

Parameter containing:
tensor([[ 0.1569, -0.6200]], requires_grad=True)

重置layer的权重：

torch.manual_seed(50)
layer.reset_parameters()

再次查看layer.weight，可以看到已经恢复到最初的权重了：

Parameter containing:
tensor([[ 0.1669, -0.6100]], requires_grad=True)

重置网络中的层的权重

all weights layer by layer

创建一个网络：

network = nn.Sequential(nn.Linear(2,1))

查看network[0].weight：

Parameter containing:
tensor([[-0.6500, -0.1395]], requires_grad=True)

采用for循环重置网络内层的权重：

torch.manual_seed(50)
for module in network.children():
    module.reset_parameters()

查看network[0].weight，可以看到network[0]的权重成功重置：

Parameter containing:
tensor([[ 0.1669, -0.6100]], requires_grad=True)

为网络增加一层：

# 增加一层
network = nn.Sequential(
    nn.Linear(2,1)
    ,nn.Softmax()
)
network

Sequential(
  (0): Linear(in_features=2, out_features=1, bias=True)
  (1): Softmax(dim=None)
)

再次使用for循环重置网络内层的权重：

try:
    torch.manual_seed(50)
    for module in network.children():
        module.reset_parameters()
except Exception as e:
    print(e)

这时会出现这种情况：

'Softmax' object has no attribute 'reset_parameters'

这是因为子层可能没有参数，因此仅采用for循环重置每一层的参数是有风险的。

all weights using snapshot

snapshot 是一种灵活重置的方式。

创建网络：

torch.manual_seed(50)
network = nn.Sequential(nn.Linear(2,1))

查看network[0].weight：

Parameter containing:
tensor([[ 0.1669, -0.6100]], requires_grad=True)

保存网络当前的状态：

torch.save(network.state_dict(), "./network.pt")

然后更新网络权重：

t = torch.rand(2)
o = network(t)
o.backward()

optimizer = optim.Adam(network.parameters(), lr=0.01)
optimizer.step()

此时再次查看network[0].weight，可以看到权重已经更新：

Parameter containing:
tensor([[ 0.1569, -0.6200]], requires_grad=True)

加载刚刚保存的网络状态：

network.load_state_dict(torch.load("./network.pt"))

然后再次查看network[0].weight：

Parameter containing:
tensor([[ 0.1669, -0.6100]], requires_grad=True)

这种方式，可以在网络训练的任何时候保存权重，然后在想使用的时候加载出来。

all weights using re-initialization

创建网络：

torch.manual_seed(50)
network = nn.Sequential(nn.Linear(2,1))

查看network[0].weight：

Parameter containing:
tensor([[ 0.1669, -0.6100]], requires_grad=True)

更新网络权重:

t = torch.rand(2)
o = network(t)
o.backward()

optimizer = optim.Adam(network.parameters(), lr=0.01)
optimizer.step()

再次查看network[0].weight，可以看到权重已更新：

Parameter containing:
tensor([[ 0.1569, -0.6200]], requires_grad=True)

然后重新初始化网络：

torch.manual_seed(50)
network = nn.Sequential(nn.Linear(2,1))

再次查看network[0].weight，可以看到权重已经恢复：

Parameter containing:
tensor([[ 0.1669, -0.6100]], requires_grad=True)

P41：改进测试框架

在之前的测试中，我们使用RunBuilder和RunManager类来测试不同的网络，但是每结束一个网络的测试并开始下一个新的网络的测试时，这个新网络的测试是以上一个旧网络测试的结束为起点的，如下图所示：（在run1到run2的过渡中，这测试的是两个不同的网络，但是accuracy的值却相差无几）

因此，在开始一个新网络的测试时，我们应重置网络的权重。为了达到该目的，写一个NetworkFacory类：

class NetworkFactory():
    @staticmethod
    def get_network(name):
        if name == 'network': # 重置网络权重
            torch.manual_seed(50)
            return  nn.Sequential(
                        nn.Conv2d(in_channels=1, out_channels=6, kernel_size=5)
                        ,nn.ReLU()
                        ,nn.MaxPool2d(kernel_size=2, stride=2)
                        ,nn.Conv2d(in_channels=6, out_channels=12, kernel_size=5)
                        ,nn.ReLU()
                        ,nn.MaxPool2d(kernel_size=2, stride=2)
                        ,nn.Flatten(start_dim=1)
                        ,nn.Linear(in_features=12 * 4 * 4, out_features=120)
                        ,nn.ReLU()
                        ,nn.Linear(in_features=120, out_features=60)
                        ,nn.ReLU()
                        ,nn.Linear(in_features=60, out_features=10)
                    )
        else:
            return None

然后使用该类来进行测试：

params = OrderedDict(
    lr = [.01,.001]
    ,batch_size = [1000]
    ,num_workers = [1]
    , device = ['cuda']   
    , network = ['network']
)

m = RunManager()
for run in RunBuilder.get_runs(params):
    
    device = torch.device(run.device)    
    network = NetworkFactory.get_network(run.network).to(device)
    loader = torch.utils.data.DataLoader(train_set, batch_size=run.batch_size,num_workers=run.num_workers)
    optimizer = optim.Adam(network.parameters(), lr=run.lr)
    
    m.begin_run(run, network, loader)
    for epoch in range(10):
        m.begin_epoch()
        for batch in loader:
            
            images = batch[0].to(device)
            labels = batch[1].to(device)            
            preds = network(images)
            loss = F.cross_entropy(preds, labels)
            optimizer.zero_grad()
            loss.backward()
            optimizer.step()
            
            m.track_loss(loss)
            m.track_num_correct(preds, labels)
            
        m.end_epoch()
    m.end_run()
m.save('results')

测试结果如，可以看到这次run1向run2过渡时，两个网络的accuracy值就相差很大了，这是因为在测试新的网络时，进行了网络权重重置：

P42：Max Pooling vs No Max Pooling

网络如何在有和没有maxpooling的情况下执行。

修改NetworkFactory类：

class NetworkFactory():
    @staticmethod
    def get_network(name):
        if name == 'max_pool':
            torch.manual_seed(50)
            return  nn.Sequential(
                        nn.Conv2d(in_channels=1, out_channels=6, kernel_size=5)
                        ,nn.ReLU()
                        ,nn.MaxPool2d(kernel_size=2, stride=2)
                        ,nn.Conv2d(in_channels=6, out_channels=12, kernel_size=5)
                        ,nn.ReLU()
                        ,nn.MaxPool2d(kernel_size=2, stride=2)
                        ,nn.Flatten(start_dim=1)
                        ,nn.Linear(in_features=12 * 4 * 4, out_features=120)
                        ,nn.ReLU()
                        ,nn.Linear(in_features=120, out_features=60)
                        ,nn.ReLU()
                        ,nn.Linear(in_features=60, out_features=10)
                    )
        elif name == 'no_max_pool':            
            torch.manual_seed(50)
            return  nn.Sequential(
                        nn.Conv2d(in_channels=1, out_channels=6, kernel_size=5)
                        ,nn.ReLU()
#                         ,nn.MaxPool2d(kernel_size=2, stride=2)
                        ,nn.Conv2d(in_channels=6, out_channels=12, kernel_size=5)
                        ,nn.ReLU()
#                         ,nn.MaxPool2d(kernel_size=2, stride=2)
                        ,nn.Flatten(start_dim=1)
                        ,nn.Linear(in_features=12 * 20 * 20, out_features=120)
                        ,nn.ReLU()
                        ,nn.Linear(in_features=120, out_features=60)
                        ,nn.ReLU()
                        ,nn.Linear(in_features=60, out_features=10)
                    )

进行测试：

class NetworkFactory():
    @staticmethod
    def get_network(name):
        if name == 'max_pool':
            torch.manual_seed(50)
            return  nn.Sequential(
                        nn.Conv2d(in_channels=1, out_channels=6, kernel_size=5)
                        ,nn.ReLU()
                        ,nn.MaxPool2d(kernel_size=2, stride=2)
                        ,nn.Conv2d(in_channels=6, out_channels=12, kernel_size=5)
                        ,nn.ReLU()
                        ,nn.MaxPool2d(kernel_size=2, stride=2)
                        ,nn.Flatten(start_dim=1)
                        ,nn.Linear(in_features=12 * 4 * 4, out_features=120)
                        ,nn.ReLU()
                        ,nn.Linear(in_features=120, out_features=60)
                        ,nn.ReLU()
                        ,nn.Linear(in_features=60, out_features=10)
                    )
        elif name == 'no_max_pool':            
            torch.manual_seed(50)
            return  nn.Sequential(
                        nn.Conv2d(in_channels=1, out_channels=6, kernel_size=5)
                        ,nn.ReLU()
#                         ,nn.MaxPool2d(kernel_size=2, stride=2)
                        ,nn.Conv2d(in_channels=6, out_channels=12, kernel_size=5)
                        ,nn.ReLU()
#                         ,nn.MaxPool2d(kernel_size=2, stride=2)
                        ,nn.Flatten(start_dim=1)
                        ,nn.Linear(in_features=12 * 20 * 20, out_features=120)
                        ,nn.ReLU()
                        ,nn.Linear(in_features=120, out_features=60)
                        ,nn.ReLU()
                        ,nn.Linear(in_features=60, out_features=10)
                    )

对测试结果按accuracy排序：

pd.DataFrame.from_dict(m.run_data).sort_values('accuracy',ascending=False)

结果如下：

可以看到no_max_pool的精确度是更高的，这种结果的原因可能是，我们的数据已经足够简单，我们再maxpooling，实际上就会丢失很多数据。

可以看下面两个例子，左边是原始输入，右边是执行maxpooling操作后。

尽管右边的输出相对接近原始输入，但是丢失了太多数据，比如衬衫上的方块变成了右边的直线：

下面这张图就更明显了：

P43：结束课程

课程学习路线：

课程结束，借用授课老师最后说的话激励一下自己，以及每个看到这里的屏幕前的你：
No matter what you’re pursuing, it does not matter how slow you go, as long as you do not stop.

个人笔记第一部分：DeepLizard：Pytorch神经网络编程教学(第一部分)

你可能感兴趣的:(AI,Learning,pytorch,神经网络,深度学习)

PowerPCB(PADS)常见问题全集 weixin_33774308 数据库
来自:http://hi.baidu.com/huxianfangyuan/blog/item/01bdff730259c5168701b08d.html1、走线很细，不是设定值`有时将预拉线布好线后，所布的线变成了一根很细的线而不是我们所设定的线宽，但是查看它的属性也还是一样的最小线宽显示值的设定大于route线宽。setup--preferences--global--minimumdispl
基于深度学习的目标检测：从基础到实践 Blossom.118 机器学习与人工智能深度学习目标检测人工智能音视频语音识别计算机视觉机器学习
前言目标检测（ObjectDetection）是计算机视觉领域中的一个核心任务，其目标是在图像中定位和识别多个对象的类别和位置。近年来，深度学习技术，尤其是卷积神经网络（CNN），在目标检测任务中取得了显著进展。本文将详细介绍如何使用深度学习技术构建目标检测模型，从理论基础到代码实现，带你一步步掌握目标检测的完整流程。一、目标检测的基本概念（一）目标检测的定义目标检测是指在图像中识别和定位多个对象
在ComfyUI中CLIP Text Encode (Prompt)和CLIPTextEncodeFlux的区别虎冯河 AIGC ComfyUI
CLIPTextEncode(Prompt)CLIPTextEncodeFlux在ComfyUI中对token支持长度是否相同的详细技术对比：1、CLIPTextEncode(Prompt)通常来自：ComfyUI官方自带CLIPTextEncode节点。特点：✅使用OpenAICLIP模型（ViT-L/14等）✅默认最大支持77tokens(固定超参数)✅超过77tokens时：部分实现直接截断
解锁Prompt+DevOps新姿势：终端系统重塑的三大核心策略
文章目录引言：Prompt驱动的DevOps范式迁移核心策略一：智能决策流水线构建横向架构对比纵向实现流程Python实现示例核心策略二：自适应终端部署体系TypeScript客户端实现YAML部署配置模板核心策略三：智能运维闭环构建安全审计实现方案性能对比分析技术前瞻性分析附录：完整技术图谱技术架构部署验证引言：Prompt驱动的DevOps范式迁移在云原生与AI工程化交汇的今天，Prompt技
全栈开发的现状与未来——机遇与挑战并存 Willin 老王躺平不摆烂 chatgpt AIGC 程序员创富 ecmascript javascript
目录全栈开发的现状与未来：机遇与挑战并存1.全栈开发的就业市场现状与趋势1.1当前市场需求与薪资水平1.2行业竞争与公司偏好1.3未来几年发展预测2.全栈开发的技能要求与职业发展2.1核心技能栈：从前端到后端2.2新兴技术：AI与低代码/无代码2.3职业发展路径与晋升空间2.4多元化发展机会3.全栈开发的行业挑战与应对策略3.1主要行业挑战3.2应对策略与建议全栈开发依然充满机遇，市场需求旺盛，薪
【AI大模型应用开发】Prompt提示词工程 bay_Tong桐小白 AI大模型人工智能 prompt ai 大模型应用开发 LLM 聊天机器人
halo~我是bay_Tong桐小白本文内容是桐小白个人对所学知识进行的总结和分享，知识点会不定期进行编辑更新和完善，了解最近更新内容可参看更新日志，欢迎各位大神留言、指点感谢新老朋友给予过的关心，过去经历了很多，身心状态慢慢调整，因此更新文章较慢，给关注我的新老朋友道声抱歉，也再次给对桐小白给予关心的新老朋友表示感谢~Prompt提示词工程（初步）【更新日志】大模型分类prompt基本概念pro
米信使股票群诈骗真相！郑洪盛国浩盟国一带一路项目就是资金盘不要被骗了！不成功不收费
讲述:郑洪盛国浩盟国慈善投票被骗无法出金真相！套路太深教你该如何避！！骗子引诱人上当方式很简单：先给你一点甜头尝尝，一开始入金能正常提现，也能赚一点，但当投入更多钱时，你发现你的运气开始变差了。所以，荐股类骗局最大的迷惑性是：给受害人一种假象，你是投资亏损的，而不是被骗的！广大市民对此要提高警惕，如果是还没有投资，千万不要抱有侥幸心理，一定要及时远离！一定不要打草惊蛇低碳项目数字体育，人工智能ai
短剧系统全栈开发指南：从0到1构建高并发微服务架构 wx_ywyy6798 短剧系统短剧系统开发海外短剧系统海外短剧系统开发短剧分销短剧分销系统短剧分销系统开发
一、短剧系统概述短剧作为一种新兴的数字内容形式，近年来在移动互联网领域迅速崛起。短剧系统开发不仅涉及传统视频平台的技术栈，还需要针对短内容、高互动、快速消费等特点进行专门设计。1.1短剧行业现状与发展趋势2023年短剧市场规模已突破300亿元，用户日均使用时长达到58分钟。短剧以其"短平快"的特点，填补了用户碎片化时间的娱乐需求。未来发展趋势包括：垂直领域精细化运营AI辅助内容生产互动式剧情发展跨
linux proc/pid/信息说明 shenhuxi_yu LINUX
版权声明：本文为EnweiTech原创文章，未经博主允许不得转载。https://blog.csdn.net/English0523/article/details/53391567Proc是一个虚拟文件系统，在Linux系统中它被挂载于/proc目录之上。Proc有多个功能，这其中包括用户可以通过它访问内核信息或用于排错，这其中一个非常有用的功能，也是Linux变得更加特别的功能就是以文本流的形
读《认知天性》（1）云城梦天
认知是对天性是挑战认知可以用数学统计与实践客观来评价，而我感觉是一种自我感知。当未知时，感知痛苦然而这是个时习之中乐的过程。也可以通过rain和轻疗的方法安抚情绪编码，可以以好奇心与视觉画面联动来做记忆编码的过程，因人是视觉性爬行动物，且好奇心也是人的天性好奇时会主动探索算是翻转式学习的一种，编码是记忆过程。另外你可能对记忆中某一刻的感觉记得很清楚，然而忘记了内容，人或许也是感觉爬行动物。巩固，可
415.字符串相加粉蒸妹 LeedCode每日一题
给定两个字符串形式的非负整数num1和num2，计算它们的和。注意：num1和num2的长度都小于5100.num1和num2都只包含数字0-9.num1和num2都不包含任何前导零。你不能使用任何內建BigInteger库，也不能直接将输入的字符串转换为整数形式。publicclassQuestion1{publicstaticvoidmain(String[]args){Scannerin=n
全球50+亿下载、狂揽200+亿美元的《糖果传奇》被曝荒诞一幕：超200人被自己造的AI逼到失业！ CSDN资讯人工智能
整理|郑丽媛出品|CSDN（ID：CSDNnews）投稿或寻求报道：[email protected]还记得那个让全球数亿人上瘾的三消游戏吗？2012年诞生的《糖果传奇》（CandyCrush），曾是移动游戏界当之无愧的王者——全球下载量突破50亿，累计总营收突破200亿美元，多次占据AppStore和GooglePlay下载榜和收入榜前列。而它的开发商King，也因此一跃成为全球最赚钱的手游公司之
ubuntu 22.04 pam 模块设置用户登录失败锁定
1、ubuntu22.04配置方法/etc/pam.d/common-auth加到如下行后#auth[success=1default=ignore]pam_unix.sonullok#添加如下内容auth[default=die]pam_faillock.soauthfailauthsufficientpam_faillock.soauthsucc/etc/pam.d/common-accoun
2018.09.22 Mr_Oldman
It'sSaturday.SixSaiFongMariotooktheIRTlocalsubwaydowntown.Heheldthematchboxupatthelevelofhischestsohecricketcouldseeout.ThiswasthefirsttimeChesterhadbeenabletowatchwherehewasgoingonthesubway.Thelastti
如何调整优化器的参数来优化神经网络性能？ Idividuals 深度学习神经网络机器学习 python scikit-learn
不同优化器有不同的可调整参数，下面以常见的优化器为例，讲解如何调整其参数来优化神经网络性能：Adam优化器Adam优化器有几个关键参数：learning_rate（学习率）、beta_1、beta_2和epsilon。1.学习率(learning_rate)-作用：控制每次参数更新的步长。学习率过大，模型可能无法收敛，在最优解附近振荡甚至发散；学习率过小，训练速度会非常缓慢。-调整方法：通常初始值
【开源项目】实测 Google 开源的 AI MCP 数据库网关：10行代码隔离风险，连接池自动复用
1.引言这两天试了谷歌新开的MCPToolboxforDatabases，它用不到10行代码就能让AI助手（比如LangChain智能体）安全地操作数据库。作为一个常年和数据库连接池、凭证泄露搏斗的开发者，这东西确实解决了我的痛点——把数据库访问抽象成“工具”，通过集中管控的MCPServer隔离风险，还自带性能优化。下面分享实测体验和避坑指南。2.正文2.1核心逻辑：为什么需要MCP？传统AI代
【二分答案】P3743 小鸟的设备
前言九月应该是人生中最后一次CSP了，已经7个多月没碰编程的我显然已经有些力不从心，达到一年前的水平更是不可能。只能写点简单的题目来提升一下。祝我CSPRP++。题意小鸟有nnn个可同时使用的设备。第iii个设备每秒消耗aia_iai个单位能量。能量的使用是连续的，也就是说能量不是某时刻突然消耗的，而是匀速消耗。也就是说，对于任意实数，在kkk秒内消耗的能量均为k×aik\timesa_ik×ai
【操作系统-Day 7】程序的“分身”：一文彻底搞懂什么是进程 (Process)？吴师兄大模型操作系统操作系统计算机组成原理进程（Process）python 深度学习大模型人工智能
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
Node.js package.json常用配置字段（Node.js配置、Node项目配置、Node配置）（package-lock.json、yarn.lock） Dontla 前端 nodejs node.js json
文章目录Node.jspackage.json配置字段详解引言基础元数据字段nameversiondescriptionkeywordsauthorlicense依赖管理dependenciesdevDependenciespeerDependenciesoptionalDependenciesoverrides脚本配置scripts发布配置privatepublishConfigfilesmai
Ubuntu 系统安装 Docker 全流程指南 ANFUT ubuntu docker linux
一、环境准备1.系统要求-Ubuntu22.04LTS或24.04LTS（兼容性最佳）-内核版本≥5.15（验证命令：`uname-r`）-64位架构（验证命令：`arch`输出应为`x86_64`）2.卸载旧版本sudoaptremovedockerdocker-enginedocker.iocontainerdruncsudorm-rf/var/lib/docker二、核心安装步骤3.配置仓库
Spring AI + MCP Client 配置与使用详解超级小忍 SpringAI spring 人工智能 java
前言随着大模型技术的快速发展，ModelCoordinationProtocol(MCP)逐渐成为连接本地系统和远程AI服务的重要桥梁。SpringAI是Spring官方推出的AI开发框架，支持多种语言模型接口，而MCPClient则是其集成远程推理能力的核心组件之一。本文将详细介绍如何在SpringBoot项目中配置和使用SpringAI的MCPClient，包括环境准备、依赖引入、配置方式、代
EXPLAIN 解码：MySQL 索引优化的黄金决策术渡难繁辰数据库 mysql sql mysql 数据库 sql
引言在MySQL数据库中，索引是优化查询性能的核心工具。但盲目添加索引会导致写性能下降和存储浪费，而缺少关键索引又会引发全表扫描的灾难。如何科学决策？答案在于深入分析查询执行计划——EXPLAIN。本文将聚焦如何通过EXPLAIN诊断查询瓶颈，精准制定索引策略。一、EXPLAIN的核心字段解读EXPLAIN输出结果中的关键字段揭示了查询的执行逻辑，以下为需重点关注的列：1.type列：查询访问数据
字符串的翻转小结是我真的是我
题目一给定一个字符串，如"csdn"，编写函数返回翻转为"ndsc"的结果。思路不考虑库函数的情况下，采用递归的方式，每次返回从第二位开始的子串（同时递归下去）加上第一位字符，直到递归到剩下一个字符则直接返回即可。publicclassSolution{publicstaticvoidmain(String[]args){Stringstr="csdn";System.out.println(My
【大语言模型基础】GPT（Generative Pre-training ）生成式无监督预训练模型原理
前言ELMo：将上下文当作特征，但是无监督的语料和我们真实的语料还是有区别的，不一定符合我们特定的任务，是一种双向的特征提取。OpenAIGPT:通过transformerdecoder学习出来一个语言模型，不是固定的，通过任务fine-tuning,用transfomer代替ELMo的LSTM。OpenAIGPT其实就是缺少了encoder的transformer：当然也没了encoder与de
GPT-4o mini TTS：领先的文本转语音技术桂花饼 AIGC GPT-4o o4-mini 语音识别人工智能 GPT-4o
什么是GPT-4ominiTTS？GPT-4ominiTTS是OpenAI推出的全新一代文本转语音（TTS）技术，能够以自然、流畅的方式将普通文本转换为语音。依托先进的神经网络架构，GPT-4ominiTTS在语音合成中避免了传统TTS的生硬与机械感，能够生成富有情感和个性化表达的高质量语音。该技术支持多语言与多口音，是视频、播客、电子学习等场景的理想选择。核心特点自然流畅，接近真人GPT-4om
AI产品经理成长记《零号列车》第四集·知识点延伸：一句话指挥 AI 的秘诀，藏在这些 “咒语” 里黑客思维者 AI产品经理养成人工智能提示词工程模型温度安全边界
1.提示词工程（PromptEngineering）：给AI的“精准咒语”，说对了才听话文章里的场景：林一第一次让AI写诗，只说“写一首关于列车的诗”，结果得到“口水诗”；后来加上“藏头词、格式、风格、创造力”四要素，AI立刻写出蒸汽朋克风的五言绝句——这就是提示词工程：把模糊的需求变成AI能理解的“精准指令”。到底是啥？你可以把AI当成“听话但有点笨的助手”。如果你说“帮我带点吃的”（模糊指令）
AI产品经理成长记《零号列车》第四集·Prompt 魔法塔 —— 一句话让 AI 写诗、画图、做表格黑客思维者 AI产品经理养成人工智能大模型LLM 提示词工程
【人物表】林一：胸前别着“零代码初行者”与“数据甜品师”双徽章，徽章边缘的0和1流光偶尔撞在一起，像他此刻既膨胀又发慌的心跳。小北：裹着深紫色斗篷，斗篷边缘绣着二进制星图，腰间悬着“Prompt权杖”——杖头是颗会旋转的水晶球，球内浮动着“精准描述”四个字。莫西：列车长的声音依旧裹着丝绸般的优雅，却在某个尾音处泄出齿轮转动的“咔嗒”声，像藏着未说破的冰冷规则。阿图：猫头鹰升级为“塔灵”，羽毛染上黑
AI产品经理成长记《零号列车》第一集邂逅0XAI列车黑客思维者 AI产品经理养成人工智能 AI产品经理大模型智能体
《零号列车》绝非传统意义上的AI产品经理教程——它是我沉淀二十多年跨行业数字化转型与工业4.0实战经验后，首创的100集大型小说体培养指南。那些曾在千行百业验证过的知识与经验，不再是枯燥的文字堆砌，而是化作一场沉浸式的学习旅程。这里没有生硬的理论灌输，而是用跌宕起伏的故事情节，串联起AI技术的底层逻辑。你会跟着角色的脚步推进剧情，在不知不觉中吃透机器学习、大模型应用等专业概念；更有深入浅出的技术拆
人工智能时代下的数据新职业：新兴工作岗位版图研究司南锤 economics 人工智能
目录摘要第一章：AI驱动的数据价值链重构1.1从“沉睡金矿”到“流动的血液”：数据作为核心经济资产的激活1.2知识的新经济学：零边际成本革命1.3AI作为新的“操作系统”：重塑产业竞争格局第二章：基石层：数据准备与质量保障中的角色2.1数据标注与标签领导力：数据标注经理/主管2.2“地面真实”的守护者：AI数据质量专家第三章：技术核心层：构建AI与机器学习全生命周期的工程角色3.1AI生产线架构师
MATC：通过数学推理和图表还原增强视觉语言预训练 AI专题精讲模型加速人工智能 AI技术应用多模态视觉语言
温馨提示：本篇文章已同步至"AI专题精讲"MATC：通过数学推理和图表还原增强视觉语言预训练摘要视觉语言数据，如图表、图形和信息图，在人类世界中无处不在。然而，现有的最先进的视觉语言模型在这些数据上的表现并不理想。我们提出了MATCHA（数学推理与图表去渲染预训练），旨在增强视觉语言模型在联合建模图表/图形与语言数据方面的能力。具体而言，我们提出了几个预训练任务，涵盖了图形解构和数值推理，这些是视
Java实现的简单双向Map，支持重复Value superlxw1234 java 双向map
关键字：Java双向Map、DualHashBidiMap 有个需求，需要根据即时修改Map结构中的Value值，比如，将Map中所有value=V1的记录改成value=V2，key保持不变。数据量比较大，遍历Map性能太差，这就需要根据Value先找到Key，然后去修改。即：既要根据Key找Value，又要根据Value
PL/SQL触发器基础及例子百合不是茶 oracle数据库触发器 PL/SQL编程
触发器的简介; 触发器的定义就是说某个条件成立的时候，触发器里面所定义的语句就会被自动的执行。因此触发器不需要人为的去调用，也不能调用。触发器和过程函数类似过程函数必须要调用, 一个表中最多只能有12个触发器类型的,触发器和过程函数相似触发器不需要调用直接执行, 触发时间：指明触发器何时执行，该值可取： before：表示在数据库动作之前触发
[时空与探索]穿越时空的一些问题 comsci 问题
我们还没有进行过任何数学形式上的证明,仅仅是一个猜想..... 这个猜想就是; 任何有质量的物体(哪怕只有一微克)都不可能穿越时空,该物体强行穿越时空的时候,物体的质量会与时空粒子产生反应,物体会变成暗物质,也就是说,任何物体穿越时空会变成暗物质..(暗物质就我的理
easy ui datagrid上移下移一行商人shang js 上移下移 easyui datagrid
/** * 向上移动一行 * * @param dg * @param row */ function moveupRow(dg, row) { var datagrid = $(dg); var index = datagrid.datagrid("getRowIndex", row); if (isFirstRow(dg, row)) {
Java反射 oloz 反射
本人菜鸟，今天恰好有时间，写写博客，总结复习一下java反射方面的知识，欢迎大家探讨交流学习指教首先看看java中的Class package demo; public class ClassTest { /*先了解java中的Class*/ public static void main(String[] args) { //任何一个类都
springMVC 使用JSR-303 Validation验证杨白白 spring mvc
JSR-303是一个数据验证的规范，但是spring并没有对其进行实现，Hibernate Validator是实现了这一规范的，通过此这个实现来讲SpringMVC对JSR-303的支持。 JSR-303的校验是基于注解的，首先要把这些注解标记在需要验证的实体类的属性上或是其对应的get方法上。登录需要验证类 public class Login { @NotEmpty
log4j 香水浓 log4j
log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, HTML, DATABASE #log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, ROLLINGFILE, HTML #console log4j.appender.STDOUT=org.apache.log4j.ConsoleAppender log4
使用ajax和history.pushState无刷新改变页面URL agevs jquery 框架 Ajax html5 chrome
表现如果你使用chrome或者firefox等浏览器访问本博客、github.com、plus.google.com等网站时，细心的你会发现页面之间的点击是通过ajax异步请求的，同时页面的URL发生了了改变。并且能够很好的支持浏览器前进和后退。是什么有这么强大的功能呢？ HTML5里引用了新的API，history.pushState和history.replaceState，就是通过
centos中文乱码 AILIKES centos OS ssh
一、CentOS系统访问 g.cn ，发现中文乱码。于是用以前的方式：yum -y install fonts-chinese CentOS系统安装后，还是不能显示中文字体。我使用 gedit 编辑源码，其中文注释也为乱码。后来，终于找到以下方法可以解决，需要两个中文支持的包： fonts-chinese-3.02-12.
触发器 baalwolf 触发器
触发器(trigger)：监视某种情况，并触发某种操作。触发器创建语法四要素：1.监视地点(table) 2.监视事件(insert/update/delete) 3.触发时间(after/before) 4.触发事件(insert/update/delete) 语法： create trigger triggerName after/before
JS正则表达式的i m g bijian1013 JavaScript 正则表达式
g:表示全局（global)模式，即模式将被应用于所有字符串，而非在发现第一个匹配项时立即停止。 i:表示不区分大小写（case-insensitive）模式，即在确定匹配项时忽略模式与字符串的大小写。 m:表示
HTML5模式和Hashbang模式 bijian1013 JavaScript AngularJS Hashbang模式 HTML5模式
我们可以用$locationProvider来配置$location服务（可以采用注入的方式，就像AngularJS中其他所有东西一样）。这里provider的两个参数很有意思，介绍如下。 html5Mode 一个布尔值，标识$location服务是否运行在HTML5模式下。 ha
[Maven学习笔记六]Maven生命周期 bit1129 maven
从mvn test的输出开始说起当我们在user-core中执行mvn test时，执行的输出如下： /software/devsoftware/jdk1.7.0_55/bin/java -Dmaven.home=/software/devsoftware/apache-maven-3.2.1 -Dclassworlds.conf=/software/devs
【Hadoop七】基于Yarn的Hadoop Map Reduce容错 bit1129 hadoop
运行于Yarn的Map Reduce作业，可能发生失败的点包括 Task Failure Application Master Failure Node Manager Failure Resource Manager Failure 1. Task Failure 任务执行过程中产生的异常和JVM的意外终止会汇报给Application Master。僵死的任务也会被A
记一次数据推送的异常解决端口解决 ronin47 记一次数据推送的异常解决
　　需求：从db获取数据然后推送到B 程序开发完成，上jboss,刚开始报了很多错，逐一解决，可最后显示连接不到数据库。机房的同事说可以ping 通。　　自已画了个图，逐一排除，把linux 防火墙　和　setenforce　设置最低。　　　service iptables stop
巧用视错觉-UI更有趣 brotherlamp UI ui视频 ui教程 ui自学 ui资料
我们每个人在生活中都曾感受过视错觉（optical illusion）的魅力。视错觉现象是双眼跟我们开的一个玩笑，而我们往往还心甘情愿地接受我们看到的假象。其实不止如此，视觉错现象的背后还有一个重要的科学原理——格式塔原理。格式塔原理解释了人们如何以视觉方式感觉物体，以及图像的结构，视角，大小等要素是如何影响我们的视觉的。在下面这篇文章中，我们首先会简单介绍一下格式塔原理中的基本概念，
线段树-poj1177-N个矩形求边长（离散化+扫描线） bylijinnan 数据结构算法线段树
package com.ljn.base; import java.util.Arrays; import java.util.Comparator; import java.util.Set; import java.util.TreeSet; /** * POJ 1177 (线段树+离散化+扫描线)，题目链接为http://poj.org/problem?id=1177
HTTP协议详解 chicony http协议
引言
Scala设计模式 chenchao051 设计模式 scala
Scala设计模式我的话：在国外网站上看到一篇文章，里面详细描述了很多设计模式，并且用Java及Scala两种语言描述，清晰的让我们看到各种常规的设计模式，在Scala中是如何在语言特性层面直接支持的。基于文章很nice，我利用今天的空闲时间将其翻译，希望大家能一起学习，讨论。翻译
安装mysql daizj mysql 安装
安装mysql (1)删除linux上已经安装的mysql相关库信息。rpm -e xxxxxxx --nodeps (强制删除) 执行命令rpm -qa |grep mysql 检查是否删除干净 (2)执行命令 rpm -i MySQL-server-5.5.31-2.el
HTTP状态码大全 dcj3sjt126com http状态码
完整的 HTTP 1.1规范说明书来自于RFC 2616，你可以在http://www.talentdigger.cn/home/link.php?url=d3d3LnJmYy1lZGl0b3Iub3JnLw%3D%3D在线查阅。HTTP 1.1的状态码被标记为新特性，因为许多浏览器只支持 HTTP 1.0。你应只把状态码发送给支持 HTTP 1.1的客户端，支持协议版本可以通过调用request
asihttprequest上传图片 dcj3sjt126com ASIHTTPRequest
NSURL *url =@"yourURL"; ASIFormDataRequest*currentRequest =[ASIFormDataRequest requestWithURL:url]; [currentRequest setPostFormat:ASIMultipartFormDataPostFormat];[currentRequest se
C语言中，关键字static的作用 e200702084 C++c C#
在C语言中，关键字static有三个明显的作用： 1)在函数体，局部的static变量。生存期为程序的整个生命周期，（它存活多长时间）；作用域却在函数体内（它在什么地方能被访问（空间））。一个被声明为静态的变量在这一函数被调用过程中维持其值不变。因为它分配在静态存储区，函数调用结束后并不释放单元，但是在其它的作用域的无法访问。当再次调用这个函数时，这个局部的静态变量还存活，而且用在它的访
win7/8使用curl geeksun win7
1. WIN7/8下要使用curl，需要下载curl-7.20.0-win64-ssl-sspi.zip和Win64OpenSSL_Light-1_0_2d.exe。下载地址： http://curl.haxx.se/download.html 请选择不带SSL的版本，否则还需要安装SSL的支持包 2. 可以给Windows增加c
Creating a Shared Repository; Users Sharing The Repository hongtoushizi git
转载自： http://www.gitguys.com/topics/creating-a-shared-repository-users-sharing-the-repository/ Commands discussed in this section: git init –bare git clone git remote git pull git p
Java实现字符串反转的8种或9种方法 Josh_Persistence 异或反转递归反转二分交换反转 java字符串反转栈反转
注：对于第7种使用异或的方式来实现字符串的反转，如果不太看得明白的，可以参照另一篇博客： http://josh-persistence.iteye.com/blog/2205768 /** * */ package com.wsheng.aggregator.algorithm.string; import java.util.Stack; /**
代码实现任意容量倒水问题 home198979 PHP 算法倒水
形象化设计模式实战 HELLO!架构 redis命令源码解析倒水问题：有两个杯子，一个A升，一个B升，水有无限多，现要求利用这两杯子装C
Druid datasource zhb8015 druid
推荐大家使用数据库连接池 DruidDataSource. http://code.alibabatech.com/wiki/display/Druid/DruidDataSource DruidDataSource经过阿里巴巴数百个应用一年多生产环境运行验证，稳定可靠。它最重要的特点是：监控、扩展和性能。下载和Maven配置看这里： http
两种启动监听器ApplicationListener和ServletContextListener spjich java spring 框架
引言:有时候需要在项目初始化的时候进行一系列工作，比如初始化一个线程池，初始化配置文件，初始化缓存等等，这时候就需要用到启动监听器，下面分别介绍一下两种常用的项目启动监听器 ServletContextListener 特点: 依赖于sevlet容器，需要配置web.xml 使用方法: public class StartListener implements
JavaScript Rounding Methods of the Math object 何不笑 JavaScript Math
The next group of methods has to do with rounding decimal values into integers. Three methods — Math.ceil(), Math.floor(), and Math.round() — handle rounding in differen

【DeepLizard】Pytorch神经网络编程学习笔记(第二部分)

文章目录

Section 1：数据和数据处理

P14：fashion-mnist数据集

P15：使用torchvision演示一种简单的提取、转换和加载流程(ETL)

ETL过程

使用PyTorch准备数据

PyTorch Dataset Class

PyTorch DataLoader Class

P16：使用DataSet和DataLoader

查看数据

访问训练集中的数据

PyTorch DataLoader：处理成批的数据

Section 2：神经网络和 PyTorch 设计

P17：构建PyTorch CNN

一些包和函数

构建神经网络

P18：CNN层，理解构建CNN时使用的参数

CNN层

CNN层参数

P19：CNN内部的权重张量

可学习参数

获取实例网络

访问层的权重

权重张量形状

权重矩阵

P20：PyTorch可调用的神经网络模块，以及网络和层的前向方法是如何调用的

Linear类中的权重

特殊的调用方法：__call()__函数

P21：调试PyTorch源代码

P22：实现一个卷积神经网络的前向方法

P23：使用卷积神经网络由数据集的样本输入生成输出预测答案

P24：将一批图像传递到网络并解释输出

P25：一个输入张量在通过CNN的过程中的变化

CNN输出尺寸公式（方形）

CNN输出尺寸公式（非方形）

Section 3：训练神经网络

P26：训练卷积神经网络（单个批次）

训练卷积神经网络所需的步骤

代码实现

P27：构建一个卷积神经网络的训练循环

P28：构建混淆矩阵

P29：拼接张量和堆叠张量

P30：使用tensorboard来可视化CNN在网络训练过程中的指标

P31：神经网络超参数

每次修改单个超参数值

循环遍历不同的超参数值

添加更多的参数

Section 4：神经网络实验#

P32：编写Run Builder类，使不同的参数值生成多个运行

P33：同步超参数测试

P34：加速神经网络训练过程

P35：使用 CUDA 训练神经网络

tensor with CUDA

network with CUDA

检测系统中CUDA能否使用

GPU vs CPU

P36：数据集规范化

均值和标准差

归一化和不归一化的效果区别

P37：调试PyTorch 数据加载器源代码

P38：使用Sequential类来建立神经网络的顺序

准备工作

建立神经网络的顺序

方式一

方式二

方式三

使用Sequential类建一个Network类

原始Network

方式一

方式二

方式三

预测image

P39：PyTorch 中的批处理规范

创建网络

准备数据

测试

Section 5：补充学习

P40：重置reset网络的权重

重置单个层的权重

特殊的调用方法：call()函数