Ricardo_PING_

4.线性神经网络

线性回归
- 线性回归的基本元素
  - 线性模型
  - 损失函数
  - 解析解
  - 随机梯度下降
- 矢量化加速
- 正态分布与平方损失
优化方法
- 梯度下降
- 选择学习率
- 小批量随机梯度下降
- 选择批量大小
- 总结
线性回归的从零开始实现
- 生成数据集
- 读取数据集
- 初始化模型参数
- 定义模型
- 定义损失函数
- 定义优化算法
- 训练
- 线性回归的简介实现
  - 生成数据集
  - 读取数据集
  - 定义模型
  - 初始化模型参数
  - 定义损失函数
  - 定义优化函数
  - 训练
- softmax回归
  - 分类问题
  - 网络架构
  - softmax运算
  - 小批量样本的矢量化
  - 损失函数
    - L2 Loss均方损失函数
    - L1 Loss绝对值损失函数
    - Huber’s Robust Loss鲁棒损失函数
    - 对数似然
    - softmax及其导数
  - 模型的预测和评估
- 图像分类数据集
  - 读取数据集
  - 读取小批量
  - 整合所有组件
- softmax回归的从零开始实现
  - 初始化模型参数
  - 定义softmax操作
  - 定义模型
  - 定义损失函数
  - 分类精度
  - 训练
  - 预测
- softmax回归的简洁实现
  - 初始化模型参数
  - 重新审视Softmax的实现
  - 优化算法
  - 训练

回归（regression）是能为一个或多个自变量与因变量之间关系建模的一类方法。在自然科学和社会科学领域，回归经常用来表示输入和输出之间的关系。

在机器学习领域中的大多数任务通常都与_预测_（prediction）有关。当我们想预测一个数值时，就会涉及到回归问题。常见的例子包括：预测价格（房屋、股票等）、预测住院时间（针对住院病人等）、预测需求（零售销量等）。但不是所有的_预测_都是回归问题。在后面的章节中，我们将介绍分类问题。分类问题的目标是预测数据属于一组类别中的哪一个。

线性回归

线性回归的基本元素

线性回归（linear regression）可以追溯到19世纪初，它在回归的各种标准工具中最简单而且最流行。线性回归基于几个简单的假设：首先，假设自变量x和因变量y之间的关系是线性的，即y可以表示为x中元素的加权和，这里通常允许包含观测值的一些噪声；其次，我们假设任何噪声都比较正常，如噪声遵循正态分布。

为了解释_线性回归_，我们举一个实际的例子：我们希望根据房屋的面积（平方英尺）和房龄（年）来估算房屋价格（美元）。为了开发一个能预测房价的模型，我们需要收集一个真实的数据集。这个数据集包括了房屋的销售价格、面积和房龄。

在机器学习的术语中，该数据集称为_训练数据集_（training data set）或_训练集_（training set）。

每行数据（比如一次房屋交易相对应的数据）称为_样本_（sample），也可以称为_数据点 _（data point）或_数据样本 _（data instance）。

我们把试图预测的目标（比如预测房屋价格）称为_标签_（label）或_目标 _（target）。

预测所依据的自变量（面积和房龄）称为_特征_（feature）或_协变量 _（covariate）。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-xBEaIir8-1673764739910)(image/image_AN4vNwK1j1.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-pVoemAYT-1673764739914)(image/image_QkLP9mOKK9.png)]

线性模型可以看作一个单层的神经网络

我们将线性回归模型描述为一个神经网络。需要注意的是，该图只显示连接模式，即只显示每个输入如何连接到输出，隐去了权重和偏置的值。

训练数据

参数学习

显示解

线性模型

损失函数

在我们开始考虑如何用模型_拟合_（fit）数据之前，我们需要确定一个拟合程度的度量。 损失函数（loss function）能够量化目标的_实际_值与_预测_值之间的差距。通常我们会选择非负数作为损失，且数值越小表示损失越小，完美预测时的损失为0。回归问题中最常用的损失函数是平方误差函数。当样本i的预测值为 $\hat{y}^{(i)}$ ，其相应的真实标签为 $y^{(i)}$ 时，平方误差可以定义为以下公式：

$l^{(i)}(\mathbf{w}, b) = \frac{1}{2} \left(\hat{y}^{(i)} - y^{(i)}\right)^2.$

由于训练数据集并不受我们控制，所以经验误差只是关于模型参数的函数。为了进一步说明，来看下面的例子。我们为一维情况下的回归问题绘制图像。

由于平方误差函数中的二次方项，估计值 $\hat{y}^{(i)}$ 和观测值 $y^{(i)}$ 之间较大的差异将导致更大的损失。为了度量模型在整个数据集上的质量，我们需计算在训练集n个样本上的损失均值（也等价于求和）。

$L(\mathbf{w}, b) =\frac{1}{n}\sum_{i=1}^n l^{(i)}(\mathbf{w}, b) =\frac{1}{n} \sum_{i=1}^n \frac{1}{2}\left(\mathbf{w}^\top \mathbf{x}^{(i)} + b - y^{(i)}\right)^2.$

在训练模型时，我们希望寻找一组参数 $\left(\mathbf{w}^{*}, b^{*}\right)$ ，这组参数能最小化在所有训练样本上的总损失。如下式：

$\mathbf{w}^{*}, b^{*}=\underset{\mathbf{w}, b}{\operatorname{argmin}} L(\mathbf{w}, b).$

解析解

随机梯度下降

矢量化加速

在训练我们的模型时，我们经常希望能够同时处理整个小批量的样本。为了实现这一点，需要我们对计算进行矢量化，从而利用线性代数库，而不是在Python中编写开销高昂的for循环。

%matplotlib inline
import math
import time
import numpy as np
import torch
from d2l import torch as d2l

为了说明矢量化为什么如此重要，我们考虑对向量相加的两种方法。

我们实例化两个全为1的10000维向量。在一种方法中，我们将使用Python的for循环遍历向量；在另一种方法中，我们将依赖对+的调用。

n = 10000
a = torch.ones([n])
b = torch.ones([n])

我们将频繁地进行运行时间的基准测试，所以我们定义一个计时器：

class Timer:  #@save
    """记录多次运行时间"""
    def __init__(self):
        self.times = []
        self.start()

    def start(self):
        """启动计时器"""
        self.tik = time.time()

    def stop(self):
        """停止计时器并将时间记录在列表中"""
        self.times.append(time.time() - self.tik)
        return self.times[-1]

    def avg(self):
        """返回平均时间"""
        return sum(self.times) / len(self.times)

    def sum(self):
        """返回时间总和"""
        return sum(self.times)

    def cumsum(self):
        """返回累计时间"""
        return np.array(self.times).cumsum().tolist()

现在我们可以对工作负载进行基准测试。

首先，我们使用for循环，每次执行一位的加法。

c = torch.zeros(n)
timer = Timer()
for i in range(n):
    c[i] = a[i] + b[i]
f'{timer.stop():.5f} sec'

#----------输出结果-----------
'0.12068 sec'

或者，我们使用重载的+运算符来计算按元素的和。

timer.start()
d = a + b
f'{timer.stop():.5f} sec'

#----------输出结果-----------
'0.00000 sec'

结果很明显，第二种方法比第一种方法快得多。矢量化代码通常会带来数量级的加速。另外，我们将更多的数学运算放到库中，而无须自己编写那么多的计算，从而减少了出错的可能性。

正态分布与平方损失

接下来，我们通过对噪声分布的假设来解读平方损失目标函数。

正态分布和线性回归之间的关系很密切。正态分布（normal distribution），也称为_高斯分布_（Gaussian distribution），最早由德国数学家高斯（Gauss）应用于天文学研究。简单的说，若随机变量x具有均值μ和方差σ2（标准差σ），其正态分布概率密度函数如下：

$p(x)=\frac{1}{\sqrt{2 \pi \sigma^{2}}} \exp \left(-\frac{1}{2 \sigma^{2}}(x-\mu)^{2}\right)$

下面我们定义一个Python函数来计算正态分布。

def normal(x, mu, sigma):
    p = 1 / math.sqrt(2 * math.pi * sigma**2)
    return p * np.exp(-0.5 / sigma**2 * (x - mu)**2)

我们现在可视化正态分布。

# 再次使用numpy进行可视化
x = np.arange(-7, 7, 0.01)

# 均值和标准差对
params = [(0, 1), (0, 2), (3, 1)]
d2l.plot(x, [normal(x, mu, sigma) for mu, sigma in params], xlabel='x',
         ylabel='p(x)', figsize=(4.5, 2.5),
         legend=[f'mean {mu}, std {sigma}' for mu, sigma in params])

优化方法

梯度下降

选择学习率

学习率不能太大也不能太小，人为选择

小批量随机梯度下降

选择批量大小

不能太小：每次计算量太小，不适合并行来最大利用计算资源

不能太大：内存消耗增加，浪费计算。例如所有的样本都是相同的

总结

梯度下降通过不断沿着反梯度方向更新参数求解
小批量随机梯度下降是深度学习默认的求解算法
两个重要的超参数是批量大小和学习率

线性回归的从零开始实现

在了解线性回归的关键思想之后，我们可以开始通过代码来动手实现线性回归了。在这一节中，我们将从零开始实现整个方法，包括数据流水线、模型、损失函数和小批量随机梯度下降优化器。虽然现代的深度学习框架几乎可以自动化地进行所有这些工作，但从零开始实现可以确保我们真正知道自己在做什么。同时，了解更细致的工作原理将方便我们自定义模型、自定义层或自定义损失函数。在这一节中，我们将只使用张量和自动求导。在之后的章节中，我们会充分利用深度学习框架的优势，介绍更简洁的实现方式。

%matplotlib inline
import random
import torch
from d2l import torch as d2l

生成数据集

为了简单起见，我们将根据带有噪声的线性模型构造一个人造数据集。我们的任务是使用这个有限样本的数据集来恢复这个模型的参数。我们将使用低维数据，这样可以很容易地将其可视化。

在下面的代码中，我们生成一个包含1000个样本的数据集，每个样本包含从标准正态分布中采样的2个特征。 我们的合成数据集是一个矩阵 $\mathbf{X}\in \mathbb{R}^{1000 \times 2}$ 。

def synthetic_data(w, b, num_examples):  #@save
    """生成y=Xw+b+噪声"""
    X = torch.normal(0, 1, (num_examples, len(w)))
    y = torch.matmul(X, w) + b
    y += torch.normal(0, 0.01, y.shape)
    return X, y.reshape((-1, 1))

这是一个名为 synthetic_data() 的函数，用于生成用于训练线性回归模型的虚拟数据。

它有三个参数：

w：线性模型的权重
b：线性模型的偏移量
num_examples：要生成的样本数

它的工作流程如下：

使用 torch.normal() 函数生成均值为 0，标准差为 1 的随机数组 X。数组的形状为（num_examples，len(w)）。

形状为（num_examples，len(w)）的数组是一个二维数组。它的第一维大小为 num_examples，表示数组包含的样本数。第二维大小为 len(w)，表示数组包含的特征数。

使用线性模型的权重 w 和偏移量 b 计算 y。具体来说，y=Xw+b。
使用 torch.normal() 函数为每个样本添加噪声。噪声的均值为 0，标准差为 0.01。
返回生成的输入数组 X 和标签数组 y。

true_w = torch.tensor([2, -3.4])
true_b = 4.2
features, labels = synthetic_data(true_w, true_b, 1000)

注意，features中的每一行都包含一个二维数据样本， labels中的每一行都包含一维标签值（一个标量）。

首先创建了两个张量 true_w 和 true_b。

true_w 是一个长度为 2 的张量，包含两个数字 2 和 -3.4。

true_b 是一个数字 4.2。

然后，它调用了前面定义的 synthetic_data() 函数，生成了虚拟数据。这个函数接受三个参数：线性模型的权重 true_w，偏移量 true_b 和样本数 1000。它返回两个数组：输入数组 features 和标签数组 labels。

features 数组是一个形状为（1000，2）的张量，包含 1000 个样本，每个样本有 2 个特征。

labels 数组是一个形状为（1000，1）的张量，包含 1000 个样本的标签

print('features:', features[0],'\nlabel:', labels[0])

#----------输出结果-----------
features: tensor([0.2525, 0.7209]) 
label: tensor([2.2487])

通过生成第二个特征features[:, 1]和labels的散点图，可以直观观察到两者之间的线性关系。

features 数组的第一个样本和 labels 数组的第一个样本是对应的，即第一个样本的特征和标签是一组。

d2l.set_figsize()
d2l.plt.scatter(features[:, 1].detach().numpy(), labels.detach().numpy(), 1);

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-BKhjxcuh-1673764739920)(image/image_MiudYXJst-.png)]

读取数据集

回想一下，训练模型时要对数据集进行遍历，每次抽取一小批量样本，并使用它们来更新我们的模型。 由于这个过程是训练机器学习算法的基础，所以有必要定义一个函数，该函数能打乱数据集中的样本并以小批量方式获取数据。

在下面的代码中，我们定义一个data_iter函数，该函数接收批量大小、特征矩阵和标签向量作为输入，生成大小为batch_size的小批量。每个小批量包含一组特征和标签。

def data_iter(batch_size, features, labels):
    num_examples = len(features) # 样本长度
    indices = list(range(num_examples)) # 创建样本索引
    # 这些样本是随机读取的，没有特定的顺序
    random.shuffle(indices)
    for i in range(0, num_examples, batch_size):
        batch_indices = torch.tensor(
            indices[i: min(i + batch_size, num_examples)])
        yield features[batch_indices], labels[batch_indices]

这是一个名为 data_iter() 的函数，用于生成输入数据的迭代器。

它有三个参数：

batch_size：批量大小。
features：输入数据的特征数组。
labels：输入数据的标签数组。

它的工作流程如下：

计算输入数据的样本数 num_examples。
创建样本索引的列表 indices。
打乱样本的顺序，使得它们的顺序是随机的。
使用循环，逐个读取批量的样本。
使用 yield 语句返回当前批量的特征数组和标签数组。

这段代码中的 indices[i: min(i + batch_size, num_examples)] 是一个切片操作，它用于从索引列表 indices 中选取一个连续的子序列。

i: min(i + batch_size, num_examples) 表示从索引 i 开始，选取连续的索引。这个子序列的长度为 batch_size，但是如果 i + batch_size 大于 num_examples，那么这个子序列就不会包含最后几个索引。例如，如果 num_examples=10，batch_size=3 和 i=5，那么这个切片操作的结果就是 [5, 6, 7]。

通常，我们利用GPU并行运算的优势，处理合理大小的“小批量”。每个样本都可以并行地进行模型计算，且每个样本损失函数的梯度也可以被并行计算。 GPU可以在处理几百个样本时，所花费的时间不比处理一个样本时多太多。

我们直观感受一下小批量运算：读取第一个小批量数据样本并打印。每个批量的特征维度显示批量大小和输入特征数。同样的，批量的标签形状与batch_size相等。

batch_size = 10

for X, y in data_iter(batch_size, features, labels):
    print(X, '\n', y)
    break
    
#----------输出结果-----------
tensor([[ 0.0221,  0.2320],
        [ 0.6794, -0.5034],
        [ 0.1363, -0.9847],
        [ 0.4438, -0.1550],
        [-0.8514,  0.1900],
        [ 0.0214,  0.9961],
        [-1.1829,  0.7807],
        [-1.0912,  1.1282],
        [ 0.3664, -1.3300],
        [-0.5001,  0.6672]]) 
 tensor([[ 3.4437],
        [ 7.2608],
        [ 7.8031],
        [ 5.6222],
        [ 1.8395],
        [ 0.8499],
        [-0.8188],
        [-1.8158],
        [ 9.4456],
        [ 0.9353]])

当我们运行迭代时，我们会连续地获得不同的小批量，直至遍历完整个数据集。上面实现的迭代对教学来说很好，但它的执行效率很低，可能会在实际问题上陷入麻烦。例如，它要求我们将所有数据加载到内存中，并执行大量的随机内存访问。在深度学习框架中实现的内置迭代器效率要高得多，它可以处理存储在文件中的数据和数据流提供的数据。

初始化模型参数

在我们开始用小批量随机梯度下降优化我们的模型参数之前，我们需要先有一些参数。在下面的代码中，我们通过从均值为0、标准差为0.01的正态分布中采样随机数来初始化权重，并将偏置初始化为0。

w = torch.normal(0, 0.01, size=(2,1), requires_grad=True)
b = torch.zeros(1, requires_grad=True)

这段代码中使用了 PyTorch 库中的 normal() 函数和 zeros() 函数分别创建了一个服从正态分布的张量和一个全 0 张量。

normal() 函数的参数有：

0：均值。
0.01：标准差。
size=(2,1)：张量的形状。这里的形状是 (2,1)，表示这个张量有 2 行和 1 列。
requires_grad=True：是否要跟踪这个张量的梯度。如果设为 True，那么这个张量在反向传播中会自动计算梯度。

zeros() 函数的参数有：

1：张量的形状。这里的形状是 (1,)，表示这个张量有 1 个元素。
requires_grad=True：是否要跟踪这个

在初始化参数之后，我们的任务是更新这些参数，直到这些参数足够拟合我们的数据。每次更新都需要计算损失函数关于模型参数的梯度。有了这个梯度，我们就可以向减小损失的方向更新每个参数。

定义模型

接下来，我们必须定义模型，将模型的输入和参数同模型的输出关联起来。

def linreg(X, w, b):  #@save
    """线性回归模型"""
    return torch.matmul(X, w) + b

这是一个名为 linreg() 的函数，它实现了一个线性回归模型。

它有三个参数：

X：输入数据的特征数组。
w：模型的权重参数。
b：模型的偏移参数。

它的工作流程如下：

使用 PyTorch 库中的 matmul() 函数计算矩阵乘法。
将矩阵乘法的结果加上偏移参数 b。
返回结果。

这个函数的输入是输入数据的特征数组和模型的权重和偏移参数，输出是线性回归模型的预测结果。

定义损失函数

因为需要计算损失函数的梯度，所以我们应该先定义损失函数

def squared_loss(y_hat, y):  #@save
    """均方损失"""
    return (y_hat - y.reshape(y_hat.shape)) ** 2 / 2

这是一个名为 squared_loss() 的函数，它实现了均方损失的计算。

它有两个参数：

y_hat：模型的预测结果。
y：真实的标签。

它的工作流程如下：

将预测结果与真实标签的差平方。
将平方的结果除以 2。
返回结果。

这个函数的输入是模型的预测结果和真实的标签，输出是均方损失的值。

定义优化算法

在每一步中，使用从数据集中随机抽取的一个小批量，然后根据参数计算损失的梯度。接下来，朝着减少损失的方向更新我们的参数。下面的函数实现小批量随机梯度下降更新。该函数接受模型参数集合、学习速率和批量大小作为输入。每一步更新的大小由学习速率lr决定。因为我们计算的损失是一个批量样本的总和，所以我们用批量大小（batch_size）来规范化步长，这样步长大小就不会取决于我们对批量大小的选择。

def sgd(params, lr, batch_size):  #@save
    """小批量随机梯度下降"""
    with torch.no_grad():
        for param in params:
            param -= lr * param.grad / batch_size
            param.grad.zero_()

这是一个名为 sgd() 的函数，它实现了小批量随机梯度下降 (SGD) 算法。

它有三个参数：

params：模型的参数列表。
lr：学习率。
batch_size：批量大小。

它的工作流程如下：

使用 PyTorch 库中的 no_grad() 函数创建一个上下文管理器。
使用循环，逐个处理模型的参数。
使用梯度下降的更新规则更新参数的值。
使用 zero_() 函数清空参数的梯度。

这个函数的作用是：对于给定的模型参数，使用 SGD 算法进行一次梯度下降。

训练

现在我们已经准备好了模型训练所有需要的要素，可以实现主要的训练过程部分了。理解这段代码至关重要，因为从事深度学习后，相同的训练过程几乎一遍又一遍地出现。在每次迭代中，我们读取一小批量训练样本，并通过我们的模型来获得一组预测。计算完损失后，我们开始反向传播，存储每个参数的梯度。最后，我们调用优化算法sgd来更新模型参数。

概括一下，我们将执行以下循环：

初始化参数
重复以下训练，直到完成
- 计算梯度 $\mathbf{g} \leftarrow \partial_{(\mathbf{w},b)} \frac{1}{|\mathcal{B}|} \sum_{i \in \mathcal{B}} l(\mathbf{x}^{(i)}, y^{(i)}, \mathbf{w}, b)$
- 更新参数 $(\mathbf{w}, b) \leftarrow (\mathbf{w}, b) - \eta \mathbf{g}$

在每个_迭代周期_（epoch）中，我们使用data_iter函数遍历整个数据集，并将训练数据集中所有样本都使用一次（假设样本数能够被批量大小整除）。这里的迭代周期个数num_epochs和学习率lr都是超参数，分别设为3和0.03。

lr = 0.03
num_epochs = 3
net = linreg
loss = squared_loss

for epoch in range(num_epochs):
    for X, y in data_iter(batch_size, features, labels):
        l = loss(net(X, w, b), y)  # X和y的小批量损失
        # 因为l形状是(batch_size,1)，而不是一个标量。l中的所有元素被加到一起，
        # 并以此计算关于[w,b]的梯度
        l.sum().backward()
        sgd([w, b], lr, batch_size)  # 使用参数的梯度更新参数
    with torch.no_grad():
        train_l = loss(net(features, w, b), labels)
        print(f'epoch {epoch + 1}, loss {float(train_l.mean()):f}')
        

#------------输出结果------------
epoch 1, loss 0.041482
epoch 2, loss 0.000166
epoch 3, loss 0.000049

这是一段训练模型的代码。它包含了两个循环：

第一个循环按照周期数重复迭代数据。
第二个循环按照批量大小迭代数据。

每个周期包含多个批次，在每个批次中，它会执行以下操作：

计算当前批次的损失值。
计算当前批次的梯度。
使用 SGD 算法更新模型的参数。

在每个周期结束时，它会计算整个训练集的损失值，并将其打印出来。

整个训练过程包括多个周期，每个周期包含多个批次，每个批次包含多个样本。

因为我们使用的是自己合成的数据集，所以我们知道真正的参数是什么。因此，我们可以通过比较真实参数和通过训练学到的参数来评估训练的成功程度。事实上，真实参数和通过训练学到的参数确实非常接近。

print(f'w的估计误差: {true_w - w.reshape(true_w.shape)}')
print(f'b的估计误差: {true_b - b}')

#------------输出结果------------
w的估计误差: tensor([ 0.0003, -0.0002], grad_fn=<SubBackward0>)
b的估计误差: tensor([0.0010], grad_fn=<RsubBackward1>)

线性回归的简介实现

生成数据集

import numpy as np
import torch
from torch.utils import data
from d2l import torch as d2l

true_w = torch.tensor([2, -3.4])
true_b = 4.2
features, labels = d2l.synthetic_data(true_w, true_b, 1000)

def synthetic_data(w, b, num_examples):  #@save
    """生成y=Xw+b+噪声"""
    X = torch.normal(0, 1, (num_examples, len(w)))
    y = torch.matmul(X, w) + b
    y += torch.normal(0, 0.01, y.shape)
    return X, y.reshape((-1, 1))

读取数据集

我们可以调用框架中现有的API来读取数据。我们将features和labels作为API的参数传递，并通过数据迭代器指定batch_size。此外，布尔值is_train表示是否希望数据迭代器对象在每个迭代周期内打乱数据。

def load_array(data_arrays, batch_size, is_train=True):  #@save
    """构造一个PyTorch数据迭代器"""
    dataset = data.TensorDataset(*data_arrays)
    return data.DataLoader(dataset, batch_size, shuffle=is_train)
    

batch_size = 10
data_iter = load_array((features, labels), batch_size)
next(iter(data_iter))

# ---------------输出结果------------
[tensor([[ 0.6718,  0.5967],
         [-1.2405, -0.6843],
         [-1.3672,  0.0093],
         [-0.1689,  0.5642],
         [-0.1460, -1.2817],
         [ 0.8564,  0.5281],
         [ 1.2138,  0.6259],
         [-0.7343, -0.1812],
         [ 1.0611,  0.7354],
         [ 0.0861, -0.0404]]),
 tensor([[3.5074],
         [4.0387],
         [1.4269],
         [1.9447],
         [8.2659],
         [4.1071],
         [4.4991],
         [3.3432],
         [3.8256],
         [4.5022]])]

这段代码用于创建一个 PyTorch 数据迭代器。

它的工作流程如下：

将输入数据转换为 PyTorch 的 TensorDataset 格式。
使用 DataLoader 函数创建一个数据迭代器。
使用 iter() 函数获取数据迭代器的迭代器。
使用 next() 函数获取数据迭代器的下一个批次数据。

在这段代码中，输入数据是 features 和 labels 两个张量，批量大小是 batch_size。

这个数据迭代器每次迭代时会返回一个批次的输入数据和标签，用于训练模型。

 dataset = data.TensorDataset(*data_arrays)

其中这句代码创建了一个 TensorDataset 类的实例。这个类是 PyTorch 中的数据集类，用于将数据保存在张量中。

在这句代码中，*data_arrays 是 Python 中的打散参数 (unpacking arguments) 特性。它将 data_arrays 这个包含多个张量的元组，打散成多个单独的张量作为参数传入 TensorDataset 类的构造函数。

例如，如果 data_arrays 是 (tensor_1, tensor_2, tensor_3) 这样的元组，那么 *data_arrays 将被解释为 tensor_1, tensor_2, tensor_3，这样就可以直接传入 TensorDataset 类的构造函数了。

定义模型

对于标准深度学习模型，我们可以使用框架的预定义好的层。这使我们只需关注使用哪些层来构造模型，而不必关注层的实现细节。我们首先定义一个模型变量net，它是一个Sequential类的实例。 Sequential类将多个层串联在一起。当给定输入数据时，Sequential实例将数据传入到第一层，然后将第一层的输出作为第二层的输入，以此类推。在下面的例子中，我们的模型只包含一个层，因此实际上不需要Sequential。但是由于以后几乎所有的模型都是多层的，在这里使用Sequential会让你熟悉“标准的流水线”。

这一单层被称为全连接层（fully-connected layer），因为它的每一个输入都通过矩阵-向量乘法得到它的每个输出。

在PyTorch中，全连接层在Linear类中定义。值得注意的是，我们将两个参数传递到nn.Linear中。第一个指定输入特征形状，即2，第二个指定输出特征形状，输出特征形状为单个标量，因此为1。

# nn是神经网络的缩写
from torch import nn

net = nn.Sequential(nn.Linear(2, 1))

这段代码创建了一个线性回归模型。线性回归模型是一种简单的神经网络模型，它只包含一个全连接层 (fully-connected layer)，用于对输入数据进行线性变换。

具体来说，这段代码创建了一个 Sequential 类的实例，该实例是一个多层感知机 (multilayer perceptron, MLP)。它包含一个输入层和一个输出层，输入层的大小是 2，输出层的大小是 1。

这个模型的输入数据是 2 维的，输出是 1 维的。它可以用于对 2 维输入数据进行线性回归。

初始化模型参数

在使用net之前，我们需要初始化模型参数。

如在线性回归模型中的权重和偏置。深度学习框架通常有预定义的方法来初始化参数。在这里，我们指定每个权重参数应该从均值为0、标准差为0.01的正态分布中随机采样，偏置参数将初始化为零。

正如我们在构造nn.Linear时指定输入和输出尺寸一样，现在我们能直接访问参数以设定它们的初始值。我们通过net[0]选择网络中的第一个图层，然后使用weight.data和bias.data方法访问参数。我们还可以使用替换方法normal_和fill_来重写参数值。

net[0].weight.data.normal_(0, 0.01)
net[0].bias.data.fill_(0)

# ---------------输出结果------------
tensor([0.])

这段代码对线性回归模型的参数进行初始化。

在这段代码中，net[0] 表示线性回归模型的第一层，也就是唯一的一层。这一层包含两个参数：权重 (weight) 和偏差 (bias)。

weight.data.normal_(0, 0.01) 用于将权重初始化为均值为 0，标准差为 0.01 的随机数。

bias.data.fill_(0) 用于将偏差初始化为 0。

通常来说，我们需要对模型的参数进行初始化，以便模型在训练时能够更快收敛。对参数进行随机初始化可以帮助避免梯度消失或梯度爆炸的问题。

定义损失函数

计算均方误差使用的是MSELoss类，也称为平方L2范数。默认情况下，它返回所有样本损失的平均值。

loss = nn.MSELoss()

定义优化函数

小批量随机梯度下降算法是一种优化神经网络的标准工具， PyTorch在optim模块中实现了该算法的许多变种。当我们实例化一个SGD实例时，我们要指定优化的参数 （可通过net.parameters()从我们的模型中获得）以及优化算法所需的超参数字典。小批量随机梯度下降只需要设置lr值，这里设置为0.03。

trainer = torch.optim.SGD(net.parameters(), lr=0.03)

训练

通过深度学习框架的高级API来实现我们的模型只需要相对较少的代码。我们不必单独分配参数、不必定义我们的损失函数，也不必手动实现小批量随机梯度下降。当我们需要更复杂的模型时，高级API的优势将大大增加。当我们有了所有的基本组件，训练过程代码与我们从零开始实现时所做的非常相似。

回顾一下：在每个迭代周期里，我们将完整遍历一次数据集（train_data），不停地从中获取一个小批量的输入和相应的标签。对于每一个小批量，我们会进行以下步骤:

通过调用net(X)生成预测并计算损失l（前向传播）。
通过进行反向传播来计算梯度。
通过调用优化器来更新模型参数。

为了更好的衡量训练效果，我们计算每个迭代周期后的损失，并打印它来监控训练过程。

num_epochs = 3
for epoch in range(num_epochs):
    for X, y in data_iter:
        l = loss(net(X) ,y)
        trainer.zero_grad()
        l.backward()
        trainer.step()
    l = loss(net(features), labels)
    print(f'epoch {epoch + 1}, loss {l:f}')
    

# ---------------输出结果------------
epoch 1, loss 0.000271
epoch 2, loss 0.000098
epoch 3, loss 0.000098

这段代码实现了线性回归模型的训练过程。

训练过程分为多个 epoch，每个 epoch 中包含多个批次 (batch)。在每个批次中，首先使用线性回归模型对输入数据进行预测，然后计算预测结果与真实标签之间的损失。

然后使用反向传播算法（backpropagation）计算每个参数的梯度，并更新参数。最后使用更新后的参数再次预测，计算并输出当前 epoch 的损失。

下面我们比较生成数据集的真实参数和通过有限数据训练获得的模型参数。要访问参数，我们首先从net访问所需的层，然后读取该层的权重和偏置。正如在从零开始实现中一样，我们估计得到的参数与生成数据的真实参数非常接近。

w = net[0].weight.data
print('w的估计误差：', true_w - w.reshape(true_w.shape))
b = net[0].bias.data
print('b的估计误差：', true_b - b)

# ---------------输出结果------------
w的估计误差： tensor([-0.0002, -0.0008])
b的估计误差： tensor([0.0002])

这段代码用于输出训练后线性回归模型的参数，以及这些参数与真实参数之间的误差。

net[0].weight.data 表示线性回归模型的权重，net[0].bias.data 表示线性回归模型的偏差。

true_w 和 true_b 是真实参数，用于生成训练数据。

输出的结果表明，训练后的线性回归模型的参数与真实参数之间的误差很小。

softmax回归

回归可以用于预测_多少_的问题。 比如预测房屋被售出价格，或者棒球队可能获得的胜场数，又或者患者住院的天数。

事实上，我们也对_分类_问题感兴趣：不是问“多少”，而是问“哪一个”：

某个电子邮件是否属于垃圾邮件文件夹？
某个用户可能_注册_或_不注册_订阅服务？
某个图像描绘的是驴、狗、猫、还是鸡？
某人接下来最有可能看哪部电影？

通常，机器学习实践者用_分类_这个词来描述两个有微妙差别的问题：

1. 我们只对样本的“硬性”类别感兴趣，即属于哪个类别；

2. 我们希望得到“软性”类别，即得到属于每个类别的概率。这两者的界限往往很模糊。其中的一个原因是：即使我们只关心硬类别，我们仍然使用软类别的模型。

分类问题

网络架构

为了估计所有可能类别的条件概率，我们需要一个有多个输出的模型，每个类别对应一个输出。为了解决线性模型的分类问题，我们需要和输出一样多的仿射函数（affine function）。每个输出对应于它自己的仿射函数。

在我们的例子中，由于我们有4个特征和3个可能的输出类别，我们将需要12个标量来表示权重（带下标的 $w$ ）， 3个标量来表示偏置（带下标的 $b$ ）。下面我们为每个输入计算三个未规范化的预测（logit）： $o_1$ 、 $o_2$ 和 $o_3$ 。

softmax运算

现在我们将优化参数以最大化观测数据的概率。为了得到预测结果，我们将设置一个阈值，如选择具有最大概率的标签。

要将输出视为概率，我们必须保证在任何数据上的输出都是非负的且总和为1。此外，我们需要一个训练的目标函数，来激励模型精准地估计概率。例如，在分类器输出0.5的所有样本中，我们希望这些样本是刚好有一半实际上属于预测的类别。这个属性叫做校准（calibration）。

社会科学家邓肯·卢斯于1959年在选择模型（choice model）的理论基础上发明的softmax函数正是这样做的： softmax函数能够将未规范化的预测变换为非负数并且总和为1，同时让模型保持可导的性质。为了完成这一目标，我们首先对每个未规范化的预测求幂，这样可以确保输出非负。为了确保最终输出的概率值总和为1，我们再让每个求幂后的结果除以它们的总和。如下式：

$\hat{\mathbf{y}}=\operatorname{softmax}(\mathbf{o}) \quad 其中 \quad \hat{y}_{j}=\frac{\exp \left(o_{j}\right)}{\sum_{k} \exp \left(o_{k}\right)}$

小批量样本的矢量化

损失函数

L2 Loss均方损失函数

L1 Loss绝对值损失函数

Huber’s Robust Loss鲁棒损失函数

对数似然

softmax及其导数

模型的预测和评估

在训练softmax回归模型后，给出任何样本特征，我们可以预测每个输出类别的概率。通常我们使用预测概率最高的类别作为输出类别。如果预测与实际类别（标签）一致，则预测是正确的。在接下来的实验中，我们将使用精度（accuracy）来评估模型的性能。 精度等于正确预测数与预测总数之间的比率。

图像分类数据集

MNIST数据集 (LeCun et al., 1998) 是图像分类中广泛使用的数据集之一，但作为基准数据集过于简单。我们将使用类似但更复杂的Fashion-MNIST数据集 (Xiao et al., 2017)。

%matplotlib inline
import torch
import torchvision
from torch.utils import data
from torchvision import transforms
from d2l import torch as d2l

d2l.use_svg_display()

读取数据集

我们可以通过框架中的内置函数将Fashion-MNIST数据集下载并读取到内存中。

# 通过ToTensor实例将图像数据从PIL类型变换成32位浮点数格式，
# 并除以255使得所有像素的数值均在0～1之间
trans = transforms.ToTensor() # 预处理：把图片转换为pytorch的tensor
mnist_train = torchvision.datasets.FashionMNIST(
    root="../data", train=True, transform=trans, download=True)
mnist_test = torchvision.datasets.FashionMNIST(
    root="../data", train=False, transform=trans, download=True)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-FHUrY3r2-1673764739924)(image/image_PmKwQ2RcZP.png)]

这个代码分别使用 torchvision.datasets.FashionMNIST 函数加载了训练数据和测试数据。其中，参数 root 指定了数据所在的文件夹，参数 train 指定是加载训练数据还是测试数据，参数 transform 指定了对数据进行的变换，在这里使用了 transforms.ToTensor 函数将图像数据从 PIL 类型变换成32位浮点数格式，并除以255使得所有像素的数值均在0～1之间。参数 download 指定是否自动下载数据。

Fashion-MNIST由10个类别的图像组成，每个类别由训练数据集（train dataset）中的6000张图像和测试数据集（test dataset）中的1000张图像组成。因此，训练集和测试集分别包含60000和10000张图像。测试数据集不会用于训练，只用于评估模型性能。

len(mnist_train), len(mnist_test)

输出

(60000, 10000)

每个输入图像的高度和宽度均为28像素。 数据集由灰度图像组成，其通道数为1。为了简洁起见，本书将高度h像素、宽度w像素图像的形状记为 $\times w$ 或 $（ h, w ）$ 。

# 查看第一张图片的shape
mnist_train[0][0].shape

输出

torch.Size([1, 28, 28])

Fashion-MNIST中包含的10个类别，分别为t-shirt（T恤）、trouser（裤子）、pullover（套衫）、dress（连衣裙）、coat（外套）、sandal（凉鞋）、shirt（衬衫）、sneaker（运动鞋）、bag（包）和ankle boot（短靴）。 以下函数用于在数字标签索引及其文本名称之间进行转换**。**

def get_fashion_mnist_labels(labels):  #@save
    """返回Fashion-MNIST数据集的文本标签"""
    text_labels = ['t-shirt', 'trouser', 'pullover', 'dress', 'coat',
                   'sandal', 'shirt', 'sneaker', 'bag', 'ankle boot']
    return [text_labels[int(i)] for i in labels]

这段代码定义了一个函数 get_fashion_mnist_labels，用于将 Fashion-MNIST 数据集的数字标签转换为文本标签。具体来说，该函数接受一个数字标签的列表，并返回一个与输入列表长度相同的文本标签列表。 在函数内部，定义了一个文本标签列表text_labels，包含了 Fashion-MNIST 数据集中的 10 个类别，即 t-shirt、trouser、pullover、dress、coat、sandal、shirt、sneaker、bag 和 ankle boot。然后，使用列表推导式将输入的数字标签列表中的每个元素转换为文本标签，并返回转换后的文本标签列表。

我们现在可以创建一个函数来可视化这些样本。

def show_images(imgs, num_rows, num_cols, titles=None, scale=1.5):  #@save
    """绘制图像列表"""
    figsize = (num_cols * scale, num_rows * scale) # 图像的长和宽
    _, axes = d2l.plt.subplots(num_rows, num_cols, figsize=figsize)
    axes = axes.flatten()
    for i, (ax, img) in enumerate(zip(axes, imgs)):
        if torch.is_tensor(img):
            # 图片张量
            ax.imshow(img.numpy())
        else:
            # PIL图片
            ax.imshow(img)
        ax.axes.get_xaxis().set_visible(False)
        ax.axes.get_yaxis().set_visible(False)
        if titles:
            ax.set_title(titles[i])
    return axes

这个函数的作用是将一个列表中的图像绘制到多个子图中，num_rows 和 num_cols 参数指定了将图像绘制成几行几列的矩阵。imags 参数是图像列表，titles 参数是图像标题列表，scale 参数是每个子图的高度和宽度与默认值的比值。在循环中，对于每个子图，首先判断图像是否是一个张量，如果是的话使用 imshow 函数绘制张量的内容，否则直接绘制 PIL 图像的内容。最后，如果传入了标题列表，就设置子图的标题。

d2l.plt.subplots(num_rows, num_cols, figsize=figsize) 函数返回一个包含画板和轴的二元组。这个函数会创建一个新的画板，并将其分成 num_rows 行和 num_cols 列的网格。然后，它会在每个网格中创建一个轴。这个函数返回的第一个值是画板本身，第二个值是一个轴数组，它是一个二维数组，第 i 行第 j 列对应网格中的第 i 行第 j 列的轴。

axes = axes.flatten() 函数将二维数组展平成一维数组，即把所有轴都放在一个列表中。

在循环中，对于每个子图和图像对，它会检查图像是否是张量。如果是，则使用imshow函数绘制张量中的图像。否则，使用imshow绘制PIL图像。然后，它会隐藏子图的坐标轴，并如果有标题，则将标题添加到子图中。最后，函数返回子图矩阵。

以下是训练数据集中前几个样本的图像及其相应的标签。

X, y = next(iter(data.DataLoader(mnist_train, batch_size=18)))
show_images(X.reshape(18, 28, 28), 2, 9, titles=get_fashion_mnist_labels(y));

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-W9rqVBX1-1673764739924)(image/image__PlVdGW80H.png)]

这段代码的作用是从 Fashion-MNIST 训练集中取出一个批次的数据，并使用 show_images 函数将这批数据中的图像可视化出来。具体来说，首先使用 data.DataLoader 函数从 mnist_train 中取出一个批次的数据。然后使用 X.reshape 将每张图像的张量重塑为二维张量，并传入 show_images 函数进行可视化。可视化结果中，每张图像都有一个对应的标签，使用 get_fashion_mnist_labels 函数将标签的数字索引转换为文本名称。

读取小批量

为了使我们在读取训练集和测试集时更容易，我们使用内置的数据迭代器，而不是从零开始创建。回顾一下，在每次迭代中，数据加载器每次都会读取一小批量数据，大小为batch_size。 通过内置数据迭代器，我们可以随机打乱了所有样本，从而无偏见地读取小批量。

batch_size = 256

def get_dataloader_workers():  #@save
    """使用4个进程来读取数据"""
    return 4

train_iter = data.DataLoader(mnist_train, batch_size, shuffle=True,
                             num_workers=get_dataloader_workers())

此代码创建了一个PyTorch的DataLoader，用于在训练期间从FashionMNIST数据集中加载小批量数据。DataLoader提供了一个更方便的方法来遍历数据集中的所有样本，并在训练时提供批量数据。参数batch_size定义了每个批量的大小，参数shuffle表示是否在每个epoch之间对数据进行洗牌，num_workers定义了使用几个进程来加载数据。

我们看一下读取训练数据所需的时间。

timer = d2l.Timer()
for X, y in train_iter:
    continue
f'{timer.stop():.2f} sec'

输出

'2.18 sec'

这个代码创建了一个数据加载器，用于读取Fashion-MNIST训练数据集中的每个批次。训练数据集中的每个样本都将打包成一个批次。这个代码还使用了一个定时器来测量数据加载器读取一个批次的时间。

整合所有组件

现在我们定义load_data_fashion_mnist函数，用于获取和读取Fashion-MNIST数据集。这个函数返回训练集和验证集的数据迭代器。此外，这个函数还接受一个可选参数resize，用来将图像大小调整为另一种形状。

def load_data_fashion_mnist(batch_size, resize=None):  #@save
    """下载Fashion-MNIST数据集，然后将其加载到内存中"""
    trans = [transforms.ToTensor()]
    if resize:
        trans.insert(0, transforms.Resize(resize))
    trans = transforms.Compose(trans)
    mnist_train = torchvision.datasets.FashionMNIST(
        root="../data", train=True, transform=trans, download=True)
    mnist_test = torchvision.datasets.FashionMNIST(
        root="../data", train=False, transform=trans, download=True)
    return (data.DataLoader(mnist_train, batch_size, shuffle=True,
                            num_workers=get_dataloader_workers()),
            data.DataLoader(mnist_test, batch_size, shuffle=False,
                            num_workers=get_dataloader_workers()))

这段代码用来下载并加载Fashion-MNIST数据集。它通过使用torchvision的FashionMNIST数据集类实现，并将数据集的训练集和测试集读取到内存中。首先，使用transforms.ToTensor()将数据从PIL类型转换为张量，并将像素值除以255使得值域在0~1之间。如果传入了resize参数，则使用transforms.Resize()将图像的大小调整为指定大小。最后，使用transforms.Compose()将所有转换组成一个序列，然后传给FashionMNIST类的transform参数。

最后，返回由两个DataLoader实例组成的元组，分别对应训练集和测试集。对于训练集，shuffle参数设置为True，表示将数据打乱。在测试集上，shuffle参数设置为False，表示保持数据顺序。num_workers参数指定使用4个进程来读取数据，可以加快数据加载速度。

下面，我们通过指定resize参数来测试load_data_fashion_mnist函数的图像大小调整功能。

train_iter, test_iter = load_data_fashion_mnist(32, resize=64)
for X, y in train_iter:
    print(X.shape, X.dtype, y.shape, y.dtype)
    break

输出

torch.Size([32, 1, 64, 64]) torch.float32 torch.Size([32]) torch.int64

输出为(32, 1, 64, 64) torch.float32 (32,) torch.int64，表示训练集中包含32个样本，每个样本为1个通道、64x64像素的张量，标签为32个整数。

我们现在已经准备好使用Fashion-MNIST数据集，便于下面的章节调用来评估各种分类算法。

softmax回归的从零开始实现

import torch
from IPython import display
from d2l import torch as d2l

batch_size = 256
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size) # 返回训练集和测试集的迭代器

初始化模型参数

和之前线性回归的例子一样，这里的每个样本都将用固定长度的向量表示。原始数据集中的每个样本都是28×28的图像。本节将展平每个图像，把它们看作长度为784的向量。在后面的章节中，我们将讨论能够利用图像空间结构的特征，但现在我们暂时只把每个像素位置看作一个特征。

回想一下，在softmax回归中，我们的输出与类别一样多。** 因为我们的数据集有10个类别，所以网络输出维度为10。** 因此，权重将构成一个784×10的矩阵，偏置将构成一个1×10的行向量。 与线性回归一样，我们将使用正态分布初始化我们的权重W，偏置初始化为0。

num_inputs = 784
num_outputs = 10

W = torch.normal(0, 0.01, size=(num_inputs, num_outputs), requires_grad=True)
b = torch.zeros(num_outputs, requires_grad=True)

这段代码中，num_inputs和num_outputs是用来指定模型输入和输出的维度的。具体来说，num_inputs指的是输入数据的特征数量，而num_outputs指的是模型的输出类别数量。在这里，num_inputs被赋值为784，num_outputs被赋值为10。

然后，代码中的W和b是模型的权重和偏移量。它们都是PyTorch张量，并且都有requires_grad参数被设置为True，表示这些张量需要被追踪，以便在反向传播时计算梯度。W张量是一个形状为(num_inputs, num_outputs)的矩阵，b张量是一个长度为num_outputs的向量。W和b张量的初始值都是随机初始化的，使用均值为0、标准差为0.01的正态分布随机生成的。

定义softmax操作

在实现softmax回归模型之前，我们简要回顾一下sum运算符如何沿着张量中的特定维度工作。

给定一个矩阵X，我们可以对所有元素求和（默认情况下）。也可以只求同一个轴上的元素，即同一列（轴0）或同一行（轴1）。如果X是一个形状为(2, 3)的张量，我们对列进行求和，则结果将是一个具有形状(3,)的向量。当调用sum运算符时，我们可以指定保持在原始张量的轴数，而不折叠求和的维度。这将产生一个具有形状(1, 3)的二维张量。

X = torch.tensor([[1.0, 2.0, 3.0], [4.0, 5.0, 6.0]])
X.sum(0, keepdim=True), X.sum(1, keepdim=True)

输出

(tensor([[5., 7., 9.]]),
 tensor([[ 6.],
         [15.]]))

回想一下，[实现softmax]由三个步骤组成：

对每个项求幂（使用exp）；
对每一行求和（小批量中每个样本是一行），得到每个样本的规范化常数；
将每一行除以其规范化常数，确保结果的和为1。

$\operatorname{softmax}(\mathbf{X})_{i j}=\frac{\exp \left(\mathbf{X}_{i j}\right)}{\sum_{k} \exp \left(\mathbf{X}_{i k}\right)}$

def softmax(X):
    X_exp = torch.exp(X)
    partition = X_exp.sum(1, keepdim=True)
    return X_exp / partition  # 这里应用了广播机制

正如上述代码，对于任何随机输入，我们将每个元素变成一个非负数。此外，依据概率原理，每行总和为1。

# 创建随机的均值为0，方差为1，2行5列的矩阵x
X = torch.normal(0, 1, (2, 5))
X_prob = softmax(X)
X_prob, X_prob.sum(1)

在这个代码中，我们定义了一个名为softmax的函数，这个函数接受一个名为X的矩阵，并将它转换为概率分布。它通过对矩阵X中的每个元素求幂，确保所有值都是正数，然后将指数化的值除以它们的和来归一化。这在构建概率分布或用于分类任务的输出（可以解释为概率）时非常有用。

例如，在多类分类的情况下，可以将模型的输出通过softmax函数传递，以获得类别的概率分布，其中预测的类别是概率最高的类别。

在给定的代码中，对矩阵X求幂，然后将结果矩阵按其行元素的和（即沿着列）进行除法。sum方法的keepdim参数指定结果矩阵应与输入矩阵具有相同的维数，其中沿指定轴的元素的和在结果矩阵中是单个元素。这是为了确保可以逐元素应用除法操作。

最后，将打印出结果矩阵X_prob和它的行和。由于softmax函数的输出是概率分布，因此行和应该等于1。

输出

(tensor([[0.0699, 0.0579, 0.0616, 0.1511, 0.6596],
         [0.0676, 0.1175, 0.4517, 0.2931, 0.0700]]),
 tensor([1.0000, 1.0000]))

注意，虽然这在数学上看起来是正确的，但我们在代码实现中有点草率。矩阵中的非常大或非常小的元素可能造成数值上溢或下溢，但我们没有采取措施来防止这点。

定义模型

定义softmax操作后，我们可以实现softmax回归模型。下面的代码定义了输入如何通过网络映射到输出。注意，将数据传递到模型之前，我们使用reshape函数将每张原始图像展平为向量。

def net(X):
    return softmax(torch.matmul(X.reshape((-1, W.shape[0])), W) + b)

这个代码定义了一个名为net的函数，该函数接受一个名为X的张量作为输入，并返回由softmax函数计算得到的概率分布。

首先，将张量X的形状重新调整为具有两个维度的形状，其中第一维大小是-1，第二维大小为另一个张量W的第一维大小。这里的reshape方法可以用来重新调整张量的形状。其中，使用-1作为第一维的大小意味着这一维的大小将根据输入张量的总元素数和新形状的其他维度的大小自动计算。

接下来，使用矩阵乘法将调整后的张量X与另一个张量W相乘，然后将结果与另一个张量b相加。然后，将结果传递给softmax函数，并将计算的概率分布作为函数的输出返回。

定义损失函数

接下来，我们实现交叉熵损失函数。这可能是深度学习中最常见的损失函数，因为目前分类问题的数量远远超过回归问题的数量。

回顾一下，交叉熵采用真实标签的预测概率的负对数似然。这里我们不使用Python的for循环迭代预测（这往往是低效的），而是通过一个运算符选择所有元素。

下面，我们创建一个数据样本y_hat，其中包含2个样本在3个类别的预测概率，以及它们对应的标签y。有了y，我们知道在第一个样本中，第一类是正确的预测；而在第二个样本中，第三类是正确的预测。然后使用y作为y_hat中概率的索引，我们选择第一个样本中第一个类的概率和第二个样本中第三个类的概率。

y = torch.tensor([0, 2])
y_hat = torch.tensor([[0.1, 0.3, 0.6], [0.3, 0.2, 0.5]])
y_hat[[0, 1], y]

这段代码会输出一个包含两个元素的张量，这两个元素分别对应输入张量y_hat的第一行第一列和第二行第三列的元素。

首先，我们有两个张量y和y_hat。y是一个包含两个整数的张量，表示两行的索引，而y_hat是一个2x3的张量，其中每行表示一个概率分布。

然后，我们使用索引操作符**[...]来访问张量y_hat**的每行。在这里，第一个索引[0, 1]指定了要选择的行，而第二个索引y指定了要选择的列。这会返回一个包含第一行第一列和第二行第三列元素的张量。

因此，输出为tensor([0.1, 0.5])。

输出

tensor([0.1000, 0.5000])

现在我们只需一行代码就可以实现交叉熵损失函数。

def cross_entropy(y_hat, y):
    return - torch.log(y_hat[range(len(y_hat)), y])

cross_entropy(y_hat, y)

这个代码定义了一个名为cross_entropy的函数，该函数计算给定的概率分布和标签的交叉熵。

交叉熵是用于度量两个概率分布之间的差异的常见度量。在分类任务中，通常使用真实标签的概率分布和预测标签的概率分布之间的交叉熵作为损失函数。交叉熵越小，两个概率分布之间的差异就越小，这意味着预测标签的概率分布更接近真实标签的概率分布。

我们对返回的张量求负对数，并将结果作为函数的输出返回。

最后，我们调用函数并传入概率分布和标签的张量作为参数，并打印出结果。输出应该是一个包含两个元素的张量，表示概率分布和标签之间的交叉熵。

输出

tensor([2.3026, 0.6931])

分类精度

给定预测概率分布y_hat，当我们必须输出硬预测（hard prediction）时，我们通常选择预测概率最高的类。 许多应用都要求我们做出选择。如Gmail必须将电子邮件分类为“Primary（主要邮件）”、 “Social（社交邮件）”“Updates（更新邮件）”或“Forums（论坛邮件）”。 Gmail做分类时可能在内部估计概率，但最终它必须在类中选择一个。

当预测与标签分类y一致时，即是正确的。 分类精度即正确预测数量与总预测数量之比。虽然直接优化精度可能很困难（因为精度的计算不可导），但精度通常是我们最关心的性能衡量标准，我们在训练分类器时几乎总会关注它。

为了计算精度，我们执行以下操作。首先，如果y_hat是矩阵，那么假定第二个维度存储每个类的预测分数。我们使用argmax获得每行中最大元素的索引来获得预测类别。然后我们将预测类别与真实y元素进行比较。由于等式运算符“==”对数据类型很敏感，因此我们将y_hat的数据类型转换为与y的数据类型一致。结果是一个包含0（错）和1（对）的张量。最后，我们求和会得到正确预测的数量。

def accuracy(y_hat, y):  #@save
    """计算预测正确的数量"""
    if len(y_hat.shape) > 1 and y_hat.shape[1] > 1:
        y_hat = y_hat.argmax(axis=1)
    cmp = y_hat.type(y.dtype) == y
    return float(cmp.type(y.dtype).sum())

这个函数用于计算分类任务的准确率。

输入参数：

y_hat：模型预测的输出。
y：真实的输出。

输出：

float：预测正确的数量占总样本数的比例，即准确率。

流程：

判断 y_hat 的维度是否大于 1，如果是，将 y_hat 的最后一维按照最大值的索引取值。这是因为，如果 y_hat 为 one-hot 形式的输出，需要将它转换为单个数字编号的形式。
比较 y_hat 和 y 相等的数量，并将结果转换为浮点数返回。

我们将继续使用之前定义的变量y_hat和y分别作为预测的概率分布和标签。可以看到，第一个样本的预测类别是2（该行的最大元素为0.6，索引为2），这与实际标签0不一致。第二个样本的预测类别是2（该行的最大元素为0.5，索引为2），这与实际标签2一致。因此，这两个样本的分类精度率为0.5。

accuracy(y_hat, y) / len(y)

输出

0.5

同样，对于任意数据迭代器data_iter可访问的数据集，我们可以评估在任意模型net的精度。

def evaluate_accuracy(net, data_iter):  #@save
    """计算在指定数据集上模型的精度"""
    if isinstance(net, torch.nn.Module):
        net.eval()  # 将模型设置为评估模式
    metric = Accumulator(2)  # 正确预测数、预测总数
    with torch.no_grad():
        for X, y in data_iter:
            metric.add(accuracy(net(X), y), y.numel())
    return metric[0] / metric[1]

这段代码定义了一个函数 evaluate_accuracy，用于计算给定的神经网络在给定的数据迭代器上的精度。

首先，判断给定的神经网络是否是 torch.nn.Module 的实例。如果是，就将其设置为评估模式。

接下来，创建一个累加器 metric，它有两个元素。然后使用 torch.no_grad() 上下文管理器禁用自动求导。 在这个上下文中，对数据迭代器中的每个输入数据和标签进行循环。每次循环中，调用函数 accuracy 计算输入数据的准确率，并将其添加到累加器 metric 中。最后，计算并返回累加器中正确预测数与预测总数之比。

函数的输入包括神经网络 net 和数据迭代器 data_iter。输出是神经网络在数据迭代器上的精度。

这里定义一个实用程序类Accumulator，用于对多个变量进行累加。在上面的evaluate_accuracy函数中，我们在Accumulator实例中创建了2个变量，分别用于存储正确预测的数量和预测的总数量。当我们遍历数据集时，两者都将随着时间的推移而累加。

class Accumulator:  #@save
    """在n个变量上累加"""
    def __init__(self, n):
        self.data = [0.0] * n

    def add(self, *args):
        self.data = [a + float(b) for a, b in zip(self.data, args)]

    def reset(self):
        self.data = [0.0] * len(self.data)

    def __getitem__(self, idx):
        return self.data[idx]

这是一个可以在多个变量上累加的辅助类。

该类包含一个列表，其中存储了当前的累加值。它有三个方法：

add: 将给定的值分别与列表中对应位置的值相加，并将结果存回列表。
reset: 将列表中所有值设为 0。
getitem: 返回列表中指定位置的值。

例如，可以使用这个类来跟踪多个统计信息（如精度、召回率、F1 值）。

由于我们使用随机权重初始化net模型，因此该模型的精度应接近于随机猜测。例如在有10个类别情况下的精度为0.1。

evaluate_accuracy(net, test_iter)

输出

0.1045

训练

在这里，我们重构训练过程的实现以使其可重复使用。首先，我们定义一个函数来训练一个迭代周期。请注意，updater是更新模型参数的常用函数，它接受批量大小作为参数。它可以是d2l.sgd函数，也可以是框架的内置优化函数。

def train_epoch_ch3(net, train_iter, loss, updater):  #@save
    """训练模型一个迭代周期（定义见第3章）"""
    # 将模型设置为训练模式
    if isinstance(net, torch.nn.Module):
        net.train()
    # 训练损失总和、训练准确度总和、样本数
    metric = Accumulator(3)
    for X, y in train_iter:
        # 计算梯度并更新参数
        y_hat = net(X)
        l = loss(y_hat, y)
        if isinstance(updater, torch.optim.Optimizer):
            # 使用PyTorch内置的优化器和损失函数
            updater.zero_grad()
            l.mean().backward()
            updater.step()
        else:
            # 使用定制的优化器和损失函数
            l.sum().backward()
            updater(X.shape[0])  # 表示输入数据的 batch size
        metric.add(float(l.sum()), accuracy(y_hat, y), y.numel())
    # 返回训练损失和训练精度
    return metric[0] / metric[2], metric[1] / metric[2]

这段代码定义了一个函数 train_epoch_ch3，用于训练模型一个迭代周期。

首先，判断给定的神经网络是否是 torch.nn.Module 的实例。如果是，将其设置为训练模式。

然后，创建一个累加器 metric，它有三个元素。对数据迭代器中的每个输入数据和标签进行循环。每次循环中，使用神经网络对输入数据进行预测，并计算预测值与标签之间的损失。

然后，判断给定的优化器是否是 PyTorch 内置的优化器。如果是，就使用 PyTorch 内置的优化器来更新神经网络的参数。否则，使用定制的优化器来更新参数。

最后，将计算的损失值、准确率和样本数加到累加器 metric 中。

函数的输入包括神经网络 net、数据迭代器 train_iter、损失函数 loss 和优化器 updater。输出是训练损失和训练准确率。

在展示训练函数的实现之前，我们定义一个在动画中绘制数据的实用程序类Animator，它能够简化本书其余部分的代码。

class Animator:  #@save
    """在动画中绘制数据"""
    def __init__(self, xlabel=None, ylabel=None, legend=None, xlim=None,
                 ylim=None, xscale='linear', yscale='linear',
                 fmts=('-', 'm--', 'g-.', 'r:'), nrows=1, ncols=1,
                 figsize=(3.5, 2.5)):
        # 增量地绘制多条线
        if legend is None:
            legend = []
        d2l.use_svg_display()
        self.fig, self.axes = d2l.plt.subplots(nrows, ncols, figsize=figsize)
        if nrows * ncols == 1:
            self.axes = [self.axes, ]
        # 使用lambda函数捕获参数
        self.config_axes = lambda: d2l.set_axes(
            self.axes[0], xlabel, ylabel, xlim, ylim, xscale, yscale, legend)
        self.X, self.Y, self.fmts = None, None, fmts

    def add(self, x, y):
        # 向图表中添加多个数据点
        if not hasattr(y, "__len__"):
            y = [y]
        n = len(y)
        if not hasattr(x, "__len__"):
            x = [x] * n
        if not self.X:
            self.X = [[] for _ in range(n)]
        if not self.Y:
            self.Y = [[] for _ in range(n)]
        for i, (a, b) in enumerate(zip(x, y)):
            if a is not None and b is not None:
                self.X[i].append(a)
                self.Y[i].append(b)
        self.axes[0].cla()
        for x, y, fmt in zip(self.X, self.Y, self.fmts):
            self.axes[0].plot(x, y, fmt)
        self.config_axes()
        display.display(self.fig)
        display.clear_output(wait=True)

接下来我们实现一个训练函数，它会在train_iter访问到的训练数据集上训练一个模型net。该训练函数将会运行多个迭代周期（由num_epochs指定）。在每个迭代周期结束时，利用test_iter访问到的测试数据集对模型进行评估。我们将利用Animator类来可视化训练进度。

def train_ch3(net, train_iter, test_iter, loss, num_epochs, updater):  #@save
    """训练模型（定义见第3章）"""
    animator = Animator(xlabel='epoch', xlim=[1, num_epochs], ylim=[0.3, 0.9],
                        legend=['train loss', 'train acc', 'test acc'])
    for epoch in range(num_epochs):
        train_metrics = train_epoch_ch3(net, train_iter, loss, updater)
        test_acc = evaluate_accuracy(net, test_iter)
        animator.add(epoch + 1, train_metrics + (test_acc,))
    train_loss, train_acc = train_metrics
    assert train_loss < 0.5, train_loss
    assert train_acc <= 1 and train_acc > 0.7, train_acc
    assert test_acc <= 1 and test_acc > 0.7, test_acc

这段代码定义了一个函数 train_ch3，用于训练模型。输入参数包括神经网络 net、训练数据迭代器 train_iter、测试数据迭代器 test_iter、损失函数 loss、迭代周期数 num_epochs 和优化器 updater。

首先，创建一个 Animator 对象 animator。这个对象用于在训练过程中实时绘制训练损失和训练准确率以及测试准确率的图像。

然后，使用循环迭代 num_epochs 次，每次调用函数 train_epoch_ch3 训练一个迭代周期，并计算测试准确率。每次迭代完成后，将训练损失和训练准确率以及测试准确率的值传递给 Animator 对象的 add 方法，以便在图像中添加数据。

最后，函数 train_ch3 使用三个 assert 语句检查训练损失、训练准确率和测试准确率是否满足预期的要求。这些要求是：训练损失小于 0.5，训练准确率大于 0.7 且小于等于 1，测试准确率大于 0.7 且小于等于 1。如果这些要求满足，则函数会正常结束。如果有任意一个要求不满足，则会抛出 AssertionError 异常，并输出不符合要求的指标的值。

作为一个从零开始的实现，我们使用小批量随机梯度下降来优化模型的损失函数，设置学习率为0.1。

lr = 0.1

def updater(batch_size):
    return d2l.sgd([W, b], lr, batch_size)

现在，我们训练模型10个迭代周期。请注意，迭代周期（num_epochs）和学习率（lr）都是可调节的超参数。通过更改它们的值，我们可以提高模型的分类精度。

num_epochs = 10
train_ch3(net, train_iter, test_iter, cross_entropy, num_epochs, updater)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-r5dE4cWV-1673764739925)(image/image_9_wplYYaxo.png)]

预测

现在训练已经完成，我们的模型已经准备好对图像进行分类预测。给定一系列图像，我们将比较它们的实际标签（文本输出的第一行）和模型预测（文本输出的第二行）。

def predict_ch3(net, test_iter, n=6):  #@save
    """预测标签（定义见第3章）"""
    for X, y in test_iter:
        break
    trues = d2l.get_fashion_mnist_labels(y)
    preds = d2l.get_fashion_mnist_labels(net(X).argmax(axis=1))
    titles = [true +'\n' + pred for true, pred in zip(trues, preds)]
    d2l.show_images(
        X[0:n].reshape((n, 28, 28)), 1, n, titles=titles[0:n])

predict_ch3(net, test_iter)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-VMv5pdEB-1673764739925)(image/image_el_KNzg1fl.png)]

softmax回归的简洁实现

线性回归变得更加容易。同样，通过深度学习框架的高级API也能更方便地实现softmax回归模型。本节如在 3.6节中一样，继续使用Fashion-MNIST数据集，并保持批量大小为256。

from mxnet import gluon, init, npx
from mxnet.gluon import nn
from d2l import mxnet as d2l

npx.set_np()

batch_size = 256
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size)

初始化模型参数

softmax回归的输出层是一个全连接层。因此，为了实现我们的模型，我们只需在Sequential中添加一个带有10个输出的全连接层。同样，在这里Sequential并不是必要的，但它是实现深度模型的基础。我们仍然以均值0和标准差0.01随机初始化权重。

# PyTorch不会隐式地调整输入的形状。因此，
# 我们在线性层前定义了展平层（flatten），来调整网络输入的形状
net = nn.Sequential(nn.Flatten(), nn.Linear(784, 10))

def init_weights(m):
    if type(m) == nn.Linear:
        nn.init.normal_(m.weight, std=0.01)

net.apply(init_weights);

这段代码中，首先定义了一个神经网络 net。这个神经网络是一个序列（Sequential），包含两个层：展平层（Flatten）和线性层（Linear）。

展平层用于将输入数据的形状从（batch_size, channel, height, width）转换为（batch_size, channel_height_width）。这样，线性层才能接受这些输入数据。

接下来定义了一个函数 init_weights，用于初始化模型参数。函数 init_weights 使用 PyTorch 的内置函数 nn.init.normal_ 将线性层的权重初始化为正态分布的随机数。

最后，使用 net 的 apply 方法，将函数 init_weights 应用到每一层的参数上。这样， **net **的每一层的参数都会被初始化。

重新审视Softmax的实现

loss = nn.CrossEntropyLoss(reduction='none')

优化算法

在这里，我们使用学习率为0.1的小批量随机梯度下降作为优化算法。这与我们在线性回归例子中的相同，这说明了优化器的普适性

trainer = torch.optim.SGD(net.parameters(), lr=0.1)

训练

num_epochs = 10
d2l.train_ch3(net, train_iter, test_iter, loss, num_epochs, trainer)

和以前一样，这个算法使结果收敛到一个相当高的精度，而且这次的代码比之前更精简了。

你可能感兴趣的:(动手学深度学习,神经网络,Python深度学习,神经网络,深度学习)

PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
【Qualcomm】高通SNPE框架简介、下载与使用 Jackilina_Stone 人工智能 Qualcomm SNPE
目录一高通SNPE框架1SNPE简介2QNN与SNPE3Capabilities4工作流程二SNPE的安装与使用1下载2Setup3SNPE的使用概述一高通SNPE框架1SNPE简介SNPE（SnapdragonNeuralProcessingEngine），是高通公司推出的面向移动端和物联网设备的深度学习推理框架。SNPE提供了一套完整的深度学习推理框架，能够支持多种深度学习模型，包括Pytor
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
使用NVIDIA NeRF将2D图像转换为逼真的3D模型（Python） ByteWhiz 3d python 计算机视觉 Python
使用NVIDIANeRF将2D图像转换为逼真的3D模型（Python）NeuralRadianceFields（NeRF）是一种强大的方法，可以将2D图像转换为逼真的3D模型。它使用神经网络来建模场景的辐射场，并通过渲染多个视角的图像来重建3D模型。在本文中，我们将使用Python和NVIDIANeRF库来实现这一过程。首先，我们需要安装所需的库。我们可以通过以下命令使用pip安装NVIDIANe
NumPy-@运算符详解 GG不是gg numpy numpy
NumPy-@运算符详解一、@运算符的起源与设计目标1.从数学到代码：符号的统一2.设计目标二、@运算符的核心语法与运算规则1.基础用法：二维矩阵乘法2.一维向量的矩阵语义3.高维数组：批次矩阵运算4.广播机制：灵活的形状匹配三、@运算符与其他乘法方式的核心区别1.对比`np.dot()`2.对比元素级乘法`*`3.对比`np.matrix`的`*`运算符四、典型应用场景：从基础到高阶1.深度学习
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
解决 Python 包安装失败问题：以 accelerate 为例
在使用Python开发项目时，我们经常会遇到依赖包安装失败的问题。今天，我们就以accelerate包为例，详细探讨一下可能的原因以及解决方法。通过这篇文章，你将了解到Python包安装失败的常见原因、如何切换镜像源、如何手动安装包，以及一些实用的注意事项。一、问题背景在开发一个深度学习项目时，我需要安装accelerate包来优化模型的训练过程。然而，当我运行以下命令时：bash复制pipins
图神经网络：挖掘关系数据中的宝藏
图神经网络：挖掘关系数据中的宝藏在浩瀚的数据海洋中，蕴藏着一类特殊而强大的资源——关系数据。它们不是孤立的点，而是相互连接、彼此影响的复杂网络：社交平台上朋友的朋友、电商系统中商品与用户的互动、蛋白质分子内原子的结合、城市交通网中的道路连接……这些数据天然以图的形式存在，节点代表实体，边则承载着实体间千丝万缕的关系。传统的数据挖掘工具面对这些盘根错节的结构往往力不从心，而图神经网络（GNN）的崛起
从RNN循环神经网络到Transformer注意力机制：解析神经网络架构的华丽蜕变熊猫钓鱼>_> 神经网络 rnn transformer
1.引言在自然语言处理和序列建模领域，神经网络架构经历了显著的演变。从早期的循环神经网络（RNN）到现代的Transformer架构，这一演变代表了深度学习方法在处理序列数据方面的重大进步。本文将深入比较这两种架构，分析它们的工作原理、优缺点，并通过实验结果展示它们在实际应用中的性能差异。2.循环神经网络（RNN）2.1基本原理循环神经网络是专门为处理序列数据而设计的神经网络架构。RNN的核心思想
如何使用Python实现交通工具识别
如何使用Python实现交通工具识别文章目录技术架构功能流程识别逻辑用户界面增强特性依赖项主要类别内容展示该系统是一个基于深度学习的交通工具识别工具，具备以下核心功能与特点：技术架构使用预训练的ResNet50卷积神经网络模型（来自ImageNet数据集）集成图像增强预处理技术（随机裁剪、旋转、翻转等）采用多数投票机制提升预测稳定性基于置信度评分的结果筛选策略功能流程用户通过GUI界面选择待识别图
【EGSR2025】材质+扩散模型+神经网络相关论文整理随笔（四） Superstarimage 文献随笔材质神经网络人工智能扩散模型
AnevaluationofSVBRDFPredictionfromGenerativeImageModelsforAppearanceModelingof3DScenes输入3D场景的几何和一张参考图像，通过扩散模型和SVBRDF预测器获取多视角的材质maps，这些maps最终合并成场景的纹理地图集，并支持在任意视角、任意光照条件下进行重新渲染。样例图如下：在当前时代的技术背景下，生成与几何匹配
Python OpenCV教程从入门到精通的全面指南【文末送书】一键难忘 python opencv 开发语言
文章目录PythonOpenCV从入门到精通1.安装OpenCV2.基本操作2.1读取和显示图像2.2图像基本操作3.图像处理3.1图像转换3.2图像阈值处理3.3图像平滑4.边缘检测和轮廓4.1Canny边缘检测4.2轮廓检测5.高级操作5.1特征检测5.2目标跟踪5.3深度学习与OpenCVPythonOpenCV从入门到精通【文末送书】PythonOpenCV从入门到精通OpenCV(Ope
CNN 猫狗识别：从理论到实战的深度解析爱熬夜的小古 cnn 深度学习人工智能
在计算机视觉领域，卷积神经网络（ConvolutionalNeuralNetwork，CNN）凭借其强大的特征提取和模式识别能力，成为图像分类任务的主流技术。猫狗识别作为经典的图像分类问题，不仅能帮助我们理解CNN的工作原理，还能为实际应用提供技术支持。本文将深入探讨CNN在猫狗识别中的应用，从理论基础到实战代码，带你全面掌握这项技术。一、CNN基础理论概述（一）CNN的核心组件卷积层：是CNN的
第八周 tensorflow实现猫狗识别降花绘 365天深度学习 tensorflow系列 tensorflow 深度学习人工智能
本文为365天深度学习训练营内部限免文章（版权归K同学啊所有）**参考文章地址：[TensorFlow入门实战｜365天深度学习训练营-第8周：猫狗识别（训练营内部成员可读）]**作者：K同学啊文章目录一、本周学习内容:1、自己搭建VGG16网络2、了解model.train_on_batch（）3、了解tqdm，并使用tqdm实现可视化进度条二、前言三、电脑环境四、前期准备1、导入相关依赖项2、
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路一、医疗领域：AI驱动的精准诊疗与效率提升1.医学影像诊断AI算法通过深度学习技术，已实现对X光、CT、MRI等影像的快速分析，辅助医生检测癌症、骨折等疾病。例如，GoogleDeepMind的AI系统在乳腺癌筛查中，误检率比人类专家低9.4%；中国的推想医疗AI系统可在20秒内完成肺部CT扫描分析，为急诊救治争取黄金时间。2.药物研发传统药
专题：2025云计算与AI技术研究趋势报告|附200+份报告PDF、原数据表汇总下载
原文链接：https://tecdat.cn/?p=42935关键词：2025,云计算，AI技术，市场趋势，深度学习，公有云，研究报告云计算和AI技术正以肉眼可见的速度重塑商业世界。过去十年，全球云服务收入激增8倍，中国云计算市场规模突破6000亿元，而深度学习算法的应用量更是暴涨400倍。这些数字背后，是企业从“自建机房”到“云原生开发”的转型，是AI从“实验室”走向“产业级应用”的跨越。本报告
【深度学习解惑】在实践中如何发现和修正RNN训练过程中的数值不稳定？云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习 rnn 人工智能 tensorflow pytorch 神经网络机器学习
在实践中发现和修正RNN训练过程中的数值不稳定目录引言与背景介绍原理解释代码说明与实现应用场景与案例分析实验设计与结果分析性能分析与技术对比常见问题与解决方案创新性与差异性说明局限性与挑战未来建议和进一步研究扩展阅读与资源推荐图示与交互性内容语言风格与通俗化表达互动交流1.引言与背景介绍循环神经网络(RNN)在处理序列数据时表现出色，但训练过程中常面临梯度消失和梯度爆炸问题，导致数值不稳定。当网络
【深度学习实战】当前三个最佳图像分类模型的代码详解云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习人工智能分类模型机器学习 Transformer EfficientNet ConvNeXt
下面给出三个在当前图像分类任务中精度表现突出的模型示例，分别基于SwinTransformer、EfficientNet与ConvNeXt。每个模型均包含：训练代码（使用PyTorch）从预训练权重开始微调（也可注释掉预训练选项，从头训练）数据集目录结构：└──dataset_root├──buy#第一类图像└──nobuy#第二类图像随机拆分：80%训练，20%验证每个Epoch输出一次loss
第35周—————糖尿病预测模型优化探索
目录目录前言1.检查GPU2.查看数据编辑3.划分数据集4.创建模型与编译训练5.编译及训练模型6.结果可视化7.总结前言本文为365天深度学习训练营中的学习记录博客原作者：K同学啊1.检查GPUimporttorch.nnasnnimporttorch.nn.functionalasFimporttorchvision,torch#设置硬件设备，如果有GPU则使用，没有则使用cpudevice=
《从依赖纠缠到接口协作：ASP.NET Core注入式开发指南》后端
在C#的ASP.NETCore开发中，依赖注入绝非简单的技术技巧，而是重构代码关系的底层逻辑。它像一套隐形的神经网络，让程序模块摆脱硬编码的束缚，在运行时实现动态连接，从而为系统注入可测试、可进化的核心生命力。理解其深层价值，需要穿透"服务注册与获取"的表层操作，触及它对软件设计哲学的重塑。依赖注入的本质，是对"依赖关系"的去中心化治理。传统开发中，模块间的依赖如同藤蔓缠绕的树木，一个组件直接创建
深度学习预备知识 AmazingMQ 深度学习人工智能
1.Tensor张量定义：张量（tensor）表示一个由数值组成的数组，这个数组可能有多个维度（轴）。具有一个轴的张量对应数学上的向量，具有两个轴的张量对应数学上的矩阵，具有两个以上轴的张量目前没有特定的数学名称。importtorch#arange创建一个行向量x，这个行向量包含以0开始的前12个整数。x=torch.arange(12)print("x=",x)#x=tensor([0,1,2
根茎式装配体（RA）作为下一代协同智能范式的理论、架构与应用由数入道人工智能思维框架软件工程智能体
一、引言——范式危机与新大陆的召唤1.1表征主义的黄昏：当前AI协同范式的认知天花板自艾伦·图灵在《计算机器与智能》中播下思想的种子以来，人工智能的漫长征途始终被一个强大而内隐的哲学范式所笼罩——我们称之为“表征主义”（Representationism）。这一范式，无论其外在形态如何演变，从早期的符号逻辑、专家系统，到如今风靡全球的深度学习神经网络，其核心信念从未动摇：智能的核心，在于构建一个关
【零基础学AI】第36讲：GPT模型原理 1989 0基础学AI 人工智能 gpt lstm rnn YOLO 目标检测
本节课你将学到理解GPT模型的基本原理掌握Transformer解码器的工作机制实现一个简单的文本生成应用开始之前环境要求Python3.8+安装包：pipinstalltransformerstorch硬件：CPU即可运行（GPU可加速）前置知识了解基本的神经网络概念（第23讲内容）熟悉Python编程基础核心概念什么是GPT？GPT（GenerativePre-trainedTransform
【零基础学AI】第31讲：目标检测 - YOLO算法 1989 0基础学AI 人工智能目标检测 YOLO rnn lstm tensorflow
本节课你将学到YOLO算法的核心思想和工作原理如何使用YOLO进行物体检测构建一个简单的物体检测系统开始之前环境要求Python3.8+需要安装的包：opencv-python,numpy,matplotlib硬件要求：推荐使用GPU（非必须）前置知识基本Python编程能力了解卷积神经网络（CNN）的基本概念（第24讲内容）核心概念什么是目标检测？目标检测就像教计算机"看"图片中的物体。它不仅要
Manus AI与多语言手写识别
ManusAI与多语言手写识别背景与概述手写识别技术的发展现状与挑战ManusAI的核心技术与应用场景多语言手写识别的市场需求与难点ManusAI的技术架构深度学习在手写识别中的应用多语言支持的模型设计数据预处理与特征提取方法多语言手写识别的关键挑战不同语言字符的多样性处理上下文语义与书写风格适应性低资源语言的训练数据获取解决方案与优化策略迁移学习在多语言任务中的应用端到端模型的优化与轻量化用户反
基于LIDC-IDRI肺结节肺癌数据集的人工智能深度学习分类良性和恶性肺癌（Python 全代码）全流程解析（二）
基于LIDC-IDRI肺结节肺癌数据集的人工智能深度学习分类良性和恶性肺癌（Python全代码）全流程解析（二）1环境配置和数据集预处理1.1环境配置1.1数据集预处理2深度学习模型训练和评估2.1深度学习模型训练2.1深度学习模型评估笑话一则开心一下喽完整代码如下：模型文件如下深度学习模型讲解---待续第一部分内容的传送门第三部分传送门1环境配置和数据集预处理1.1环境配置环境配置建议使用ana
深度学习交互式图像分割技术演进与突破 wang1776866571 深度学习交互式分割深度学习人工智能交互式分割
说明本文为作者读研期间基于交互式图像分割领域公开文献的系统梳理与个人理解总结，所有内容均为原创撰写（ai辅助创作），未直接复制或抄袭他人成果。文中涉及的算法、模型及实验结论均参考自领域内公开发表的学术论文（具体文献见文末参考文献列表）。本文旨在为交互式图像分割领域的学习者提供一份结构化的综述参考，内容涵盖技术演进、核心方法、关键技术优化及应用前景，希望能为相关研究提供启发。摘要：本文系统综述了基于
log4j对象改变日志级别 3213213333332132 java log4j level log4j对象名称日志级别
log4j对象改变日志级别可批量的改变所有级别，或是根据条件改变日志级别。 log4j配置文件： log4j.rootLogger=ERROR,FILE,CONSOLE,EXECPTION #log4j.appender.FILE=org.apache.log4j.RollingFileAppender log4j.appender.FILE=org.apache.l
elk+redis 搭建nginx日志分析平台 ronin47 elasticsearch kibana logstash
elk+redis 搭建nginx日志分析平台 logstash,elasticsearch,kibana 怎么进行nginx的日志分析呢？首先，架构方面，nginx是有日志文件的，它的每个请求的状态等都有日志文件进行记录。其次，需要有个队列，redis的l
Yii2设置时区 dcj3sjt126com PHP timezone yii2
时区这东西，在开发的时候，你说重要吧，也还好，毕竟没它也能正常运行，你说不重要吧，那就纠结了。特别是linux系统，都TMD差上几小时，你能不痛苦吗？win还好一点。有一些常规方法，是大家目前都在采用的1、php.ini中的设置，这个就不谈了，2、程序中公用文件里设置，date_default_timezone_set一下时区3、或者。。。自己写时间处理函数，在遇到时间的时候，用这个函数处理（比较
js实现前台动态添加文本框，后台获取文本框内容 171815164 文本框
<%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://w
持续集成工具 g21121 持续集成
持续集成是什么？我们为什么需要持续集成？持续集成带来的好处是什么？什么样的项目需要持续集成？... 持续集成(Continuous integration ,简称CI)，所谓集成可以理解为将互相依赖的工程或模块合并成一个能单独运行
数据结构哈希表(hash)总结永夜-极光数据结构
1.什么是hash 来源于百度百科: Hash，一般翻译做“散列”，也有直接音译为“哈希”的，就是把任意长度的输入，通过散列算法，变换成固定长度的输出，该输出就是散列值。这种转换是一种压缩映射，也就是，散列值的空间通常远小于输入的空间，不同的输入可能会散列成相同的输出，所以不可能从散列值来唯一的确定输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。
乱七八糟程序员是怎么炼成的
eclipse中的jvm字节码查看插件地址： http://andrei.gmxhome.de/eclipse/ 安装该地址的outline 插件后重启，打开window下的view下的bytecode视图 http://andrei.gmxhome.de/eclipse/ jvm博客： http://yunshen0909.iteye.com/blog/2
职场人伤害了“上司” 怎样弥补 aijuans 职场
由于工作中的失误，或者平时不注意自己的言行“伤害”、“得罪”了自己的上司，怎么办呢？　　在职业生涯中这种问题尽量不要发生。下面提供了一些解决问题的建议：　　一、利用一些轻松的场合表示对他的尊重　　即使是开明的上司也很注重自己的权威，都希望得到下属的尊重，所以当你与上司冲突后，最好让不愉快成为过去，你不妨在一些轻松的场合，比如会餐、联谊活动等，向上司问个好，敬下酒，表示你对对方的尊重，
深入浅出url编码 antonyup_2006 应用服务器浏览器 servlet weblogic IE
出处：http://blog.csdn.net/yzhz 杨争 http://blog.csdn.net/yzhz/archive/2007/07/03/1676796.aspx 一、问题：编码问题是JAVA初学者在web开发过程中经常会遇到问题，网上也有大量相关的
建表后创建表的约束关系和增加表的字段百合不是茶标的约束关系增加表的字段
下面所有的操作都是在表建立后操作的,主要目的就是熟悉sql的约束,约束语句的万能公式 1,增加字段(student表中增加姓名字段) alter table 增加字段的表名 add 增加的字段名增加字段的数据类型 alter table student add name varchar2(10); &nb
Uploadify 3.2 参数属性、事件、方法函数详解 bijian1013 JavaScript uploadify
一.属性属性名称默认值说明 auto true 设置为true当选择文件后就直接上传了，为false需要点击上传按钮才上传。 buttonClass ” 按钮样式 buttonCursor ‘hand’ 鼠标指针悬停在按钮上的样子 buttonImage null 浏览按钮的图片的路
精通Oracle10编程SQL(16)使用LOB对象 bijian1013 oracle 数据库 plsql
/* *使用LOB对象 */ --LOB(Large Object)是专门用于处理大对象的一种数据类型，其所存放的数据长度可以达到4G字节 --CLOB/NCLOB用于存储大批量字符数据，BLOB用于存储大批量二进制数据，而BFILE则存储着指向OS文件的指针 /* *综合实例 */ --建立表空间 --#指定区尺寸为128k,如不指定，区尺寸默认为64k CR
【Resin一】Resin服务器部署web应用 bit1129 resin
工作中，在Resin服务器上部署web应用，通常有如下三种方式：配置多个web-app 配置多个http id 为每个应用配置一个propeties、xml以及sh脚本文件配置多个web-app 在resin.xml中,可以为一个host配置多个web-app <cluster id="app&q
red5简介及基础知识白糖_ 基础
简介 Red5的主要功能和Macromedia公司的FMS类似，提供基于Flash的流媒体服务的一款基于Java的开源流媒体服务器。它由Java语言编写，使用RTMP作为流媒体传输协议，这与FMS完全兼容。它具有流化FLV、MP3文件，实时录制客户端流为FLV文件，共享对象，实时视频播放、Remoting等功能。用Red5替换FMS后,客户端不用更改可正
angular.fromJson boyitech AngularJS AngularJS 官方API AngularJS API
angular.fromJson 描述: 把Json字符串转为对象使用方法: angular.fromJson(json); 参数详解: Param Type Details json string JSON 字符串返回值: 对象, 数组, 字符串或者是一个数字示例: <!DOCTYPE HTML> <h
java-颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I bylijinnan java
public class ReverseWords { /** * 题目：颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I.词以空格分隔。 * 要求： * 1.实现速度最快,移动最少 * 2.不能使用String的方法如split,indexOf等等。 * 解答：两次翻转。 */ publ
web实时通讯 Chen.H Web 浏览器 socket 脚本
关于web实时通讯，做一些监控软件。由web服务器组件从消息服务器订阅实时数据，并建立消息服务器到所述web服务器之间的连接，web浏览器利用从所述web服务器下载到web页面的客户端代理与web服务器组件之间的socket连接，建立web浏览器与web服务器之间的持久连接；利用所述客户端代理与web浏览器页面之间的信息交互实现页面本地更新，建立一条从消息服务器到web浏览器页面之间的消息通路
[基因与生物]远古生物的基因可以嫁接到现代生物基因组中吗? comsci 生物
大家仅仅把我说的事情当作一个IT行业的笑话来听吧..没有其它更多的意思如果我们把大自然看成是一位伟大的程序员,专门为地球上的生态系统编制基因代码,并创造出各种不同的生物来,那么6500万年前的程序员开发的代码,是否兼容现代派的程序员的代码和架构呢?
oracle 外部表 daizj oracle 外部表 external tables
oracle外部表是只允许只读访问，不能进行DML操作，不能创建索引，可以对外部表进行的查询，连接，排序，创建视图和创建同义词操作。 you can select, join, or sort external table data. You can also create views and synonyms for external tables. Ho
aop相关的概念及配置 daysinsun AOP
切面(Aspect): 通常在目标方法执行前后需要执行的方法（如事务、日志、权限），这些方法我们封装到一个类里面，这个类就叫切面。连接点（joinpoint） spring里面的连接点指需要切入的方法，通常这个joinpoint可以作为一个参数传入到切面的方法里面（非常有用的一个东西）。通知（Advice）通知就是切面里面方法的具体实现，分为前置、后置、最终、异常环
初一上学期难记忆单词背诵第二课 dcj3sjt126com english word
middle 中间的，中级的 well 喔，那么；好吧 phone 电话，电话机 policeman 警察 ask 问 take 拿到；带到 address 地址 glad 高兴的，乐意的 why 为什么 China 中国 family 家庭 grandmother (外)祖母 grandfather (外)祖父 wife 妻子 husband 丈夫 da
Linux日志分析常用命令 dcj3sjt126com linux log
1.查看文件内容 cat -n 显示行号 2.分页显示 more Enter 显示下一行空格显示下一页 F 显示下一屏 B 显示上一屏 less /get 查询"get"字符串并高亮显示 3.显示文件尾 tail -f 不退出持续显示 -n 显示文件最后n行 4.显示头文件 head -n 显示文件开始n行 5.内容排序 sort -n 按照
JSONP 原理分析 fantasy2005 JavaScript jsonp jsonp 跨域
转自 http://www.nowamagic.net/librarys/veda/detail/224 JavaScript是一种在Web开发中经常使用的前端动态脚本技术。在JavaScript中，有一个很重要的安全性限制，被称为“Same-Origin Policy”（同源策略）。这一策略对于JavaScript代码能够访问的页面内容做了很重要的限制，即JavaScript只能访问与包含它的
使用connect by进行级联查询 234390216 oracle 查询父子 Connect by 级联
使用connect by进行级联查询 connect by可以用于级联查询，常用于对具有树状结构的记录查询某一节点的所有子孙节点或所有祖辈节点。来看一个示例，现假设我们拥有一个菜单表t_menu，其中只有三个字段：
一个不错的能将HTML表格导出为excel,pdf等的jquery插件 jackyrong jquery插件
发现一个老外写的不错的jquery插件，可以实现将HTML 表格导出为excel,pdf等格式，地址在： https://github.com/kayalshri/ 下面看个例子，实现导出表格到excel,pdf <html> <head> <title>Export html table to excel an
UI设计中我们为什么需要设计动效 lampcy UI UI设计
关于Unity3D中的Shader的知识首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，
如何禁止页面缓存 nannan408 html jsp cache
禁止页面使用缓存~ ------------------------------------------------ jsp:页面no cache： response.setHeader("Pragma","No-cache"); response.setHeader("Cache-Control","no-cach
以代码的方式管理quartz定时任务的暂停、重启、删除、添加等 Everyday都不同定时任务管理 spring-quartz
【前言】在项目的管理功能中，对定时任务的管理有时会很常见。因为我们不能指望只在配置文件中配置好定时任务就行了，因为如果要控制定时任务的 “暂停” 呢？暂停之后又要在某个时间点 “重启” 该定时任务呢？或者说直接 “删除” 该定时任务呢？要改变某定时任务的触发时间呢？ “添加” 一个定时任务对于系统的使用者而言，是不太现实的，因为一个定时任务的处理逻辑他是不
EXT实例 tntxia ext
（1）增加一个按钮 JSP: <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); Stri
数学学习在计算机研究领域的作用和重要性 xjnine Math
最近一直有师弟师妹和朋友问我数学和研究的关系，研一要去学什么数学课。毕竟在清华，衡量一个研究生最重要的指标之一就是paper,而没有数学，是肯定上不了世界顶级的期刊和会议的，这在计算机学界尤其重要！你会发现，不论哪个领域有价值的东西，都一定离不开数学！在这样一个信息时代，当google已经让世界没有秘密的时候，一种卓越的数学思维，绝对可以成为你的核心竞争力. 无奈本人实在见地

4.线性神经网络

4.线性神经网络

目录

线性回归

线性回归的基本元素

线性模型

损失函数

解析解

随机梯度下降

矢量化加速

正态分布与平方损失

优化方法

梯度下降

选择学习率

小批量随机梯度下降

选择批量大小

总结

线性回归的从零开始实现

生成数据集

读取数据集

初始化模型参数

定义模型

定义损失函数

定义优化算法

训练

线性回归的简介实现

生成数据集

读取数据集

定义模型

初始化模型参数

定义损失函数

定义优化函数

训练

softmax回归

分类问题

网络架构

softmax运算

小批量样本的矢量化

损失函数

L2 Loss均方损失函数

L1 Loss绝对值损失函数

Huber’s Robust Loss鲁棒损失函数

对数似然

softmax及其导数

模型的预测和评估

图像分类数据集

读取数据集

读取小批量

整合所有组件

softmax回归的从零开始实现

初始化模型参数

定义softmax操作

定义模型

定义损失函数

分类精度

训练

预测

softmax回归的简洁实现

初始化模型参数

重新审视Softmax的实现

优化算法

训练

你可能感兴趣的:(动手学深度学习,神经网络,Python深度学习,神经网络,深度学习)