云端FFF

经典机器学习方法（2）—— Softmax 回归

参考：动手学深度学习
注：本文是 jupyter notebook 文档转换而来，部分代码可能无法直接复制运行！

前文介绍的经典机器学习方法（1）—— 线性回归适用于连续值预测问题（回归问题），本文介绍适用于离散值预测（分类问题）的 softmax 回归模型，这是一种基于神经网络的经典分类模型
softmax 回归和线性回归内部一样是线性模型，区别在于
1. softmax 回归的输出从一个变成了多个
2. softmax 回归中引入了 softmax 运算，使其更适合于离散值的预测和训练

文章目录

1. softmax 回归原理
- 1.1 分类问题
- 1.2 softmax 回归模型
- - 1.2.1 单样本分类的矢量计算表达式
  - 1.2.2 mini-batch 样本分类的矢量计算表达式
- 1.3 交叉熵损失函数
- 1.4 模型预测与评价
2. 实现 softmax 回归
- 2.1 数据准备
- 2.2 模型设计
- 2.3 模型评价
- 2.4 模型训练
- - 2.4.1 优化算法
  - 2.4.2 训练流程
- 2.5 使用模型进行预测
- 2.6 完整代码
3. 利用 Pytorch 简洁地实现 softmax 回归
- 3.1 模型设计
- - 3.1.2 模型定义
  - 3.1.2 模型初始化
  - 3.1.3 softmax 和交叉熵损失函数
- 3.2 模型训练
- - 3.2.1 优化器
  - 3.2.2 训练流程
- 3.3 完整代码

1. softmax 回归原理

1.1 分类问题

考虑以下简单的分类问题
1. 输入： $2\times 2$ 尺寸的图像 $\pmb{x}$ ，四个像素记为 $x_1,x_2,x_3,x_4$
2. 输出：预测标记 $\in\mathcal{Y}$ ，其中 $\mathcal{Y} = \{y_1,y_2,y_3\}$ 是大小为 3 的输出空间。我们习惯使用离散的数值来表示类别，比如将其处理为 $y_1=1，y_2=2,y_3=3$ ，这样需要输出 1，2，3 这三个数字中的一个
如果向上面那样简单地使用数值化的标记，仍然可以使用回归模型来处理，将预测值就近离散化到 1、2、3 这三个值即可。但是有两个问题
1. 数值化标记有距离关系，1 和 2 比较接近，1 和 3 比较远，但事实上没有这种关系
2. 连续值到离散值的转化通常会影响分类质量
所以一般采用专门针对离散值输出的分类模型来解决分类问题，做两个变化
1. 样本标记使用 one-hot 向量形式
2. 模型输出加一个 softmax 函数，得到概率性的综合 one-hot 预测值

1.2 softmax 回归模型

softmax 回归模型内部和线性回归模型几乎一致，也是一个简单的单层全连接神经网络，只是在输出层增加了节点，以获得 $|\mathcal{Y}|$ 个输出（构成 one-hot 向量），以 1.1 节的 4 维输入（特征维度为4） 3 维输出（类别总数为3）为例

其中每个输出层节点都是输入的线性组合，即
$\begin{aligned} &o_1 = x_1w_{11}+x_2w_{21}+x_3w_{31}+x_4w_{41} + b_1\\ &o_2 = x_1w_{12}+x_2w_{22}+x_3w_{32}+x_4w_{42} + b_2\\ &o_3 = x_1w_{13}+x_2w_{23}+x_3w_{33}+x_4w_{43} + b_3\\ \end{aligned}$
为了得到离散的 one-hot 形式的预测输出，把输出值 $o_i$ 看作置信度，输出越大的节点，对应的标记越可能是真实标签。使用 softmax 运算将其输出值转换为正且和为 1 的概率分布，即
$\hat{y}_1,\hat{y}_2,\hat{y}_3 = \text{softmax}(o_1,o_2,o_3)$ 其中 $\hat{y}_i$ 是如下计算的
$\hat{y}_i = \frac{\exp(o_i)}{\sum_j \exp(o_j)}$ 考察 softmax 操作的性质
1. $\arg\max_i o_i = \arg\max_i \hat{y}_i$ ，因此 softmax 运算不改变预测类别输出
2. 由于进行了 $\text{exp}$ 变换，softmax 会使数值之间的相对差距放大
3. softmax 操作不改变向量尺寸，输出的 $[\hat{y}_1,\hat{y}_2,\hat{y}_3]^\top$ 即为预测 one-hot 向量
softmax 模块示意图如下
考虑二分类问题的特殊情况，这时输出只有两个，设两组参数为 $\pmb{w_1},b_1$ 和 $\pmb{w_2},b_2$ ，给定样本 $\pmb{x}$ ，输出 $o_1$ 为
$\begin{aligned} o_1 &= \frac{\text{exp}(\pmb{w}_1^\top\pmb{x}+b_1)}{\text{exp}(\pmb{w}_1^\top\pmb{x}+b_1)+\text{exp}(\pmb{w}_2^\top\pmb{x}+b_2)} \\ &= \frac{1}{1+\text{exp}((\pmb{w}_2-\pmb{w}_1)^\top\pmb{x}+(b_2-b_1))} \end{aligned}$ 可见变成了 sigmoid 函数的形式，也就是说：对于二分类问题，softmax 回归等价于 logistic 回归（逻辑回归/对数几率回归）

1.2.1 单样本分类的矢量计算表达式

为了提升运算效率，将上述运算都改成矩阵形式，
1. softmax 回归的权重和偏置参数为
  $\pmb{W} = \begin{bmatrix} w_{11} & w_{12} & w_{13} \\ w_{21} & w_{22} & w_{23} \\ w_{31} &w_{32} & w_{33} \\ w_{41} &w_{42} & w_{43} \\ \end{bmatrix}\space\space\space \pmb{b} = [b_1,b_2,b_3]$
2. 第 $i$ 个样本特征为
  $\pmb{x}^{(i)}_{1\times 4} = [x_1^{(i)},x_2^{(i)},x_3^{(i)},x_4^{(i)}]$
3. 输出层输出为
  $\pmb{o}^{(i)}_{1\times 3} = [o_1^{(i)},o_2^{(i)},o_3^{(i)}]$
4. 预测概率分布为
  $\pmb{\hat{y}}^{(i)}_{1\times 3} = [\pmb{\hat{y}}_1^{(i)},\pmb{\hat{y}}_2^{(i)},\pmb{\hat{y}}_3^{(i)}]$
5. 通常把预测概率最大的类别作为预测类别
  $\hat{y} = \arg\max_{j}\pmb{\hat{y}}_j^{(i)}$ 注意我们习惯使用离散的数值来表示类别，比如将其处理为 $y_1=1，y_2=2,y_3=3$ ，这样需要输出 1，2，3 这三个数字中的一个
6. softmax 回归对样本 $\pmb{x}^{(i)}$ 进行的运算为
  $\begin{aligned} &\pmb{o}^{(i)}_{1\times 3} = \pmb{x}^{(i)}_{1\times 4}\pmb{W}_{4\times 3} +\pmb{b}_{1\times 3} \\ &\pmb{\hat{y}}^{(i)}_{1\times 3} = \text{softmax}(\pmb{o}^{(i)}_{1\times 3}) \end{aligned}$

1.2.2 mini-batch 样本分类的矢量计算表达式

为了进一步提升计算效率，结合常用的 mini-batch 梯度下降优化算法，我们常常对小批量数据做矢量运算。设一个小批量样本批量大小为 $n$ ，输入特征个数为 $d$ ，输出个数（类别数为） $q$ ，则
1. 批量样本特征为 $\pmb{X}\in\mathbb{R}^{n\times d}$
2. 权重参数为 $\pmb{W} \in\mathbb{R}^{d\times q}$
3. 偏置参数为 $\pmb{b}\in\mathbb{R}^{1\times q}$
矢量计算表达式为
$\begin{aligned} &\pmb{O}_{n\times q} = \pmb{X}_{n\times d}\pmb{W}_{d\times q}+\pmb{b}_{1\times q}\\ &\pmb{\hat{Y}}_{n\times q} = \text{softmax}(\pmb{O}_{n\times q}) \end{aligned}$ 其中加法使用了广播机制， $\pmb{O},\hat{\pmb{Y}}\in\mathbb{R}^{n\times q}$ 且其中第 $i$ 行分别为样本 $i$ 的输出 $\pmb{o}^{(i)}$ 和概率分布 $\pmb{\hat{y}}^{(i)}$

1.3 交叉熵损失函数

对于某个样本 $\pmb{x}_i$ ，上面我们利用 softmax 运算得到看其预测标记分布 $\pmb{\hat{y}}^{(i)}$ 。另一方面，此样本的真实标记也可以用一个输出空间上的分布 $\pmb{y}^{(i)}$ 来表示

比如样本只有一个标记时，可以构造一个 one-hot 向量 $\pmb{y}^{(i)}\in\mathbb{R}^q$ ，使其真实标记对应的向量元素设为 1，其他设为 0，从而将真实标记转换为一个输出空间上的分布

这样我们的训练目标可以设为使预测概率分布 $\pmb{\hat{y}}^{(i)}$ 尽量接近真实概率分布 $\pmb{y}^{(i)}$
这里不适合使用线性回归的平方损失（MSE 损失） $||\hat{\pmb{y}}^{(i)}-\pmb{y}^{(i)}||^2/2$ ，因为想得到正确的预测分类结果，只要保证真实类别的预测概率最大即可，平方损失函数要求所有可能类别的预测概率和真实概率都相等，这过于严格

假设真实标记是 $\pmb{\hat{y}}^{(i)}_3$ ，当 $\pmb{\hat{y}}^{(i)}_3$ 预测值为 0.6 时即可以保证一定预测正确，如果用平方损失，这时 $\pmb{\hat{y}}^{(i)}_1=\pmb{\hat{y}}^{(i)}_2=0.2$ 比 $\pmb{\hat{y}}^{(i)}_1=0$ , $\pmb{\hat{y}}^{(i)}_2=0.4$ 的损失小很多，尽管二者有同样的分类结果

下面引用一个李宏毅机器学习课程中的例子，左图和右图分别显示使用 MSE 损失和 Cross-entropy 损失导致的 error surface，可见使用交叉熵时梯度比较陡峭，利于做优化；而 MSE 导致的梯度有很大的平坦区域，优化过程很可能卡住（可能必须要用 Adam 等高级的优化方案）

关于这个问题其实还有不少可讲的，请参考：分类问题为什么用交叉熵损失不用 MSE 损失
我们可以使用衡量两个分布间差异的测量函数作为损失，交叉熵（cross entropy）是一个常用的选择，它将分布 $\pmb{y}^{(i)}$ 和 $\hat{\pmb{y}}^{(i)}$ 的差距表示为
$H(\pmb{y}^{(i)},\hat{\pmb{y}}^{(i)}) = -\sum_{j=1}^q y_j^{(i)}\log\hat{y}_j^{(i)}$ 注意其中 $y_j^{(i)}$ 是真实标记分布 $\pmb{y}^{(i)}$ 中非零即一的元素，样本真实标记为 $y^{(i)}$ ，因此 $\pmb{y}^{(i)}$ 中只有 $y^{(i)}_{y^{(i)}}=1$ ，其他全为 0，因此上述交叉熵可以化简为

$H(\pmb{y}^{(i)},\hat{\pmb{y}}^{(i)}) = -\log\hat{y}_{y^{(i)}}^{(i)}$ 可见最小化交叉熵损失等价于最大化对正确类别的预测概率，它只关心对正确类别的预测概率，这是合理的，因为只要其值足够大就能保证分类正确

当遇到一个多标签样本时，例如图像中含有不止一个物体时，不能做这样的简化，但是这种情况下交叉熵损失也仅仅关心图像中出现的物体类别的预测概率
假设训练数据样本量为 $n$ ，交叉熵损失函数定义为
$\mathscr{l}(\Theta) = \frac{1}{n}\sum_{i=1}^n H(\pmb{y}^{(i)},\hat{\pmb{y}}^{(i)})$ 其中 $\Theta$ 是模型参数，如果每个样本只有一个标签，则上述损失可以化简为
$\mathscr{l}(\Theta) = \frac{1}{n}\sum_{i=1}^n -\log\hat{y}_{y^{(i)}}^{(i)}$ 最小化 $\mathscr{l}(\Theta)$ 等价于最大化 $\exp(-n\mathscr{l}(\Theta)) = \prod_{i=1}^n \hat{y}_{y^{(i)}}^{(i)}$ ，即最小化交叉熵损失函数等价于最大化训练数据集所有标签类别的联合预测概率

1.4 模型预测与评价

训练好 softmax 回归模型后，给定任一样本特征，就可以预测每个输出类别的概率
通常把预测概率最大的类别作为输出类别，如果它与真实类别（标签）一致，说明这次预测是正确
对于分类问题，可以使用 准确率accuracy 来评价模型的表现，它等于正确预测数量与总预测数量之比

2. 实现 softmax 回归

2.1 数据准备

使用 Fashion-MNIST 图像分类数据集进行试验，该数据集可以使用 torchvision.datasets 方便地获取和使用，具体请参考：在 pytorch 中加载和使用图像分类数据集 Fashion-MNIST

先定义好读取小批量数据的方法，构造数据读取迭代器

import torch
import torchvision
import torchvision.transforms as transforms
import numpy as np

def load_data_fashion_mnist(batch_size, num_workers=0, root='./Datasets/FashionMNIST'):
    mnist_train = torchvision.datasets.FashionMNIST(root=root, train=True, download=True,transform=transforms.ToTensor())
    mnist_test = torchvision.datasets.FashionMNIST(root=root, train=False, download=True,transform=transforms.ToTensor())

    train_iter = torch.utils.data.DataLoader(mnist_train, batch_size=batch_size, shuffle=True, num_workers=num_workers)
    test_iter = torch.utils.data.DataLoader(mnist_test, batch_size=batch_size, shuffle=False, num_workers=num_workers)

    return train_iter, test_iter

# 数据读取迭代器
batch_size = 256
train_iter, test_iter = load_data_fashion_mnist(batch_size, 4)

2.2 模型设计

模型参数初始化：输入图像样本尺寸均为 28x28，拉平后输入向量长度为 $28\times 28 = 784$ ；由于图像有 10 个类别，输出层输出向量尺寸为 10，因此权重参数尺寸为 $\pmb{W}_{728\times 10}$ ，偏置参数尺寸为 $\pmb{b}_{1\times 10}$ ，如下初始化
1. $w_{ij}\sim N(0,0.01^2),\space i=1,2,...,728;j=1,2,...,10$
2. $b_i=0,\space i=1,2,...,10$
注意设置属性 requires_grad = True，这样在后续训练过程中才能对这些参数求梯度并迭代更新参数值
```
# 初始化模型参数
num_inputs = 28*28   # 图像尺寸28x28，拉平后向量长度为 28*28
num_outputs = 10     # 10个类别

W = torch.tensor(np.random.normal(0, 0.01, (num_inputs, num_outputs)), dtype=torch.float, requires_grad=True) 
b = torch.zeros(num_outputs, dtype=torch.float, requires_grad=True)
```

实现 softmax 运算：下面实参 O 是行数为样本数，列数为输出个数的矩阵，即 $\pmb{O}_{n\times 10} = \pmb{X}_{n\times 728}\pmb{W}_{728\times 10}+\pmb{b}_{1\times 10}$ （最后加向量 $\pmb{b}$ 使用了广播机制）。首先调用 .exp() 对矩阵中所有元素求 exp 函数值，然后按列求和得到 $728\times 1$ 的中间向量，最后利用广播机制将每一个元素除以其所在行的中间元素。这样处理后得到的矩阵每行元素和为1且非负，成为合法的概率分布，代表各个样本在各个输出类别上的预测概率

def softmax(O):
    O_exp = O.exp()                             # 所有元素求 exp
    partition = O_exp.sum(dim=1, keepdim=True)  # 对列求和
    return O_exp / partition                    # 这里应用了广播机制

测试一下，假设类别数为 5，样本数为 2

# 对于任意网络输出，softmax 将每个元素变成了非负数，且每一行和为1，这样就能看做将样本预测为各个类别的概率
output = torch.rand((2, 5))      # 随机生成网络输出层各结点值
y_hat = softmax(output)          # 用 softmax 转换为预测概率分布
print(y_hat, y_hat.sum(dim=1))   

'''
tensor([[0.3455, 0.1642, 0.1698, 0.1335, 0.1870],
        [0.1873, 0.2624, 0.2497, 0.1375, 0.1631]]) tensor([1., 1.])
'''

# 根据样本真实标签获取预测概率时，可以使用 tensor.gather(dim, indexs) 方法
# 该方法在dim维度上按indexs索引一个和indexs维度相同大小的tensor
y = torch.tensor([0,2])                 # 假设有两个样本真实标签为 0 和 2
print(y_hat.gather(1, y.view(-1, 1)))   # 获取这两个样本预测为相应的真实标签的概率

'''
tensor([[0.3455],
        [0.2497]])
'''

定义模型 $\pmb{\hat{Y}} = \text{softmax}(\pmb{X}\pmb{W}+\pmb{b})$
```
def net(X):
    return softmax(torch.mm(X.view((-1, num_inputs)), W) + b)
```
定义损失函数 $H(\pmb{y}^{(i)},\hat{\pmb{y}}^{(i)}) = -\log\hat{y}_{y^{(i)}}^{(i)}$
```
def cross_entropy(y_hat, y):
    return - torch.log(y_hat.gather(1, y.view(-1, 1))) # 这里返回 n 个样本各自的损失，是 nx1 向量
```

2.3 模型评价

使用分类准确率评价分类模型的性能，假设有 q 个类别 n 个预测样本，和 2.2 节中一样记真实标记向量为 y （尺寸 torch.Size([n])），模型输出为 y_hat （尺寸 torch.Size([n, q])）
1. 计算一批样本的预测准确率：
  1. y_hat.argmax(dim=1) 获取所有样本的预测标签，尺寸为 torch.Size([n])
  2. y_hat.argmax(dim=1) == y 和样本真实标签比较，得到 bool 型 tensor，尺寸为 torch.Size([n])
  3. (y_hat.argmax(dim=1) == y).float() 把 bool 型 tensor 转为取值 0 或 1 的浮点型 tensor，尺寸为 torch.Size([n])
  4. (y_hat.argmax(dim=1) == y).float().mean() 计算均值得到准确率，返回尺寸为 torch.Size([]) 的浮点型 tensor
  5. (y_hat.argmax(dim=1) == y).float().mean().item() 将上面这种只有一个元素的 tensor 转为 python 标量
```
# 计算一批样本的预测准确率
def accuracy(y_hat, y):
    return (y_hat.argmax(dim=1) == y).float().mean().item()
```
2. 计算整个训练集/测试集上的分类准确率：利用前面定义的数据获取迭代器遍历数据集，计算所有样本准确率的均值，从而评估模型 net 在整个数据集上的准确率，如下
```
def evaluate_accuracy(data_iter, net):
    acc_sum = 0.0  # 所有样本总准确率
    n =  0         # 总样本数量
    for X, y in data_iter:
        acc_sum += (net(X).argmax(dim=1) == y).float().sum().item() # 注意这里中间的 mean() 改成 sum()
        n += y.shape[0]
    return acc_sum / n
```
编程实践中，通常直接使用第二种方式

2.4 模型训练

2.4.1 优化算法

使用小批量随机梯度下降来优化参数

# 小批量随机梯度下降
def sgd(params, lr, batch_size):
    for param in params:
        param.data -= lr * param.grad / batch_size # 注意这里更改 param 时用的param.data，这样不会影响梯度计算

2.4.2 训练流程

训练流程和线性回归类似
1. 设定超参数 num_epochs（迭代次数）和 lr（学习率）
2. 在每轮迭代中逐小批次地遍历训练集，计算损失 -> 对参数求梯度 -> 做小批量随机梯度下降优化参数

训练程序如下

# 超参数
num_epochs, lr = 5, 0.1

def train(net, train_iter, test_iter, loss, num_epochs, batch_size, params=None, lr=None):
    # 训练执行 num_epochs 轮
    for epoch in range(num_epochs):
        train_l_sum = 0.0    # 本 epoch 总损失
        train_acc_sum = 0.0  # 本 epoch 总准确率
        n = 0                # 本 epoch 总样本数
        
        # 逐小批次地遍历训练数据
        for X, y in train_iter:
            
            # 计算小批量损失
            y_hat = net(X)
            l = loss(y_hat, y).sum()  

            # 梯度清零
            if params is not None and params[0].grad is not None:
                for param in params:
                    param.grad.data.zero_()
        
            # 小批量的损失对模型参数求梯度
            l.backward()
            
            # 做小批量随机梯度下降进行优化
            sgd(params, lr, batch_size)   # 手动实现优化算法
 
            # 记录训练数据
            train_l_sum += l.item()
            train_acc_sum += (y_hat.argmax(dim=1) == y).sum().item()
            n += y.shape[0]
        
        # 训练完成一个 epoch 后，评估测试集上的准确率
        test_acc = evaluate_accuracy(test_iter, net)
        
        # 打印提示信息
        print('epoch %d, loss %.4f, train acc %.3f, test acc %.3f'
              % (epoch + 1, train_l_sum / n, train_acc_sum / n, test_acc))

        
# 进行训练
train(net, train_iter, test_iter, cross_entropy, num_epochs, batch_size, [W, b], lr)

'''
epoch 1, loss 0.4741, train acc 0.840, test acc 0.827
epoch 2, loss 0.4649, train acc 0.842, test acc 0.832
epoch 3, loss 0.4579, train acc 0.845, test acc 0.833
epoch 4, loss 0.4520, train acc 0.847, test acc 0.835
epoch 5, loss 0.4463, train acc 0.849, test acc 0.830
'''

2.5 使用模型进行预测

训练完成后就可以用模型对测试图像进行分类了，先定义一些显示结果使用的工具函数

from IPython import display
import matplotlib.pyplot as plt

def get_fashion_mnist_labels(labels):
    text_labels = ['t-shirt', 'trouser', 'pullover', 'dress', 'coat',
                   'sandal', 'shirt', 'sneaker', 'bag', 'ankle boot']
    return [text_labels[int(i)] for i in labels]

def show_fashion_mnist(images, labels):
    display.set_matplotlib_formats('svg')
    
    _, figs = plt.subplots(1, len(images), figsize=(12, 12))
    for f, img, lbl in zip(figs, images, labels):
        f.imshow(img.view((28, 28)).numpy())
        f.set_title(lbl)
        f.axes.get_xaxis().set_visible(False)
        f.axes.get_yaxis().set_visible(False)

下面给定一系列图像，真实标签和模型预测结果分别显示在第一和第二行

X, y = iter(test_iter).next()

true_labels = get_fashion_mnist_labels(y.numpy())
pred_labels = get_fashion_mnist_labels(net(X).argmax(dim=1).numpy())
titles = [true + '\n' + pred for true, pred in zip(true_labels, pred_labels)]

show_fashion_mnist(X[0:9], titles[0:9])

预测结果如下

2.6 完整代码

整合上述过程，给出完整代码，可以直接粘贴进 vscode 运行

import torch
import torchvision
import torchvision.transforms as transforms
import numpy as np
from IPython import display
import matplotlib.pyplot as plt

# 数据集相关 --------------------------------------------------------------------------------------------------
# 加载数据集
def load_data_fashion_mnist(batch_size, num_workers=0, root='./Datasets/FashionMNIST'):
    mnist_train = torchvision.datasets.FashionMNIST(root=root, train=True, download=True,transform=transforms.ToTensor())
    mnist_test = torchvision.datasets.FashionMNIST(root=root, train=False, download=True,transform=transforms.ToTensor())

    train_iter = torch.utils.data.DataLoader(mnist_train, batch_size=batch_size, shuffle=True, num_workers=num_workers)
    test_iter = torch.utils.data.DataLoader(mnist_test, batch_size=batch_size, shuffle=False, num_workers=num_workers)

    return train_iter, test_iter

# 数据集标签转换
def get_fashion_mnist_labels(labels):
    text_labels = ['t-shirt', 'trouser', 'pullover', 'dress', 'coat',
                   'sandal', 'shirt', 'sneaker', 'bag', 'ankle boot']
    return [text_labels[int(i)] for i in labels]

# 显示数据图片
def show_fashion_mnist(images, labels):
    display.set_matplotlib_formats('svg')
    
    _, figs = plt.subplots(1, len(images), figsize=(12, 12))
    for f, img, lbl in zip(figs, images, labels):
        f.imshow(img.view((28, 28)).numpy())
        f.set_title(lbl)
        f.axes.get_xaxis().set_visible(False)
        f.axes.get_yaxis().set_visible(False)


# 模型定义 --------------------------------------------------------------------------------------------------------
def softmax(O):
    O_exp = O.exp()                             # 所有元素求 exp
    partition = O_exp.sum(dim=1, keepdim=True)  # 对列求和
    return O_exp / partition                    # 这里应用了广播机制

# 模型定义
def net(X):
    return softmax(torch.mm(X.view((-1, num_inputs)), W) + b)

# 交叉熵损失
def cross_entropy(y_hat, y):
    return - torch.log(y_hat.gather(1, y.view(-1, 1)))  # 这里返回 n 个样本各自的损失，是 nx1 向量

# 优化方法：小批量随机梯度下降
def sgd(params, lr, batch_size):
    for param in params:
        param.data -= lr * param.grad / batch_size      # 注意这里更改 param 时用的param.data，这样不会影响梯度计算

# 准确率评估
def evaluate_accuracy(data_iter, net):
    acc_sum = 0.0  # 所有样本总准确率
    n =  0         # 总样本数量
    for X, y in data_iter:
        acc_sum += (net(X).argmax(dim=1) == y).float().sum().item() 
        n += y.shape[0]
    return acc_sum / n

# 模型训练 --------------------------------------------------------------------------------------------------------
def train(net, train_iter, test_iter, loss, num_epochs, batch_size, params=None, lr=None):
    # 训练执行 num_epochs 轮
    for epoch in range(num_epochs):
        train_l_sum = 0.0    # 本 epoch 总损失
        train_acc_sum = 0.0  # 本 epoch 总准确率
        n = 0                # 本 epoch 总样本数
        
        # 逐小批次地遍历训练数据
        for X, y in train_iter:
            
            # 计算小批量损失
            y_hat = net(X)
            l = loss(y_hat, y).sum()  

            # 梯度清零
            if params is not None and params[0].grad is not None:
                for param in params:
                    param.grad.data.zero_()
        
            # 小批量的损失对模型参数求梯度
            l.backward()
            
            # 做小批量随机梯度下降进行优化
            sgd(params, lr, batch_size)   # 手动实现优化算法
 
            # 记录训练数据
            train_l_sum += l.item()
            train_acc_sum += (y_hat.argmax(dim=1) == y).sum().item()
            n += y.shape[0]
        
        # 训练完成一个 epoch 后，评估测试集上的准确率
        test_acc = evaluate_accuracy(test_iter, net)
        
        # 打印提示信息
        print('epoch %d, loss %.4f, train acc %.3f, test acc %.3f'
              % (epoch + 1, train_l_sum / n, train_acc_sum / n, test_acc))


if __name__ == '__main__':
    # 输入输出维度
    num_inputs,num_outputs = 28*28,10   # 图像尺寸28x28，拉平后向量长度为 28*28；类别空间为 10

    # 初始化模型参数 & 设定超参数
    W = torch.tensor(np.random.normal(0, 0.01, (num_inputs, num_outputs)), dtype=torch.float, requires_grad=True) 
    b = torch.zeros(num_outputs, dtype=torch.float, requires_grad=True)
    num_epochs, lr = 5, 0.1             # 超参数

    # 获取数据读取迭代器
    batch_size = 256
    train_iter, test_iter = load_data_fashion_mnist(batch_size, 4)

    # 进行训练
    train(net, train_iter, test_iter, cross_entropy, num_epochs, batch_size, [W, b], lr)

    # 使用得到模型预测 10 张图
    X, y = iter(test_iter).next()

    true_labels = get_fashion_mnist_labels(y.numpy())
    pred_labels = get_fashion_mnist_labels(net(X).argmax(dim=1).numpy())
    titles = [true + '\n' + pred for true, pred in zip(true_labels, pred_labels)]

    # 显示预测结果
    show_fashion_mnist(X[0:9], titles[0:9])
    plt.show()

3. 利用 Pytorch 简洁地实现 softmax 回归

pytorch 中提供了大量预定义的神经网络层，常用损失函数及优化器，可以大大简化 softmax 回归模型的实现
数据准备、模型评价、使用模型进行预测三部分和第 2 节实现相同，本节不再重复

3.1 模型设计

3.1.2 模型定义

如 1.2 节所示，softmax 回归的输出是一个全连接层，可以使用 torch.nn.Linear 方法定义，如下

num_inputs = 28*28
num_outputs = 10

class LinearNet(nn.Module):
    def __init__(self, num_inputs, num_outputs):
        super(LinearNet, self).__init__()
        self.linear = nn.Linear(num_inputs, num_outputs)
        
    def forward(self, x):                        # x shape: (batch, 1, 28, 28)
        y = self.linear(x.view(x.shape[0], -1))  # 拉平样本数据为 (batch, 1x28x28)
        return y

net = LinearNet(num_inputs, num_outputs)

注意到原始图像尺寸为 torch.Size([1, 28, 28])，数据迭代器返回的 batch x 尺寸为 (batch_size, 1, 28, 28)，在做前向传播时，必须要把样本都拉平，即把 x 的形状转换为 (batch_size, 1x28x28) 才能送入全连接层

按照深度学习的习惯，可以把数据拉平这件事定义成神经网络的一个层，如下

class FlattenLayer(nn.Module):
    def __init__(self):
        super(FlattenLayer, self).__init__()
        
    def forward(self, x): # x shape: (batch, *, *, ...)
        return x.view(x.shape[0], -1)

这样就能更符合习惯地，利用 Sequential 容器搭建网络模型

from collections import OrderedDict

net = nn.Sequential(
    OrderedDict([
        ('flatten', FlattenLayer()),
        ('linear', nn.Linear(num_inputs, num_outputs))
    ])
)

3.1.2 模型初始化

利用 torch.nn.init 包提供的方法进行初始化，初始化值同 2.2 节

nn.init.normal_(net.linear.weight, mean=0, std=0.01)
nn.init.constant_(net.linear.bias, val=0) 

'''
Parameter containing:
tensor([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.], requires_grad=True)
'''

3.1.3 softmax 和交叉熵损失函数

第 2 节中我们按照数学定义分别定义了 softmax 函数和 CrossEntropy 损失，这样做可能导致数据不稳定
1. softmax 函数定义为 $\hat{y}_i = \frac{\exp(o_i)}{\sum_j \exp(o_j)}$ 注意这里都是 exp 运算，一旦网络初始化不当，或输入数值有较大噪音，很可能导致数值溢出（ $o$ 是很大的正整数会导致上溢， $o$ 是很大的负整数会导致下溢），这时可以用 Log-Sum-Exp Trick（logSoftmax）处理，它在数学上就是在普通 softmax 外面套了一个 log 函数，这不会影响概率排序，但是通过有技巧地实现可以有效解决溢出问题。具体参考深入理解softmax
2. CrossEntropy损失在这里为 $H(\pmb{y}^{(i)},\hat{\pmb{y}}^{(i)}) = -\sum_{j=1}^q y_j^{(i)}\log\hat{y}_j^{(i)} = -\log\hat{y}_{y^{(i)}}^{(i)}$ 当 $\hat{y}_{y^{(i)}}^{(i)}$ 太小（趋于0）时也可能溢出。观察发现其实这里就是 logSoftmax 取了个负号，所以用了 Log-Sum-Exp 技巧后这里的就不用担心溢出了。注意到整个数据集上的损失为 $\mathscr{l}(\Theta) = \frac{1}{n}\sum_{i=1}^n -\log\hat{y}_{y^{(i)}}^{(i)}$ 如果已经用 logSoftmax计算了各个 $\log\hat{y}_{y^{(i)}}^{(i)}$ ，可以直接用负对数似然方法 torch.NLLLoss 方法得到 $\mathscr{l}(\Theta)$ 。NLLLosss 的具体行为可以参考 loss函数之NLLLoss，CrossEntropyLoss
总之，我们可以用 logSoftmax + NLLLoss 避免数据溢出，保证数据稳定性，并且得到等价的交叉熵损失，pytorch 中直接把这两个放在一起封装了一个 nn.CrossEntropyLoss 方法，对于一组小批量数据，假设模型输出和真实标签分别为 $o u tp u t$ 和 $t r u t h$ ， nn.CrossEntropyLoss 如下计算小批量损失
$\text{CrossEntropyLoss}(output,truth) = \text{NLLLoss}(\text{logSoftmax}(output),truth)$ 在这里我们直接使用它来替代前面自己定义的 softmax 函数和 CrossEntropy 损失。可参考 Pytorch中Softmax、Log_Softmax、NLLLoss以及CrossEntropyLoss的关系与区别详解
```
loss = nn.CrossEntropyLoss()
```

3.2 模型训练

3.2.1 优化器

直接使用 pytorch 提供的小批量随机梯度优化器 torch.optim.SGD

optimizer = torch.optim.SGD(net.parameters(), lr=0.1) # 学习率 0.1

基本用法
1. 梯度清零：optimizer.zero_grad()
2. 执行一次优化：optimizer.step()

3.2.2 训练流程

和 2.4.2 节完全类似，训练程序只须改一下优化器部分的处理即可

num_epochs = 5

def train(net, train_iter, test_iter, loss, num_epochs, batch_size, params=None, lr=None, optimizer=None):
    # 训练执行 num_epochs 轮
    for epoch in range(num_epochs):
        train_l_sum = 0.0    # 本 epoch 总损失
        train_acc_sum = 0.0  # 本 epoch 总准确率
        n = 0                # 本 epoch 总样本数
        
        # 逐小批次地遍历训练数据
        for X, y in train_iter:
            
            # 计算小批量损失
            y_hat = net(X)
            l = loss(y_hat, y).sum()  

            # 梯度清零
            optimizer.zero_grad()

            # 小批量的损失对模型参数求梯度
            l.backward()
            
            # 做小批量随机梯度下降进行优化
            optimizer.step()              

            # 记录训练数据
            train_l_sum += l.item()
            train_acc_sum += (y_hat.argmax(dim=1) == y).sum().item()
            n += y.shape[0]
        
        # 训练完成一个 epoch 后，评估测试集上的准确率
        test_acc = evaluate_accuracy(test_iter, net)
        
        # 打印提示信息
        print('epoch %d, loss %.4f, train acc %.3f, test acc %.3f'
              % (epoch + 1, train_l_sum / n, train_acc_sum / n, test_acc))

train(net, train_iter, test_iter, loss, num_epochs, batch_size, None, None, optimizer)
'''
epoch 1, loss 0.0021, train acc 0.826, test acc 0.816
epoch 2, loss 0.0020, train acc 0.833, test acc 0.822
epoch 3, loss 0.0019, train acc 0.836, test acc 0.823
epoch 4, loss 0.0019, train acc 0.840, test acc 0.827
epoch 5, loss 0.0018, train acc 0.843, test acc 0.829
'''

3.3 完整代码

整合上述过程，给出完整代码，可以直接粘贴进 vscode 运行

import torch
from torch import nn
import torchvision
import torchvision.transforms as transforms
import numpy as np
from IPython import display
from collections import OrderedDict
import matplotlib.pyplot as plt


# 数据集相关 --------------------------------------------------------------------------------------------------
# 加载数据集
def load_data_fashion_mnist(batch_size, num_workers=0, root='./Datasets/FashionMNIST'):
    mnist_train = torchvision.datasets.FashionMNIST(root=root, train=True, download=True,transform=transforms.ToTensor())
    mnist_test = torchvision.datasets.FashionMNIST(root=root, train=False, download=True,transform=transforms.ToTensor())

    train_iter = torch.utils.data.DataLoader(mnist_train, batch_size=batch_size, shuffle=True, num_workers=num_workers)
    test_iter = torch.utils.data.DataLoader(mnist_test, batch_size=batch_size, shuffle=False, num_workers=num_workers)

    return train_iter, test_iter

# 数据集标签转换
def get_fashion_mnist_labels(labels):
    text_labels = ['t-shirt', 'trouser', 'pullover', 'dress', 'coat',
                   'sandal', 'shirt', 'sneaker', 'bag', 'ankle boot']
    return [text_labels[int(i)] for i in labels]

# 显示数据图片
def show_fashion_mnist(images, labels):
    display.set_matplotlib_formats('svg')
    
    _, figs = plt.subplots(1, len(images), figsize=(12, 12))
    for f, img, lbl in zip(figs, images, labels):
        f.imshow(img.view((28, 28)).numpy())
        f.set_title(lbl)
        f.axes.get_xaxis().set_visible(False)
        f.axes.get_yaxis().set_visible(False)


# 模型定义 --------------------------------------------------------------------------------------------------------
class FlattenLayer(nn.Module):
    def __init__(self):
        super(FlattenLayer, self).__init__()
        
    def forward(self, x): # x shape: (batch, *, *, ...)
        return x.view(x.shape[0], -1)

# 准确率评估
def evaluate_accuracy(data_iter, net):
    acc_sum = 0.0  # 所有样本总准确率
    n =  0         # 总样本数量
    for X, y in data_iter:
        acc_sum += (net(X).argmax(dim=1) == y).float().sum().item() 
        n += y.shape[0]
    return acc_sum / n

def train(net, train_iter, test_iter, loss, num_epochs, batch_size, params=None, lr=None, optimizer=None):
    # 训练执行 num_epochs 轮
    for epoch in range(num_epochs):
        train_l_sum = 0.0    # 本 epoch 总损失
        train_acc_sum = 0.0  # 本 epoch 总准确率
        n = 0                # 本 epoch 总样本数
        
        # 逐小批次地遍历训练数据
        for X, y in train_iter:
            
            # 计算小批量损失
            y_hat = net(X)
            l = loss(y_hat, y).sum()  

            # 梯度清零
            optimizer.zero_grad()

            # 小批量的损失对模型参数求梯度
            l.backward()
            
            # 做小批量随机梯度下降进行优化
            optimizer.step()              

            # 记录训练数据
            train_l_sum += l.item()
            train_acc_sum += (y_hat.argmax(dim=1) == y).sum().item()
            n += y.shape[0]
        
        # 训练完成一个 epoch 后，评估测试集上的准确率
        test_acc = evaluate_accuracy(test_iter, net)
        
        # 打印提示信息
        print('epoch %d, loss %.4f, train acc %.3f, test acc %.3f'
              % (epoch + 1, train_l_sum / n, train_acc_sum / n, test_acc))

if __name__ == '__main__':
    # 输入输出维度
    num_inputs,num_outputs = 28*28,10
    
    # 超参数
    num_epochs,lr = 5,0.1

    # 获取数据读取迭代器
    batch_size = 256  
    train_iter, test_iter = load_data_fashion_mnist(batch_size, 4)

    # 定义模型网络结构
    net = nn.Sequential(
    OrderedDict([
        ('flatten', FlattenLayer()),
        ('linear', nn.Linear(num_inputs, num_outputs))
        ])
    )

    # 初始化模型参数
    nn.init.normal_(net.linear.weight, mean=0, std=0.01)
    nn.init.constant_(net.linear.bias, val=0) 

    # 损失 & 优化器
    loss = nn.CrossEntropyLoss()
    optimizer = torch.optim.SGD(net.parameters(), lr=lr) # 学习率 0.1

    # 进行训练
    train(net, train_iter, test_iter, loss, num_epochs, batch_size, None, None, optimizer)

    # 使用得到模型预测 10 张图
    X, y = iter(test_iter).next()

    true_labels = get_fashion_mnist_labels(y.numpy())
    pred_labels = get_fashion_mnist_labels(net(X).argmax(dim=1).numpy())
    titles = [true + '\n' + pred for true, pred in zip(true_labels, pred_labels)]

    # 显示预测结果
    show_fashion_mnist(X[0:9], titles[0:9])
    plt.show()

你可能感兴趣的:(#,监督学习,#,PyTorch,#,实践,softmax回归,softmax,回归,pytorch,深度学习,动手学深度学习)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
拥有断舍离的心态，过精简生活--《断舍离》读书笔记爱吃丸子的小樱桃
不知不觉间房间里的东西越来越多，虽然摆放整齐，但也时常会觉得空间逼仄，令人心生烦闷。抱着断舍离的态度，我开始阅读《断舍离》这本书，希望从书中能找到一些有效的方法，帮助我实现空间、物品上的断舍离。《断舍离》是日本作家山下英子通过自己的经历、思考和实践总结而成的，整体内涵也从刚开始的私人生活哲学的“断舍离”升华成了“人生实践哲学”，接着又成为每个人都能实行的“改变人生的断舍离”，从“哲学”逐渐升华成“
高端密码学院笔记285 柚子_b4b4
高端幸福密码学院（高级班）幸福使者：李华第（598）期《幸福》之回归内在深层生命原动力基础篇——揭秘“激励”成长的喜悦心理案例分析主讲：刘莉一，知识扩充:成功=艰苦劳动+正确方法+少说空话。贪图省力的船夫，目标永远下游。智者的梦再美，也不如愚人实干的脚印。幸福早课堂2020.10.16星期五一笔记:1，重视和珍惜的前提是知道它的价值非常重要，当你珍惜了，你就真正定下来，真正的学到身上。2，大家需要
数组去重好奇的猫猫猫
整理自js中基础数据结构数组去重问题思考？如何去除数组中重复的项例如数组：[1,3,4,3,5]我们在做去重的时候，一开始想到的肯定是，逐个比较，外面一层循环，内层后一个与前一个一比较，如果是久不将当前这一项放进新的数组，挨个比较完之后返回一个新的去过重复的数组不好的实践方式上述方法效率极低，代码量还多，思考？有没有更好的方法这时候不禁一想当然有了！！！hashtable啊，通过对象的hash办法
把握“三度”打造“三有”干部队伍辛德瑞拉卡卡卡
“胜败兴亡之分，不得不归咎于人事也”。干部队伍建设工作的好坏，关系到党和国家的发展全局。近日，新疆维吾尔自治区党委书记马兴瑞在部分党群单位走访调研时强调，要努力培养造就忠诚干净担当的高素质专业化干部队伍。各级组织部门应当在培养选拔干部、吸收优秀青年到党内来、培养造就优秀人才上下功夫，切实增强干部投身实践、解决问题、推进工作的能力，着力打造高素质专业化干部队伍。“天生我材必有用”，增强选育有“准度”
读书||陶新华《教育中的积极心理学》1—28 流水淙淙2022
读一本好书，尤如和一位高尚者对话，亦能对人的精神进行洗礼。但是若不能和实践结合起来，也只能落到空读书的状态。读书摘要与感想1、塞利格曼在《持续的幸福》一书中提出了幸福2.0理论，提出幸福由5个元素决定——积极情绪、投入的工作和生活、目标和意义、和谐的人际关系、成就感。2、人的大脑皮层在进行智力活动时，都伴有皮下中枢活动，对这些活动进行体验请假，并由此产生了情感解读。人的情绪情感体验总是优先于大脑的
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
2019-01-19 王小康KK
姓名:王康公司:扬州市方圆建筑工程有限公司2018年3月16日～3月18日上海361期《六项精进》感谢二组学员【日精进打卡第307天】【知～学习】《六项精进》大纲3遍共862遍《大学》通篇3遍共860遍《六项精进》全书40页【经典名句】思想决定行为，行为决定习惯，习惯决定性格，性格决定命运。【行～实践】一、修身：（对自己个人）1、践行六项精进的理念。二、齐家：（对家庭和家人）1、和女朋友视频聊天。
提高教师信息素养，提高道德与法治课教学效益长白159宋彦红
提高教师信息素养，提高道德与法治课教学效益随着经济和社会的发展，信息技术已经运用到课堂教学中，为课堂教学展示了一个崭新的天地。的确，信息技术形象、生动、直观性强，能够将课本中的一些抽想的概念直接展示在学生面前，从而调动学生的眼、耳、脑，让他们兴奋起来，变被动学习为主动学习，充分发挥教师的教育引导作用，创造一个可以使学生积极参与的场景。在制作、使用信息技术的实践过程中，本文拟就教师提升信息素养的必要
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
【六项精进】20180930 Kinnfoo
一、学习与实践1.付出不亚于任何人的努力2.要谦虚，不要骄傲3.要每天反省4.活着，就要感谢5.积善行，思利他6.不要有感性的烦恼二、今日分享今天是9月的最后一个工作日，每个支行都在拼命地冲刺业绩，刚好今天同桌休假了，我就替他审核客户。一个上午就进件了6个客户，审核通过5个。这5个审核通过的客户里，1个因费率没谈拢而放弃，1个因车上发现GPS而被拒单，最终确认可放款的只有3个客户。感叹支行同事的不
语文主题教学学习笔记之87 东哥杂谈
“语文主题教学”学习笔记之八十七（0125）今天继续学习小学语文主题教学的实践样态。板块三：教学中体现“书艺”味道。作为四大名著之一的《水浒传》，堪称我国文学宝库之经典。对从《水浒传》中摘选的单元，教师就要了解其原生态，即评书体特点。这也要求教师要了解一些常用的评书行话术语，然后在教学时适时地加入一些，让学生体味其文本中原有的特色。学生也要尽可能地通过朗读的方式，而不单是分析讲解的方式进行学习。细
2019-03-24 李飞720
姓名：李飞企业名称：临沂鑫道食品有限公司组别373期利他1组日精进打卡第338天】【知~学习】1、阿米巴经营一段2、活用人才1段3、活法、一段【行~实践】一、修身：读书、抽烟减量、俯卧撑个跑步3公里二、齐家、劝说老爸与姑姑和好三、建功、业务洽谈【经典名句分享】1、依据原理原则追求事物的本质，以“作为人，何谓正确”进行判断2、经营者必须为员工物质和精神两方面的幸福殚精竭虑，倾尽全力，必须超脱私心，让
【RabbitMQ 项目】服务端：数据管理模块之绑定管理月夜星辉雪 rabbitmq 分布式
文章目录一.编写思路二.代码实践一.编写思路定义绑定信息类交换机名称队列名称绑定关键字：交换机的路由交换算法中会用到没有是否持久化的标志，因为绑定是否持久化取决于交换机和队列是否持久化，只有它们都持久化时绑定才需要持久化。绑定就好像一根绳子，两端连接着交换机和队列，当一方不存在，它就没有存在的必要了定义绑定持久化类构造函数：如果数据库文件不存在则创建，打开数据库，创建binding_table插入
2019-04-10 shuaigefeng
姓名：王林锋企业名称：三亚蔚蓝时代实业有限公司组别：420期努力6组【日精进打卡251天】【知~学习、诵读】《六项精进》2遍，累计256遍《大学》2遍，累计220遍【经典分享】1、想过成功、想过失败、也想过放弃。【行~实践】一、修身：（对自己个人）1.拍打腿部两侧50下，舌顶上颚50下。2.坚持诵读、阅读。3.坚持锻炼、按时睡觉起床。4.控制健康饮食，饭后走动30分钟。5.每天反省自己的思想和行为
Python 课程10-单元测试可愛小吉 Python教學 python 单元测试开发语言 TDD unittest
前言在现代软件开发中，单元测试已成为一种必不可少的实践。通过测试，我们可以确保每个功能模块在开发和修改过程中按预期工作，从而减少软件缺陷，提高代码质量。而测试驱动开发（TDD）则进一步将测试作为开发的核心部分，先编写测试，再编写代码，以测试为指导开发出更稳定、更可靠的代码。Python提供了强大的unittest模块，它是Python标准库的一部分，专门用于编写和执行单元测试。与其他测试框架相比，
100天持续行动—Day01 Richard_DL
今天开始站着学习，发现效率大幅提升。把fast.ai的Lesson1的后半部分和Lesson2看完了。由于Keras版本和视频中的不一致，运行notebook时经常出现莫名其妙的错误，导致自己只动手实践了视频中的一小部分内容。为了赶时间，我打算先把与CNN相关的视频过一遍。然后尽快开始做自己的项目。明天继续加油，争取把Lesson3和Lesson4看完。
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
孩子强迫症，厌学叛逆，家长怎么办？扶禾心理
01最近，我们的公众号后台收到了很多家长的私信，很多家长说，孩子在进入青春期后，不知不觉竟然有强迫行为，特别容易钻牛角尖，沉迷网络，厌学，顶撞父母。他们为此很苦恼，不知道怎么办。强迫症正在成为儿童和青少年中常见的精神障碍之一。强迫症是一种长期逐步形成的心理问题，是一种慢性、难治性心理疾病。在这里，我们分享一些咨询实践及思路供家长参考，希望对更多的家长和孩子有帮助。一位家长私信我们说，她儿子14岁，
干货|自我介绍这三个坑，99%的概率你踩过！夏麦生命的魔术师
自我介绍——每个人都需要的一张名片。图片源自网络从2018年到现在，在做演讲俱乐部的2年时间里，我在演讲活动现场听过1000+人的自我介绍，自我介绍做得超棒的人真不多！最近，我花了近几个月时间，仔细研究了500+人线上场景的自我介绍，发现优秀的自我介绍也不多！为什么做一张优秀的自我介绍就这么难呢？这个问题，在我帮几十个人打造了自我介绍的过程一直困扰着我。经过了几个月的时间思考与实践，终于发现三个—
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
字节二面 Redstone Monstrosity 前端面试
1.假设你是正在面试前端开发工程师的候选人，面试官让你详细说出你上一段实习过程的收获和感悟。在上一段实习过程中，我获得了宝贵的实践经验和深刻的行业洞察，以下是我的主要收获和感悟：一、专业技能提升框架应用熟练度：通过实际项目，我深入掌握了React、Vue等前端框架的使用，不仅提升了编码效率，还学会了如何根据项目需求选择合适的框架。问题解决能力：在实习期间，我遇到了许多预料之外的技术难题。通过查阅文
HarmonyOS开发实战（ Beta5.0）搜索框热搜词自动切换让开，我要吃人了 OpenHarmony HarmonyOS 鸿蒙开发 harmonyos 华为鸿蒙移动开发鸿蒙系统前端开发语言
鸿蒙HarmonyOS开发往期必看：HarmonyOSNEXT应用开发性能实践总结最新版！“非常详细的”鸿蒙HarmonyOSNext应用开发学习路线！（从零基础入门到精通）介绍本示例介绍使用TextInput组件与Swiper组件实现搜索框内热搜词自动切换。效果图预览使用说明页面顶部搜索框内热搜词条自动切换，编辑搜索框时自动隐藏。实现思路使用TextInput实现搜索框TextInput({te
python老是报参数未定义_Python函数默认参数常见问题及解决方案 weixin_39935571 python老是报参数未定义
一、默认参数python为了简化函数的调用，提供了默认参数机制：这样在调用pow函数时，就可以省略最后一个参数不写：在定义有默认参数的函数时，需要注意以下：必选参数必须在前面，默认参数在后；设置何种参数为默认参数？一般来说，将参数值变化小的设置为默认参数。python标准库实践python内建函数：函数签名可以看出，使用print('hellopython')这样的简单调用的打印语句，实际上传入了
2022-5-23《儿童纪律教育》培训手捧鲜花_54e3
张子博春蕾八幼缺乏技能导致的问题，需要老师和家长教授儿童所需要的锻炼的技能。比如教授儿童如何处理情绪、与人相处以及有效的交流技巧。未满足的情感需要，如信任、尊重、爱与权利的需要，都应该让儿童充分得到满足时，才能解决问题。家庭互动与复杂的原因，需要教师建立以家庭为中心的实践，和家庭沟通，建立和谐的关系，为孩子的健康成长共同努力。
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
metaRTC/webRTC QOS 方案与实践 metaRTC metaRTC 解决方案 webrtc qos
概述质量服务(QOS/QualityofService)是指利用各种技术方案提高网络通信质量的技术，网络通信质量需要解决下面两个问题：网络问题：UDP/不稳定网络/弱网下的丢包/延时/乱序/抖动数据量问题：发送数据量超带宽负载和平滑发送拥塞控制是各种技术方案的数据基础，丢包恢复解决丢包问题，抗乱序抖动解决网络乱序抖动问题，流量控制解决平滑发送数据/数据超带宽负载/延时问题。拥塞控制(Congest
Linux的Initrd机制被触发 linux
Linux 的 initrd 技术是一个非常普遍使用的机制，linux2.6 内核的 initrd 的文件格式由原来的文件系统镜像文件转变成了 cpio 格式，变化不仅反映在文件格式上， linux 内核对这两种格式的 initrd 的处理有着截然的不同。本文首先介绍了什么是 initrd 技术，然后分别介绍了 Linux2.4 内核和 2.6 内核的 initrd 的处理流程。最后通过对 Lin
maven本地仓库路径修改 bitcarter maven
默认maven本地仓库路径：C:\Users\Administrator\.m2 修改maven本地仓库路径方法： 1.打开E:\maven\apache-maven-2.2.1\conf\settings.xml 2.找到
XSD和XML中的命名空间 darrenzhu xml xsd schema namespace 命名空间
http://www.360doc.com/content/12/0418/10/9437165_204585479.shtml http://blog.csdn.net/wanghuan203/article/details/9203621 http://blog.csdn.net/wanghuan203/article/details/9204337 http://www.cn
Java 求素数运算周凡杨 java 算法素数
网络上对求素数之解数不胜数，我在此总结归纳一下，同时对一些编码，加以改进，效率有成倍热提高。第一种：原理: 6N(+-)1法任何一个自然数，总可以表示成为如下的形式之一： 6N，6N+1，6N+2，6N+3，6N+4，6N+5 (N=0，1，2，…)
java 单例模式 g21121 java
想必单例模式大家都不会陌生，有如下两种方式来实现单例模式： class Singleton { private static Singleton instance=new Singleton(); private Singleton(){} static Singleton getInstance() { return instance; }
Linux下Mysql源码安装 510888780 mysql
1.假设已经有mysql-5.6.23-linux-glibc2.5-x86_64.tar.gz (1)创建mysql的安装目录及数据库存放目录解压缩下载的源码包，目录结构，特殊指定的目录除外：
32位和64位操作系统墙头上一根草 32位和64位操作系统
32位和64位操作系统是指：CPU一次处理数据的能力是32位还是64位。现在市场上的CPU一般都是64位的，但是这些CPU并不是真正意义上的64 位CPU，里面依然保留了大部分32位的技术，只是进行了部分64位的改进。32位和64位的区别还涉及了内存的寻址方面，32位系统的最大寻址空间是2 的32次方= 4294967296（bit）= 4（GB）左右，而64位系统的最大寻址空间的寻址空间则达到了
我的spring学习笔记10-轻量级_Spring框架 aijuans Spring 3
一、问题提问： → 请简单介绍一下什么是轻量级？轻量级（Leightweight）是相对于一些重量级的容器来说的，比如Spring的核心是一个轻量级的容器，Spring的核心包在文件容量上只有不到1M大小，使用Spring核心包所需要的资源也是很少的，您甚至可以在小型设备中使用Spring。
mongodb 环境搭建及简单CURD antlove Web Install curd NoSQL mongo
一搭建mongodb环境 1. 在mongo官网下载mongodb 2. 在本地创建目录 "D:\Program Files\mongodb-win32-i386-2.6.4\data\db" 3. 运行mongodb服务 [mongod.exe --dbpath "D:\Program Files\mongodb-win32-i386-2.6.4\data\
数据字典和动态视图百合不是茶 oracle 数据字典动态视图系统和对象权限
数据字典（data dictionary）是 Oracle 数据库的一个重要组成部分，这是一组用于记录数据库信息的只读（read-only）表。随着数据库的启动而启动,数据库关闭时数据字典也关闭数据字典中包含数据库中所有方案对象（schema object）的定义(包括表，视图，索引，簇，同义词，序列，过程，函数，包，触发器等等) 数据库为一
多线程编程一般规则 bijian1013 java thread 多线程 java多线程
如果两个工两个以上的线程都修改一个对象，那么把执行修改的方法定义为被同步的，如果对象更新影响到只读方法，那么只读方法也要定义成同步的。不要滥用同步。如果在一个对象内的不同的方法访问的不是同一个数据，就不要将方法设置为synchronized的。
将文件或目录拷贝到另一个Linux系统的命令scp bijian1013 linux unix scp
一.功能说明 scp就是security copy，用于将文件或者目录从一个Linux系统拷贝到另一个Linux系统下。scp传输数据用的是SSH协议，保证了数据传输的安全，其格式如下： scp 远程用户名@IP地址：文件的绝对路径
【持久化框架MyBatis3五】MyBatis3一对多关联查询 bit1129 Mybatis3
以教员和课程为例介绍一对多关联关系，在这里认为一个教员可以叫多门课程，而一门课程只有1个教员教，这种关系在实际中不太常见，通过教员和课程是多对多的关系。示例数据：地址表： CREATE TABLE ADDRESSES ( ADDR_ID INT(11) NOT NULL AUTO_INCREMENT, STREET VAR
cookie状态判断引发的查找问题 bitcarter form cgi
先说一下我们的业务背景： 1.前台将图片和文本通过form表单提交到后台，图片我们都做了base64的编码，并且前台图片进行了压缩 2.form中action是一个cgi服务 3.后台cgi服务同时供PC，H5，APP 4.后台cgi中调用公共的cookie状态判断方法（公共的，大家都用，几年了没有问题）问题：（折腾两天。。。。） 1.PC端cgi服务正常调用，cookie判断没
通过Nginx,Tomcat访问日志(access log)记录请求耗时 ronin47
一、Nginx通过$upstream_response_time $request_time统计请求和后台服务响应时间 nginx.conf使用配置方式： log_format main '$remote_addr - $remote_user [$time_local] "$request" ''$status $body_bytes_sent "$http_r
java-67- n个骰子的点数。把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 bylijinnan java
public class ProbabilityOfDice { /** * Q67 n个骰子的点数 * 把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 * 在以下求解过程中，我们把骰子看作是有序的。 * 例如当n=2时，我们认为（1，2）和（2，1）是两种不同的情况 */ private stati
看别人的博客，觉得心情很好 Cb123456 博客心情
以为写博客，就是总结，就和日记一样吧，同时也在督促自己。今天看了好长时间博客: 职业规划: http://www.iteye.com/blogs/subjects/zhiyeguihua android学习: 1.http://byandby.i
[JWFD开源工作流]尝试用原生代码引擎实现循环反馈拓扑分析 comsci 工作流
我们已经不满足于仅仅跳跃一次，通过对引擎的升级，今天我测试了一下循环反馈模式，大概跑了200圈，引擎报一个溢出错误在一个流程图的结束节点中嵌入一段方程，每次引擎运行到这个节点的时候，通过实时编译器GM模块，计算这个方程，计算结果与预设值进行比较，符合条件则跳跃到开始节点，继续新一轮拓扑分析，直到遇到
JS常用的事件及方法 cwqcwqmax9 js
事件描述 onactivate 当对象设置为活动元素时触发。 onafterupdate 当成功更新数据源对象中的关联对象后在数据绑定对象上触发。 onbeforeactivate 对象要被设置为当前元素前立即触发。 onbeforecut 当选中区从文档中删除之前在源对象触发。 onbeforedeactivate 在 activeElement 从当前对象变为父文档其它对象之前立即
正则表达式验证日期格式 dashuaifu 正则表达式 IT其它 java其它
正则表达式验证日期格式 function isDate(d){ var v = d.match(/^(\d{4})-(\d{1,2})-(\d{1,2})$/i); if(!v) { this.focus(); return false; } } <input value="2000-8-8" onblu
Yii CModel.rules() 方法、validate预定义完整列表、以及说说验证 dcj3sjt126com yii
public array rules () {return} array 要调用 validate() 时应用的有效性规则。返回属性的有效性规则。声明验证规则，应重写此方法。每个规则是数组具有以下结构：array('attribute list', 'validator name', 'on'=>'scenario name', ...validation
UITextAttributeTextColor = deprecated in iOS 7.0 dcj3sjt126com ios
In this lesson we used the key "UITextAttributeTextColor" to change the color of the UINavigationBar appearance to white. This prompts a warning "first deprecated in iOS 7.0." Ins
判断一个数是质数的几种方法 EmmaZhao Math python
质数也叫素数，是只能被1和它本身整除的正整数，最小的质数是2，目前发现的最大的质数是p=2^57885161-1【注1】。判断一个数是质数的最简单的方法如下： def isPrime1(n): for i in range(2, n): if n % i == 0: return False return True 但是在上面的方法中有一些冗余的计算，所以
SpringSecurity工作原理小解读坏我一锅粥 SpringSecurity
SecurityContextPersistenceFilter ConcurrentSessionFilter WebAsyncManagerIntegrationFilter HeaderWriterFilter CsrfFilter LogoutFilter Use
JS实现自适应宽度的Tag切换 ini JavaScript html Web css html5
效果体验：http://hovertree.com/texiao/js/3.htm 该效果使用纯JavaScript代码，实现TAB页切换效果，TAB标签根据内容自适应宽度，点击TAB标签切换内容页。 HTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"
Hbase Rest API : 数据查询 kane_xie REST hbase
hbase（hadoop）是用java编写的，有些语言（例如python）能够对它提供良好的支持，但也有很多语言使用起来并不是那么方便，比如c#只能通过thrift访问。Rest就能很好的解决这个问题。Hbase的org.apache.hadoop.hbase.rest包提供了rest接口，它内嵌了jetty作为servlet容器。启动命令：./bin/hbase rest s
JQuery实现鼠标拖动元素移动位置（源码+注释）明子健 jquery js 源码拖动鼠标
欢迎讨论指正！ print.html代码： <!DOCTYPE html> <html> <head> <meta http-equiv=Content-Type content="text/html;charset=utf-8"> <title>发票打印</title> &l
Postgresql 连表更新字段语法 update qifeifei PostgreSQL
下面这段sql本来目的是想更新条件下的数据，可是这段sql却更新了整个表的数据。sql如下： UPDATE tops_visa.visa_order SET op_audit_abort_pass_date = now() FROM tops_visa.visa_order as t1 INNER JOIN tops_visa.visa_visitor as t2 ON t1.
将redis,memcache结合使用的方案? tcrct redis cache
公司架构上使用了阿里云的服务，由于阿里的kvstore收费相当高，打算自建，自建后就需要自己维护，所以就有了一个想法，针对kvstore(redis)及ocs(memcache)的特点，想自己开发一个cache层，将需要用到list，set，map等redis方法的继续使用redis来完成，将整条记录放在memcache下，即findbyid，save等时就memcache，其它就对应使用redi
开发中遇到的诡异的bug wudixiaotie bug
今天我们服务器组遇到个问题：我们的服务是从Kafka里面取出数据，然后把offset存储到ssdb中，每个topic和partition都对应ssdb中不同的key，服务启动之后，每次kafka数据更新我们这边收到消息，然后存储之后就发现ssdb的值偶尔是-2,这就奇怪了，最开始我们是在代码中打印存储的日志，发现没什么问题，后来去查看ssdb的日志，才发现里面每次set的时候都会对同一个key