ZodiAc7

HBU_神经网络与深度学习实验6 前馈神经网络：自动梯度计算及优化问题

写在前面的一些内容
一、自动梯度计算和预定义算子
- 1. 利用预定义算子重新实现前馈神经网络
- 2. 完善Runner类
- 3. 模型训练
- 4. 性能评价
二、优化问题
- 1. 参数初始化
- 2. 梯度消失问题
- - （1）模型构建
  - （2）使用Sigmoid型函数进行训练
  - （3）使用ReLU函数进行模型训练
- 3. 死亡 ReLU 问题
- - （1）使用ReLU进行模型训练
  - （2）使用Leaky ReLU进行模型训练
三、实验总结

写在前面的一些内容

本文为HBU_神经网络与深度学习实验（2022年秋）实验6的实验报告，此文的基本内容参照 [1]Github/前馈神经网络-上.ipynb，检索时请按对应序号进行检索。
本实验报告参考了 HBU-NNDL 实验五前馈神经网络（2）自动梯度计算 & 优化问题 by 不是蒋承翰的部分内容。
本实验编程语言为Python 3.10，使用Pycharm进行编程。
本实验报告目录标题级别顺序：一、 1. (1)
水平有限，难免有误，如有错漏之处敬请指正。

一、自动梯度计算和预定义算子

虽然我们能够通过模块化的方式比较好地对神经网络进行组装，但是每个模块的梯度计算过程仍然十分繁琐且容易出错。在深度学习框架中，已经封装了自动梯度计算的功能，我们只需要聚焦模型架构，不再需要耗费精力进行计算梯度。

1. 利用预定义算子重新实现前馈神经网络

下面我们使用Pytorch的预定义算子来重新实现二分类任务。
主要使用到的预定义算子为torch.nn.Linear：

class torch.nn.Linear(in_features, out_features, weight_attr=None, bias_attr=None, name=None)

torch.nn.Linear算子可以接受一个形状为[batch_size,∗,in_features]的输入张量，其中"∗"表示张量中可以有任意的其它额外维度，并计算它与形状为[in_features, out_features]的权重矩阵的乘积，然后生成形状为[batch_size,∗,out_features]的输出张量。torch.nn.Linear算子默认有偏置参数，可以通过bias_attr=False设置不带偏置。
代码实现如下：

import torch.nn
import torch.nn.functional as F
from torch.nn.init import constant_, normal_

class Model_MLP_L2_V2(torch.nn.Module):
    def __init__(self, input_size, hidden_size, output_size):
        super(Model_MLP_L2_V2, self).__init__()
        # 使用'torch.nn.Linear'定义线性层。
        # 其中第一个参数（in_features）为线性层输入维度；第二个参数（out_features）为线性层输出维度
        # weight_attr为权重参数属性，这里使用'torch.nn.init.normal_'进行随机高斯分布初始化
        # bias_attr为偏置参数属性，这里使用'torch.nn.init.constant_'进行常量初始化
        self.fc1 = torch.nn.Linear(input_size, hidden_size)
        normal_(tensor=self.fc1.weight, mean=0., std=1.)
        constant_(tensor=self.fc1.bias, val=0.0)
        self.fc2 = torch.nn.Linear(hidden_size, output_size)
        normal_(tensor=self.fc2.weight, mean=0., std=1.)
        constant_(tensor=self.fc2.bias, val=0.0)
        # 使用'torch.nn.functional.sigmoid'定义 Logistic 激活函数
        self.act_fn = F.sigmoid

    # 前向计算
    def forward(self, inputs):
        z1 = self.fc1(inputs)
        a1 = self.act_fn(z1)
        z2 = self.fc2(a1)
        a2 = self.act_fn(z2)
        return a2

2. 完善Runner类

基于上一节实现的 RunnerV2_1 类，本节的 RunnerV2_2 类在训练过程中使用自动梯度计算；模型保存时，使用state_dict方法获取模型参数；模型加载时，使用set_state_dict方法加载模型参数。

import torch

class RunnerV2_2(object):
    def __init__(self, model, optimizer, metric, loss_fn, **kwargs):
        self.model = model
        self.optimizer = optimizer
        self.loss_fn = loss_fn
        self.metric = metric

        # 记录训练过程中的评估指标变化情况
        self.train_scores = []
        self.dev_scores = []

        # 记录训练过程中的评价指标变化情况
        self.train_loss = []
        self.dev_loss = []

    def train(self, train_set, dev_set, **kwargs):
        # 将模型切换为训练模式
        self.model.train()

        # 传入训练轮数，如果没有传入值则默认为0
        num_epochs = kwargs.get("num_epochs", 0)
        # 传入log打印频率，如果没有传入值则默认为100
        log_epochs = kwargs.get("log_epochs", 100)
        # 传入模型保存路径，如果没有传入值则默认为"best_model.pdparams"
        save_path = kwargs.get("save_path", "best_model.pdparams")

        # log打印函数，如果没有传入则默认为"None"
        custom_print_log = kwargs.get("custom_print_log", None)

        # 记录全局最优指标
        best_score = 0
        # 进行num_epochs轮训练
        for epoch in range(num_epochs):
            X, y = train_set
            # 获取模型预测
            logits = self.model(X)
            # 计算交叉熵损失
            trn_loss = self.loss_fn(logits, y)
            self.train_loss.append(trn_loss.item())
            # 计算评估指标
            trn_score = self.metric(logits, y).item()
            self.train_scores.append(trn_score)

            # 自动计算参数梯度
            trn_loss.backward()
            if custom_print_log is not None:
                # 打印每一层的梯度
                custom_print_log(self)

            # 参数更新
            self.optimizer.step()
            # 清空梯度
            self.optimizer.zero_grad()

            dev_score, dev_loss = self.evaluate(dev_set)
            # 如果当前指标为最优指标，保存该模型
            if dev_score > best_score:
                self.save_model(save_path)
                print(f"[Evaluate] best accuracy performence has been updated: {best_score:.5f} --> {dev_score:.5f}")
                best_score = dev_score

            if log_epochs and epoch % log_epochs == 0:
                print(f"[Train] epoch: {epoch}/{num_epochs}, loss: {trn_loss.item()}")

    # 模型评估阶段，使用'torch.no_grad()'控制不计算和存储梯度
    @torch.no_grad()
    def evaluate(self, data_set):
        # 将模型切换为评估模式
        self.model.eval()

        X, y = data_set
        # 计算模型输出
        logits = self.model(X)
        # 计算损失函数
        loss = self.loss_fn(logits, y).item()
        self.dev_loss.append(loss)
        # 计算评估指标
        score = self.metric(logits, y).item()
        self.dev_scores.append(score)
        return score, loss

    # 模型测试阶段，使用'torch.no_grad()'控制不计算和存储梯度
    @torch.no_grad()
    def predict(self, X):
        # 将模型切换为评估模式
        self.model.eval()
        return self.model(X)

    # 使用'model.state_dict()'获取模型参数，并进行保存
    def save_model(self, saved_path):
        torch.save(self.model.state_dict(), saved_path)

    # 使用'model.set_state_dict'加载模型参数
    def load_model(self, model_path):
        state_dict = torch.load(model_path)
        self.model.load_state_dict(state_dict)

3. 模型训练

实例化RunnerV2类，并传入训练配置，代码实现如下：

from metric import accuracy

# 设置模型
input_size = 2
hidden_size = 5
output_size = 1
model = Model_MLP_L2_V2(input_size=input_size, hidden_size=hidden_size, output_size=output_size)

# 设置损失函数
loss_fn = F.binary_cross_entropy

# 设置优化器
learning_rate = 0.2
optimizer = torch.optim.SGD(model.parameters(), lr=learning_rate)

# 设置评价指标
metric = accuracy

# 其他参数
epoch_num = 1000
saved_path = 'best_model.pdparams'

# 实例化RunnerV2类，并传入训练配置
runner = RunnerV2_2(model, optimizer, metric, loss_fn)

runner.train([X_train, y_train], [X_dev, y_dev], num_epochs=epoch_num, log_epochs=50, save_path="best_model.pdparams")

X_train, y_train, X_dev, y_dev部分的代码见上一个实验。

代码执行结果：

[Evaluate] best accuracy performence has been updated: 0.00000 --> 0.51875
[Train] epoch: 0/1000, loss: 0.8497516512870789
[Evaluate] best accuracy performence has been updated: 0.51875 --> 0.53750
[Evaluate] best accuracy performence has been updated: 0.53750 --> 0.56875
[Evaluate] best accuracy performence has been updated: 0.56875 --> 0.58125
[Evaluate] best accuracy performence has been updated: 0.58125 --> 0.58750
[Evaluate] best accuracy performence has been updated: 0.58750 --> 0.59375
[Evaluate] best accuracy performence has been updated: 0.59375 --> 0.60000
[Evaluate] best accuracy performence has been updated: 0.60000 --> 0.61250
[Evaluate] best accuracy performence has been updated: 0.61250 --> 0.61875
[Evaluate] best accuracy performence has been updated: 0.61875 --> 0.62500
[Evaluate] best accuracy performence has been updated: 0.62500 --> 0.63125
[Evaluate] best accuracy performence has been updated: 0.63125 --> 0.65000
[Evaluate] best accuracy performence has been updated: 0.65000 --> 0.65625
[Evaluate] best accuracy performence has been updated: 0.65625 --> 0.66250
[Evaluate] best accuracy performence has been updated: 0.66250 --> 0.66875
[Evaluate] best accuracy performence has been updated: 0.66875 --> 0.67500
[Evaluate] best accuracy performence has been updated: 0.67500 --> 0.68125
[Train] epoch: 50/1000, loss: 0.556875467300415
[Evaluate] best accuracy performence has been updated: 0.68125 --> 0.68750
[Evaluate] best accuracy performence has been updated: 0.68750 --> 0.70000
[Evaluate] best accuracy performence has been updated: 0.70000 --> 0.70625
[Evaluate] best accuracy performence has been updated: 0.70625 --> 0.71250
[Evaluate] best accuracy performence has been updated: 0.71250 --> 0.71875
[Evaluate] best accuracy performence has been updated: 0.71875 --> 0.72500
[Evaluate] best accuracy performence has been updated: 0.72500 --> 0.73125
[Evaluate] best accuracy performence has been updated: 0.73125 --> 0.74375
[Evaluate] best accuracy performence has been updated: 0.74375 --> 0.75000
[Evaluate] best accuracy performence has been updated: 0.75000 --> 0.76250
[Evaluate] best accuracy performence has been updated: 0.76250 --> 0.76875
[Evaluate] best accuracy performence has been updated: 0.76875 --> 0.77500
[Evaluate] best accuracy performence has been updated: 0.77500 --> 0.78125
[Evaluate] best accuracy performence has been updated: 0.78125 --> 0.78750
[Train] epoch: 100/1000, loss: 0.48954516649246216
[Evaluate] best accuracy performence has been updated: 0.78750 --> 0.79375
[Evaluate] best accuracy performence has been updated: 0.79375 --> 0.80000
[Evaluate] best accuracy performence has been updated: 0.80000 --> 0.80625
[Train] epoch: 150/1000, loss: 0.4570175111293793
[Train] epoch: 200/1000, loss: 0.4402849078178406
[Train] epoch: 250/1000, loss: 0.4314705729484558
[Train] epoch: 300/1000, loss: 0.4267541766166687
[Evaluate] best accuracy performence has been updated: 0.80625 --> 0.81250
[Train] epoch: 350/1000, loss: 0.42418307065963745
[Train] epoch: 400/1000, loss: 0.4227420389652252
[Train] epoch: 450/1000, loss: 0.4218997359275818
[Train] epoch: 500/1000, loss: 0.4213765263557434
[Train] epoch: 550/1000, loss: 0.4210241734981537
[Train] epoch: 600/1000, loss: 0.4207640588283539
[Train] epoch: 650/1000, loss: 0.4205540120601654
[Train] epoch: 700/1000, loss: 0.4203713834285736
[Train] epoch: 750/1000, loss: 0.4202039837837219
[Train] epoch: 800/1000, loss: 0.4200451374053955
[Train] epoch: 850/1000, loss: 0.41989126801490784
[Train] epoch: 900/1000, loss: 0.4197402000427246
[Train] epoch: 950/1000, loss: 0.4195910096168518

将训练过程中训练集与验证集的准确率变化情况进行可视化。

# 可视化观察训练集与验证集的指标变化情况
def plot(runner, fig_name):
    plt.figure(figsize=(10, 5))
    epochs = [i for i in range(len(runner.train_scores))]

    plt.subplot(1, 2, 1)
    plt.plot(epochs, runner.train_loss, color='#e4007f', label="Train loss")
    plt.plot(epochs, runner.dev_loss, color='#f19ec2', linestyle='--', label="Dev loss")
    # 绘制坐标轴和图例
    plt.ylabel("loss", fontsize='large')
    plt.xlabel("epoch", fontsize='large')
    plt.legend(loc='upper right', fontsize='x-large')

    plt.subplot(1, 2, 2)
    plt.plot(epochs, runner.train_scores, color='#e4007f', label="Train accuracy")
    plt.plot(epochs, runner.dev_scores, color='#f19ec2', linestyle='--', label="Dev accuracy")
    # 绘制坐标轴和图例
    plt.ylabel("score", fontsize='large')
    plt.xlabel("epoch", fontsize='large')
    plt.legend(loc='lower right', fontsize='x-large')

    plt.savefig(fig_name)
    plt.show()

plot(runner, 'fw-acc.pdf')

代码执行结果如下图所示：

4. 性能评价

使用测试数据对训练完成后的最优模型进行评价，观察模型在测试集上的准确率以及loss情况。代码如下：

# 模型评价
runner.load_model("best_model.pdparams")
score, loss = runner.evaluate([X_test, y_test])
print("[Test] score/loss: {:.4f}/{:.4f}".format(score, loss))

代码执行结果：

[Test] score/loss: 0.8500/0.3814

从结果来看，模型在测试集上取得了较高的准确率。

二、优化问题

在本节中，我们通过实践来发现神经网络模型的优化问题，并思考如何改进。

1. 参数初始化

实现一个神经网络前，需要先初始化模型参数。如果对每一层的权重和偏置都用0初始化，那么通过第一遍前向计算，所有隐藏层神经元的激活值都相同；在反向传播时，所有权重的更新也都相同，这样会导致隐藏层神经元没有差异性，出现对称权重现象。

接下来，将模型参数全都初始化为0，看实验结果。这里重新定义了一个类TwoLayerNet_Zeros，两个线性层的参数全都初始化为0。

class Model_MLP_L2_V4(torch.nn.Module):
    def __init__(self, input_size, hidden_size, output_size):
        super(Model_MLP_L2_V4, self).__init__()
        # 使用'torch.nn.Linear'定义线性层。
        # 其中第一个参数（in_features）为线性层输入维度；第二个参数（out_features）为线性层输出维度
        # weight为权重参数属性,bias为偏置参数属性，这里使用'torch.nn.init.constant_'进行常量初始化
        self.fc1 = torch.nn.Linear(input_size, hidden_size)
        constant_(tensor=self.fc1.weight, val=0.0)
        constant_(tensor=self.fc1.bias, val=0.0)
        self.fc2 = torch.nn.Linear(hidden_size, output_size)
        constant_(tensor=self.fc2.weight, val=0.0)
        constant_(tensor=self.fc2.bias, val=0.0)
        # 使用'torch.nn.functional.sigmoid'定义 Logistic 激活函数
        self.act_fn = F.sigmoid

    # 前向计算
    def forward(self, inputs):
        z1 = self.fc1(inputs)
        a1 = self.act_fn(z1)
        z2 = self.fc2(a1)
        a2 = self.act_fn(z2)
        return a2

def print_weights(runner):
    print('The weights of the Layers：')

    for _, param in enumerate(runner.model.named_parameters()):
        print(param)

利用Runner类训练模型：

# 设置模型
input_size = 2
hidden_size = 5
output_size = 1
model = Model_MLP_L2_V4(input_size=input_size, hidden_size=hidden_size, output_size=output_size)

# 设置损失函数
loss_fn = F.binary_cross_entropy

# 设置优化器
learning_rate = 0.2  # 5e-2
optimizer = torch.optim.SGD(model.parameters(), lr=learning_rate)

# 设置评价指标
metric = accuracy

# 其他参数
epoch = 2000
saved_path = 'best_model.pdparams'

# 实例化RunnerV2类，并传入训练配置
runner = RunnerV2_2(model, optimizer, metric, loss_fn)

runner.train([X_train, y_train], [X_dev, y_dev], num_epochs=5, log_epochs=50, save_path="best_model.pdparams",
             custom_print_log=print_weights)

代码执行结果：

The weights of the Layers：
('fc1.weight', Parameter containing:
tensor([[0., 0.],
        [0., 0.],
        [0., 0.],
        [0., 0.],
        [0., 0.]], requires_grad=True))
('fc1.bias', Parameter containing:
tensor([0., 0., 0., 0., 0.], requires_grad=True))
('fc2.weight', Parameter containing:
tensor([[0.0008, 0.0008, 0.0008, 0.0008, 0.0008]], requires_grad=True))
('fc2.bias', Parameter containing:
tensor([0.0016], requires_grad=True))
The weights of the Layers：
('fc1.weight', Parameter containing:
tensor([[ 1.0144e-05, -7.4018e-06],
        [ 1.0144e-05, -7.4018e-06],
        [ 1.0144e-05, -7.4018e-06],
        [ 1.0144e-05, -7.4018e-06],
        [ 1.0144e-05, -7.4018e-06]], requires_grad=True))
('fc1.bias', Parameter containing:
tensor([2.7084e-07, 2.7084e-07, 2.7084e-07, 2.7084e-07, 2.7084e-07],
       requires_grad=True))
C:\Users\Rex Mei\Desktop\MLE_Project\venv\lib\site-packages\torch\nn\functional.py:1960: UserWarning: nn.functional.sigmoid is deprecated. Use torch.sigmoid instead.
  warnings.warn("nn.functional.sigmoid is deprecated. Use torch.sigmoid instead.")
C:\Users\Rex Mei\Desktop\DeepLearningExperiment\metric.py:17: UserWarning: To copy construct from a tensor, it is recommended to use sourceTensor.clone().detach() or sourceTensor.clone().detach().requires_grad_(True), rather than torch.tensor(sourceTensor).
  preds = torch.tensor((preds >= 0.5), dtype=torch.float32)
C:\Users\Rex Mei\Desktop\DeepLearningExperiment\metric.py:21: UserWarning: To copy construct from a tensor, it is recommended to use sourceTensor.clone().detach() or sourceTensor.clone().detach().requires_grad_(True), rather than torch.tensor(sourceTensor).
  return torch.mean(torch.tensor(torch.eq(preds, labels), dtype=torch.float32))
('fc2.weight', Parameter containing:
tensor([[0.0015, 0.0015, 0.0015, 0.0015, 0.0015]], requires_grad=True))
('fc2.bias', Parameter containing:
tensor([0.0029], requires_grad=True))
The weights of the Layers：
('fc1.weight', Parameter containing:
tensor([[ 2.9262e-05, -2.1386e-05],
        [ 2.9262e-05, -2.1386e-05],
        [ 2.9262e-05, -2.1386e-05],
        [ 2.9262e-05, -2.1386e-05],
        [ 2.9262e-05, -2.1386e-05]], requires_grad=True))
('fc1.bias', Parameter containing:
tensor([7.2455e-07, 7.2455e-07, 7.2455e-07, 7.2455e-07, 7.2455e-07],
       requires_grad=True))
('fc2.weight', Parameter containing:
tensor([[0.0021, 0.0021, 0.0021, 0.0021, 0.0021]], requires_grad=True))
('fc2.bias', Parameter containing:
tensor([0.0042], requires_grad=True))
The weights of the Layers：
('fc1.weight', Parameter containing:
tensor([[ 5.6325e-05, -4.1226e-05],
        [ 5.6325e-05, -4.1226e-05],
        [ 5.6325e-05, -4.1226e-05],
        [ 5.6325e-05, -4.1226e-05],
        [ 5.6325e-05, -4.1226e-05]], requires_grad=True))
('fc1.bias', Parameter containing:
tensor([1.2953e-06, 1.2953e-06, 1.2953e-06, 1.2953e-06, 1.2953e-06],
       requires_grad=True))
('fc2.weight', Parameter containing:
tensor([[0.0026, 0.0026, 0.0026, 0.0026, 0.0026]], requires_grad=True))
('fc2.bias', Parameter containing:
tensor([0.0053], requires_grad=True))

可视化训练和验证集上的主准确率和loss变化：

plot(runner, "fw-zero.pdf")

代码执行结果如下图所示：

从输出结果看，二分类准确率为50%左右，说明模型没有学到任何内容。训练和验证loss几乎没有怎么下降。

为了避免对称权重现象，可以使用高斯分布或均匀分布初始化神经网络的参数。

高斯分布和均匀分布采样的实现和可视化代码如下：

# 使用'torch.normal'实现高斯分布采样，其中'mean'为高斯分布的均值，'std'为高斯分布的标准差，'size'为输出形状
gausian_weights = torch.normal(mean=0.0, std=1.0, size=[10000])
# 使用'torch.uniform_'实现在[min,max)范围内的均匀分布采样
uniform_weights = torch.Tensor(10000)
uniform_weights.uniform_(-1,1)
gausian_weights=gausian_weights.numpy()
uniform_weights=uniform_weights.numpy()

# 绘制两种参数分布
plt.figure()
plt.subplot(1,2,1)
plt.title('Gausian Distribution')
plt.hist(gausian_weights, bins=200, density=True, color='#f19ec2')
plt.subplot(1,2,2)
plt.title('Uniform Distribution')
plt.hist(uniform_weights, bins=200, density=True, color='#e4007f')
plt.savefig('fw-gausian-uniform.pdf')
plt.show()

代码执行结果如下图所示：

2. 梯度消失问题

在神经网络的构建过程中，随着网络层数的增加，理论上网络的拟合能力也应该是越来越好的。但是随着网络变深，参数学习更加困难，容易出现梯度消失问题。

由于Sigmoid型函数的饱和性，饱和区的导数更接近于0，误差经过每一层传递都会不断衰减。当网络层数很深时，梯度就会不停衰减，甚至消失，使得整个网络很难训练，这就是所谓的梯度消失问题。
在深度神经网络中，减轻梯度消失问题的方法有很多种，一种简单有效的方式就是使用导数比较大的激活函数，如：ReLU。

下面通过一个简单的实验观察前馈神经网络的梯度消失现象和改进方法。

（1）模型构建

定义一个前馈神经网络，包含4个隐藏层和1个输出层，通过传入的参数指定激活函数。代码实现如下：

# 定义多层前馈神经网络
class Model_MLP_L5(torch.nn.Module):
    def __init__(self, input_size, output_size, act='relu', mean_init=0., std_init=0.01, b_init=1.0):
        super(Model_MLP_L5, self).__init__()
        self.fc1 = torch.nn.Linear(input_size, 3)
        normal_(tensor=self.fc1.weight, mean=mean_init, std=std_init)
        constant_(tensor=self.fc1.bias, val=b_init)
        self.fc2 = torch.nn.Linear(3, 3)
        normal_(tensor=self.fc2.weight, mean=mean_init, std=std_init)
        constant_(tensor=self.fc2.bias, val=b_init)
        self.fc3 = torch.nn.Linear(3, 3)
        normal_(tensor=self.fc3.weight, mean=mean_init, std=std_init)
        constant_(tensor=self.fc3.bias, val=b_init)
        self.fc4 = torch.nn.Linear(3, 3)
        normal_(tensor=self.fc4.weight, mean=mean_init, std=std_init)
        constant_(tensor=self.fc4.bias, val=b_init)
        self.fc5 = torch.nn.Linear(3, output_size)
        normal_(tensor=self.fc5.weight, mean=mean_init, std=std_init)
        constant_(tensor=self.fc5.bias, val=b_init)
        # 定义网络使用的激活函数
        if act == 'sigmoid':
            self.act = F.sigmoid
        elif act == 'relu':
            self.act = F.relu
        elif act == 'lrelu':
            self.act = F.leaky_relu
        else:
            raise ValueError("Please enter sigmoid relu or lrelu!")

    def forward(self, inputs):
        outputs = self.fc1(inputs.to(torch.float32))
        outputs = self.act(outputs)
        outputs = self.fc2(outputs)
        outputs = self.act(outputs)
        outputs = self.fc3(outputs)
        outputs = self.act(outputs)
        outputs = self.fc4(outputs)
        outputs = self.act(outputs)
        outputs = self.fc5(outputs)
        outputs = F.sigmoid(outputs)
        return outputs

（2）使用Sigmoid型函数进行训练

使用Sigmoid型函数作为激活函数，为了便于观察梯度消失现象，只进行一轮网络优化。代码实现如下：

定义梯度打印函数

def print_grads(runner):
    print('The gradient of the Layers：')
    for name, parms in runner.model.named_parameters():
        print('name:', name, ' grad_value:', parms.grad)

torch.random.manual_seed(102)
# 学习率大小
lr = 0.01

# 定义网络，激活函数使用sigmoid
model = Model_MLP_L5(input_size=2, output_size=1, act='sigmoid')

# 定义优化器
optimizer = torch.optim.SGD(model.parameters(), lr=lr)

# 定义损失函数，使用交叉熵损失函数
loss_fn = F.binary_cross_entropy

from metric import accuracy

# 定义评价指标
metric = accuracy

# 指定梯度打印函数
custom_print_log = print_grads

实例化RunnerV2_2类，并传入训练配置。代码实现如下：

# 实例化Runner类
runner = RunnerV2_2(model, optimizer, metric, loss_fn)

模型训练，打印网络每层梯度值的 $\ell_2$ 范数。代码实现如下：

# 启动训练
runner.train([X_train, y_train], [X_dev, y_dev], num_epochs=1, log_epochs=None, save_path="best_model.pdparams",
             custom_print_log=custom_print_log)

代码执行结果：

The gradient of the Layers：
name: fc1.weight  grad_value: tensor([[-4.7838e-12,  8.2888e-12],
        [ 3.6502e-12, -6.3175e-12],
        [ 6.4543e-12, -1.1160e-11]])
name: fc1.bias  grad_value: tensor([ 7.6704e-12, -5.8654e-12, -1.0326e-11])
name: fc2.weight  grad_value: tensor([[1.0832e-09, 1.0814e-09, 1.0843e-09],
        [1.6404e-09, 1.6376e-09, 1.6421e-09],
        [3.8894e-10, 3.8829e-10, 3.8935e-10]])
name: fc2.bias  grad_value: tensor([1.4831e-09, 2.2461e-09, 5.3256e-10])
name: fc3.weight  grad_value: tensor([[-1.3158e-06, -1.3159e-06, -1.3071e-06],
        [-1.5598e-06, -1.5600e-06, -1.5495e-06],
        [ 1.5137e-06,  1.5139e-06,  1.5037e-06]])
name: fc3.bias  grad_value: tensor([-1.8021e-06, -2.1363e-06,  2.0732e-06])
name: fc4.weight  grad_value: tensor([[-8.9001e-05, -8.9251e-05, -8.9278e-05],
        [ 6.6012e-04,  6.6198e-04,  6.6217e-04],
        [ 3.7251e-04,  3.7356e-04,  3.7367e-04]])
name: fc4.bias  grad_value: tensor([-0.0001,  0.0009,  0.0005])
name: fc5.weight  grad_value: tensor([[0.1657, 0.1658, 0.1662]])
name: fc5.bias  grad_value: tensor([0.2274])
[Evaluate] best accuracy performence has been updated: 0.00000 --> 0.48750

观察实验结果可以发现，梯度经过每一个神经层的传递都会不断衰减，最终传递到第一个神经层时，梯度几乎完全消失。

（3）使用ReLU函数进行模型训练

torch.random.manual_seed(102)
# 学习率大小
lr = 0.01

# 定义网络，激活函数使用sigmoid
model = Model_MLP_L5(input_size=2, output_size=1, act='relu')

# 定义优化器
optimizer = torch.optim.SGD(model.parameters(), lr=lr)

# 定义损失函数，使用交叉熵损失函数
loss_fn = F.binary_cross_entropy

from metric import accuracy

# 定义评价指标
metric = accuracy

# 指定梯度打印函数
custom_print_log = print_grads

# 实例化Runner类
runner = RunnerV2_2(model, optimizer, metric, loss_fn)

runner.train([X_train, y_train], [X_dev, y_dev], num_epochs=1, log_epochs=None, save_path="best_model.pdparams",
             custom_print_log=custom_print_log)

代码执行结果：

The gradient of the Layers：
name: fc1.weight  grad_value: tensor([[-3.1846e-09,  5.5507e-09],
        [ 2.3915e-09, -4.1683e-09],
        [ 4.2657e-09, -7.4350e-09]])
name: fc1.bias  grad_value: tensor([ 5.1574e-09, -3.8729e-09, -6.9082e-09])
name: fc2.weight  grad_value: tensor([[1.9452e-07, 1.9331e-07, 1.9529e-07],
        [2.9493e-07, 2.9310e-07, 2.9609e-07],
        [6.7968e-08, 6.7547e-08, 6.8236e-08]])
name: fc2.bias  grad_value: tensor([1.9524e-07, 2.9602e-07, 6.8220e-08])
name: fc3.weight  grad_value: tensor([[-4.6332e-05, -4.6356e-05, -4.4789e-05],
        [-5.5117e-05, -5.5146e-05, -5.3282e-05],
        [ 5.3547e-05,  5.3575e-05,  5.1764e-05]])
name: fc3.bias  grad_value: tensor([-4.6624e-05, -5.5464e-05,  5.3884e-05])
name: fc4.weight  grad_value: tensor([[-0.0006, -0.0006, -0.0006],
        [ 0.0046,  0.0046,  0.0046],
        [ 0.0026,  0.0026,  0.0026]])
name: fc4.bias  grad_value: tensor([-0.0006,  0.0046,  0.0026])
name: fc5.weight  grad_value: tensor([[0.2249, 0.2261, 0.2286]])
name: fc5.bias  grad_value: tensor([0.2288])
[Evaluate] best accuracy performence has been updated: 0.00000 --> 0.48750

下图展示了使用不同激活函数时，网络每层梯度值的 $\ell_2$ 范数情况。从结果可以看到，5层的全连接前馈神经网络使用Sigmoid型函数作为激活函数时，梯度经过每一个神经层的传递都会不断衰减，最终传递到第一个神经层时，梯度几乎完全消失。改为ReLU激活函数后，梯度消失现象得到了缓解，每一层的参数都具有梯度值。

3. 死亡 ReLU 问题

ReLU激活函数可以一定程度上改善梯度消失问题，但是ReLU函数在某些情况下容易出现死亡 ReLU问题，使得网络难以训练。这是由于当 $x < 0$ 时，ReLU函数的输出恒为0。在训练过程中，如果参数在一次不恰当的更新后，某个ReLU神经元在所有训练数据上都不能被激活（即输出为0），那么这个神经元自身参数的梯度永远都会是0，在以后的训练过程中永远都不能被激活。而一种简单有效的优化方式就是将激活函数更换为Leaky ReLU、ELU等ReLU的变种。

（1）使用ReLU进行模型训练

使用上一节中定义的多层全连接前馈网络进行实验，使用ReLU作为激活函数，观察死亡ReLU现象和优化方法。当神经层的偏置被初始化为一个相对于权重较大的负值时，可以想像，输入经过神经层的处理，最终的输出会为负值，从而导致死亡ReLU现象。

# 定义网络，并使用较大的负值来初始化偏置
model =  Model_MLP_L5(input_size=2, output_size=1, act='relu', b_init=-8.0)

实例化RunnerV2类，启动模型训练，打印网络每层梯度值的 $\ell_2$ 范数。代码实现如下：

# 实例化Runner类
runner = RunnerV2_2(model, optimizer, metric, loss_fn)

# 启动训练
runner.train([X_train, y_train], [X_dev, y_dev], num_epochs=1, log_epochs=0, save_path="best_model.pdparams",
             custom_print_log=custom_print_log)

代码执行结果：

The gradient of the Layers：
name: fc1.weight  grad_value: tensor([[0., 0.],
        [0., 0.],
        [0., 0.]])
name: fc1.bias  grad_value: tensor([0., 0., 0.])
name: fc2.weight  grad_value: tensor([[0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]])
name: fc2.bias  grad_value: tensor([0., 0., 0.])
name: fc3.weight  grad_value: tensor([[0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]])
name: fc3.bias  grad_value: tensor([0., 0., 0.])
name: fc4.weight  grad_value: tensor([[0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]])
name: fc4.bias  grad_value: tensor([0., 0., 0.])
name: fc5.weight  grad_value: tensor([[0., 0., 0.]])
name: fc5.bias  grad_value: tensor([-0.5075])
[Evaluate] best accuracy performence has been updated: 0.00000 --> 0.51250

从输出结果可以发现，使用 ReLU 作为激活函数，当满足条件时，会发生死亡ReLU问题，网络训练过程中 ReLU 神经元的梯度始终为0，参数无法更新。

针对死亡ReLU问题，一种简单有效的优化方式就是将激活函数更换为Leaky ReLU、ELU等ReLU 的变种。接下来，观察将激活函数更换为 Leaky ReLU时的梯度情况。

（2）使用Leaky ReLU进行模型训练

将激活函数更换为Leaky ReLU进行模型训练，观察梯度情况。代码实现如下：

# 重新定义网络，使用Leaky ReLU激活函数
model = Model_MLP_L5(input_size=2, output_size=1, act='lrelu', b_init=-8.0)

# 实例化Runner类
runner = RunnerV2_2(model, optimizer, metric, loss_fn)

# 启动训练
runner.train([X_train, y_train], [X_dev, y_dev], num_epochs=1, log_epochps=None, save_path="best_model.pdparams",
             custom_print_log=custom_print_log)

代码执行结果：

The gradient of the Layers：
name: fc1.weight  grad_value: tensor([[-1.8774e-17,  2.5306e-18],
        [-2.1469e-17,  2.8940e-18],
        [ 6.5806e-18, -8.8704e-19]])
name: fc1.bias  grad_value: tensor([-1.8644e-17, -2.1321e-17,  6.5351e-18])
name: fc2.weight  grad_value: tensor([[ 3.9442e-14,  3.9619e-14,  3.9489e-14],
        [-1.0858e-14, -1.0907e-14, -1.0871e-14],
        [ 5.6145e-15,  5.6398e-15,  5.6213e-15]])
name: fc2.bias  grad_value: tensor([-4.9409e-13,  1.3601e-13, -7.0334e-14])
name: fc3.weight  grad_value: tensor([[-2.8899e-10, -2.8896e-10, -2.8899e-10],
        [ 6.2649e-11,  6.2642e-11,  6.2648e-11],
        [ 2.7410e-10,  2.7407e-10,  2.7410e-10]])
name: fc3.bias  grad_value: tensor([ 3.6122e-09, -7.8308e-10, -3.4261e-09])
name: fc4.weight  grad_value: tensor([[-5.2960e-07, -5.2960e-07, -5.2968e-07],
        [-6.9280e-07, -6.9280e-07, -6.9289e-07],
        [ 5.1386e-06,  5.1386e-06,  5.1392e-06]])
name: fc4.bias  grad_value: tensor([ 6.6203e-06,  8.6604e-06, -6.4235e-05])
name: fc5.weight  grad_value: tensor([[0.0406, 0.0406, 0.0406]])
name: fc5.bias  grad_value: tensor([-0.5075])
[Evaluate] best accuracy performence has been updated: 0.00000 --> 0.51250
[Train] epoch: 0/1, loss: 4.06322717666626

从输出结果可以看到，将激活函数更换为Leaky ReLU后，死亡ReLU问题得到了改善，梯度恢复正常，参数也可以正常更新。但是由于 Leaky ReLU 中， $x < 0$ 时的斜率默认只有0.01，所以反向传播时，随着网络层数的加深，梯度值越来越小。如果想要改善这一现象，将 Leaky ReLU 中， $x < 0$ 时的斜率调大即可。

三、实验总结

这次的主要学习到的内容是Leaky ReLU，它可以解决参数在不恰当的更新后梯度降为0而造成训练数据不能被激活的问题，进而造成网络难以实现。实际实验中，ELU的收敛速度更快，因此可以更快速地训练神经网络。

你可能感兴趣的:(HBU_神经网络与深度学习实验6 前馈神经网络：自动梯度计算及优化问题)

展锐平台(Android15)WLAN热点名称修改不生效问题分析
前言在展锐AndroidV项目开发中，需要修改softAp/P2P热点名称时，发现集成GMS后直接修改framework层代码无效。具体表现为：修改packages/modules/Wifi/WifiApConfigStore中的getDefaultApConfiguration方法编译烧录后修改不生效问题根源在于：Wi-Fi模块在AndroidS(12)及以上版本已纳入Mainline模块Mai
穿透硅层：模电数电如何重塑你的编程基因还债大湿兄模电数电
“不理解电子运动的程序员，永远在数字世界的表层流浪。”——吉恩·阿姆达尔（IBM360系统架构师）一、晶体管级视角：代码的物理载体1.CPU指令执行的硬件真相关键模电参数：阈值电压Vth：决定晶体管开关的电压临界点（典型值0.7V）跨导gm：栅压控制电流的能力（单位mS）米勒电容Cgd：限制开关速度的核心因素2.存储器操作的电子原理DRAM存储单元刷新过程：//硬件级刷新伪代码voiddram_r
视觉算法之卷积神经网络清风AI 深度学习算法详解及代码复现计算机视觉 cnn 神经网络深度学习 python 课程设计毕业设计
定义与特点卷积神经网络(ConvolutionalNeuralNetwork,CNN)是一种专为处理具有网格结构的数据而设计的深度学习模型。其独特的结构和功能使其在图像处理、语音识别等领域展现出卓越的性能:CNN的核心设计理念源于对生物视觉系统的模仿。通过模拟大脑皮层中视网膜和视觉皮层的层次化结构,CNN能够有效地捕捉图像中的局部特征并逐步抽象为高层语义信息。这种设计使得CNN特别擅长处理图像和音
nRF52832 低功耗设计与优化 mftang zephyr架构蓝牙应用笔记 Nordic MCU系列笔记 Zephyr RTOS zephyr架构蓝牙应用笔记
目录概述1技术背景2优化策略2.1系统级电源管理2.2时钟系统优化2.3GPIO配置优化3蓝牙协议栈优化3.1连接参数优化3.2广播优化4电源管理实践4.1功耗状态转换图4.2典型功耗分布5低功耗设计最佳实践5.1事件驱动架构5.2定时任务管理5.3数据批处理6高级优化技术6.1电压调节优化6.2RAM保持策略6.3动态功耗分析7功耗测量与验证8常见问题解决8.1功耗高于预期8.2唤醒延迟过长8.
卷积神经网络架构的演进：从AlexNet到EfficientNet t0_54manong 大数据与人工智能 cnn 架构人工智能个人开发
在过去的8.5年里，深度学习取得了飞速的进步。回溯到2012年，AlexNet在ImageNet上的Top-1准确率仅为63.3%，而如今，借助EfficientNet架构和师生训练法，我们已经能达到超过90%的准确率。本文将聚焦于卷积神经网络（CNN）架构的演变，深入探究其背后的基本原理。一些关键术语在深入了解各种架构之前，我们需要明确几个关键术语。更宽的网络意味着卷积层中有更多的特征图（滤波器
Spring Security：认证与授权的实现原理及实践
SpringSecurity是Spring生态中强大的安全框架，用于为Java应用提供认证（Authentication）和授权（Authorization）功能。根据2024年StackOverflow开发者调查，SpringBoot是Java开发者中最流行的框架，约60%的Java开发者使用它构建微服务，而SpringSecurity是其首选安全解决方案。本文深入剖析SpringSecurit
第二十八：Fiddler抓包-抓取Android7.0以上的Https包(三)-夜神模拟器+Xposed+JustTrustMe 卢卡平头哥 Fiddler fiddler https android
一.简介1.二次加密：有的APP，在涉及到关键数据通信时，会将正文二次加密后才通过HTTPS发送1.1.抓包抓到的是一堆二进制base642.自带HTTPClient：像支付宝那样的变态，自己带一个基于so的HTTPClient库2.1.对于关键数据，都不走URLConnection和OkHttp，而是走自己的HTTPClient库2.2.甚至一些
Mac安装Docker YIXiu-xiaowu Docker
1.可以通过左上角的小图片查看系统版本，并可以通过”软件更新“来检查和更新MacOS系统。通过官网双击完Docker.dmg文件后，双击下载的.dmg文件，然后将Docker鲸鱼图标拖拽到Application文件夹即完成安装。（切记一定是Apple芯片）我们打开Docker应用程序后，会有一些选择配置，我们按照如下配置即可。这里我们选择Accept--》选择默认配置就行，Docker会自动设置
【GESP】C++二级真题 luogu-B4357 [GESP202506 二级] 幂和数 CoderCodingNo c++开发语言
GESPC++二级，2025年6月真题，多重循环，难度★✮☆☆☆。个人认为，对于低年级的2级考生来说，相对较难。题目题解详见：【GESP】C++二级真题luogu-B4357[GESP202506二级]幂和数|OneCoder【GESP】C++二级真题luogu-B4357[GESP202506二级]幂和数|OneCoderGESPC++二级，2025年6月真题，多重循环，难度★✮☆☆☆。个人认为
心理健康语音分析AI模型：开启心理评估新时代 AI大模型应用实战人工智能语音识别 ai
心理健康语音分析AI模型：开启心理评估新时代关键词：心理健康评估、语音信号处理、情感计算、AI模型、多模态融合摘要：传统心理评估依赖量表问卷和人工观察，存在主观性强、效率低、难以实时监测等局限。本文将带您走进“心理健康语音分析AI模型”的世界，从基础概念到核心技术，从算法原理到实战案例，揭秘AI如何通过“听声音”读懂心理状态，开启心理评估的智能化新时代。背景介绍目的和范围心理健康问题已成为全球公共
MacOS系统安装Docker（非常详细）从零基础入门到精通，看完这一篇就够了_mac安装docker 2501_90249219 docker eureka 容器
选择默认配置就行，Docker会自动设置一些大多数开发人员必要的配置。这里我们跳过就好。运行Docker在应用程序中找到Docker程序图标，点击以启动Docker，启动之后我们会发现右上角工具栏中多了一个小鲸鱼的图片，这个就是Docker啦~真的好可爱~Docker桌面应用程序打开后，就是首页的学习中心界面。通过小鲸鱼中的AboutDockerDesktop可以查看Docker的版本可以看到版本
Python 领域 pytest 的测试用例的可维护性设计
Python领域pytest的测试用例的可维护性设计关键词：pytest、测试用例、可维护性、测试框架、自动化测试、测试设计模式、重构摘要：本文深入探讨了如何在Python测试框架pytest中设计可维护的测试用例。我们将从测试用例可维护性的核心原则出发，分析pytest的特性和最佳实践，介绍多种提高测试代码可维护性的设计模式和技巧。文章包含实际代码示例、项目实战案例以及可维护性评估指标，帮助开发
创建 TransactionStatus 悟能不能悟 log4j java 开发语言
在Spring框架中，TransactionStatus是一个接口，通常由事务管理器（如PlatformTransactionManager）在开启事务时自动创建，而不是由开发者直接实例化。如果你需要在代码中操作事务状态，应通过以下标准方式：正确获取TransactionStatus的步骤：注入事务管理器在SpringBean中注入PlatformTransactionManager（如DataS
FastAPI依赖注入：构建高可维护API的核心理念与实战源滚滚AI编程 fastapi log4j
依赖注入（DependencyInjection,DI）作为FastAPI的核心设计模式，通过解耦组件依赖关系、提升代码复用性和可测试性，已成为现代API开发的基石。本文将深入解析其工作原理、高级特性及企业级应用场景。一、依赖注入的核心价值解耦与模块化将数据库连接、认证逻辑等基础设施与业务逻辑分离，避免代码冗余。示例：路由函数无需手动创建数据库连接，通过Depends(get_db)自动注入[ci
【AI大模型】PyTorch Lightning 简化工具我爱一条柴ya 学习AI记录人工智能 pytorch python ai AI编程
PyTorchLightning是一个轻量级的PyTorch封装库，它通过抽象训练循环的工程细节，让研究人员可以专注于模型设计和实验。以下是PyTorchLightning的核心概念和实战指南。核心优势基础使用：三步搭建训练流程1.定义LightningModuleimporttorchimporttorch.nnasnnimportpytorch_lightningasplfromtorchme
【AI大模型】Transformer架构位置编码我爱一条柴ya 学习AI记录人工智能神经网络 ai AI编程
Transformer架构中的位置编码(PositionalEncoding)是其核心设计之一，用于解决一个关键问题：Self-Attention机制本身对输入元素的顺序是“无感知”的(permutationinvariant)。问题：为什么需要位置编码？Self-Attention的本质缺陷：Self-Attention通过计算所有元素对之间的关联来工作。然而，它只关心元素是什么(x_i的内容)
【AI大模型】深入解析预训练：大模型时代的核心引擎我爱一条柴ya 学习AI记录深度学习人工智能 ai python AI编程算法
预训练已成为现代人工智能，尤其是自然语言处理和计算机视觉领域的基石技术。它彻底改变了模型开发范式，催生了BERT、GPT等革命性模型。本文将系统阐述预训练的核心概念、原理、方法、应用及挑战。一、预训练的本质：为何需要它？核心问题：数据标注的瓶颈监督学习依赖海量高质量标注数据，获取成本极高（时间、金钱、专业知识）。对于复杂任务（如理解语义、生成文本），标注难度呈指数级上升。标注数据稀缺导致模型泛化能
[3-02-01].第14节：三方整合 - SpringData整合Redis集群 1.01^1000 阶段03：企业框架 spring boot
Redis大纲一、SpringBoot整合主从架构的Redis：1.1.问题说明：1.在Sentinel集群监管下的Redis哨兵架构中，其节点会因为自动故障转移而发生变化，Redis的客户端必须感知这种变化，及时更新连接信息2.SpringBoot中的RedisTemplate底层利用lettuce实现了节点的感知和自动切换，我们需要进行配置才可以实现这种动态上下线的情况。下面，我们通过一个测试
Python爬虫小白入门指南，成为大牛必须经历的三个阶段
学习任何一门技术，都应该带着目标去学习，目标就像一座灯塔，指引你前进，很多人学着学着就学放弃了，很大部分原因是没有明确目标，所以，一定要明确学习目的，在你准备学爬虫前，先问问自己为什么要学习爬虫。有些人是为了一份工作，有些人是为了好玩，也有些人是为了实现某个黑科技功能。不过可以肯定的是，学会了爬虫能给你的工作提供很多便利。小白入门必读作为零基础小白，大体上可分为三个阶段去实现。第一阶段是入门，掌握
如何设计可扩展的后端系统架构？破碎的天堂鸟学习教程系统架构
设计可扩展的后端系统架构需综合考虑核心原则、架构模式、扩展策略、数据存储、容错机制及监控体系。以下是基于行业实践的详细指南：一、可扩展架构的核心原则无状态性（Statelessness）服务不保存客户端状态，请求可被任意实例处理，便于水平扩展。实现：通过负载均衡器（如Nginx、HAProxy）分发请求至多个无状态实例。松散耦合（LooseCoupling）模块间通过API或消息队列通信，减少依赖
【车载测试之CAPL编程系列】：【16】函数定义(2)
车载测试CAPL编程系列：CAPL中的函数定义(2)目录函数定义的基本形式参数类型与返回值函数重载（Overload）返回值限制：不能返回数组AI总结函数定义的基本形式CAPL函数定义具有灵活性，可根据需求设计无返回值、无参数的函数。无返回值、无参数的函数返回值类型：若函数无返回值，可声明为void，且void关键字可省略（CAPL特性，区别于C语言）。参数：允许无参数，但必须保留空括号()。示例
语言模型 RLHF 实践指南（一）：策略网络、价值网络与 PPO 损失函数
在使用ProximalPolicyOptimization（PPO）对语言模型进行强化学习微调（如RLHF）时，大家经常会问：策略网络的动作概率是怎么来的？价值网络的得分是如何计算的？奖励从哪里来？损失函数怎么构建？微调后的旧轨迹还能用吗？这篇文章将以语言模型强化学习微调为例，结合实际实现和数学公式，深入解析PPO的关键计算流程。1️⃣策略网络：如何计算动作概率？策略网络πθ(a∣s)\pi_\t
ECR仓库CloudFormation模板完整指南 ivwdcwso 运维与云原生自动化 aws 运维 ECR CloudFormation 镜像容器
概述本文档详细介绍了一个通用的AmazonECR（ElasticContainerRegistry）仓库CloudFormation模板，该模板支持多业务组、参数化配置，并包含完整的安全策略、生命周期管理和监控功能。模板特性核心功能✅支持4个业务组：app、ai、mall、frontend✅灵活的服务名手动输入✅多环境支持（dev/test/staging/prod）✅自动镜像扫描和安全检查✅生命
青少年编程与数学 02-022 专业应用软件简介 24 项目管理工具：Trello
青少年编程与数学02-022专业应用软件简介24项目管理工具：Trello引言一、Trello的发展背景与历程1.1创立初衷1.2被Atlassian收购二、Trello的核心功能与特性2.1看板式任务管理（KanbanBoard）2.2卡片内容丰富性2.3自动化与规则引擎（Butler）2.4团队协作与权限管理三、Trello的应用场景与行业应用3.1软件开发与敏捷项目管理3.2市场营销与内容策
如果让计算机理解人类语言- One-hot 编码（One-hot Encoding，1950s）
如果让计算机理解人类语言-One-hot编码（One-hotEncoding，1950s）flyfish如果让计算机理解人类语言-One-hot编码（One-hotEncoding，1950s）如果让计算机理解人类语言-词袋模型（BagofWords,BoW，1970s）如果让计算机理解人类语言-Word2Vec（WordtoVector，2013）如果让计算机理解人类语言-Qwen3Embedd
探秘阿里云消息队列：解锁分布式系统的异步通信奥秘云资源服务商阿里云云计算中间件
阿里云消息队列：分布式架构的基石在当今数字化快速发展的时代，分布式系统已成为企业构建高可用、高性能应用的关键架构。而消息队列，作为分布式系统中的重要组件，犹如基石一般，支撑着整个架构的稳定运行。它能够有效地解决分布式系统中的异步通信、解耦、削峰填谷等问题，为系统的可靠性和扩展性提供了强大的保障。阿里云作为云计算领域的领军者，其推出的阿里云消息队列凭借着卓越的性能、高可靠性以及丰富的功能，成为了众多
Python协程从入门到精通：9个案例解析yield、gevent与asyncio实战 python_chai Python python 开发语言协程并发 yield生成器 gerrnlet gevent
引言痛点分析：传统多线程在高并发场景下的性能瓶颈。协程优势：轻量级、高并发、低资源消耗。本文目标：通过9个代码案例，系统讲解协程的核心技术和应用场景。目录引言1.协程基础：理解yield生成器1.1yield的暂停与恢复机制1.2生产者-消费者模型实战1.3双向通信：send()方法详解2.手动协程控制：greenlet进阶2.1greenlet的显式切换原理2.2多任务协作案例3.自动化协程：g
大模型中标斩获3项第一！百度智能云
今年1-4月，百度智能云在主流大模型厂商中一举拿下三项第一！数量最多！中标项目数量7个！行业最全！覆盖最多行业6个！金额最高！中标金额总数最高5600万+南方电网、泰康保险、北京车网、中华总工会、上海城投污水处理有限公司等行业头部客户，纷纷与百度智能云达成合作，体现出大模型技术在政策、市场的双轮驱动下的强劲增长态势。百度智能云将继续深化与行业客户合作，共同探索大模型技术在各行业的应用场景，推动行业
乙巳年六月十七时光思一叶迎秋文心一言
乙巳年六月十七时光思精进日复日，德性年叠年。口说无凭据，时光有呈现。花开知节气，人长懂地天。难重当下春，易过那刻癫。眼见朝霞飞，梦中欢欲连。史上轮回处，君在因果前。
Python异步编程终极指南：用协程与事件循环重构你的高并发系统
title:Python异步编程终极指南：用协程与事件循环重构你的高并发系统date:2025/2/24updated:2025/2/24author:cmdragonexcerpt:深入剖析Python异步编程的核心机制。你将掌握：\n事件循环的底层实现原理与调度算法\nasync/await协程的6种高级用法模式\n异步HTTP请求的性能优化技巧（速度提升15倍+）\n常见异步陷阱的26种解决
SQL的各种连接查询 xieke90 UNION ALL UNION 外连接内连接 JOIN
一、内连接概念：内连接就是使用比较运算符根据每个表共有的列的值匹配两个表中的行。内连接（join 或者inner join ） SQL语法： select * fron
java编程思想--复用类百合不是茶 java 继承代理组合 final类
复用类看着标题都不知道是什么,再加上java编程思想翻译的比价难懂,所以知道现在才看这本软件界的奇书一:组合语法:就是将对象的引用放到新类中即可代码: package com.wj.reuse; /** * * @author Administrator 组
[开源与生态系统]国产CPU的生态系统 comsci cpu
计算机要从娃娃抓起...而孩子最喜欢玩游戏.... 要让国产CPU在国内市场形成自己的生态系统和产业链,国家和企业就不能够忘记游戏这个非常关键的环节.... 投入一些资金和资源,人力和政策,让游
JVM内存区域划分Eden Space、Survivor Space、Tenured Gen，Perm Gen解释商人shang jvm内存
jvm区域总体分两类，heap区和非heap区。heap区又分：Eden Space（伊甸园）、Survivor Space(幸存者区)、Tenured Gen（老年代-养老区）。非heap区又分：Code Cache(代码缓存区)、Perm Gen（永久代）、Jvm Stack(java虚拟机栈)、Local Method Statck(本地方法栈)。 HotSpot虚拟机GC算法采用分代收
页面上调用 QQ oloz qq
<A href="tencent://message/?uin=707321921&Site=有事Q我&Menu=yes"> <img style="border:0px;" src=http://wpa.qq.com/pa?p=1:707321921:1></a>
一些问题文强chu 问题
1.eclipse 导出 doc 出现“The Javadoc command does not exist.” javadoc command 选择 jdk/bin/javadoc.exe 2.tomcate 配置 web 项目 ..... SQL:3.mysql * 必须得放前面否则 select&nbs
生活没有安全感小桔子生活孤独安全感
圈子好小，身边朋友没几个，交心的更是少之又少。在深圳，除了男朋友，没几个亲密的人。不知不觉男朋友成了唯一的依靠，毫不夸张的说，业余生活的全部。现在感情好，也很幸福的。但是说不准难免人心会变嘛，不发生什么大家都乐融融，发生什么很难处理。我想说如果不幸被分手(无论原因如何)，生活难免变化很大，在深圳，我没交心的朋友。明
php 基础语法 aichenglong php 基本语法
1 .1 php变量必须以$开头 <?php $a=” b”; echo ?> 1 .2 php基本数据库类型 Integer float/double Boolean string 1 .3 复合数据类型数组array和对象 object 1 .4 特殊数据类型 null 资源类型(resource) $co
mybatis tools 配置详解 AILIKES mybatis
MyBatis Generator中文文档 MyBatis Generator中文文档地址： http://generator.sturgeon.mopaas.com/ 该中文文档由于尽可能和原文内容一致，所以有些地方如果不熟悉，看中文版的文档的也会有一定的障碍，所以本章根据该中文文档以及实际应用，使用通俗的语言来讲解详细的配置。本文使用Markdown进行编辑，但是博客显示效
继承与多态的探讨百合不是茶 JAVA面向对象继承对象
继承 extends 多态继承是面向对象最经常使用的特征之一：继承语法是通过继承发、基类的域和方法 //继承就是从现有的类中生成一个新的类，这个新类拥有现有类的所有extends是使用继承的关键字：在A类中定义属性和方法； class A{ //定义属性 int age； //定义方法 public void go
JS的undefined与null的实例 bijian1013 JavaScript JavaScript
<form name="theform" id="theform"> </form> <script language="javascript"> var a alert(typeof(b)); //这里提示undefined if(theform.datas
TDD实践（一） bijian1013 java 敏捷 TDD
一.TDD概述 TDD：测试驱动开发，它的基本思想就是在开发功能代码之前，先编写测试代码。也就是说在明确要开发某个功能后，首先思考如何对这个功能进行测试，并完成测试代码的编写，然后编写相关的代码满足这些测试用例。然后循环进行添加其他功能，直到完全部功能的开发。
[Maven学习笔记十]Maven Profile与资源文件过滤器 bit1129 maven
什么是Maven Profile Maven Profile的含义是针对编译打包环境和编译打包目的配置定制，可以在不同的环境上选择相应的配置，例如DB信息，可以根据是为开发环境编译打包，还是为生产环境编译打包，动态的选择正确的DB配置信息 Profile的激活机制 1.Profile可以手工激活，比如在Intellij Idea的Maven Project视图中可以选择一个P
【Hive八】Hive用户自定义生成表函数(UDTF) bit1129 hive
1. 什么是UDTF UDTF，是User Defined Table-Generating Functions，一眼看上去，貌似是用户自定义生成表函数，这个生成表不应该理解为生成了一个HQL Table，貌似更应该理解为生成了类似关系表的二维行数据集 2. 如何实现UDTF 继承org.apache.hadoop.hive.ql.udf.generic
tfs restful api 加auth 2.0认计 ronin47
　　目前思考如何给tfs的ngx-tfs api增加安全性。有如下两点：　　一是基于客户端的ip设置。这个比较容易实现。　　二是基于OAuth2.0认证，这个需要lua，实现起来相对于一来说，有些难度。　　现在重点介绍第二种方法实现思路。　　前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGe
jdk环境变量配置 byalias java jdk
进行java开发，首先要安装jdk，安装了jdk后还要进行环境变量配置： 1、下载jdk（http://java.sun.com/javase/downloads/index.jsp），我下载的版本是：jdk-7u79-windows-x64.exe 2、安装jdk-7u79-windows-x64.exe 3、配置环境变量：右击"计算机"-->&quo
《代码大全》表驱动法-Table Driven Approach-2 bylijinnan java
package com.ljn.base; import java.io.BufferedReader; import java.io.FileInputStream; import java.io.InputStreamReader; import java.util.ArrayList; import java.util.Collections; import java.uti
SQL 数值四舍五入小数点后保留2位 chicony 四舍五入
1.round() 函数是四舍五入用，第一个参数是我们要被操作的数据，第二个参数是设置我们四舍五入之后小数点后显示几位。 2.numeric 函数的2个参数，第一个表示数据长度，第二个参数表示小数点后位数。例如：　　select cast(round(12.5,2) as numeric(5,2))
c++运算符重载 CrazyMizzz C++
一、加+，减-，乘*，除/ 的运算符重载 Rational operator*(const Rational &x) const{ return Rational(x.a * this->a); } 在这里只写乘法的，加减除的写法类似二、<<输出,>>输入的运算符重载 &nb
hive DDL语法汇总 daizj hive 修改列 DDL 修改表
hive DDL语法汇总１、对表重命名 hive> ALTER TABLE table_name RENAME TO new_table_name; 2、修改表备注 hive> ALTER TABLE table_name SET TBLPROPERTIES ('comment' = new_comm
jbox使用说明 dcj3sjt126com Web
参考网址：http://www.kudystudio.com/jbox/jbox-demo.html jBox v2.3 beta [ 点击下载] 技术交流QQGroup：172543951 100521167 [2011-11-11] jBox v2.3 正式版 - [调整&修复] IE6下有iframe或页面有active、applet控件
UISegmentedControl 开发笔记 dcj3sjt126com
// typedef NS_ENUM(NSInteger, UISegmentedControlStyle) { // UISegmentedControlStylePlain, // large plain &
Slick生成表映射文件 ekian scala
Scala添加SLICK进行数据库操作，需在sbt文件上添加slick-codegen包 "com.typesafe.slick" %% "slick-codegen" % slickVersion 因为我是连接SQL Server数据库，还需添加slick-extensions，jtds包 "com.typesa
ES-TEST gengzg test
package com.MarkNum; import java.io.IOException; import java.util.Date; import java.util.HashMap; import java.util.Map; import javax.servlet.ServletException; import javax.servlet.annotation
为何外键不再推荐使用 hugh.wang mysql DB
表的关联，是一种逻辑关系，并不需要进行物理上的“硬关联”，而且你所期望的关联，其实只是其数据上存在一定的联系而已，而这种联系实际上是在设计之初就定义好的固有逻辑。在业务代码中实现的时候，只要按照设计之初的这种固有关联逻辑来处理数据即可，并不需要在数据库层面进行“硬关联”，因为在数据库层面通过使用外键的方式进行“硬关联”，会带来很多额外的资源消耗来进行一致性和完整性校验，即使很多时候我们并不
领域驱动设计 julyflame VO DAO 设计模式 DTO po
概念： VO（View Object）：视图对象，用于展示层，它的作用是把某个指定页面（或组件）的所有数据封装起来。 DTO（Data Transfer Object）：数据传输对象，这个概念来源于J2EE的设计模式，原来的目的是为了EJB的分布式应用提供粗粒度的数据实体，以减少分布式调用的次数，从而提高分布式调用的性能和降低网络负载，但在这里，我泛指用于展示层与服务层之间的数据传输对
单例设计模式 hm4123660 java Singleton 单例设计模式懒汉式饿汉式
单例模式是一种常用的软件设计模式。在它的核心结构中只包含一个被称为单例类的特殊类。通过单例模式可以保证系统中一个类只有一个实例而且该实例易于外界访问，从而方便对实例个数的控制并节约系统源。如果希望在系统中某个类的对象只能存在一个，单例模式是最好的解决方案。 &nb
logback zhb8015 log logback
一、logback的介绍 Logback是由log4j创始人设计的又一个开源日志组件。logback当前分成三个模块：logback-core,logback- classic和logback-access。logback-core是其它两个模块的基础模块。logback-classic是log4j的一个改良版本。此外logback-class
整合Kafka到Spark Streaming——代码示例和挑战 Stark_Summer spark storm zookeeper PARALLELISM processing
作者Michael G. Noll是瑞士的一位工程师和研究员，效力于Verisign，是Verisign实验室的大规模数据分析基础设施（基础Hadoop）的技术主管。本文，Michael详细的演示了如何将Kafka整合到Spark Streaming中。期间， Michael还提到了将Kafka整合到 Spark Streaming中的一些现状，非常值得阅读，虽然有一些信息在Spark 1.2版
spring-master-slave-commondao 王新春 DAO spring dataSource slave master
互联网的web项目，都有个特点：请求的并发量高，其中请求最耗时的db操作，又是系统优化的重中之重。为此，往往搭建 db的一主多从库的数据库架构。作为web的DAO层，要保证针对主库进行写操作，对多个从库进行读操作。当然在一些请求中，为了避免主从复制的延迟导致的数据不一致性，部分的读操作也要到主库上。（这种需求一般通过业务垂直分开，比如下单业务的代码所部署的机器，读去应该也要从主库读取数

HBU_神经网络与深度学习 实验6 前馈神经网络：自动梯度计算 及 优化问题

目录

写在前面的一些内容

一、自动梯度计算和预定义算子

1. 利用预定义算子重新实现前馈神经网络

2. 完善Runner类

3. 模型训练

4. 性能评价

二、优化问题

1. 参数初始化

2. 梯度消失问题

（1）模型构建

（2）使用Sigmoid型函数进行训练

（3）使用ReLU函数进行模型训练

3. 死亡 ReLU 问题

（1）使用ReLU进行模型训练

（2）使用Leaky ReLU进行模型训练

三、实验总结

你可能感兴趣的:(HBU_神经网络与深度学习 实验6 前馈神经网络：自动梯度计算 及 优化问题)

HBU_神经网络与深度学习实验6 前馈神经网络：自动梯度计算及优化问题

你可能感兴趣的:(HBU_神经网络与深度学习实验6 前馈神经网络：自动梯度计算及优化问题)