HBU_fangerfang

NNDL 实验五前馈神经网络（2）自动梯度计算 & 优化问题

4.3 自动梯度计算

4.3.1 利用预定义算子重新实现前馈神经网络

1、使用pytorch的预定义算子来重新实现二分类任务。（必做）

4.3.2 完善Runner类

4.3.3 模型训练

4.3.4 性能评价

4.3.1 利用预定义算子重新实现前馈神经网络

2. 增加一个3个神经元的隐藏层，再次实现二分类，并与1做对比。（必做）

3. 自定义隐藏层层数和每个隐藏层中的神经元个数，尝试找到最优超参数完成二分类。可以适当修改数据集，便于探索超参数。（选做）

【思考题】

自定义梯度计算和自动梯度计算：从计算性能、计算结果等多方面比较，谈谈自己的看法。

4.4 优化问题

4.4.1 参数初始化

4.4.2 梯度消失问题

4.4.2.1 模型构建

4.4.2.2 使用Sigmoid型函数进行训练

4.4.2.3 使用ReLU函数进行模型训练

4.4.3 死亡ReLU问题

4.4.3.2 使用Leaky ReLU进行模型训练

总结

4.3 自动梯度计算

虽然我们能够通过模块化的方式比较好地对神经网络进行组装，但是每个模块的梯度计算过程仍然十分繁琐且容易出错。在深度学习框架中，已经封装了自动梯度计算的功能，我们只需要聚焦模型架构，不再需要耗费精力进行计算梯度。

飞桨提供了paddle.nn.Layer类，来方便快速的实现自己的层和模型。模型和层都可以基于paddle.nn.Layer扩充实现，模型只是一种特殊的层。继承了paddle.nn.Layer类的算子中，可以在内部直接调用其它继承paddle.nn.Layer类的算子，飞桨框架会自动识别算子中内嵌的paddle.nn.Layer类算子，并自动计算它们的梯度，并在优化时更新它们的参数。

pytorch中的相应内容是什么？请简要介绍。

4.3.1 利用预定义算子重新实现前馈神经网络

1、使用pytorch的预定义算子来重新实现二分类任务。（必做）

paddle.nn.Linear(in_features, out_features, weight_attr=None, bias_attr=None, name=None)

在paddle.nn.Linear里可以直接设置w和b，但是在torch.nn.Linear里

可以看到pytorch官网里给的Linear类中是不能设置w和b的，只能设置b的有没有，所以我在这里手动设置了一下w和b。

import torch.nn as nn
import torch.nn.functional as F
import os
import torch
from abc import abstractmethod
import math
import numpy as np
from make_moon import make_moons
from metric import accuracy
import matplotlib.pyplot as plt
from torch.nn.init  import normal_,constant_,uniform_
class Model_MLP_L2_V2(nn.Module):
    def __init__(self, input_size, hidden_size, output_size):
        super(Model_MLP_L2_V2, self).__init__()
        self.fc1 = nn.Linear(input_size, hidden_size)
        normal_(self.fc1.weight, mean=0., std=1.)
        constant_(self.fc1.bias, val=0.0)
        self.fc2 = nn.Linear(hidden_size, output_size)
        normal_(self.fc2.weight, mean=0., std=1.)
        constant_(self.fc2.bias, val=0.0)
        self.act_fn = torch.sigmoid

    # 前向计算
    def forward(self, inputs):
        z1 = self.fc1(inputs)
        a1 = self.act_fn(z1)
        z2 = self.fc2(a1)
        a2 = self.act_fn(z2)
        return a2

4.3.2 完善Runner类

class RunnerV2_2(object):
    def __init__(self, model, optimizer, metric, loss_fn, **kwargs):
        self.model = model
        self.optimizer = optimizer
        self.loss_fn = loss_fn
        self.metric = metric

        # 记录训练过程中的评估指标变化情况
        self.train_scores = []
        self.dev_scores = []

        # 记录训练过程中的评价指标变化情况
        self.train_loss = []
        self.dev_loss = []

    def train(self, train_set, dev_set, **kwargs):
        # 将模型切换为训练模式
        self.model.train()

        # 传入训练轮数，如果没有传入值则默认为0
        num_epochs = kwargs.get("num_epochs", 0)
        # 传入log打印频率，如果没有传入值则默认为100
        log_epochs = kwargs.get("log_epochs", 100)
        # 传入模型保存路径，如果没有传入值则默认为"best_model.pdparams"
        save_path = kwargs.get("save_path", "best_model.pdparams")

        # log打印函数，如果没有传入则默认为"None"
        custom_print_log = kwargs.get("custom_print_log", None)

        # 记录全局最优指标
        best_score = 0
        # 进行num_epochs轮训练
        for epoch in range(num_epochs):
            X, y = train_set
            # 获取模型预测
            logits = self.model(X)
            # 计算交叉熵损失
            trn_loss = self.loss_fn(logits, y)
            self.train_loss.append(trn_loss.item())
            # 计算评估指标
            trn_score = self.metric(logits, y).item()
            self.train_scores.append(trn_score)

            # 自动计算参数梯度
            trn_loss.backward()
            if custom_print_log is not None:
                # 打印每一层的梯度
                custom_print_log(self)

            # 参数更新
            self.optimizer.step()
            # 清空梯度
            self.optimizer.zero_grad()

            dev_score, dev_loss = self.evaluate(dev_set)
            # 如果当前指标为最优指标，保存该模型
            if dev_score > best_score:
                self.save_model(save_path)
                print(f"[Evaluate] best accuracy performence has been updated: {best_score:.5f} --> {dev_score:.5f}")
                best_score = dev_score

            if log_epochs and epoch % log_epochs == 0:
                print(f"[Train] epoch: {epoch}/{num_epochs}, loss: {trn_loss.item()}")

    # 模型评估阶段，使用'paddle.no_grad()'控制不计算和存储梯度
    @torch.no_grad()
    def evaluate(self, data_set):
        # 将模型切换为评估模式
        self.model.eval()

        X, y = data_set
        # 计算模型输出
        logits = self.model(X)
        # 计算损失函数
        loss = self.loss_fn(logits, y).item()
        self.dev_loss.append(loss)
        # 计算评估指标
        score = self.metric(logits, y).item()
        self.dev_scores.append(score)
        return score, loss

    def predict(self, X):
        # 将模型切换为评估模式
        self.model.eval()
        return self.model(X)

    # 使用'model.state_dict()'获取模型参数，并进行保存
    def save_model(self, saved_path):
        torch.save(self.model.state_dict(), saved_path)

    # 使用'model.set_state_dict'加载模型参数
    def load_model(self, model_path):
        state_dict = torch.load(model_path)
        self.model.load_state_dict(state_dict)

4.3.3 模型训练

# 设置模型
input_size = 2
hidden_size = 5
output_size = 1
model = Model_MLP_L2_V2(input_size=input_size, hidden_size=hidden_size, output_size=output_size)

# 设置损失函数
loss_fn = F.binary_cross_entropy

# 设置优化器
learning_rate = 0.2
optimizer = torch.optim.SGD(lr=learning_rate, params=model.parameters())

# 设置评价指标
metric = accuracy

# 其他参数
epoch_num = 1000
saved_path = 'best_model.pdparams'

# 实例化RunnerV2类，并传入训练配置
runner = RunnerV2_2(model, optimizer, metric, loss_fn)

runner.train([X_train, y_train], [X_dev, y_dev], num_epochs=epoch_num, log_epochs=50, save_path="best_model.pdparams")

得到以下结果：


[Evaluate] best accuracy performence has been updated: 0.00000 --> 0.45625
[Train] epoch: 0/1000, loss: 0.7848005294799805
[Evaluate] best accuracy performence has been updated: 0.45625 --> 0.47500
[Evaluate] best accuracy performence has been updated: 0.47500 --> 0.51875
[Evaluate] best accuracy performence has been updated: 0.51875 --> 0.56875
[Evaluate] best accuracy performence has been updated: 0.56875 --> 0.61875
[Evaluate] best accuracy performence has been updated: 0.61875 --> 0.65625
[Evaluate] best accuracy performence has been updated: 0.65625 --> 0.69375
[Evaluate] best accuracy performence has been updated: 0.69375 --> 0.71875
[Evaluate] best accuracy performence has been updated: 0.71875 --> 0.73750
[Evaluate] best accuracy performence has been updated: 0.73750 --> 0.74375
[Train] epoch: 50/1000, loss: 0.5194441080093384
[Evaluate] best accuracy performence has been updated: 0.74375 --> 0.75000
[Train] epoch: 100/1000, loss: 0.4518086016178131
[Evaluate] best accuracy performence has been updated: 0.75000 --> 0.75625
[Evaluate] best accuracy performence has been updated: 0.75625 --> 0.76250
[Evaluate] best accuracy performence has been updated: 0.76250 --> 0.76875
[Evaluate] best accuracy performence has been updated: 0.76875 --> 0.77500
[Evaluate] best accuracy performence has been updated: 0.77500 --> 0.78125
[Evaluate] best accuracy performence has been updated: 0.78125 --> 0.78750
[Evaluate] best accuracy performence has been updated: 0.78750 --> 0.80000
[Evaluate] best accuracy performence has been updated: 0.80000 --> 0.80625
[Train] epoch: 150/1000, loss: 0.40789881348609924
[Evaluate] best accuracy performence has been updated: 0.80625 --> 0.81250
[Evaluate] best accuracy performence has been updated: 0.81250 --> 0.81875
[Evaluate] best accuracy performence has been updated: 0.81875 --> 0.82500
[Evaluate] best accuracy performence has been updated: 0.82500 --> 0.83125
[Train] epoch: 200/1000, loss: 0.3763730525970459
[Train] epoch: 250/1000, loss: 0.353137344121933
[Evaluate] best accuracy performence has been updated: 0.83125 --> 0.83750
[Train] epoch: 300/1000, loss: 0.33587971329689026
[Evaluate] best accuracy performence has been updated: 0.83750 --> 0.84375
[Evaluate] best accuracy performence has been updated: 0.84375 --> 0.85000
[Train] epoch: 350/1000, loss: 0.32298415899276733
[Evaluate] best accuracy performence has been updated: 0.85000 --> 0.85625
[Train] epoch: 400/1000, loss: 0.31327566504478455
[Train] epoch: 450/1000, loss: 0.3059142827987671
[Train] epoch: 500/1000, loss: 0.3003050684928894
[Train] epoch: 550/1000, loss: 0.2960221767425537
[Train] epoch: 600/1000, loss: 0.29275229573249817
[Train] epoch: 650/1000, loss: 0.2902587354183197
[Train] epoch: 700/1000, loss: 0.2883586287498474
[Train] epoch: 750/1000, loss: 0.2869095206260681
[Train] epoch: 800/1000, loss: 0.28580060601234436
[Train] epoch: 850/1000, loss: 0.28494641184806824
[Train] epoch: 900/1000, loss: 0.2842817008495331
[Train] epoch: 950/1000, loss: 0.2837572693824768

将训练过程中训练集与验证集的准确率变化情况进行可视化。

# 可视化观察训练集与验证集的指标变化情况
def plot(runner, fig_name):
    plt.figure(figsize=(10, 5))
    epochs = [i for i in range(len(runner.train_scores))]

    plt.subplot(1, 2, 1)
    plt.plot(epochs, runner.train_loss, color='#e4007f', label="Train loss")
    plt.plot(epochs, runner.dev_loss, color='#f19ec2', linestyle='--', label="Dev loss")
    # 绘制坐标轴和图例
    plt.ylabel("loss", fontsize='large')
    plt.xlabel("epoch", fontsize='large')
    plt.legend(loc='upper right', fontsize='x-large')

    plt.subplot(1, 2, 2)
    plt.plot(epochs, runner.train_scores, color='#e4007f', label="Train accuracy")
    plt.plot(epochs, runner.dev_scores, color='#f19ec2', linestyle='--', label="Dev accuracy")
    # 绘制坐标轴和图例
    plt.ylabel("score", fontsize='large')
    plt.xlabel("epoch", fontsize='large')
    plt.legend(loc='lower right', fontsize='x-large')

    plt.savefig(fig_name)
    plt.show()


plot(runner, 'fw-acc.pdf')

得到以下结果：

4.3.4 性能评价

# 模型评价
runner.load_model("best_model.pdparams")
score, loss = runner.evaluate([X_test, y_test])
print("[Test] score/loss: {:.4f}/{:.4f}".format(score, loss))

得到以下结果：

[Test] score/loss: 0.8400/0.3513

4.3.1 利用预定义算子重新实现前馈神经网络

2. 增加一个3个神经元的隐藏层，再次实现二分类，并与1做对比。（必做）

改变网络形状也需要改一下模型，如下：

class Model_MLP_L2_V2(nn.Module):
    def __init__(self, input_size, hidden_size,hidden_size2, output_size):
        super(Model_MLP_L2_V2, self).__init__()
        self.fc1 = nn.Linear(input_size, hidden_size)
        normal_(self.fc1.weight, mean=0., std=1.)
        constant_(self.fc1.bias, val=0.0)

        self.fc2 = nn.Linear(hidden_size, output_size)
        normal_(self.fc2.weight, mean=0., std=1.)
        constant_(self.fc2.bias, val=0.0)

        self.fc3 = nn.Linear(hidden_size2, output_size)
        normal_(self.fc3.weight, mean=0., std=1.)
        constant_(self.fc3.bias, val=0.0)

        self.act_fn = torch.sigmoid

    # 前向计算
    def forward(self, inputs):
        z1 = self.fc1(inputs.float())
        a1 = self.act_fn(z1)
        z2 = self.fc2(a1)
        a2 = self.act_fn(z2)
        return a2

# 设置模型
input_size = 2
hidden_size = 5
hidden_size2 = 3
output_size = 1
model = Model_MLP_L2_V4(input_size=input_size, hidden_size=hidden_size,hidden_size2=hidden_size2, output_size=output_size)

在我试了九九八十一次后得到训练结果大概就是这样的：

[Evaluate] best accuracy performence has been updated: 0.00000 --> 0.29375
[Train] epoch: 0/1000, loss: 0.754684567451477
[Evaluate] best accuracy performence has been updated: 0.29375 --> 0.31875
[Evaluate] best accuracy performence has been updated: 0.31875 --> 0.33750
[Evaluate] best accuracy performence has been updated: 0.33750 --> 0.35000
[Evaluate] best accuracy performence has been updated: 0.35000 --> 0.38750
[Evaluate] best accuracy performence has been updated: 0.38750 --> 0.43750
[Evaluate] best accuracy performence has been updated: 0.43750 --> 0.45000
[Evaluate] best accuracy performence has been updated: 0.45000 --> 0.50000
[Evaluate] best accuracy performence has been updated: 0.50000 --> 0.51250
[Evaluate] best accuracy performence has been updated: 0.51250 --> 0.52500
[Evaluate] best accuracy performence has been updated: 0.52500 --> 0.55000
[Evaluate] best accuracy performence has been updated: 0.55000 --> 0.56250
[Evaluate] best accuracy performence has been updated: 0.56250 --> 0.58750
[Evaluate] best accuracy performence has been updated: 0.58750 --> 0.61250
[Evaluate] best accuracy performence has been updated: 0.61250 --> 0.62500
[Evaluate] best accuracy performence has been updated: 0.62500 --> 0.65000
[Evaluate] best accuracy performence has been updated: 0.65000 --> 0.68125
[Evaluate] best accuracy performence has been updated: 0.68125 --> 0.69375
[Evaluate] best accuracy performence has been updated: 0.69375 --> 0.70625
[Evaluate] best accuracy performence has been updated: 0.70625 --> 0.71250
[Evaluate] best accuracy performence has been updated: 0.71250 --> 0.71875
[Evaluate] best accuracy performence has been updated: 0.71875 --> 0.73750
[Evaluate] best accuracy performence has been updated: 0.73750 --> 0.74375
[Evaluate] best accuracy performence has been updated: 0.74375 --> 0.75000
[Evaluate] best accuracy performence has been updated: 0.75000 --> 0.76250
[Evaluate] best accuracy performence has been updated: 0.76250 --> 0.76875
[Evaluate] best accuracy performence has been updated: 0.76875 --> 0.77500
[Evaluate] best accuracy performence has been updated: 0.77500 --> 0.78125
[Evaluate] best accuracy performence has been updated: 0.78125 --> 0.78750
[Evaluate] best accuracy performence has been updated: 0.78750 --> 0.79375
[Train] epoch: 50/1000, loss: 0.5374778509140015
[Evaluate] best accuracy performence has been updated: 0.79375 --> 0.80000
[Train] epoch: 100/1000, loss: 0.4248269498348236
[Evaluate] best accuracy performence has been updated: 0.80000 --> 0.80625
[Evaluate] best accuracy performence has been updated: 0.80625 --> 0.81250
[Evaluate] best accuracy performence has been updated: 0.81250 --> 0.81875
[Evaluate] best accuracy performence has been updated: 0.81875 --> 0.82500
[Evaluate] best accuracy performence has been updated: 0.82500 --> 0.83125
[Train] epoch: 150/1000, loss: 0.36857840418815613
[Evaluate] best accuracy performence has been updated: 0.83125 --> 0.83750
[Evaluate] best accuracy performence has been updated: 0.83750 --> 0.84375
[Train] epoch: 200/1000, loss: 0.33738794922828674
[Evaluate] best accuracy performence has been updated: 0.84375 --> 0.85000
[Evaluate] best accuracy performence has been updated: 0.85000 --> 0.85625
[Train] epoch: 250/1000, loss: 0.3170816898345947
[Train] epoch: 300/1000, loss: 0.30261653661727905
[Evaluate] best accuracy performence has been updated: 0.85625 --> 0.86250
[Evaluate] best accuracy performence has been updated: 0.86250 --> 0.86875
[Train] epoch: 350/1000, loss: 0.292058527469635
[Train] epoch: 400/1000, loss: 0.28439122438430786
[Train] epoch: 450/1000, loss: 0.2788788080215454
[Train] epoch: 500/1000, loss: 0.27493661642074585
[Train] epoch: 550/1000, loss: 0.2721155285835266
[Train] epoch: 600/1000, loss: 0.27008694410324097
[Train] epoch: 650/1000, loss: 0.26861780881881714
[Train] epoch: 700/1000, loss: 0.26754504442214966
[Train] epoch: 750/1000, loss: 0.26675477623939514
[Train] epoch: 800/1000, loss: 0.26616689562797546
[Train] epoch: 850/1000, loss: 0.26572513580322266
[Train] epoch: 900/1000, loss: 0.26538926362991333
[Evaluate] best accuracy performence has been updated: 0.86875 --> 0.87500
[Train] epoch: 950/1000, loss: 0.26513057947158813
[Test] score/loss: 0.8550/0.2731

进程已结束，退出代码为 0

添加了一个三个神经元的隐藏层后发现训练结果和1相比差不多，虽然偶尔会有一个比较高，但是大部分就是我展示出来的结果这样比1的效果要好一点，但是也没有高很多。我又改了一下学习率把学习率改成1，lr=1

得到以下结果：

[Evaluate] best accuracy performence has been updated: 0.93750 --> 0.94375
[Evaluate] best accuracy performence has been updated: 0.94375 --> 0.95000
[Train] epoch: 950/1000, loss: 0.15602488815784454
[Test] score/loss: 0.9400/0.1560

发现这个效果一下就上去了，但是我又多测试了几次发现并不稳定，就比如这一次：

[Evaluate] best accuracy performence has been updated: 0.86250 --> 0.86875
[Train] epoch: 150/1000, loss: 0.2642468810081482
[Train] epoch: 200/1000, loss: 0.2615928053855896
[Train] epoch: 250/1000, loss: 0.26074686646461487
[Train] epoch: 300/1000, loss: 0.26030269265174866
[Train] epoch: 350/1000, loss: 0.25997406244277954
[Train] epoch: 400/1000, loss: 0.2596961557865143
[Train] epoch: 450/1000, loss: 0.2594510018825531
[Train] epoch: 500/1000, loss: 0.25923141837120056
[Train] epoch: 550/1000, loss: 0.2590330243110657
[Train] epoch: 600/1000, loss: 0.25885269045829773
[Train] epoch: 650/1000, loss: 0.2586878538131714
[Train] epoch: 700/1000, loss: 0.2585364878177643
[Train] epoch: 750/1000, loss: 0.25839686393737793
[Train] epoch: 800/1000, loss: 0.2582675814628601
[Train] epoch: 850/1000, loss: 0.25814738869667053
[Train] epoch: 900/1000, loss: 0.2580353021621704
[Train] epoch: 950/1000, loss: 0.25793033838272095
[Test] score/loss: 0.8550/0.3199

进程已结束，退出代码为 0

效果并没有提升甚至还下降了，不过学习率上升了以后大部分时间效果还是比较好的，这种情况是比较特殊的。我又把学习率往上调了一下，lr=3，得到以下结果：

[Evaluate] best accuracy performence has been updated: 0.99375 --> 1.00000
[Train] epoch: 900/1000, loss: 0.040740884840488434
[Train] epoch: 950/1000, loss: 0.03657595440745354
[Test] score/loss: 0.9950/0.0440

果然学习率上去了，结果也稳定了，效果也好了。

3. 自定义隐藏层层数和每个隐藏层中的神经元个数，尝试找到最优超参数完成二分类。可以适当修改数据集，便于探索超参数。（选做）

虽然说是自定义层数和神经元个数，但是也要有个方向，要知道怎么去定义。

再往下的我就不复制了，这里参考博客：https://www.toutiao.com/a6615751007013962244/

这里有几个公式：

隐藏神经元的数量应在输入层的大小和输出层的大小之间。
隐藏神经元的数量应为输入层大小的2/3加上输出层大小的2/3。
隐藏神经元的数量应小于输入层大小的两倍。

因为这是一个二分类问题，所以我认为隐藏层有一个或者两个就可以了，然后我们进行神经元的设置。

先是一个隐藏层5个神经元，也就是上面写过的结果：

[Test] score/loss: 0.8250/0.3510

变成4个神经元：

[Test] score/loss: 0.9000/0.2668

3个神经元：

[Test] score/loss: 0.8350/0.5627

2个神经元：

[Test] score/loss: 0.9100/0.2403

我们再换到2个隐藏层神经元分别是5和3也就是上面写过的：

[Test] score/loss: 0.8550/0.3455

从上述的发现隐藏层1个神经元2个的时候效果是最好的，但是对比于上面更改学习率来说，这点提升好像有点少，所以我把一个隐藏层两个神经元的情况下学习率更改为2：

[Test] score/loss: 0.8550/0.3369

效果反而下降了，这是为什么？？

我又把学习率改成3：

[Test] score/loss: 0.8750/0.2995

发现还是没有很大的变化，然后我又把神经元个数变回5个，然后学习率lr=2：

[Test] score/loss: 0.9850/0.0816

发现不如上面的lr=3，但是上面lr=3时效果并不稳定，所以我改成lr=5：

[Evaluate] best accuracy performence has been updated: 0.99375 --> 1.00000
[Train] epoch: 850/1000, loss: 0.07662317156791687
[Train] epoch: 900/1000, loss: 0.06233246996998787
[Train] epoch: 950/1000, loss: 0.05472086742520332
[Test] score/loss: 1.0000/0.0596

emmmm ，这应该就可以确定隐藏层是1个神经元是5个学习率lr=5的时候效果最好了

【思考题】

自定义梯度计算和自动梯度计算：从计算性能、计算结果等多方面比较，谈谈自己的看法。

在PyTorch中，torch.Tensor类是存储和变换数据的重要工具，相比于Numpy，Tensor提供GPU计算和自动求梯度等更多功能，在深度学习中，我们经常需要对函数求梯度（gradient）。PyTorch提供的autograd包能够根据输入和前向传播过程自动构建计算图，并执行反向传播。

Tensor是这个pytorch的自动求导部分的核心类，如果将其属性.requires_grad=True，它将开始追踪(track) 在该tensor上的所有操作，从而实现利用链式法则进行的梯度传播。完成计算后，可以调用.backward()来完成所有梯度计算。此Tensor的梯度将累积到.grad属性中。
如果不想要被继续对tensor进行追踪，可以调用.detach()将其从追踪记录中分离出来，接下来的梯度就传不过去了。此外，还可以用with torch.no_grad()将不想被追踪的操作代码块包裹起来，这种方法在评估模型的时候很常用，因为此时并不需要继续对梯度进行计算。

Function是另外一个很重要的类。Tensor和Function互相结合就可以构建一个记录有整个计算过程的有向无环图（DAG）。每个Tensor都有一个.grad_fn属性，该属性即创建该Tensor的Function, 就是说该Tensor是不是通过某些运算得到的，若是，则grad_fn返回一个与这些运算相关的对象，否则是None。

我们上次实验是用的自定义梯度计算，这次实验用的是自动梯度计算。所以我们可以将这两次的性能和结果来进行对比。

自定义梯度计算：

    def backward(self):
        # 计算损失函数对模型预测的导数
        loss_grad_predicts = -1.0 * (self.labels / self.predicts -
                                     (1 - self.labels) / (1 - self.predicts)) / self.num

        # 梯度反向传播
        self.model.backward(loss_grad_predicts)

得到的结果：

[Test] score/loss: 0.7750/0.4362

而自动梯度计算：

     # 自动计算参数梯度
            trn_loss.backward()

得到的结果：

[Test] score/loss: 0.9000/0.2246

发现自动梯度计算的效果要好一点，然后我们再测试一下两者所用时间：

自定义梯度计算：

运行时间： 0.9484963417053223

自动梯度计算：

运行时间： 0.7904136180877686

发现自动梯度计算不管从时间还是结果上都要优于自定义梯度计算，

4.4 优化问题

4.4.1 参数初始化

实现一个神经网络前，需要先初始化模型参数。

如果对每一层的权重和偏置都用0初始化，那么通过第一遍前向计算，所有隐藏层神经元的激活值都相同；在反向传播时，所有权重的更新也都相同，这样会导致隐藏层神经元没有差异性，出现对称权重现象。

class Model_MLP_L2_V4(nn.Module):
    def __init__(self, input_size, hidden_size, output_size):
        super(Model_MLP_L2_V4, self).__init__()
        # 使用'paddle.nn.Linear'定义线性层。
        # 其中in_features为线性层输入维度；out_features为线性层输出维度
        # weight_attr为权重参数属性
        # bias_attr为偏置参数属性

        self.fc1 = nn.Linear(input_size, hidden_size)
        constant_(self.fc1.weight, val=0.0)
        constant_(self.fc1.bias, val=0.0)
        self.fc2 = nn.Linear(hidden_size, output_size)
        constant_(self.fc2.weight, val=0.0)
        constant_(self.fc2.bias, val=0.0)
        self.act_fn = torch.sigmoid

        # 使用'paddle.nn.functional.sigmoid'定义 Logistic 激活函数
        self.act_fn = torch.sigmoid

    # 前向计算
    def forward(self, inputs):
        z1 = self.fc1(inputs.float())
        a1 = self.act_fn(z1)
        z2 = self.fc2(a1)
        a2 = self.act_fn(z2)
        return a2


def print_weights(runner):
    print('The weights of the Layers：')
    for item in runner.model.named_parameters():
        print(item)

利用Runner类训练模型：

# 设置模型
input_size = 2
hidden_size = 5
output_size = 1
model = Model_MLP_L2_V4(input_size=input_size, hidden_size=hidden_size, output_size=output_size)

# 设置损失函数
loss_fn = F.binary_cross_entropy

# 设置优化器
learning_rate = 0.2 #5e-2
optimizer = torch.optim.SGD(lr=learning_rate, params=model.parameters())

# 设置评价指标
metric = accuracy

# 其他参数
epoch = 2000
saved_path = 'best_model.pdparams'

# 实例化RunnerV2类，并传入训练配置
runner = RunnerV2_2(model, optimizer, metric, loss_fn)

runner.train([X_train, y_train], [X_dev, y_dev], num_epochs=5, log_epochs=50, save_path="best_model.pdparams",custom_print_log=print_weights)

可视化训练和验证集上的主准确率和loss变化：

plot(runner, "fw-zero.pdf")

得到以下结果：

The weights of the Layers：
('fc1.weight', Parameter containing:
tensor([[0., 0.],
        [0., 0.],
        [0., 0.],
        [0., 0.],
        [0., 0.]], requires_grad=True))
('fc1.bias', Parameter containing:
tensor([0., 0., 0., 0., 0.], requires_grad=True))
('fc2.weight', Parameter containing:
tensor([[0., 0., 0., 0., 0.]], requires_grad=True))
('fc2.bias', Parameter containing:
tensor([0.], requires_grad=True))
[Evaluate] best accuracy performence has been updated: 0.00000 --> 0.48750
[Train] epoch: 0/5, loss: 0.6931473016738892
The weights of the Layers：
('fc1.weight', Parameter containing:
tensor([[0., 0.],
        [0., 0.],
        [0., 0.],
        [0., 0.],
        [0., 0.]], requires_grad=True))
('fc1.bias', Parameter containing:
tensor([0., 0., 0., 0., 0.], requires_grad=True))
('fc2.weight', Parameter containing:
tensor([[-0.0020, -0.0020, -0.0020, -0.0020, -0.0020]], requires_grad=True))
('fc2.bias', Parameter containing:
tensor([-0.0041], requires_grad=True))
The weights of the Layers：
('fc1.weight', Parameter containing:
tensor([[-2.2723e-05,  1.9955e-05],
        [-2.2723e-05,  1.9955e-05],
        [-2.2723e-05,  1.9955e-05],
        [-2.2723e-05,  1.9955e-05],
        [-2.2723e-05,  1.9955e-05]], requires_grad=True))
('fc1.bias', Parameter containing:
tensor([1.8309e-06, 1.8309e-06, 1.8309e-06, 1.8309e-06, 1.8309e-06],
       requires_grad=True))
('fc2.weight', Parameter containing:
tensor([[-0.0038, -0.0038, -0.0038, -0.0038, -0.0038]], requires_grad=True))
('fc2.bias', Parameter containing:
tensor([-0.0077], requires_grad=True))
The weights of the Layers：
('fc1.weight', Parameter containing:
tensor([[-6.5808e-05,  5.7519e-05],
        [-6.5808e-05,  5.7519e-05],
        [-6.5808e-05,  5.7519e-05],
        [-6.5808e-05,  5.7519e-05],
        [-6.5808e-05,  5.7519e-05]], requires_grad=True))
('fc1.bias', Parameter containing:
tensor([4.8980e-06, 4.8980e-06, 4.8980e-06, 4.8980e-06, 4.8980e-06],
       requires_grad=True))
('fc2.weight', Parameter containing:
tensor([[-0.0054, -0.0054, -0.0054, -0.0054, -0.0054]], requires_grad=True))
('fc2.bias', Parameter containing:
tensor([-0.0109], requires_grad=True))
The weights of the Layers：
('fc1.weight', Parameter containing:
tensor([[-0.0001,  0.0001],
        [-0.0001,  0.0001],
        [-0.0001,  0.0001],
        [-0.0001,  0.0001],
        [-0.0001,  0.0001]], requires_grad=True))
('fc1.bias', Parameter containing:
tensor([8.7562e-06, 8.7562e-06, 8.7562e-06, 8.7562e-06, 8.7562e-06],
       requires_grad=True))
('fc2.weight', Parameter containing:
tensor([[-0.0069, -0.0069, -0.0069, -0.0069, -0.0069]], requires_grad=True))
('fc2.bias', Parameter containing:
tensor([-0.0137], requires_grad=True))

进程已结束，退出代码为 0

从输出结果看，二分类准确率为50%左右，说明模型没有学到任何内容。训练和验证loss几乎没有怎么下降。

为了避免对称权重现象，可以使用高斯分布或均匀分布初始化神经网络的参数。

高斯分布和均匀分布采样的实现和可视化代码如下：

# 使用'paddle.normal'实现高斯分布采样，其中'mean'为高斯分布的均值，'std'为高斯分布的标准差，'shape'为输出形状
gausian_weights = torch.normal(mean=0.0, std=1.0, size=[10000])
# 使用'paddle.uniform'实现在[min,max)范围内的均匀分布采样，其中'shape'为输出形状
uniform_weights = torch.Tensor(10000)
uniform_weights.uniform_(-1,1)
print(uniform_weights)
# 绘制两种参数分布
plt.figure()
plt.subplot(1,2,1)
plt.title('Gausian Distribution')
plt.hist(gausian_weights, bins=200, density=True, color='#f19ec2')
plt.subplot(1,2,2)
plt.title('Uniform Distribution')
plt.hist(uniform_weights, bins=200, density=True, color='#e4007f')
plt.savefig('fw-gausian-uniform.pdf')
plt.show()

4.4.2 梯度消失问题

在神经网络的构建过程中，随着网络层数的增加，理论上网络的拟合能力也应该是越来越好的。但是随着网络变深，参数学习更加困难，容易出现梯度消失问题。

由于Sigmoid型函数的饱和性，饱和区的导数更接近于0，误差经过每一层传递都会不断衰减。当网络层数很深时，梯度就会不停衰减，甚至消失，使得整个网络很难训练，这就是所谓的梯度消失问题。
在深度神经网络中，减轻梯度消失问题的方法有很多种，一种简单有效的方式就是使用导数比较大的激活函数，如：ReLU。

4.4.2.1 模型构建

定义一个前馈神经网络，包含4个隐藏层和1个输出层，通过传入的参数指定激活函数。代码实现如下：

# 定义多层前馈神经网络
class Model_MLP_L5(nn.Module):
    def __init__(self, input_size, output_size, act='sigmoid', w_init=torch.normal(mean=torch.tensor(0.0), std=torch.tensor(0.01)), b_init=torch.tensor(1.0)):
        super(Model_MLP_L5, self).__init__()
        self.fc1 = torch.nn.Linear(input_size, 3)
        self.fc2 = torch.nn.Linear(3, 3)
        self.fc3 = torch.nn.Linear(3, 3)
        self.fc4 = torch.nn.Linear(3, 3)
        self.fc5 = torch.nn.Linear(3, output_size)
        # 定义网络使用的激活函数
        if act == 'sigmoid':
            self.act = F.sigmoid
        elif act == 'relu':
            self.act = F.relu
        elif act == 'lrelu':
            self.act = F.leaky_relu
        else:
            raise ValueError("Please enter sigmoid relu or lrelu!")
        # 初始化线性层权重和偏置参数
        self.init_weights(w_init, b_init)

    # 初始化线性层权重和偏置参数
    def init_weights(self, w_init, b_init):
        # 使用'named_sublayers'遍历所有网络层
        for n, m in self.named_parameters():
            # 如果是线性层，则使用指定方式进行参数初始化
            if isinstance(m, nn.Linear):
                w_init(m.weight)
                b_init(m.bias)

    def forward(self, inputs):
        outputs = self.fc1(inputs)
        outputs = self.act(outputs)
        outputs = self.fc2(outputs)
        outputs = self.act(outputs)
        outputs = self.fc3(outputs)
        outputs = self.act(outputs)
        outputs = self.fc4(outputs)
        outputs = self.act(outputs)
        outputs = self.fc5(outputs)
        outputs = F.sigmoid(outputs)
        return outputs

4.4.2.2 使用Sigmoid型函数进行训练

使用Sigmoid型函数作为激活函数，为了便于观察梯度消失现象，只进行一轮网络优化。代码实现如下：

定义梯度打印函数

def print_grads(runner):
    # 打印每一层的权重的模
    print('The gradient of the Layers：')
    for name,item in runner.model.named_parameters():
        if(len(item.size())==2):
             print(item)
             print(name,torch.norm(input=item,p=2))
             # 学习率大小
lr = 0.01
# 定义网络，激活函数使用sigmoid
model =  Model_MLP_L5(input_size=2, output_size=1, act='sigmoid')
# 定义优化器
optimizer = torch.optim.SGD(lr=lr, params=model.parameters())
# 定义损失函数，使用交叉熵损失函数
loss_fn = F.binary_cross_entropy
# 定义评价指标
metric = accuracy
# 指定梯度打印函数
custom_print_log=print_grads

实例化RunnerV2_2类，并传入训练配置。代码实现如下：

# 实例化Runner类
runner = RunnerV2_2(model, optimizer, metric, loss_fn)

模型训练，打印网络每层梯度值的ℓ2ℓ2范数。代码实现如下：

# 启动训练
runner.train([X_train, y_train], [X_dev, y_dev], 
            num_epochs=1, log_epochs=None, 
            save_path="best_model.pdparams", 
            custom_print_log=custom_print_log)

得到以下结果：

The gradient of the Layers：
Parameter containing:
tensor([[ 0.2164,  0.1399],
        [ 0.6758, -0.0936],
        [ 0.5075, -0.6908]], requires_grad=True)
fc1.weight tensor(1.1255, grad_fn=)
Parameter containing:
tensor([[-0.5121, -0.2570, -0.4033],
        [ 0.4516,  0.3644, -0.1825],
        [ 0.3609, -0.1477,  0.2830]], requires_grad=True)
fc2.weight tensor(1.0455, grad_fn=)
Parameter containing:
tensor([[ 0.2767,  0.4889,  0.1055],
        [-0.4200,  0.1725, -0.5390],
        [-0.4808,  0.2739, -0.4394]], requires_grad=True)
fc3.weight tensor(1.1501, grad_fn=)
Parameter containing:
tensor([[ 0.5159,  0.3937, -0.2794],
        [-0.4812,  0.2626, -0.5522],
        [ 0.4008, -0.2584,  0.1896]], requires_grad=True)
fc4.weight tensor(1.1696, grad_fn=)
Parameter containing:
tensor([[-0.4302, -0.4532, -0.0690]], requires_grad=True)
fc5.weight tensor(0.6286, grad_fn=)
[Evaluate] best accuracy performence has been updated: 0.00000 --> 0.36875

进程已结束，退出代码为 0

观察实验结果可以发现，梯度经过每一个神经层的传递都会不断衰减，最终传递到第一个神经层时，梯度几乎完全消失。

4.4.2.3 使用ReLU函数进行模型训练

lr = 0.01  # 学习率大小

# 定义网络，激活函数使用relu
model =  Model_MLP_L5(input_size=2, output_size=1, act='relu')

# 定义优化器
optimizer = torch.optim.SGD(lr=lr, params=model.parameters())

# 定义损失函数
# 定义损失函数，这里使用交叉熵损失函数
loss_fn = F.binary_cross_entropy

# 定义评估指标
metric = accuracy

# 实例化Runner
runner = RunnerV2_2(model, optimizer, metric, loss_fn)

# 启动训练
runner.train([X_train, y_train], [X_dev, y_dev], 
            num_epochs=1, log_epochs=None, 
            save_path="best_model.pdparams", 
            custom_print_log=custom_print_log)

得到以下结果：

The gradient of the Layers：
Parameter containing:
tensor([[-0.0650,  0.3647],
        [ 0.1154, -0.6875],
        [-0.6200,  0.3741]], requires_grad=True)
fc1.weight tensor(1.0712, grad_fn=)
Parameter containing:
tensor([[ 0.4844,  0.2058, -0.0677],
        [-0.1264,  0.5368,  0.1555],
        [-0.5234, -0.3148, -0.2681]], requires_grad=True)
fc2.weight tensor(1.0270, grad_fn=)
Parameter containing:
tensor([[ 0.0585,  0.1545,  0.3562],
        [ 0.0751,  0.1382, -0.3609],
        [ 0.4400, -0.4026,  0.2186]], requires_grad=True)
fc3.weight tensor(0.8442, grad_fn=)
Parameter containing:
tensor([[-0.3096, -0.4293,  0.2616],
        [ 0.5773,  0.3067,  0.1469],
        [ 0.2019,  0.4589,  0.5674]], requires_grad=True)
fc4.weight tensor(1.1708, grad_fn=)
Parameter containing:
tensor([[-0.3251, -0.2534,  0.4465]], requires_grad=True)
fc5.weight tensor(0.6077, grad_fn=)
[Evaluate] best accuracy performence has been updated: 0.00000 --> 0.51250

进程已结束，退出代码为 0

4.4.3 死亡ReLU问题

ReLU激活函数可以一定程度上改善梯度消失问题，但是在某些情况下容易出现死亡ReLU问题，使得网络难以训练。

这是由于当x<0x<0时，ReLU函数的输出恒为0。在训练过程中，如果参数在一次不恰当的更新后，某个ReLU神经元在所有训练数据上都不能被激活（即输出为0），那么这个神经元自身参数的梯度永远都会是0，在以后的训练过程中永远都不能被激活。

一种简单有效的优化方式就是将激活函数更换为Leaky ReLU、ELU等ReLU的变种。

# 定义网络，并使用较大的负值来初始化偏置
model =  Model_MLP_L5(input_size=2, output_size=1, act='relu', b_init=torch.tensor(-8.0))

实例化RunnerV2类，启动模型训练，打印网络每层梯度值的 $\varphi _2$ 范数。代码实现如下：

# 实例化Runner类
runner = RunnerV2_2(model, optimizer, metric, loss_fn)

# 启动训练
runner.train([X_train, y_train], [X_dev, y_dev], 
            num_epochs=1, log_epochs=0, 
            save_path="best_model.pdparams", 
            custom_print_log=custom_print_log)

得到以下结果：

The gradient of the Layers：
Parameter containing:
tensor([[-0.1353,  0.4477],
        [-0.1761,  0.7017],
        [ 0.1922, -0.6636]], requires_grad=True)
fc1.weight tensor(1.1043, grad_fn=)
Parameter containing:
tensor([[ 0.3332, -0.3783, -0.5500],
        [ 0.2807,  0.5112, -0.0911],
        [-0.3687,  0.4393,  0.3405]], requires_grad=True)
fc2.weight tensor(1.1618, grad_fn=)
Parameter containing:
tensor([[ 0.5757,  0.5254, -0.4195],
        [ 0.1654, -0.3798, -0.3237],
        [ 0.3662,  0.3267,  0.0957]], requires_grad=True)
fc3.weight tensor(1.1445, grad_fn=)
Parameter containing:
tensor([[ 0.3627, -0.4328, -0.0668],
        [ 0.1782, -0.0804, -0.4991],
        [-0.3512, -0.1673, -0.1121]], requires_grad=True)
fc4.weight tensor(0.8800, grad_fn=)
Parameter containing:
tensor([[ 0.1301,  0.5472, -0.5523]], requires_grad=True)
fc5.weight tensor(0.7883, grad_fn=)
[Evaluate] best accuracy performence has been updated: 0.00000 --> 0.49375

从输出结果可以发现，使用 ReLU 作为激活函数，当满足条件时，会发生死亡ReLU问题，网络训练过程中 ReLU 神经元的梯度始终为0，参数无法更新。

针对死亡ReLU问题，一种简单有效的优化方式就是将激活函数更换为Leaky ReLU、ELU等ReLU 的变种。接下来，观察将激活函数更换为 Leaky ReLU时的梯度情况。

4.4.3.2 使用Leaky ReLU进行模型训练

将激活函数更换为Leaky ReLU进行模型训练，观察梯度情况。代码实现如下：

# 重新定义网络，使用Leaky ReLU激活函数
model =  Model_MLP_L5(input_size=2, output_size=1, act='lrelu', b_init=torch.tensor(-8.0))
# 实例化Runner类
runner = RunnerV2_2(model, optimizer, metric, loss_fn)
# 启动训练
runner.train([X_train, y_train], [X_dev, y_dev], 
            num_epochs=1, log_epochps=None, 
            save_path="best_model.pdparams", 
            custom_print_log=custom_print_log)

得到以下结果：

The gradient of the Layers：
Parameter containing:
tensor([[ 0.2212, -0.2221],
        [ 0.1319, -0.0810],
        [ 0.3792,  0.4328]], requires_grad=True)
fc1.weight tensor(0.6733, grad_fn=)
Parameter containing:
tensor([[-0.2204, -0.3716,  0.4878],
        [ 0.1812,  0.3695, -0.2415],
        [-0.3263, -0.3294,  0.0499]], requires_grad=True)
fc2.weight tensor(0.9326, grad_fn=)
Parameter containing:
tensor([[-0.1988, -0.0070,  0.2591],
        [-0.4716,  0.2334, -0.1754],
        [-0.4411, -0.2383, -0.0437]], requires_grad=True)
fc3.weight tensor(0.8171, grad_fn=)
Parameter containing:
tensor([[-0.4036,  0.5367, -0.3690],
        [ 0.0459,  0.5360, -0.0508],
        [ 0.0682,  0.1038,  0.5499]], requires_grad=True)
fc4.weight tensor(1.0940, grad_fn=)
Parameter containing:
tensor([[-0.1032, -0.5637, -0.4058]], requires_grad=True)
fc5.weight tensor(0.7022, grad_fn=)
[Evaluate] best accuracy performence has been updated: 0.00000 --> 0.29375
[Train] epoch: 0/1, loss: 0.6969155073165894

进程已结束，退出代码为 0

从输出结果可以看到，将激活函数更换为Leaky ReLU后，死亡ReLU问题得到了改善，梯度恢复正常，参数也可以正常更新。但是由于 Leaky ReLU 中，x<0x<0 时的斜率默认只有0.01，所以反向传播时，随着网络层数的加深，梯度值越来越小。如果想要改善这一现象，将 Leaky ReLU 中，x<0x<0 时的斜率调大即可。

如何防止梯度消失？

sigmoid容易发生，更换激活函数为 ReLU即可。
权重初始化用高斯初始化

如何防止梯度爆炸？

1 设置梯度剪切阈值，如果超过了该阈值，直接将梯度置为该值。

2 使用ReLU,maxout等替代sigmoid
区别：

sigmoid函数值在[0,1],ReLU函数值在[0,+无穷]，所以sigmoid函数可以描述概率，ReLU适合用来描述实数；
sigmoid函数的梯度随着x的增大或减小和消失，而ReLU不会。
Relu会使一部分神经元的输出为0，这样就造成了网络的稀疏性，并且减少了参数的相互依存关系，缓解了过拟合问题的发生

参考链接：http://t.csdn.cn/4F0Yc

总结

了解了一些paddle和torch的转换，比如padlle.nn.Linear和torch.nn.Linear一个可以设置w和b一个不能，这就在写实验的时候可能会发生错误。

在进行探索超参数时，我找了很多文献，大概了解了该如何进行隐藏层的设置，但是在进行实验的时候其实还是一个一个参数来实验，这样虽然找到了最优解，但其实是很危险的，因为这次的任务比较简单，所以需要测试的参数比较少，但是如果任务复杂的话，不仅需要大量测试，还极容易产生局部最优解导致结果错误。

最后的梯度消失和梯度爆炸问题，我在上面写出了怎么解决，但是我们不能只知道如何解决问题，还要知道问题是如何产生的：

为什么会产生梯度消失和梯度爆炸？

目前优化神经网络的方法都是基于BP，即根据损失函数计算的误差通过梯度反向传播的方式，指导深度网络权值的更新优化。其中将误差从末层往前传递的过程需要链式法则（Chain Rule）的帮助，因此反向传播算法可以说是梯度下降在链式法则中的应用。

而链式法则是一个连乘的形式，所以当层数越深的时候，梯度将以指数形式传播。梯度消失问题和梯度爆炸问题一般随着网络层数的增加会变得越来越明显。在根据损失函数计算的误差通过梯度反向传播的方式对深度网络权值进行更新时，得到的梯度值接近0或特别大，也就是梯度消失或爆炸。梯度消失或梯度爆炸在本质原理上其实是一样的。

关于梯度消失和梯度爆炸产生原因的详细分析可以参考链接：http://t.csdn.cn/NoXM1

你可能感兴趣的:(神经网络与深度学习,servlet,jar,java)

为什么阿里Java规范不建议使用@Autowired AWen_X 言简意赅系列之Spring java 开发语言 spring spring boot 后端
Spring中@Autowired和@Resource的区别1.基本区别特性@Autowired@Resource来源Spring框架提供JSR-250规范提供，Java标准装配顺序优先按类型装配优先按名称装配默认匹配规则默认按类型匹配，可以使用@Qualifier指定名称默认按名称匹配，如果无法匹配则按类型匹配属性required属性可以设置是否必须注入成功name属性可以显式指定bean名称适
【Java】TCP网络编程：从可靠传输到Socket实战郑州吴彦祖772 【Java】网络原理 java 并发编程 tcp/ip
活动发起人@小虚竹想对你说：这是一个以写作博客为目的的创作活动，旨在鼓励大学生博主们挖掘自己的创作潜能，展现自己的写作才华。如果你是一位热爱写作的、想要展现自己创作才华的小伙伴，那么，快来参加吧！我们一起发掘写作的魅力，书写出属于我们的故事。我们诚挚邀请你参加为期14天的创作挑战赛！提醒：在发布作品前，请将不需要的内容删除。各位看官，大家早安午安晚安呀~~~如果您觉得这篇文章对您有帮助的话欢迎您一
ElasticSearch Java查询实现详解当牛作馬 ElasticSearch使用 elasticsearch java jenkins
文章目录前言一、环境准备二.连接到ElasticSearch三.实现各种查询1匹配查询（MatchQuery）2术语查询（TermQuery）3范围查询（RangeQuery）4复合查询（BoolQuery）5.术语聚合（TermsAggregation）5.平均值聚合（AvgAggregation）6.最大值聚合（MaxAggregation）与最小值聚合（MinAggregation）7.日期
使用 openapi-generator-cli 生成代码，以 3GPP TS29518_Namf_Communication 为例波格斯特问题备忘开发语言
使用openapi-generator-cli生成代码，以3GPPTS29518_Namf_Communication为例安装openapi-generator-cli（前提有安装Java11以上）#使用阿里云镜像Invoke-WebRequest-OutFileopenapi-generator-cli.jarhttps://maven.aliyun.com/repository/public/
（备忘） manjaro更换内核后 virtualBox 中打不开虚拟机（已经解决）波格斯特问题备忘 linux 内核
文章目录问题描述解决办法参考链接1问题描述更换完5.9内核后VirtualBox提示Kerneldrivernotinstalled(rc=-1908)"TheVirtualBoxLinuxkerneldriveriseithernotloadedornotsetupcorrectly.Pleasetrysettingitupagainbyexecuting'/sbin/vboxconfig'as
js原型链与自动装箱机制 CC Cian javascript 开发语言 ecmascript 前端
目录前言基于原型生成对象修改原型对象构造函数的机制原型对象与原型链原型链相关方法补充1.自动装箱机制2.__proto__的存在原因3.关键区别4.示例验证5.总结前言在如今的主流语言中，大部分语言都是通过类来产生对象但js是基于原型生成对象javapublicclassPerson{privateStringname;privateintage;publicPerson(Stringname,i
Java Web开发技术解析：从基础到实践的全栈指南以恒1 java 前端开发语言
JavaWeb开发技术解析：从基础到实践的全栈指南在互联网技术演进中，JavaWeb凭借其跨平台特性、成熟的生态系统和强大的企业级服务能力，成为构建动态Web应用的核心技术栈。本文从技术组成、开发工具、实战应用三个维度，全面解析JavaWeb的完整技术体系，并结合最新行业实践探讨其演进方向。一、JavaWeb的核心技术组成JavaWeb开发以Servlet和JSP为基石，通过分层架构实现动态网页生
Flink命令行启动Job任务平凡的运维之路 linux 程序人生
Flink非交互式运行Job任务Flink命令行启动Job任务具体命令flink参数说明-c,--class-d,--detached后台运行-p,--parallelism并行度[test@xxx~]$flinkrun-d-cclass_nameJob-p3./flink-statics-1.0.jar-zookeeper"10.130.41.51:2181,10.130.41.52:2181,
快速启动flink项目 for your wish flink java 大数据
按照这个步骤1分钟内创建完成idea-----File----new---Project------Maven----Createfromarchetype----AddArchetype弹出框：GroupId填org.apache.flinkArtifactId填flink-quickstart-javaVersion填1.14.0选中刚刚添加的Archetype，点Next填写你要创建的这个f
【Flink】flink启动任务，taskmanager.out 文件增涨非常快九师兄 flink 大数据
1.概述flink启动任务，taskmanager.out文件增涨非常快，这个文件大小怎么限定？测试了很多办法发现都不起作用这个问题可以试试：【Flink】Flink1.11.2onYARN滚动日志配置但是后面我发现不是这个导致的，是slf4j依赖冲突，jar包删除就可以了
SpringBoot可以同时处理多少请求？ java1234_小锋 java java 开发语言
大家好，我是锋哥。今天分享关于【SpringBoot可以同时处理多少请求？】面试题。希望对大家有帮助；SpringBoot可以同时处理多少请求？1000道互联网大厂Java工程师精选面试题-Java资源分享网SpringBoot本身并不直接限制可以处理的请求数量，能处理多少请求取决于几个因素，主要是底层的Web服务器（如嵌入式的Tomcat、Jetty或Undertow），以及服务器硬件、操作系统
说说你对Java里Integer缓存的理解？ java1234_小锋 java java 开发语言
大家好，我是锋哥。今天分享关于【说说你对Java里Integer缓存的理解？】面试题。希望对大家有帮助；说说你对Java里Integer缓存的理解？1000道互联网大厂Java工程师精选面试题-Java资源分享网Java中的Integer缓存是为了提高性能而引入的优化机制，特别是对于频繁使用的小范围整数的情况。具体来说，Integer类对从-128到127范围内的整数值做了缓存。这些整数值被缓存起
java常用数据转换 bestwinner java python windows
1.List与数组互转ArrayListlist=newArrayListlist1=Arrays.stream(array1).collect(Collectors.toList());String[]cateArray=cateList.toArray(newString[cateList.size()]);2.new集合对像importcom.google.common.collect.Li
开发实战｜commons-lang3库的字符串工具类join方法六月暴雪飞梨花 commons-lang3 StringUtils String join
作者简介：「六月暴雪飞梨花」，专注于研究Java，就职于科技型公司后端工程师近期荣誉：华为云云享专家、阿里云专家博主、腾讯云优秀创作者、腾讯云TDP-KOL、ACDU成员、墨天轮技术专家博主三连支持：欢迎❤️关注、点赞、收藏三连，支持一下博主~文章目录引言来源StringUtils.joinString.join功能对比StringUtils.join支持原生数组支持集合支持迭代器Iterator
[解决] PDF转图片,中文乱码或显示方框的解决方案 DazedMen 开发遇到的问题 pdf java pdf转图片
在Java开发中，将PDF文件转换为图片是一项常见的需求，但过程中可能会遇到中文乱码或显示方框的问题。本文将深入探讨这一问题，并提供详细的解决方案，帮助开发者顺利地完成PDF到图片的转换。一、问题现象在使用Java库（如ApachePDFBox）将PDF转换为图片时，如果PDF文件中包含中文字符，转换后的图片中可能会出现中文乱码或显示为方框的情况。控制台日志可能会显示类似以下信息：noglyphf
MyBatis 中 resultType 的使用详解旧故新长 windows
MyBatis中resultType的使用详解1.resultType的含义在MyBatis中，resultType指的是每一行查询结果的Java类型，而不是整个结果集的类型。常见的用法：resultType="java.lang.String"：表示每一行是一个字符串。resultType="com.example.User"：表示每一行是一个User对象。2.resultType与方法返回值类
java Spring Boot ruoyi-vue-pro 模型接入微软 OpenAI(chatgpt)方法代码简单说开发必备 2025开发必备 java若依 ruoyi教程 java spring boot vue.js ruoyi-vue-pro openai chatgpt 大模型
javaSpringBootruoyi-vue-pro模型接入微软OpenAI方法本项目基于SpringAI提供的spring-ai-azure-openai，实现与微软Azure上部署的OpenAI的接入，涵盖AI对话和AI绘画功能。1.申请密钥1.1AzureAPI申请在微软AzureAI申请。社区小伙伴提供过密钥接入，申请流程应不复杂。申请完成后会得到类似模型列表（如图）。购买完成后，在系统
13 异常处理的使用大全希望_睿智 C++基础知识精讲 c++windows c语言开发语言异常处理
概述异常是指程序在执行的过程中，没有按照预定的流程和逻辑去运行，从而导致数组越界、内存溢出、甚至程序崩溃等各种非正常的情况。在C++、Java和C#等高级语言中，都提供了对于异常的处理机制。异常处理，实际上是一种转移程序控制权的方式。当程序中抛出了异常时，我们可以捕获异常，进而进行相应的处理。处理模型一般有两种：一种是终止模型，表示该异常是致命的，无法恢复，会直接终止程序；另一种是恢复模型，表示该
Spring Boot 项目启动时初始化 springboot
简介有时我们需要在启动项目时做一些操作，比如将Mysq数据库的数据导入到Redis中。这里介绍两种简单的方法。方法1；给方法添加注解@PostContruct@ComponentpublicclassInitServlet{@PostContructpublicvoidinit(){//初始化操作处理}}方法2：实现InitializingBean接口@ComponentpublicclassIn
Node.js 格式化时间的两种方法：原生 Date 与 npm 包 moment 详解还是鼠鼠 node.js node.js npm 前端 javascript vscode
目录Node.js格式化时间的两种做法：内置方法与npm包1.使用JavaScript内置方法格式化时间示例：使用Date对象格式化时间运行程序示例输出原理解析2.使用npm包moment进行时间格式化安装moment示例：使用moment格式化时间运行程序示例输出原理解析3.两种方法的对比4.结论在Node.js开发中，格式化时间是一个常见的需求。例如，将时间格式化为YYYY-MM-DDHH:m
java NIO中的FileSystems工具类可以读取本地文件系统，ZIP/JAR等，无需解压处理，还可以复制文件爱的叹息 Java 基础整理 java nio jar
在JavaNIO（java.nio.file包）中，FileSystems是一个工具类，用于操作和管理文件系统。它提供了静态方法来获取或创建文件系统实例，并支持自定义文件系统实现。以下是其核心功能和用法：1.核心功能(1)获取默认文件系统获取当前运行环境的默认文件系统（如本地文件系统）：FileSystemfileSystem=FileSystems.getDefault();(2)创建新的文件系
没有好的学历，Java开发未来的路应该怎么走？全干程序员demo 技术热文 java 开发语言
没有好的学历，Java开发未来的路应该怎么走？在当今数字化时代，技术发展日新月异，大模型应用、鸿蒙系统等新兴技术领域正在蓬勃发展，为Java开发者带来了新的机遇和挑战。即使没有高学历，Java开发者依然可以通过以下路径在这些新兴领域找到自己的发展方向，实现职业突破。一、拥抱新兴技术，拓宽技术边界（一）大模型应用：从开发到优化大模型技术正在重塑软件开发的各个环节。对于Java开发者来说，可以从以下几
如何区别原生页面和H5页面大汉堡玩测试功能测试
文章目录前言原生开发特点H5开发特点混合开发怎么区别是原生还是H5总结前言软件采用混合开发的模式时，测试发现了bug找开发沟通有时会找错人，明明是H5模块的错误却找了负责原生模块的开发，显得很不专业~那在测试时该如何区分是原生的报错还是H5报错呢？原生开发原生开发（NativeApp开发），是为特定操作系统（如iOS使用Objective-C/Swift、安卓使用Java/Kotlin）专门开发的
JavaScript 中的性能优化：从基础到高级技巧 lina_mua 深入 javascript 性能优化开发语言
1.引言1.1性能优化的重要性在现代前端开发中，性能优化是提升用户体验的关键。无论是页面加载速度、交互响应时间，还是内存占用，性能优化都能显著提升应用的流畅度和用户满意度。1.2本文的目标本文旨在深入探讨JavaScript中的性能优化，从基础到高级技巧，帮助开发者理解性能优化的核心概念，并掌握其在实际开发中的应用。2.性能优化的基础2.1什么是性能优化？性能优化是指通过改进代码、减少资源消耗、优
VsCode配置JDK\Tomcat\Maven Yang___Xing javascript VsCode Java java vscode tomcat
1、安装VsCode下载地址：VisualStudioCode-CodeEditing.Redefined安装提示安装完成即可2、安装JDK下载地址：JavaDownloads|Oracle选择版本：按照需求自行选择配置JAVA_HOMEMac的修改mac的打开终端，输入open~/.zshrc新增exportPATH="/yourpath/jdk-1.8.jdk/Contents/Home/bi
SpringBoot、Spring、SpringMVC原理梳理猛猛开发笔记 java spring
SpringBoot、Spring、SpringMVC原理梳理文章目录SpringBoot、Spring、SpringMVC原理梳理Spring、SpringMVC、SpringBoot三者的关系：Spring和SpringMVC：SpringBoot、Spring：SpringMVC的DispatchServlet解析DispatchServlet初始化：initServletBeaninitW
【JavaEE】Mybatis 简单启动鸽鸽程序猿 JavaEE java-ee mybatis 数据库
目录一、Mybatis简介二、MyBatis⼊⻔2.1创建项目2.2准备数据2.3配置文件2.4实体类2.5执行结果一、Mybatis简介Mybatis是一个操作数据库驱动的持久层框架，用来简化JDBC操作的，SpringBoot集成了这个框架。MyBatis本是Apache的⼀个开源项⽬iBatis，2010年这个项⽬由apache迁移到了googlecode，并且改名为MyBatis。2013
JavaScript 模块化语法 import、export详解 qq39138814 javascript 开发语言 ecmascript
JavaScript模块化语法import、export详解1.为什么需要模块化？在JavaScript早期，所有代码都是写在一个全局作用域中，这样做的问题是：变量污染：所有变量、函数都是全局的，容易互相干扰。文件依赖管理困难：多个JS文件之间的依赖关系混乱，难以维护。代码复用困难：无法方便地拆分和复用代码。为了解决这些问题，模块化方案应运而生。2.JavaScript模块化的发展2.1早期的模块
SpringBoot配置文件加载优先级不修×蝙蝠 spring boot 后端 java 优先级
在SpringBoot项目中，配置属性的优先级是一个重要的概念，它决定了当存在多个配置源时，哪个配置源的属性将被应用。以下是SpringBoot中配置属性的优先级，从最高到最低：命令行参数：命令行参数具有最高的优先级。SpringBoot项目被启动时，可以通过命令行传递参数，这些参数将覆盖其他所有配置源中的相同属性。java-jaryour-application.jar--spring.data
SpringMVC系列之整合Thymeleaf【Thymeleaf整合springmvc介绍及Thymeleaf基础概念、使用语法详解】吕鑫洋 SpringMVC系列 java html js spring mvc
Thymeleaf是java的模板引擎，可以将动态页面静态化；目前使用较多的模板引擎：Velocity、Freemarker、Thymeleaf一、Maven依赖Thymeleaf整合springmvc共需要两个jar：1.thymeleaf2.thymeleaf-spring5org.thymeleafthymeleaf3.0.9.RELEASEorg.thymeleafthymeleaf-sp
springmvc 下 freemarker页面枚举的遍历输出杨白白 enum freemarker
spring mvc freemarker 中遍历枚举 1枚举类型有一个本地方法叫values（），这个方法可以直接返回枚举数组。所以可以利用这个遍历。 enum public enum BooleanEnum { TRUE(Boolean.TRUE, "是"), FALSE(Boolean.FALSE, "否");
实习简要总结 byalias 工作
来白虹不知不觉中已经一个多月了，因为项目还在需求分析及项目架构阶段，自己在这段时间都是在学习相关技术知识，现在对这段时间的工作及学习情况做一个总结：（1）工作技能方面大体分为两个阶段，Java Web 基础阶段和Java EE阶段 1）Java Web阶段在这个阶段，自己主要着重学习了 JSP, Servlet, JDBC, MySQL，这些知识的核心点都过了一遍，也
Quartz——DateIntervalTrigger触发器 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208559 一.概述 simpleTrigger 内部实现机制是通过计算间隔时间来计算下次的执行时间，这就导致他有不适合调度的定时任务。例如我们想每天的 1：00AM 执行任务，如果使用 SimpleTrigger，间隔时间就是一天。注意这里就会有一个问题，即当有 misfired 的任务并且恢复执行时，该执行时间
Unix快捷键 18289753290 unix Unix；快捷键;
复制，删除，粘贴： dd:删除光标所在的行 &nbs
获取Android设备屏幕的相关参数酷的飞上天空 android
包含屏幕的分辨率以及屏幕宽度的最大dp 高度最大dp TextView text = (TextView)findViewById(R.id.text); DisplayMetrics dm = new DisplayMetrics(); text.append("getResources().ge
要做物联网？先保护好你的数据蓝儿唯美数据
根据Beecham Research的说法，那些在行业中希望利用物联网的关键领域需要提供更好的安全性。在Beecham的物联网安全威胁图谱上，展示了那些可能产生内外部攻击并且需要通过快速发展的物联网行业加以解决的关键领域。 Beecham Research的技术主管Jon Howes说：“之所以我们目前还没有看到与物联网相关的严重安全事件，是因为目前还没有在大型客户和企业应用中进行部署，也就
Java取模（求余）运算随便小屋 java
整数之间的取模求余运算很好求，但几乎没有遇到过对负数进行取模求余，直接看下面代码： /** * * @author Logic * */ public class Test { public static void main(String[] args) { // TODO A
SQL注入介绍 aijuans sql注入
二、SQL注入范例这里我们根据用户登录页面 <form action="" > 用户名：<input type="text" name="username"><br/> 密码：<input type="password" name="passwor
优雅代码风格 aoyouzi 代码
总结了几点关于优雅代码风格的描述：代码简单：不隐藏设计者的意图，抽象干净利落，控制语句直截了当。接口清晰：类型接口表现力直白，字面表达含义，API 相互呼应以增强可测试性。依赖项少：依赖关系越少越好，依赖少证明内聚程度高，低耦合利于自动测试，便于重构。没有重复：重复代码意味着某些概念或想法没有在代码中良好的体现，及时重构消除重复。战术分层：代码分层清晰，隔离明确，
布尔数组百合不是茶 java 布尔数组
androi中提到了布尔数组; 布尔数组默认的是false, 并且只会打印false或者是true 布尔数组的例子; 根据字符数组创建布尔数组 char[] c = {'p','u','b','l','i','c'}; //根据字符数组的长度创建布尔数组的个数 boolean[] b = new bool
web.xml之welcome-file-list、error-page bijian1013 java web.xml servlet error-page
welcome-file-list 1.定义： <welcome-file-list> <welcome-file>login.jsp</welcome> </welcome-file-list> 2.作用：用来指定WEB应用首页名称。 error-page1.定义： <error-page&g
richfaces 4 fileUpload组件删除上传的文件 sunjing clear Richfaces 4 fileupload
页面代码 <h:form id="fileForm"> <rich:
技术文章备忘 bit1129 技术文章
Zookeeper http://wenku.baidu.com/view/bab171ffaef8941ea76e05b8.html http://wenku.baidu.com/link?url=8thAIwFTnPh2KL2b0p1V7XSgmF9ZEFgw4V_MkIpA9j8BX2rDQMPgK5l3wcs9oBTxeekOnm5P3BK8c6K2DWynq9nfUCkRlTt9uV
org.hibernate.hql.ast.QuerySyntaxException: unexpected token: on near line 1解决方案白糖_ Hibernate
文章摘自：http://blog.csdn.net/yangwawa19870921/article/details/7553181 在编写HQL时，可能会出现这种代码： select a.name,b.age from TableA a left join TableB b on a.id=b.id 如果这是HQL，那么这段代码就是错误的，因为HQL不支持
sqlserver按照字段内容进行排序 bozch 按照内容排序
在做项目的时候，遇到了这样的一个需求：从数据库中取出的数据集，首先要将某个数据或者多个数据按照地段内容放到前面显示，例如:从学生表中取出姓李的放到数据集的前面； select * fro
编程珠玑-第一章-位图排序 bylijinnan java 编程珠玑
import java.io.BufferedWriter; import java.io.File; import java.io.FileWriter; import java.io.IOException; import java.io.Writer; import java.util.Random; public class BitMapSearch {
Java关于==和equals chenbowen00 java
关于==和equals概念其实很简单，一个是比较内存地址是否相同，一个比较的是值内容是否相同。虽然理解上不难，但是有时存在一些理解误区，如下情况： 1、 String a = "aaa"; a=="aaa"; ==> true 2、 new String("aaa")==new String("aaa
[IT与资本]软件行业需对外界投资热情保持警惕 comsci it
我还是那个看法,软件行业需要增强内生动力,尽量依靠自有资金和营业收入来进行经营,避免在资本市场上经受各种不同类型的风险,为企业自主研发核心技术和产品提供稳定,温和的外部环境... 如果我们在自己尚未掌握核心技术之前,企图依靠上市来筹集资金,然后使劲往某个领域砸钱,然
oracle 数据块结构 daizj oracle 块数据块块结构行目录
oracle 数据块是数据库存储的最小单位，一般为操作系统块的N倍。其结构为：块头－－〉空行－－〉数据，其实际为纵行结构。块的标准大小由初始化参数DB_BLOCK_SIZE指定。具有标准大小的块称为标准块（Standard Block）。块的大小和标准块的大小不同的块叫非标准块（Nonstandard Block）。同一数据库中，Oracle9i及以上版本支持同一数据库中同时使用标
github上一些觉得对自己工作有用的项目收集 dengkane github
github上一些觉得对自己工作有用的项目收集技能类 markdown语法中文说明回到顶部全文检索 elasticsearch bigdesk elasticsearch管理插件回到顶部 nosql mapdb 支持亿级别map, list, 支持事务. 可考虑做为缓存使用 C
初二上学期难记单词二 dcj3sjt126com english word
dangerous 危险的 panda 熊猫 lion 狮子 elephant 象 monkey 猴子 tiger 老虎 deer 鹿 snake 蛇 rabbit 兔子 duck 鸭 horse 马 forest 森林 fall 跌倒；落下 climb 爬；攀登 finish 完成；结束 cinema 电影院；电影 seafood 海鲜；海产食品 bank 银行
8、mysql外键(FOREIGN KEY)的简单使用 dcj3sjt126com mysql
一、基本概念 1、MySQL中“键”和“索引”的定义相同，所以外键和主键一样也是索引的一种。不同的是MySQL会自动为所有表的主键进行索引，但是外键字段必须由用户进行明确的索引。用于外键关系的字段必须在所有的参照表中进行明确地索引，InnoDB不能自动地创建索引。 2、外键可以是一对一的，一个表的记录只能与另一个表的一条记录连接，或者是一对多的，一个表的记录与另一个表的多条记录连接。 3、如
java循环标签 Foreach shuizhaosi888 标签 java循环 foreach
1. 简单的for循环 public static void main(String[] args) { for (int i = 1, y = i + 10; i < 5 && y < 12; i++, y = i * 2) { System.err.println("i=" + i + " y="
Spring Security（05）——异常信息本地化 234390216 exception Spring Security 异常信息本地化
异常信息本地化 Spring Security支持将展现给终端用户看的异常信息本地化，这些信息包括认证失败、访问被拒绝等。而对于展现给开发者看的异常信息和日志信息（如配置错误）则是不能够进行本地化的，它们是以英文硬编码在Spring Security的代码中的。在Spring-Security-core-x
DUBBO架构服务端告警Failed to send message Response javamingtingzhao 架构 DUBBO
废话不多说，警告日志如下，不知道有哪位遇到过，此异常在服务端抛出(服务器启动第一次运行会有这个警告)，后续运行没问题，找了好久真心不知道哪里错了。 WARN 2015-07-18 22:31:15,272 com.alibaba.dubbo.remoting.transport.dispatcher.ChannelEventRunnable.run(84)
JS中Date对象中几个用法 leeqq JavaScript Date 最后一天
近来工作中遇到这样的两个需求 1. 给个Date对象，找出该时间所在月的第一天和最后一天 2. 给个Date对象，找出该时间所在周的第一天和最后一天需求1中的找月第一天很简单，我记得api中有setDate方法可以使用使用setDate方法前，先看看getDate var date = new Date(); console.log(date); // Sat J
MFC中使用ado技术操作数据库你不认识的休道人 sql mfc
1.在stdafx.h中导入ado动态链接库 #import"C:\Program Files\Common Files\System\ado\msado15.dll" no_namespace rename("EOF","end")2.在CTestApp文件的InitInstance()函数中domodal之前写::CoIniti
Android Studio加速 rensanning android studio
Android Studio慢、吃内存！启动时后会立即通过Gradle来sync & build工程。（1）设置Android Studio a) 禁用插件 File -> Settings... Plugins 去掉一些没有用的插件。比如：Git Integration、GitHub、Google Cloud Testing、Google Cloud
各数据库的批量Update操作 tomcat_oracle java oracle sql mysql sqlite
MyBatis的update元素的用法与insert元素基本相同，因此本篇不打算重复了。本篇仅记录批量update操作的 sql语句，懂得SQL语句，那么MyBatis部分的操作就简单了。　　注意：下列批量更新语句都是作为一个事务整体执行，要不全部成功，要不全部回滚。 MSSQL的SQL语句　WITH R AS（　　SELECT 'John' as name, 18 as
html禁止清除input文本输入缓存 xp9802 input
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; eg: <input type="text" autocomplete="off" name

NNDL 实验五 前馈神经网络（2）自动梯度计算 & 优化问题

4.3 自动梯度计算

4.3.1 利用预定义算子重新实现前馈神经网络

1、使用pytorch的预定义算子来重新实现二分类任务。（必做）

4.3.2 完善Runner类

4.3.3 模型训练

4.3.4 性能评价

4.3.1 利用预定义算子重新实现前馈神经网络

2. 增加一个3个神经元的隐藏层，再次实现二分类，并与1做对比。（必做）

3. 自定义隐藏层层数和每个隐藏层中的神经元个数，尝试找到最优超参数完成二分 类。可以适当修改数据集，便于探索超参数。（选做）

【思考题】

自定义梯度计算和自动梯度计算：从计算性能、计算结果等多方面比较，谈谈自己的看法。

4.4 优化问题

4.4.1 参数初始化

4.4.2 梯度消失问题

4.4.2.1 模型构建

4.4.2.2 使用Sigmoid型函数进行训练

4.4.2.3 使用ReLU函数进行模型训练

4.4.3 死亡ReLU问题

4.4.3.2 使用Leaky ReLU进行模型训练

总结

你可能感兴趣的:(神经网络与深度学习,servlet,jar,java)

NNDL 实验五前馈神经网络（2）自动梯度计算 & 优化问题

3. 自定义隐藏层层数和每个隐藏层中的神经元个数，尝试找到最优超参数完成二分类。可以适当修改数据集，便于探索超参数。（选做）