Jacobson Cui

神经网络与深度学习（五）前馈神经网络（3）鸢尾花分类

4.5实践：基于前馈神经网络完成鸢尾花分类

深入研究鸢尾花数据集

4.5.1 小批量梯度下降法

4.5.1.1 数据分组

4.5.2 数据处理

4.5.2.2 用DataLoader进行封装

4.5.3 模型构建

4.5.4 完善Runner类

4.5.5 模型训练

4.5.6 模型评价

4.5.7 模型预测

思考题

1. 对比Softmax分类和前馈神经网络分类。

2. 对比SVM与FNN分类效果，谈谈自己看法。

3. 尝试基于MNIST手写数字识别数据集，设计合适的前馈神经网络进行实验，并取得95%以上的准确率。

总结

参考资料

4.5实践：基于前馈神经网络完成鸢尾花分类

继续使用神经网络与深度学习（四）线性分类中3.3实践中的鸢尾花数据集，并将Softmax分类器替换为前馈神经网络进行分类任务。

损失函数：交叉熵损失；
优化器：随机梯度下降法；
评价指标：准确率。

深入研究鸢尾花数据集

【统计学习方法】感知机对鸢尾花(iris)数据集进行二分类_征途黯然.的博客-CSDN博客

所有属性之间的关系图：

4.5.1 小批量梯度下降法

【批量梯度下降法】在梯度下降法中，目标函数是整个训练集上的风险函数，这种方式称为批量梯度下降法（Batch Gradient Descent，BGD）。批量梯度下降法在每次迭代时需要计算每个样本上损失函数的梯度并求和。当训练集中的样本数量N很大时，空间复杂度比较高，每次迭代的计算开销也很大。

【小批量梯度下降法】为了减少每次迭代的计算复杂度，我们可以在每次迭代时只采集一小部分样本，计算在这组样本上损失函数的梯度并更新参数，这种优化方式称为小批量梯度下降法（Mini-Batch Gradient Descent，Mini-Batch GD）。

第次迭代时，随机选取一个包含个样本的子集 $\beta _{t}$ ，计算这个子集上每个样本损失函数的梯度并进行平均，然后再进行参数更新。

$\theta_{t+1}\longleftarrow \theta _{t}-\alpha \frac{1}{K}\sum_{(x,y)\in S_{t}}^{}\frac{\partial L(y,f(x;\theta ))}{\partial \theta }$

其中为批量大小(Batch Size)。通常不会设置很大，一般在1∼1001∼100之间。在实际应用中为了提高计算效率，通常设置为2的幂 $2^{n}$ 。

在实际应用中，小批量随机梯度下降法有收敛快、计算开销小的优点，因此逐渐成为大规模的机器学习中的主要优化算法。此外，随机梯度下降相当于在批量梯度下降的梯度上引入了随机噪声。在非凸优化问题中，随机梯度下降更容易逃离局部最优点。

小批量随机梯度下降法的训练过程如下：

4.5.1.1 数据分组

为了使用小批量梯度下降法，我们需要对数据进行随机分组。目前，机器学习中通常做法是构建一个数据迭代器，每个迭代过程中从全部数据集中获取一批指定数量的数据。

（1）首先，将数据集封装为Dataset类，传入一组索引值，根据索引从数据集合中获取数据；

（2）其次，构建DataLoader类，需要指定数据批量的大小和是否需要对数据进行乱序，通过该类即可批量获取数据。

在实践过程中，通常使用进行参数优化。在pytorch中，使用torch.utils.data.DataLoader加载minibatch的数据，torch.utils.data.DataLoader API可以生成一个迭代器，其中通过设置batch_size参数来指定minibatch的长度，通过设置shuffle参数为True，可以在生成minibatch的索引列表时将索引顺序打乱。

4.5.2 数据处理

构造IrisDataset类进行数据读取，继承自torch.utils.data.Dataset类。torch.utils.data.Dataset是用来封装 Dataset的方法和行为的抽象类，通过一个索引获取指定的样本，同时对该样本进行数据处理。当继承torch.utils.data.Dataset来定义数据读取类时，实现如下方法：

__getitem__：根据给定索引获取数据集中指定样本，并对样本进行数据处理；
__len__：返回数据集样本个数。

代码实现如下：

import torch
import numpy as np
import torch.utils.data
from nndl.load_data import load_data


class IrisDataset(torch.utils.data.Dataset):
    def __init__(self, mode='train', num_train=120, num_dev=15):
        super(IrisDataset, self).__init__()
        # 调用第三章中的数据读取函数，其中不需要将标签转成one-hot类型
        X, y = load_data(shuffle=True)
        if mode == 'train':
            self.X, self.y = X[:num_train], y[:num_train]
        elif mode == 'dev':
            self.X, self.y = X[num_train:num_train + num_dev], y[num_train:num_train + num_dev]
        else:
            self.X, self.y = X[num_train + num_dev:], y[num_train + num_dev:]

    def __getitem__(self, idx):
        return self.X[idx], self.y[idx]

    def __len__(self):
        return len(self.y)


torch.manual_seed(12)
train_dataset = IrisDataset(mode='train')
dev_dataset = IrisDataset(mode='dev')
test_dataset = IrisDataset(mode='test')
# 打印训练集长度
print("length of train set: ", len(train_dataset))

运行结果：

注：其中load_data代码如下所示:

import torch
import numpy as np
from sklearn.datasets import load_iris


# 加载数据集
def load_data(shuffle=True):
    # 加载原始数据
    X = np.array(load_iris().data, dtype=np.float32)
    y = np.array(load_iris().target, dtype=np.int32)

    X = torch.tensor(X)
    y = torch.tensor(y)

    # 数据归一化
    X_min = torch.min(X, dim=0)
    X_max = torch.max(X, dim=0)
    X = (X - X_min.values) / (X_max.values - X_min.values)

    # 如果shuffle为True，随机打乱数据
    if shuffle:
        idx = torch.randperm(X.shape[0])
        X = X[idx]
        y = y[idx]
    return X, y

4.5.2.2 用DataLoader进行封装

# 批量大小
batch_size = 16

# 加载数据
train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=batch_size, shuffle=True)
dev_loader = torch.utils.data.DataLoader(dev_dataset, batch_size=batch_size)
test_loader = torch.utils.data.DataLoader(test_dataset, batch_size=batch_size)

4.5.3 模型构建

构建一个简单的前馈神经网络进行鸢尾花分类实验。其中输入层神经元个数为4，输出层神经元个数为3，隐含层神经元个数为6。代码实现如下：

import torch.nn as nn
from torch.nn.init import constant_, normal_, uniform_


# 定义前馈神经网络
class Model_MLP_L2_V3(nn.Module):
    def __init__(self, input_size, output_size, hidden_size):
        super(Model_MLP_L2_V3, self).__init__()
        # 构建第一个全连接层
        self.fc1 = nn.Linear(input_size, hidden_size)
        normal_(self.fc1.weight, mean=0.0, std=0.01)
        constant_(self.fc1.bias, val=1.0)
        # 构建第二全连接层
        self.fc2 = nn.Linear(hidden_size, output_size)
        normal_(self.fc2.weight, mean=0.0, std=0.01)
        constant_(self.fc2.bias, val=1.0)
        # 定义网络使用的激活函数
        self.act = nn.Sigmoid()

    def forward(self, inputs):
        outputs = self.fc1(inputs)
        outputs = self.act(outputs)
        outputs = self.fc2(outputs)
        return outputs


fnn_model = Model_MLP_L2_V3(input_size=4, output_size=3, hidden_size=6)

4.5.4 完善Runner类

基于RunnerV2类进行完善实现了RunnerV3类。其中训练过程使用自动梯度计算，使用DataLoader加载批量数据，使用随机梯度下降法进行参数优化；模型保存时，使用state_dict方法获取模型参数；模型加载时，使用set_state_dict方法加载模型参数.

由于这里使用随机梯度下降法对参数优化，所以数据以批次的形式输入到模型中进行训练，那么评价指标计算也是分别在每个批次进行的，要想获得每个epoch整体的评价结果，需要对历史评价结果进行累积。这里定义Accuracy类实现该功能。

import torch


class Accuracy():
    def __init__(self, is_logist=True):
        """
        输入：
           - is_logist: outputs是logist还是激活后的值
        """

        # 用于统计正确的样本个数
        self.num_correct = 0
        # 用于统计样本的总数
        self.num_count = 0

        self.is_logist = is_logist

    def update(self, outputs, labels):
        """
        输入：
           - outputs: 预测值, shape=[N,class_num]
           - labels: 标签值, shape=[N,1]
        """

        # 判断是二分类任务还是多分类任务，shape[1]=1时为二分类任务，shape[1]>1时为多分类任务
        if outputs.shape[1] == 1: # 二分类
            outputs = torch.squeeze(outputs, dim=-1)
            if self.is_logist:
                # logist判断是否大于0
                preds = torch.tensor((outputs >= 0), dtype=torch.float32)
            else:
                # 如果不是logist，判断每个概率值是否大于0.5，当大于0.5时，类别为1，否则类别为0
                preds = torch.tensor((outputs >= 0.5), dtype=torch.float32)
        else:
            # 多分类时，使用'paddle.argmax'计算最大元素索引作为类别
            preds = torch.argmax(outputs, dim=1)
            preds = torch.tensor(preds, dtype=torch.int64)

        # 获取本批数据中预测正确的样本个数
        labels = torch.squeeze(labels, dim=-1)
        batch_correct = torch.sum(torch.tensor(preds == labels, dtype=torch.float32)).numpy()
        batch_count = len(labels)

        # 更新num_correct 和 num_count
        self.num_correct += batch_correct
        self.num_count += batch_count

    def accumulate(self):
        # 使用累计的数据，计算总的指标
        if self.num_count == 0:
            return 0
        return self.num_correct / self.num_count

    def reset(self):
        # 重置正确的数目和总数
        self.num_correct = 0
        self.num_count = 0

    def name(self):
        return "Accuracy"

RunnerV3类的代码实现如下：

class RunnerV3(object):
    def __init__(self, model, optimizer, loss_fn, metric, **kwargs):
        self.model = model
        self.optimizer = optimizer
        self.loss_fn = loss_fn
        self.metric = metric  # 只用于计算评价指标

        # 记录训练过程中的评价指标变化情况
        self.dev_scores = []

        # 记录训练过程中的损失函数变化情况
        self.train_epoch_losses = []  # 一个epoch记录一次loss
        self.train_step_losses = []  # 一个step记录一次loss
        self.dev_losses = []

        # 记录全局最优指标
        self.best_score = 0

    def train(self, train_loader, dev_loader=None, **kwargs):
        # 将模型切换为训练模式
        self.model.train()

        # 传入训练轮数，如果没有传入值则默认为0
        num_epochs = kwargs.get("num_epochs", 0)
        # 传入log打印频率，如果没有传入值则默认为100
        log_steps = kwargs.get("log_steps", 100)
        # 评价频率
        eval_steps = kwargs.get("eval_steps", 0)

        # 传入模型保存路径，如果没有传入值则默认为"best_model.pdparams"
        save_path = kwargs.get("save_path", "best_model.pdparams")

        custom_print_log = kwargs.get("custom_print_log", None)

        # 训练总的步数
        num_training_steps = num_epochs * len(train_loader)

        if eval_steps:
            if self.metric is None:
                raise RuntimeError('Error: Metric can not be None!')
            if dev_loader is None:
                raise RuntimeError('Error: dev_loader can not be None!')

        # 运行的step数目
        global_step = 0

        # 进行num_epochs轮训练
        for epoch in range(num_epochs):
            # 用于统计训练集的损失
            total_loss = 0
            for step, data in enumerate(train_loader):
                X, y = data
                # 获取模型预测
                logits = self.model(X)
                y = torch.tensor(y, dtype=torch.int64)
                loss = self.loss_fn(logits, y)  # 默认求mean
                total_loss += loss

                # 训练过程中，每个step的loss进行保存
                self.train_step_losses.append((global_step, loss.item()))

                if log_steps and global_step % log_steps == 0:
                    print(
                        f"[Train] epoch: {epoch}/{num_epochs}, step: {global_step}/{num_training_steps}, loss: {loss.item():.5f}")

                # 梯度反向传播，计算每个参数的梯度值
                loss.backward()

                if custom_print_log:
                    custom_print_log(self)

                # 小批量梯度下降进行参数更新
                self.optimizer.step()
                # 梯度归零
                self.optimizer.zero_grad()

                # 判断是否需要评价
                if eval_steps > 0 and global_step > 0 and \
                        (global_step % eval_steps == 0 or global_step == (num_training_steps - 1)):

                    dev_score, dev_loss = self.evaluate(dev_loader, global_step=global_step)
                    print(f"[Evaluate]  dev score: {dev_score:.5f}, dev loss: {dev_loss:.5f}")

                    # 将模型切换为训练模式
                    self.model.train()

                    # 如果当前指标为最优指标，保存该模型
                    if dev_score > self.best_score:
                        self.save_model(save_path)
                        print(
                            f"[Evaluate] best accuracy performence has been updated: {self.best_score:.5f} --> {dev_score:.5f}")
                        self.best_score = dev_score

                global_step += 1

            # 当前epoch 训练loss累计值
            trn_loss = (total_loss / len(train_loader)).item()
            # epoch粒度的训练loss保存
            self.train_epoch_losses.append(trn_loss)

        print("[Train] Training done!")

    # 模型评估阶段，使用'paddle.no_grad()'控制不计算和存储梯度
    @torch.no_grad()
    def evaluate(self, dev_loader, **kwargs):
        assert self.metric is not None

        # 将模型设置为评估模式
        self.model.eval()

        global_step = kwargs.get("global_step", -1)

        # 用于统计训练集的损失
        total_loss = 0

        # 重置评价
        self.metric.reset()

        # 遍历验证集每个批次
        for batch_id, data in enumerate(dev_loader):
            X, y = data

            # 计算模型输出
            logits = self.model(X)
            y = torch.tensor(y, dtype=torch.int64)

            # 计算损失函数
            loss = self.loss_fn(logits, y).item()
            # 累积损失
            total_loss += loss

            # 累积评价
            self.metric.update(logits, y)

        dev_loss = (total_loss / len(dev_loader))
        dev_score = self.metric.accumulate()

        # 记录验证集loss
        if global_step != -1:
            self.dev_losses.append((global_step, dev_loss))
            self.dev_scores.append(dev_score)

        return dev_score, dev_loss

    # 模型评估阶段，使用'paddle.no_grad()'控制不计算和存储梯度
    @torch.no_grad()
    def predict(self, x, **kwargs):
        # 将模型设置为评估模式
        self.model.eval()
        # 运行模型前向计算，得到预测值
        logits = self.model(x)
        return logits

    def save_model(self, save_path):
        torch.save(self.model.state_dict(), save_path)

    def load_model(self, model_path):
        model_state_dict = torch.load(model_path)
        self.model.set_state_dict(model_state_dict)

4.5.5 模型训练

实例化RunnerV3类，并传入训练配置，代码实现如下：

import torch.optim as opt
import torch.nn.functional as F

lr = 0.2
# 定义网络
model = fnn_model
# 定义优化器
optimizer = opt.SGD(lr=lr, params=model.parameters())
# 定义损失函数。softmax+交叉熵
loss_fn = F.cross_entropy
# 定义评价指标
metric = Accuracy(is_logist=True)
runner = RunnerV3(model, optimizer, loss_fn, metric)

使用训练集和验证集进行模型训练，共训练150个epoch。在实验中，保存准确率最高的模型作为最佳模型。代码实现如下：

# 启动训练
log_steps = 100
eval_steps = 50
runner.train(train_loader, dev_loader, num_epochs=150, log_steps=log_steps, eval_steps=eval_steps, save_path="best_model.pdparams")

运行结果：

[Train] epoch: 0/150, step: 0/1200, loss: 1.09898
[Evaluate]  dev score: 0.33333, dev loss: 1.09582
[Evaluate] best accuracy performence has been updated: 0.00000 --> 0.33333
[Train] epoch: 12/150, step: 100/1200, loss: 1.13891
[Evaluate]  dev score: 0.46667, dev loss: 1.10749
[Evaluate] best accuracy performence has been updated: 0.33333 --> 0.46667
[Evaluate]  dev score: 0.20000, dev loss: 1.10089
[Train] epoch: 25/150, step: 200/1200, loss: 1.10158
[Evaluate]  dev score: 0.20000, dev loss: 1.12477
[Evaluate]  dev score: 0.46667, dev loss: 1.09090
[Train] epoch: 37/150, step: 300/1200, loss: 1.09982
[Evaluate]  dev score: 0.46667, dev loss: 1.07537
[Evaluate]  dev score: 0.53333, dev loss: 1.04453
[Evaluate] best accuracy performence has been updated: 0.46667 --> 0.53333
[Train] epoch: 50/150, step: 400/1200, loss: 1.01054
[Evaluate]  dev score: 1.00000, dev loss: 1.00635
[Evaluate] best accuracy performence has been updated: 0.53333 --> 1.00000
[Evaluate]  dev score: 0.86667, dev loss: 0.86850
[Train] epoch: 62/150, step: 500/1200, loss: 0.63702
[Evaluate]  dev score: 0.80000, dev loss: 0.66986
[Evaluate]  dev score: 0.86667, dev loss: 0.57089
[Train] epoch: 75/150, step: 600/1200, loss: 0.56490
[Evaluate]  dev score: 0.93333, dev loss: 0.52392
[Evaluate]  dev score: 0.86667, dev loss: 0.45410
[Train] epoch: 87/150, step: 700/1200, loss: 0.41929
[Evaluate]  dev score: 0.86667, dev loss: 0.46156
[Evaluate]  dev score: 0.93333, dev loss: 0.41593
[Train] epoch: 100/150, step: 800/1200, loss: 0.41047
[Evaluate]  dev score: 0.93333, dev loss: 0.40600
[Evaluate]  dev score: 0.93333, dev loss: 0.37672
[Train] epoch: 112/150, step: 900/1200, loss: 0.42777
[Evaluate]  dev score: 0.93333, dev loss: 0.34534
[Evaluate]  dev score: 0.93333, dev loss: 0.33552
[Train] epoch: 125/150, step: 1000/1200, loss: 0.30734
[Evaluate]  dev score: 0.93333, dev loss: 0.31958
[Evaluate]  dev score: 0.93333, dev loss: 0.32091
[Train] epoch: 137/150, step: 1100/1200, loss: 0.28321
[Evaluate]  dev score: 0.93333, dev loss: 0.28383
[Evaluate]  dev score: 0.93333, dev loss: 0.27171
[Evaluate]  dev score: 0.93333, dev loss: 0.25447
[Train] Training done!

可视化观察训练集损失和训练集loss变化情况。

import matplotlib.pyplot as plt


# 绘制训练集和验证集的损失变化以及验证集上的准确率变化曲线
def plot_training_loss_acc(runner, fig_name,
                           fig_size=(16, 6),
                           sample_step=20,
                           loss_legend_loc="upper right",
                           acc_legend_loc="lower right",
                           train_color="#e4007f",
                           dev_color='#f19ec2',
                           fontsize='large',
                           train_linestyle="-",
                           dev_linestyle='--'):
    plt.figure(figsize=fig_size)

    plt.subplot(1, 2, 1)
    train_items = runner.train_step_losses[::sample_step]
    train_steps = [x[0] for x in train_items]
    train_losses = [x[1] for x in train_items]

    plt.plot(train_steps, train_losses, color=train_color, linestyle=train_linestyle, label="Train loss")
    if len(runner.dev_losses) > 0:
        dev_steps = [x[0] for x in runner.dev_losses]
        dev_losses = [x[1] for x in runner.dev_losses]
        plt.plot(dev_steps, dev_losses, color=dev_color, linestyle=dev_linestyle, label="Dev loss")
    # 绘制坐标轴和图例
    plt.ylabel("loss", fontsize=fontsize)
    plt.xlabel("step", fontsize=fontsize)
    plt.legend(loc=loss_legend_loc, fontsize='x-large')

    # 绘制评价准确率变化曲线
    if len(runner.dev_scores) > 0:
        plt.subplot(1, 2, 2)
        plt.plot(dev_steps, runner.dev_scores,
                 color=dev_color, linestyle=dev_linestyle, label="Dev accuracy")

        # 绘制坐标轴和图例
        plt.ylabel("score", fontsize=fontsize)
        plt.xlabel("step", fontsize=fontsize)
        plt.legend(loc=acc_legend_loc, fontsize='x-large')

    plt.savefig(fig_name)
    plt.show()


plot_training_loss_acc(runner, 'fw-loss.pdf')

运行结果：

从输出结果可以看出准确率随着迭代次数增加逐渐上升，损失函数下降。

4.5.6 模型评价

使用测试数据对在训练过程中保存的最佳模型进行评价，观察模型在测试集上的准确率以及Loss情况。代码实现如下：

# 加载最优模型
runner.load_model('best_model.pdparams')
# 模型评价
score, loss = runner.evaluate(test_loader)
print("[Test] accuracy/loss: {:.4f}/{:.4f}".format(score, loss))

运行结果：

4.5.7 模型预测

同样地，也可以使用保存好的模型，对测试集中的某一个数据进行模型预测，观察模型效果。代码实现如下：

# 模型评价
score, loss = runner.evaluate(test_loader)
print("[Test] accuracy/loss: {:.4f}/{:.4f}".format(score, loss))
test_loader = iter(test_loader)
# 获取测试集中第一条数据
(X, label) = next(test_loader)
logits = runner.predict(X)
pred_class = torch.argmax(logits[0]).numpy()
label = label.numpy()[0]

# 输出真实类别与预测类别
print("The true category is {} and the predicted category is {}".format(label, pred_class))

运行结果：

[Test] accuracy/loss: 1.0000/0.2396
The true category is 2 and the predicted category is 2

思考题

1. 对比Softmax分类和前馈神经网络分类。

Softmax分类：

import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets
from sklearn.linear_model import LogisticRegression
from matplotlib.colors import ListedColormap

iris = datasets.load_iris()  # 加载数据
list(iris.keys())  # 属性
X = iris["data"][:, (2, 3)]  # 花瓣长度, 花瓣宽度
y = iris["target"]
# 设置超参数multi_class为"multinomial"，指定一个支持Softmax回归的求解器，默认使用l2正则化，可以通过超参数C进行控制
softmax_reg = LogisticRegression(multi_class="multinomial", solver="lbfgs", C=500, random_state=42)
softmax_reg.fit(X, y)
softmax_reg.predict([[5, 2]])  # 输出：array([2])
softmax_reg.predict_proba([[5, 2]])
x0, x1 = np.meshgrid(np.linspace(0, 8, 500).reshape(-1, 1), np.linspace(0, 3.5, 200).reshape(-1, 1))
X_new = np.c_[x0.ravel(), x1.ravel()]
y_proba = softmax_reg.predict_proba(X_new)
y_predict = softmax_reg.predict(X_new)
zz1 = y_proba[:, 1].reshape(x0.shape)
zz = y_predict.reshape(x0.shape)
plt.figure(figsize=(10, 4))
plt.plot(X[y == 2, 0], X[y == 2, 1], "g^", label="Iris virginica")
plt.plot(X[y == 1, 0], X[y == 1, 1], "bs", label="Iris versicolor")
plt.plot(X[y == 0, 0], X[y == 0, 1], "yo", label="Iris setosa")
custom_cmap = ListedColormap(['#fafab0', '#9898ff', '#a0faa0'])
plt.contourf(x0, x1, zz, cmap=custom_cmap)
plt.xlabel("Petal length", fontsize=14)
plt.ylabel("Petal width", fontsize=14)
plt.legend(loc="center left", fontsize=14)
plt.axis([0, 7, 0, 3.5])
plt.show()

运行结果：

from sklearn.datasets import load_iris
import pandas
import numpy as np
import matplotlib.pyplot as plt  # 可视化工具
import torch
from nndl import op
from nndl import op, metric, opitimizer

iris_features = np.array(load_iris().data, dtype=np.float32)
iris_labels = np.array(load_iris().target, dtype=np.int32)
print(pandas.isna(iris_features).sum())
print(pandas.isna(iris_labels).sum())


# 箱线图查看异常值分布
def boxplot(features):
    feature_names = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width']

    # 连续画几个图片
    plt.figure(figsize=(5, 5), dpi=200)
    # 子图调整
    plt.subplots_adjust(wspace=0.6)
    # 每个特征画一个箱线图
    for i in range(4):
        plt.subplot(2, 2, i+1)
        # 画箱线图
        plt.boxplot(features[:, i],
                    showmeans=True,
                    whiskerprops={"color":"#E20079", "linewidth":0.4, 'linestyle':"--"},
                    flierprops={"markersize":0.4},
                    meanprops={"markersize":1})
        # 图名
        plt.title(feature_names[i], fontdict={"size":5}, pad=2)
        # y方向刻度
        plt.yticks(fontsize=4, rotation=90)
        plt.tick_params(pad=0.5)
        # x方向刻度
        plt.xticks([])
    plt.savefig('ml-vis.pdf')
    plt.show()


boxplot(iris_features)


# 加载数据集
def load_data(shuffle=True):
    # 加载原始数据
    X = np.array(load_iris().data, dtype=np.float32)
    y = np.array(load_iris().target, dtype=np.int32)

    X = torch.tensor(X)
    y = torch.tensor(y)

    # 数据归一化
    X_min = torch.min(X, dim=0)
    X_max = torch.max(X, dim=0)
    X = (X-X_min.values) / (X_max.values-X_min.values)

    # 如果shuffle为True，随机打乱数据
    if shuffle:
        idx = torch.randperm(X.shape[0])
        X = X[idx]
        y = y[idx]
    return X, y

# 固定随机种子
torch.manual_seed(102)

num_train = 120
num_dev = 15
num_test = 15

X, y = load_data(shuffle=True)
print("X shape: ", X.shape, "y shape: ", y.shape)
X_train, y_train = X[:num_train], y[:num_train]
X_dev, y_dev = X[num_train:num_train + num_dev], y[num_train:num_train + num_dev]
X_test, y_test = X[num_train + num_dev:], y[num_train + num_dev:]
# 打印X_train和y_train的维度
print("X_train shape: ", X_train.shape, "y_train shape: ", y_train.shape)
# 打印前5个数据的标签
print(y_train[:5])
# 输入维度
input_dim = 4
# 类别数
output_dim = 3
# 实例化模型
model = op.model_SR(input_dim=input_dim, output_dim=output_dim)


class RunnerV2(object):
    def __init__(self, model, optimizer, metric, loss_fn):
        self.model = model
        self.optimizer = optimizer
        self.loss_fn = loss_fn
        self.metric = metric
        # 记录训练过程中的评价指标变化情况
        self.train_scores = []
        self.dev_scores = []
        # 记录训练过程中的损失函数变化情况
        self.train_loss = []
        self.dev_loss = []

    def train(self, train_set, dev_set, **kwargs):
        # 传入训练轮数，如果没有传入值则默认为0
        num_epochs = kwargs.get("num_epochs", 0)
        # 传入log打印频率，如果没有传入值则默认为100
        log_epochs = kwargs.get("log_epochs", 100)
        # 传入模型保存路径，如果没有传入值则默认为"best_model.pdparams"
        save_path = kwargs.get("save_path", "best_model.pdparams")
        # 梯度打印函数，如果没有传入则默认为"None"
        print_grads = kwargs.get("print_grads", None)
        # 记录全局最优指标
        best_score = 0
        # 进行num_epochs轮训练
        for epoch in range(num_epochs):
            X, y = train_set
            # 获取模型预测
            logits = self.model(X)
            # 计算交叉熵损失
            trn_loss = self.loss_fn(logits, y).item()
            self.train_loss.append(trn_loss)
            # 计算评价指标
            trn_score = self.metric(logits, y).item()
            self.train_scores.append(trn_score)
            # 计算参数梯度
            self.model.backward(y)
            if print_grads is not None:
                # 打印每一层的梯度
                print_grads(self.model)
            # 更新模型参数
            self.optimizer.step()
            dev_score, dev_loss = self.evaluate(dev_set)
            # 如果当前指标为最优指标，保存该模型
            if dev_score > best_score:
                self.save_model(save_path)
                print(f"best accuracy performence has been updated: {best_score:.5f} --> {dev_score:.5f}")
                best_score = dev_score
            if epoch % log_epochs == 0:
                print(f"[Train] epoch: {epoch}, loss: {trn_loss}, score: {trn_score}")
                print(f"[Dev] epoch: {epoch}, loss: {dev_loss}, score: {dev_score}")

    def evaluate(self, data_set):
        X, y = data_set
        # 计算模型输出
        logits = self.model(X)
        # 计算损失函数
        loss = self.loss_fn(logits, y).item()
        self.dev_loss.append(loss)
        # 计算评价指标
        score = self.metric(logits, y).item()
        self.dev_scores.append(score)
        return score, loss

    def predict(self, X):
        return self.model(X)

    def save_model(self, save_path):
        torch.save(self.model.params, save_path)

    def load_model(self, model_path):
        self.model.params = torch.load(model_path)

# 学习率
lr = 0.2

# 梯度下降法
optimizer = opitimizer.SimpleBatchGD(init_lr=lr, model=model)
# 交叉熵损失
loss_fn = op.MultiCrossEntropyLoss()
# 准确率
metric = metric.accuracy

# 实例化RunnerV2
runner = RunnerV2(model, optimizer, metric, loss_fn)

# 启动训练
runner.train([X_train, y_train], [X_dev, y_dev], num_epochs=200, log_epochs=10, save_path="best_model.pdparams")


def plot(runner, fig_name):
    plt.figure(figsize=(10, 5))
    plt.subplot(1, 2, 1)
    epochs = [i for i in range(len(runner.train_scores))]
    # 绘制训练损失变化曲线
    plt.plot(epochs, runner.train_loss, color='#e4007f', label="Train loss")
    # 绘制评价损失变化曲线
    plt.plot(epochs, runner.dev_loss, color='#f19ec2', linestyle='--', label="Dev loss")
    # 绘制坐标轴和图例
    plt.ylabel("loss", fontsize='large')
    plt.xlabel("epoch", fontsize='large')
    plt.legend(loc='upper right', fontsize='x-large')
    plt.subplot(1, 2, 2)
    # 绘制训练准确率变化曲线
    plt.plot(epochs, runner.train_scores, color='#e4007f', label="Train accuracy")
    # 绘制评价准确率变化曲线
    plt.plot(epochs, runner.dev_scores, color='#f19ec2', linestyle='--', label="Dev accuracy")
    # 绘制坐标轴和图例
    plt.ylabel("score", fontsize='large')
    plt.xlabel("epoch", fontsize='large')
    plt.legend(loc='lower right', fontsize='x-large')
    plt.tight_layout()
    plt.savefig(fig_name)
    plt.show()


plot(runner,fig_name='linear-acc3.pdf')

# 加载最优模型
runner.load_model('best_model.pdparams')
# 模型评价
score, loss = runner.evaluate([X_test, y_test])
print("[Test] score/loss: {:.4f}/{:.4f}".format(score, loss))
# 预测测试集数据
logits = runner.predict(X_test)
# 观察其中一条样本的预测结果
pred = torch.argmax(logits[0]).numpy()
# 获取该样本概率最大的类别
label = y_test[0].numpy()
# 输出真实类别与预测类别
print("The true category is {} and the predicted category is {}".format(label, pred))

Softmax分类结果：

前馈神经网络分类结果：

对比两种结果可知对于鸢尾花分类，前馈神经网络的准确率要高于Softmax分类。

2. 对比SVM与FNN分类效果，谈谈自己看法。

SVM

优点：非线性映射理论基础，利用核函数代替了高维空间的映射，最大化间隔是核心，支持向量是训练的结果，最终结果是少量的向量决定的，可以提出较大的样本，所以有较小的鲁棒性。

缺点：对大规模训练难以实施，解决多分类有很大的困难。

FNN

优点：可实现非线性映射，有自学能力，有推广概括能力。

缺点：采用梯度下降法，速度慢，有可能进入局部最小值而训练失败，新加入的样本有影响，可能会出现欠学习或过学习。

3. 尝试基于MNIST手写数字识别数据集，设计合适的前馈神经网络进行实验，并取得95%以上的准确率。

import torch
import torch.nn as nn
from matplotlib import pyplot as plt
from torch.utils.data import DataLoader
from torchvision import transforms
from torchvision import datasets


batch_size = 64
lr = 0.01
momentum = 0.5
epoch = 5

# 归一化
transform = transforms.Compose([transforms.ToTensor(), transforms.Normalize((0.1307,), (0.3081,))])
# train=True训练集，=False测试集
train_dataset = datasets.MNIST(root='./pythonProject/mnist', train=True, transform=transform, download=True)
test_dataset = datasets.MNIST(root='./pythonProject/mnist', train=False, transform=transform, download=True)
train_loader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True)
test_loader = DataLoader(test_dataset, batch_size=batch_size, shuffle=False)

fig = plt.figure()
for i in range(12):
    plt.subplot(3, 4, i+1)
    plt.tight_layout()
    plt.imshow(train_dataset.train_data[i], cmap='gray', interpolation='none')
    plt.title("Labels: {}".format(train_dataset.train_labels[i]))
    plt.xticks([])
    plt.yticks([])
plt.show()


# 定义前馈神经网络
class Model_MLP_L2_V3(nn.Module):
    def __init__(self):
        super(Model_MLP_L2_V3, self).__init__()
        self.conv1 = torch.nn.Sequential(torch.nn.Conv2d(1, 10, kernel_size=(5, 5)), torch.nn.ReLU(), torch.nn.MaxPool2d(kernel_size=2))
        self.conv2 = torch.nn.Sequential(torch.nn.Conv2d(10, 20, kernel_size=(5, 5)), torch.nn.ReLU(), torch.nn.MaxPool2d(kernel_size=2))
        self.fc = torch.nn.Sequential(torch.nn.Linear(320, 50), torch.nn.Linear(50, 10))

    def forward(self, x):
        batch_size = x.size(0)
        x = self.conv1(x)  # 一层卷积层,一层池化层,一层激活层
        x = self.conv2(x)
        x = x.view(batch_size, -1)  # flatten变成全连接网络需要的输入(batch, 20,4,4)==>(batch,320),-1此处自动算出的是320
        x = self.fc(x)
        return x


model = Model_MLP_L2_V3()


# 设置损失函数和优化器
criterion = torch.nn.CrossEntropyLoss()  # 交叉熵损失
optimizer = torch.optim.SGD(model.parameters(), lr=lr, momentum=momentum)


def train(epoch):
    running_loss = 0.0  # 这整个epoch的loss清零
    running_total = 0
    running_correct = 0
    for batch_idx, data in enumerate(train_loader, 0):
        inputs, target = data
        optimizer.zero_grad()

        # forward + backward + update
        outputs = model(inputs)
        loss = criterion(outputs, target)

        loss.backward()
        optimizer.step()

        # 把运行中的loss累加起来，为了下面300次一除
        running_loss += loss.item()
        # 把运行中的准确率acc算出来
        _, predicted = torch.max(outputs.data, dim=1)
        running_total += inputs.shape[0]
        running_correct += (predicted == target).sum().item()

        if batch_idx % 100 == 99:
            print('[%d, %5d]: loss: %.3f , acc: %.2f %%' % (epoch + 1, batch_idx + 1, running_loss / 300, 100 * running_correct / running_total))
            running_loss = 0.0  # 该批次loss清零
            running_total = 0
            running_correct = 0  # 该批次acc清零


def test():
    correct = 0
    total = 0
    with torch.no_grad():
        for data in test_loader:
            images, labels = data
            outputs = model(images)
            _, predicted = torch.max(outputs.data, dim=1)  # dim=1 列是第0个维度，行是第1个维度，沿着行(第1个维度)去找1.最大值和2.最大值的下标
            total += labels.size(0)  # 张量之间的比较运算
            correct += (predicted == labels).sum().item()
    accuracy = correct / total  # 测试准确率=正确数/总数
    print('[%d]: Accuracy on test set: %.1f %% ' % (epoch+1, 100 * accuracy))
    return accuracy


# 主函数
if __name__ == '__main__':
    acc_list_test = []
    for epoch in range(epoch):
        train(epoch)
        acc_test = test()
        acc_list_test.append(acc_test)

    plt.plot(acc_list_test)
    plt.xlabel('Epoch')
    plt.ylabel('Accuracy')
    plt.show()

运行结果：

[1,   100]: loss: 0.480 , acc: 57.27 %
[1,   200]: loss: 0.148 , acc: 86.47 %
[1,   300]: loss: 0.115 , acc: 89.55 %
[1,   400]: loss: 0.090 , acc: 91.84 %
[1,   500]: loss: 0.074 , acc: 93.62 %
[1,   600]: loss: 0.067 , acc: 94.02 %
[1,   700]: loss: 0.057 , acc: 94.55 %
[1,   800]: loss: 0.058 , acc: 94.98 %
[1,   900]: loss: 0.050 , acc: 95.53 %
[1]: Accuracy on test set: 96.4 % 
[2,   100]: loss: 0.041 , acc: 96.28 %
[2,   200]: loss: 0.047 , acc: 95.88 %
[2,   300]: loss: 0.038 , acc: 96.66 %
[2,   400]: loss: 0.043 , acc: 96.20 %
[2,   500]: loss: 0.033 , acc: 96.91 %
[2,   600]: loss: 0.034 , acc: 96.77 %
[2,   700]: loss: 0.031 , acc: 97.08 %
[2,   800]: loss: 0.037 , acc: 96.50 %
[2,   900]: loss: 0.033 , acc: 97.16 %
[2]: Accuracy on test set: 97.8 % 
[3,   100]: loss: 0.030 , acc: 97.55 %
[3,   200]: loss: 0.029 , acc: 97.39 %
[3,   300]: loss: 0.029 , acc: 97.25 %
[3,   400]: loss: 0.029 , acc: 97.36 %
[3,   500]: loss: 0.025 , acc: 97.48 %
[3,   600]: loss: 0.028 , acc: 97.36 %
[3,   700]: loss: 0.025 , acc: 97.75 %
[3,   800]: loss: 0.024 , acc: 97.88 %
[3,   900]: loss: 0.026 , acc: 97.67 %
[3]: Accuracy on test set: 97.8 % 
[4,   100]: loss: 0.026 , acc: 97.75 %
[4,   200]: loss: 0.023 , acc: 97.89 %
[4,   300]: loss: 0.023 , acc: 97.84 %
[4,   400]: loss: 0.020 , acc: 98.27 %
[4,   500]: loss: 0.023 , acc: 98.02 %
[4,   600]: loss: 0.023 , acc: 97.97 %
[4,   700]: loss: 0.022 , acc: 97.95 %
[4,   800]: loss: 0.026 , acc: 97.39 %
[4,   900]: loss: 0.021 , acc: 98.23 %
[4]: Accuracy on test set: 98.4 % 
[5,   100]: loss: 0.020 , acc: 98.19 %
[5,   200]: loss: 0.022 , acc: 97.94 %
[5,   300]: loss: 0.021 , acc: 97.94 %
[5,   400]: loss: 0.021 , acc: 98.06 %
[5,   500]: loss: 0.017 , acc: 98.41 %
[5,   600]: loss: 0.020 , acc: 98.12 %
[5,   700]: loss: 0.022 , acc: 97.92 %
[5,   800]: loss: 0.018 , acc: 98.28 %
[5,   900]: loss: 0.020 , acc: 98.20 %
[5]: Accuracy on test set: 98.4 %

总结

此次通过使用前馈神经网络完成鸢尾花分类任务，在此深化理解了前馈神经网络的基本概念、网络结构及代码实现。此外还基于MNIST手写数字识别数据集，设计合适的前馈神经网络进行实验。在此次实验中，出现最多的报错就是数据类型上的错误，在完成后面的实验时会对这个方面多加留意。

前馈神经网络知识点梳理——思维导图：

参考资料

用PyTorch实现MNIST手写数字识别(非常详细) - 知乎 (zhihu.com)

【学习笔记】前馈神经网络（ANN） - Lugendary - 博客园 (cnblogs.com)

机器学习——前馈神经网络 - NeilZhang - 博客园 (cnblogs.com

逻辑回归、Softmax回归 --- 鸢尾花分类_劳埃德·福杰的博客-CSDN博客_iris softmax回归

你可能感兴趣的:(神经网络与深度学习)

深度学习——第2章习题2-1分析为什么平方损失函数不适用于分类问题笨小古深度强化学习深度学习分类人工智能
深度学习——第2章习题2-1《神经网络与深度学习》——邱锡鹏2-1分析为什么平方损失函数不适用于分类问题。平方损失函数（QuadraticLossFunction）经常用在预测标签y为实数值的任务中，定义为L(y,f(x;θ))=12(y−f(x;θ))2\mathcal{L}\left(y,f(x;\theta)\right)=\frac{1}{2}\left(y-f(x;\theta)\rig
吴恩达机器学习入门笔记（Week 1）冒冒喵吴恩达机器学习入门机器学习笔记人工智能
吴恩达机器学习Week1学习资源及工具机器学习分类专业术语（Terminology）线性回归模型(Linearregression)代价函数（costfunction）学习资源及工具1、课程资源：B站大学2、相关工具：Jupter&Github3、书籍资源：神经网络与深度学习（MichaelNielsen）、机器学习（周志华）、统计学习方法（李航）…机器学习分类1、监督学习（supervisedl
【神经网络与深度学习】通俗易懂的介绍非凸优化问题、梯度消失、梯度爆炸、模型的收敛、模型的发散如果树上有叶子神经网络与深度学习深度学习神经网络人工智能
引言深度学习近年来取得了突破性的进展，并在多个领域展现出惊人的性能。然而，神经网络的训练过程并不总是顺利的，优化过程中可能会遇到各种挑战，如非凸优化问题、梯度消失、梯度爆炸、模型收敛和模型发散。这些问题直接影响着模型的稳定性和最终性能，因此理解它们对于深度学习的研究和应用至关重要。本文将深入探讨这些优化问题的本质及其应对策略，帮助你更好地掌握深度学习模型的训练过程，并提高模型的表现。深度学习中的优
神经网络与深度学习知识总结（一） 2301_77111278 深度学习神经网络人工智能
1.SGD问题：病态曲率图为损失函数轮廓。在进入以蓝色标记的山沟状区域之前随机开始。颜色实际上表示损失函数在特定点处的值有多大，红色表示最大值，蓝色表示最小值。我们想要达到最小值点，为此但需要我们穿过山沟。这个区域就是所谓的病态曲率。如果把原始的SGD想象成一个纸团在重力作用向下滚动，由于质量小受到山壁弹力的干扰大，导致来回震荡；或者在鞍点处因为质量小速度很快减为0，导致无法离开这块平地。动量方法
神经网络与深度学习(三）——卷积神经网络基础阿健也会编程神经网络深度学习 cnn
卷积神经网络基础1.为什么要学习神经网络1.1全连接网络问题1.2深度学习平台简介1.3PyTorch简介1.4简单示例2.卷积神经网络基础2.1进化史2.2特征提取2.3基本结构3.学习算法3.1前向传播3.2误差反向传播3.2.1经典BP算法3.2.2卷积NN的BP算法4.LeNet-5网络4.1网络介绍4.2网络结构详解4.3LeNet5代码实现1.为什么要学习神经网络1.1全连接网络问题链
【神经网络与深度学习】VAE 中的先验分布指的是什么如果树上有叶子神经网络与深度学习深度学习神经网络人工智能
VAE中的先验分布是什么？在变分自编码器（VAE）中，先验分布指的是对潜在空间中随机变量的概率分布假设。通常情况下，VAE设定潜在变量服从标准正态分布(N(0,I))，其中(0)代表均值为零的向量，(I)为单位协方差矩阵。选择标准正态分布作为先验分布的原因主要有以下几点：数学上的便利性：标准正态分布具有良好的数学性质，计算和推导更加简洁，便于模型的优化和训练。结构化的潜在空间：这种假设能够促使模型
【神经网络与深度学习】普通自编码器和变分自编码器的区别如果树上有叶子神经网络与深度学习深度学习神经网络人工智能自编码器变分自编码器
引言自编码器（Autoencoder，AE）和变分自编码器（VariationalAutoencoder，VAE）是深度学习中广泛应用的两类神经网络结构，主要用于数据的压缩、重构和生成。然而，二者在模型设计、训练目标和生成能力等方面存在显著区别。普通自编码器侧重于高效压缩数据并进行无损重构，而变分自编码器则通过潜在空间的概率分布，增强了模型的生成能力和泛化性能。本文将从多个角度探讨AE和VAE的不
【神经网络与深度学习】深度学习中的生成模型简介如果树上有叶子神经网络与深度学习深度学习神经网络人工智能生成模型
深度学习中的生成模型openai的一个古早介绍引言深度学习中的生成模型能够学习数据分布并生成新数据，在人工智能的多个领域中都有重要应用。不同类型的生成模型在原理和结构上各有特点，适用于不同的任务，如图像生成、文本生成和时间序列预测等。本文将介绍几种常见的生成模型，并分析其核心特点和应用场景。深度学习中的生成模型能够学习数据分布并生成新数据，在人工智能的多个领域中都有重要应用。主要生成模型类别包括：
【神经网络与深度学习】改变随机种子可以提升模型性能？如果树上有叶子神经网络与深度学习深度学习神经网络人工智能
引言随机种子在机器学习和数据处理领域中至关重要，它决定了模型训练、数据划分以及参数初始化的随机性。虽然固定随机种子能确保实验的可重复性，但改变随机种子有时会意外提升模型性能。本文将探讨这一现象的潜在原因，并揭示随机性如何影响优化路径、数据分布及模型泛化能力，从而为实践中的实验设计提供有价值的参考。随机种子的概念随机种子（RandomSeed）是一个用于初始化伪随机数生成器的值。在计算机程序中，随机
【神经网络与深度学习】端到端方法和多任务学习如果树上有叶子神经网络与深度学习深度学习神经网络人工智能
引言端到端方法和多任务学习是机器学习和深度学习领域中的两种重要技术，它们各自适用于不同的应用场景，并在模型设计、数据要求和训练过程等方面有着显著区别。端到端方法通过直接将输入数据映射到输出结果，从而简化了处理流程；而多任务学习则通过共享特征提升模型的性能及其对新任务的泛化能力。本文将对两种方法的定义、结构及应用场景进行简要分析，以帮助读者更好地理解和选择适合的技术。对比端到端方法和多任务学习是机器
【神经网络与深度学习】探索全连接网络如何学习数据的复杂模式，提取高层次特征如果树上有叶子神经网络与深度学习深度学习神经网络学习
引言全连接网络（FullyConnectedNetwork，FCN）是深度学习中的重要架构，广泛用于模式识别、分类和回归任务。其强大的特征提取能力使其能够自动学习输入数据中的复杂模式，并逐步形成高层次特征。这种能力主要依赖于参数学习、非线性激活函数、层次结构和特征组合等关键因素。本文将详细介绍全连接网络如何提取高层次特征，并探讨其优化策略，以提升模型的泛化能力和学习效果。1.参数学习全连接网络的每
【神经网络与深度学习】五折交叉验证（5-Fold Cross-Validation）如果树上有叶子神经网络与深度学习深度学习神经网络人工智能
引言五折交叉验证（5-FoldCross-Validation）是一种广泛应用于机器学习模型性能评估的技术，通过多次实验确保模型的评估结果更加稳定、可靠，同时最大限度地利用有限的数据资源。它将数据分成若干子集，交替作为训练集和测试集，从而减少因数据划分偶然性带来的偏差，并为模型的选择和优化提供科学依据。本文将详细探讨五折交叉验证的具体流程、目的及其实际应用场景，为理解和实施这一方法提供全面的参考。
【神经网络与深度学习】两种加载 pickle 文件方式（joblib、pickle）的差异如果树上有叶子神经网络与深度学习深度学习神经网络人工智能
引言从深度学习应用到数据分析的多元化需求出发，Python提供了丰富的工具和模块，其中pickle和joblib两种方式在加载数据文件方面表现尤为突出。不同场景对性能、兼容性以及后续处理的要求不尽相同，使得这两种方式各显优势。本文将通过深入分析和对比，从技术细节出发，揭示两种加载方式的异同，同时解读文件扩展名的选择背后的逻辑。希望为开发者在实际应用中提供切实可行的参考依据。下面为你详细分析这两种加
【神经网络与深度学习】训练集与验证集的功能解析与差异探究如果树上有叶子神经网络与深度学习深度学习神经网络人工智能
引言在深度学习模型的训练过程中，训练集和验证集是两个关键组成部分，它们在模型性能的提升和评估中扮演着不可替代的角色。通过分析这两者的区别和作用，可以帮助我们深入理解模型的学习过程和泛化能力，同时为防止过拟合及优化超参数提供重要参考。以下内容将详细剖析训练集和验证集损失值的计算过程、数据来源以及它们在训练和评估中的具体用途。通过这些分析，我们可以更全面地认识验证集的重要性及其在模型开发中的实际应用。
神经网络与深度学习学习笔记第六章循环神经网络虢子仪深度学习与神经网络神经网络深度学习学习
CSDN和我兰的小伙伴好呀，开学不久，事务繁忙，将近两个月没有更新了，本期为大家更新邱锡鹏老师《神经网络与深度学习》这本书循环神经网络这一章的学习笔记，本人能力有限，希望抛转引玉，为学习这一本书的小伙伴们提供一些思路与启发由于邱老师比较注重版权，因此在此声明，所有内容全部为学习邱老师课程及讲义的学习心得，不得用于任何类型的盈利活动，所有知识版权全部归邱锡鹏老师所有，在此仅做二次加工，以进行学术交流
《神经网络与深度学习》邱希鹏学习笔记（4）第89号神经网络与深度学习学习笔记神经网络机器学习
《神经网络与深度学习》邱希鹏学习笔记（4）完成进度第二章机器学习概述机器学习算法的类型数据的特征表示传统的特征学习特征选择特征抽取深度学习方法评价指标理论和定理PAC学习理论没有免费午餐定理奥卡姆剃刀原理丑小鸭定理归纳偏置自我理解代码实现不同基函数实现最小二乘法实现梯度下降法完成进度…第二章(2)第二章(3)第三章…第二章机器学习概述第二章首先介绍机器学习的基本概念和基本要素，并较为详细地描述一个
【机器学习】——神经网络与深度学习_机器学习深度学习神经网络(1) 2401_84183451 2024年程序员学习机器学习深度学习神经网络
引入一、神经网络及其主要算法1、前馈神经网络2、感知器3、三层前馈网络（多层感知器MLP）4、反向传播算法二、深度学习1、自编码算法AutorEncoder
吴恩达深度学习复盘（1）神经网络与深度学习的发展 wgc2k #深度学习深度学习人工智能
一、神经网络的起源与生物学动机灵感来源神经网络的最初动机源于对生物大脑的模仿。20世纪50年代，科学家试图通过软件模拟神经元的工作机制（如树突接收信号、轴突传递信号），构建类似人类大脑的信息处理系统。生物神经元的简化模型人工神经网络采用数学模型简化生物神经元的行为：每个神经元接收输入（数字信号），通过加权求和与激活函数处理后输出。尽管这一模型远不及真实大脑复杂，但早期研究认为其可能复现智能行为。二
从LLM出发：由浅入深探索AI开发的全流程与简单实践（全文3w字）码事漫谈 AI 人工智能
文章目录第一部分：AI开发的背景与历史1.1人工智能的起源与发展1.2神经网络与深度学习的崛起1.3Transformer架构与LLM的兴起1.4当前AI开发的现状与趋势第二部分：AI开发的核心技术2.1机器学习：AI的基础2.1.1机器学习的类型2.1.2机器学习的流程2.2深度学习：机器学习的进阶2.2.1神经网络基础2.2.2深度学习的关键架构2.3Transformer架构：现代LLM的核
java实现卷积神经网络CNN（附带源码） Katie。 Java 实战项目 java
Java实现卷积神经网络（CNN）项目详解目录项目概述1.1项目背景与意义1.2什么是卷积神经网络（CNN）1.3卷积神经网络的应用场景相关知识与理论基础2.1神经网络与深度学习概述2.2卷积操作与卷积层原理2.3激活函数与池化层2.4全连接层与损失函数2.5前向传播、反向传播与梯度下降项目需求与分析3.1项目目标3.2功能需求分析3.3性能与扩展性要求3.4异常处理与鲁棒性考虑系统设计与实现思路
机器学习与深度学习资料 JasonDing1354 【Machine Learning】
《BriefHistoryofMachineLearning》介绍:这是一篇介绍机器学习历史的文章，介绍很全面，从感知机、神经网络、决策树、SVM、Adaboost到随机森林、DeepLearning.《DeepLearninginNeuralNetworks:AnOverview》介绍:这是瑞士人工智能实验室JurgenSchmidhuber写的最新版本《神经网络与深度学习综述》本综述的特点是以
神经网络与深度学习入门：理解ANN、CNN和RNN shandianfk_com ChatGPT AI 神经网络深度学习 cnn
在现代科技日新月异的今天，人工智能已经成为了我们生活中的重要组成部分。无论是智能手机的语音助手，还是推荐系统，背后都有一项核心技术在支撑，那就是神经网络与深度学习。今天，我们就来聊一聊这个听起来高大上的话题，其实它也没那么难懂！什么是神经网络？首先，我们要了解什么是神经网络。神经网络（ArtificialNeuralNetwork，简称ANN）是模拟人脑神经元连接方式的一种算法。它由一层层的“神经
《神经网络与深度学习》(邱锡鹏) 内容概要【不含数学推导】 code_stream #机器学习神经网络
第1章绪论基本概念：介绍了人工智能的发展历程及不同阶段的特点，如符号主义、连接主义、行为主义等。还阐述了深度学习在人工智能领域的重要地位和发展现状，以及其在图像、语音、自然语言处理等多个领域的成功应用。术语解释人工智能：旨在让机器模拟人类智能的技术和科学。深度学习：一种基于对数据进行表征学习的方法，通过构建具有很多层的神经网络模型，自动从大量数据中学习复杂的模式和特征。第2章机器学习概述基本概念：
# 第一章：认识chatgpt 出门喝奶茶 chatgpt chatgpt
chatgpt发展背景详细介绍一、基础理论背景人工智能和自然语言处理的兴起早期理论:20世纪中期，人工智能（AI）初见端倪，目标是模拟人类智能。自然语言处理作为AI的重要分支，致力于让机器理解和生成人类语言。关键里程碑:1980年代的统计方法和2000年代的神经网络技术，使NLP实现了从规则驱动到数据驱动的转变。神经网络与深度学习2010年代，深度学习的兴起极大推动了NLP的发展。基于大规模语料库
【ShuQiHere】《机器学习的进化史『下』：从神经网络到深度学习的飞跃》 ShuQiHere 机器学习深度学习神经网络
【ShuQiHere】引言：神经网络与深度学习的兴起在上篇文章中，我们回顾了机器学习的起源与传统模型的发展历程，如线性回归、逻辑回归和支持向量机（SVM）。然而，随着数据规模的急剧增长和计算能力的提升，传统模型在处理复杂问题时显得力不从心。在这种背景下，神经网络重新进入了研究者们的视野，并逐步演变为深度学习，成为解决复杂问题的强大工具。今天，我们将进一步探索从神经网络到深度学习的进化历程，揭示这些
神经网络深度学习梯度下降算法优化海棠如醉人工智能深度学习
【神经网络与深度学习】以最通俗易懂的角度解读[梯度下降法及其优化算法]，这一篇就足够（很全很详细）_梯度下降在神经网络中的作用及概念-CSDN博客https://blog.51cto.com/u_15162069/2761936梯度下降数学原理
李宏毅机器学习笔记 2.回归 Simone Zeng 机器学习机器学习
最近在跟着Datawhale组队学习打卡，学习李宏毅的机器学习/深度学习的课程。课程视频：https://www.bilibili.com/video/BV1Ht411g7Ef开源内容：https://github.com/datawhalechina/leeml-notes本篇文章对应视频中的P3。另外，最近我也在学习邱锡鹏教授的《神经网络与深度学习》，会补充书上的一点内容。通过上一次课1.机器
深度学习路线，包括书籍和视频 jjm2002 深度学习深度学习人工智能
深度学习是一个广泛而快速发展的领域，涉及多种技术和应用。以下是一个深度学习学习路线，包括书籍和视频资源。入门阶段：理解基础知识：书籍：《深度学习》（DeepLearning）IanGoodfellow,YoshuaBengio和AaronCourville著。这是深度学习领域的权威书籍，适合初学者。书籍：《神经网络与深度学习》（NeuralNetworksandDeepLearning）Micha
神经网络与深度学习 Neural Networks and Deep Learning 课程笔记第一周林间得鹿吴恩达深度学习系列课程笔记深度学习神经网络笔记
神经网络与深度学习NeuralNetworksandDeepLearning课程笔记第一周文章目录神经网络与深度学习NeuralNetworksandDeepLearning课程笔记第一周深度学习简介什么是神经网络使用神经网络进行监督学习为什么神经网络会兴起本文是吴恩达深度学习系列课程的学习笔记。深度学习简介什么是神经网络深度学习一般是指训练神经网络。那么什么是神经网络？课程以房价预测的例子来说明
小白初探｜神经网络与深度学习神奇的代码在哪里人工智能深度学习神经网络人工智能外接显卡
一、学习背景由于工作的原因，需要开展人工智能相关的研究，虽然不用参与实际研发，但在项目实施过程中发现，人工智能的项目和普通程序开发项目不一样，门槛比较高，没有相关基础没法搞清楚人力、财力如何投入，很难合理管控成本以及时间。为搞清楚情况，老年博主决定一步一个脚印，好好自学。在写本文时，博主已学到一定阶段了，趁有时间，通过博文记录下来，以免遗忘。二、学习准备常年的学习告诉我们，一门学科要快速入门，主流
安装数据库首次应用 Array_06 java oracle sql
可是为什么再一次失败之后就变成直接跳过那个要求 enter full pathname of java.exe的界面这个java.exe是你的Oracle 11g安装目录中例如：【F:\app\chen\product\11.2.0\dbhome_1\jdk\jre\bin】下的java.exe 。不是你的电脑安装的java jdk下的java.exe！注意第一次，使用SQL D
Weblogic Server Console密码修改和遗忘解决方法 bijian1013 Welogic
在工作中一同事将Weblogic的console的密码忘记了，通过网上查询资料解决，实践整理了一下。一.修改Console密码打开weblogic控制台，安全领域 --> myrealm -->&n
IllegalStateException: Cannot forward a response that is already committed Cwind java Servlets
对于初学者来说，一个常见的误解是：当调用 forward() 或者 sendRedirect() 时控制流将会自动跳出原函数。标题所示错误通常是基于此误解而引起的。示例代码： protected void doPost() { if (someCondition) { sendRedirect(); } forward(); // Thi
基于流的装饰设计模式木zi_鸣设计模式
当想要对已有类的对象进行功能增强时，可以定义一个类，将已有对象传入，基于已有的功能，并提供加强功能。自定义的类成为装饰类模仿BufferedReader，对Reader进行包装，体现装饰设计模式装饰类通常会通过构造方法接受被装饰的对象，并基于被装饰的对象功能，提供更强的功能。装饰模式比继承灵活，避免继承臃肿，降低了类与类之间的关系装饰类因为增强已有对象，具备的功能该
Linux中的uniq命令被触发 linux
Linux命令uniq的作用是过滤重复部分显示文件内容，这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个及以后更多个重复行将被删去，行比较是根据所用字符集的排序序列进行的。该命令加工后的结果写到输出文件中。输入文件和输出文件必须不同。如果输入文件用“- ”表示，则从标准输入读取。 AD： uniq [选项] 文件说明：这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个
正则表达式Pattern 肆无忌惮_ Pattern
正则表达式是符合一定规则的表达式，用来专门操作字符串，对字符创进行匹配，切割，替换，获取。例如，我们需要对QQ号码格式进行检验规则是长度6~12位不能0开头只能是数字，我们可以一位一位进行比较，利用parseLong进行判断，或者是用正则表达式来匹配[1-9][0-9]{4,14} 或者 [1-9]\d{4,14} &nbs
Oracle高级查询之OVER (PARTITION BY ..) 知了ing oracle sql
一、rank()/dense_rank() over(partition by ...order by ...) 现在客户有这样一个需求，查询每个部门工资最高的雇员的信息，相信有一定oracle应用知识的同学都能写出下面的SQL语句： select e.ename, e.job, e.sal, e.deptno from scott.emp e, (se
Python调试矮蛋蛋 python pdb
原文地址： http://blog.csdn.net/xuyuefei1988/article/details/19399137 1、下面网上收罗的资料初学者应该够用了，但对比IBM的Python 代码调试技巧： IBM：包括 pdb 模块、利用 PyDev 和 Eclipse 集成进行调试、PyCharm 以及 Debug 日志进行调试： http://www.ibm.com/d
webservice传递自定义对象时函数为空，以及boolean不对应的问题 alleni123 webservice
今天在客户端调用方法 NodeStatus status=iservice.getNodeStatus(). 结果NodeStatus的属性都是null。进行debug之后，发现服务器端返回的确实是有值的对象。后来发现原来是因为在客户端，NodeStatus的setter全部被我删除了。本来是因为逻辑上不需要在客户端使用setter，结果改了之后竟然不能获取带属性值的
java如何干掉指针，又如何巧妙的通过引用来操作指针————>说的就是java指针百合不是茶
C语言的强大在于可以直接操作指针的地址，通过改变指针的地址指向来达到更改地址的目的,又是由于c语言的指针过于强大，初学者很难掌握， java的出现解决了c，c++中指针的问题 java将指针封装在底层，开发人员是不能够去操作指针的地址，但是可以通过引用来间接的操作：定义一个指针p来指向a的地址（&是地址符号）：
Eclipse打不开，提示“An error has occurred.See the log file ***/.log” bijian1013 eclipse
打开eclipse工作目录的\.metadata\.log文件，发现如下错误： !ENTRY org.eclipse.osgi 4 0 2012-09-10 09:28:57.139 !MESSAGE Application error !STACK 1 java.lang.NoClassDefFoundError: org/eclipse/core/resources/IContai
spring aop实例annotation方法实现 bijian1013 java spring AOP annotation
在spring aop实例中我们通过配置xml文件来实现AOP，这里学习使用annotation来实现，使用annotation其实就是指明具体的aspect,pointcut和advice。1.申明一个切面(用一个类来实现)在这个切面里,包括了advice和pointcut AdviceMethods.jav
[Velocity一]Velocity语法基础入门 bit1129 velocity
用户和开发人员参考文档 http://velocity.apache.org/engine/releases/velocity-1.7/developer-guide.html 注释 1.行级注释## 2.多行注释#* *# 变量定义使用$开头的字符串是变量定义，例如$var1, $var2, 赋值使用#set为变量赋值，例
【Kafka十一】关于Kafka的副本管理 bit1129 kafka
1. 关于request.required.acks request.required.acks控制者Producer写请求的什么时候可以确认写成功，默认是0， 0表示即不进行确认即返回。 1表示Leader写成功即返回，此时还没有进行写数据同步到其它Follower Partition中 -1表示根据指定的最少Partition确认后才返回，这个在 Th
lua统计nginx内部变量数据 ronin47 lua nginx　统计
server { listen 80; server_name photo.domain.com; location /{set $str $uri; content_by_lua ' local url = ngx.var.uri local res = ngx.location.capture(
java-11.二叉树中节点的最大距离 bylijinnan java
import java.util.ArrayList; import java.util.List; public class MaxLenInBinTree { /* a. 1 / \ 2 3 / \ / \ 4 5 6 7 max=4 pass "root"
Netty源码学习-ReadTimeoutHandler bylijinnan java netty
ReadTimeoutHandler的实现思路：开启一个定时任务，如果在指定时间内没有接收到消息，则抛出ReadTimeoutException 这个异常的捕获，在开发中，交给跟在ReadTimeoutHandler后面的ChannelHandler，例如 private final ChannelHandler timeoutHandler = new ReadTim
jquery验证上传文件样式及大小(好用) cngolon 文件上传 jquery验证
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <script src="jquery1.8/jquery-1.8.0.
浏览器兼容【转】 cuishikuan css 浏览器 IE
浏览器兼容问题一：不同浏览器的标签默认的外补丁和内补丁不同问题症状：随便写几个标签，不加样式控制的情况下，各自的margin 和padding差异较大。碰到频率:100% 解决方案：CSS里 *{margin:0;padding:0;} 备注：这个是最常见的也是最易解决的一个浏览器兼容性问题，几乎所有的CSS文件开头都会用通配符*来设
Shell特殊变量：Shell $0, $#, $*, $@, $?, $$和命令行参数 daizj shell $#$?特殊变量
前面已经讲到，变量名只能包含数字、字母和下划线，因为某些包含其他字符的变量有特殊含义，这样的变量被称为特殊变量。例如，$ 表示当前Shell进程的ID，即pid，看下面的代码： $echo $$ 运行结果 29949 特殊变量列表变量含义 $0 当前脚本的文件名 $n 传递给脚本或函数的参数。n 是一个数字，表示第几个参数。例如，第一个
程序设计KISS 原则-------KEEP IT SIMPLE, STUPID! dcj3sjt126com unix
翻到一本书，讲到编程一般原则是kiss：Keep It Simple, Stupid.对这个原则深有体会，其实不仅编程如此，而且系统架构也是如此。 KEEP IT SIMPLE, STUPID! 编写只做一件事情，并且要做好的程序；编写可以在一起工作的程序，编写处理文本流的程序，因为这是通用的接口。这就是UNIX哲学.所有的哲学真正的浓缩为一个铁一样的定律，高明的工程师的神圣的“KISS 原
android Activity间List传值 dcj3sjt126com Activity
第一个Activity： import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.Map;import android.app.Activity;import android.content.Intent;import android.os.Bundle;import a
tomcat 设置java虚拟机内存 eksliang tomcat 内存设置
转载请出自出处：http://eksliang.iteye.com/blog/2117772 http://eksliang.iteye.com/ 常见的内存溢出有以下两种: java.lang.OutOfMemoryError: PermGen space java.lang.OutOfMemoryError: Java heap space ------------
Android 数据库事务处理 gqdy365 android
使用SQLiteDatabase的beginTransaction()方法可以开启一个事务，程序执行到endTransaction() 方法时会检查事务的标志是否为成功，如果程序执行到endTransaction()之前调用了setTransactionSuccessful() 方法设置事务的标志为成功则提交事务，如果没有调用setTransactionSuccessful() 方法则回滚事务。事
Java 打开浏览器 hw1287789687 打开网址 open浏览器 open browser 打开url 打开浏览器
使用java 语言如何打开浏览器呢? 我们先研究下在cmd窗口中,如何打开网址使用IE 打开 D:\software\bin>cmd /c start iexplore http://hw1287789687.iteye.com/blog/2153709 使用火狐打开 D:\software\bin>cmd /c start firefox http://hw1287789
ReplaceGoogleCDN：将 Google CDN 替换为国内的 Chrome 插件 justjavac chrome Google google api chrome插件
Chrome Web Store 安装地址： https://chrome.google.com/webstore/detail/replace-google-cdn/kpampjmfiopfpkkepbllemkibefkiice 由于众所周知的原因，只需替换一个域名就可以继续使用Google提供的前端公共库了。同样，通过script标记引用这些资源，让网站访问速度瞬间提速吧
进程VS.线程 m635674608 线程
资料来源： http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001397567993007df355a3394da48f0bf14960f0c78753f000 1、Apache最早就是采用多进程模式 2、IIS服务器默认采用多线程模式 3、多进程优缺点优点：多进程模式最大
Linux下安装MemCached 字符串 memcached
前提准备：1. MemCached目前最新版本为：1.4.22，可以从官网下载到。2. MemCached依赖libevent，因此在安装MemCached之前需要先安装libevent。2.1 运行下面命令，查看系统是否已安装libevent。[root@SecurityCheck ~]# rpm -qa|grep libevent libevent-headers-1.4.13-4.el6.n
java设计模式之--jdk动态代理（实现aop编程） Supanccy2013 java DAO 设计模式 AOP
与静态代理类对照的是动态代理类，动态代理类的字节码在程序运行时由Java反射机制动态生成，无需程序员手工编写它的源代码。动态代理类不仅简化了编程工作，而且提高了软件系统的可扩展性，因为Java 反射机制可以生成任意类型的动态代理类。java.lang.reflect 包中的Proxy类和InvocationHandler 接口提供了生成动态代理类的能力。 &
Spring 4.2新特性-对java8默认方法(default method)定义Bean的支持 wiselyman spring 4
2.1 默认方法(default method) java8引入了一个default medthod; 用来扩展已有的接口,在对已有接口的使用不产生任何影响的情况下,添加扩展使用default关键字 Spring 4.2支持加载在默认方法里声明的bean 2.2 将要被声明成bean的类 public class DemoService {