千里之行起于足下

PyTorch技术和深度学习——四、神经网络训练与优化

文章目录

- - 1.神经网络迭代概念
  - - 1）训练误差与泛化误差
    - 2）训练集、验证集和测试集划分
    - 3）偏差与方差
  - 2.正则化方法
  - - 1）提前终止
    - 2）L2正则化
    - 3）Dropout
  - 3.优化算法
  - - 1）梯度下降
    - 2）Momentum算法
    - 3)RMSprop算法
    - 4)Adam算法
  - 4.PyTorch的初始化函数
  - - 1）普通初始化
    - 2）Xavier 初始化
    - 3）He初始化

1.神经网络迭代概念

超参数包括神经网络的层数、每层神经元的个数、学习率以及合适的激活函数。需要多次循环往复地进行“设置超参数》编码》检查实验结果”这一过程，才能设置最合适的超参数。数据样本的划分也很关键。

1）训练误差与泛化误差

机器学习在训练数据集上表现出的误差叫做训练误差，在任意一个测试数据样本上的误差的期望值叫做泛化误差。

2）训练集、验证集和测试集划分

训练集：用来训练模型内参数的数据集

验证集：用于在训练过程中检验模型的状态，收敛情况。验证集通常用于调整超参数，根据几组模型验证集上的表现决定哪组超参数拥有最好的性能。

同时验证集在训练过程中还可以用来监控模型是否发生过拟合，一般来说验证集表现稳定后，若继续训练，训练集表现还会继续上升，但是验证集会出现不升反降的情况，这样一般就发生了过拟合。所以验证集也用来判断何时停止训练

测试集：用来评价模型泛化能力，即之前模型使用验证集确定了超参数，使用训练集调整了参数，最后使用一个从没有见过的数据集来判断这个模型是否Work。

区别：形象上来说训练集就像是学生的课本，学生根据课本里的内容来掌握知识，验证集就像是作业，通过作业可以知道不同学生学习情况、进步的速度快慢，而最终的测试集就像是考试，考的题是平常都没有见过，考察学生举一反三的能力。

交叉验证法的作用就是尝试利用不同的训练集/测试集划分来对模型做多组不同的训练/测试，来应对单词测试结果过于片面以及训练数据不足的问题。

3）偏差与方差

偏差欠拟合；方差过拟合。

2.正则化方法

过拟合的解决方式有两种：一是收集更多数据，标注更多标签；二是正则化。

1）提前终止

基本思想：神经网络出现过拟合苗头时，提前终止。

方法：绘制训练和严重准确率及损失曲线；找到最佳次数；修改n_epochs为最佳次数。

另一种方式是记录每一轮的准确率，保存对应的参数。然后加载最佳网络参数。

创建文件mnist_early_stopping.py
添加代码如下：

# -*- coding: utf-8 -*-
"""
MNIST数据集分类示例
提前终止
"""

import torch
import numpy as np
import matplotlib.pyplot as plt
import matplotlib as mpl
import torch.nn as nn
from torchvision import datasets
from torch.utils.data import DataLoader
import torchvision.transforms as transforms
from torch.utils.data.sampler import SubsetRandomSampler

# 防止plt汉字乱码
mpl.rcParams[u'font.sans-serif'] = ['simhei']
mpl.rcParams['axes.unicode_minus'] = False

# 是否使用GPU
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

# 超参数
batch_size = 256
n_epochs = 50       # 将原来的训练轮次从50改为14
# n_epochs = 50       # 将原来的训练轮次从50改为14
init_best_acc = 0.975    # 初始最佳验证准确率
checkpoint = "best_mnist_early_stopping.pt"
valid_ratio = 0.2       # 验证集划分比例


def load_mnist_datasets():
    """ 加载MNIST数据集 """
    # 简单数据转换
    transform = transforms.ToTensor()
    # 选择训练集和测试集
    train_data = datasets.MNIST(root='../datasets/mnist/', train=True, download=True, transform=transform)
    test_data = datasets.MNIST(root='../datasets/mnist/', train=False, download=True, transform=transform)

    # 训练集和验证集划分
    num_train = len(train_data)
    indices = list(range(num_train))
    np.random.shuffle(indices)
    split = int(np.floor(valid_ratio * num_train))
    train_idx, valid_idx = indices[split:], indices[:split]

    # 定义获取训练及验证批数据的抽样器
    train_sampler = SubsetRandomSampler(train_idx)
    valid_sampler = SubsetRandomSampler(valid_idx)

    # 加载训练集、验证集和测试集
    train_loader = DataLoader(train_data, batch_size=batch_size, sampler=train_sampler, num_workers=0)
    val_loader = DataLoader(train_data, batch_size=batch_size, sampler=valid_sampler, num_workers=0)
    test_loader = DataLoader(test_data, batch_size=batch_size, num_workers=0)

    return train_loader, val_loader, test_loader


class MLPModel(nn.Module):
    """ 三层简单全连接网络 """

    def __init__(self):
        super(MLPModel, self).__init__()
        self.fc1 = nn.Linear(28 * 28, 128)
        self.fc2 = nn.Linear(128, 128)
        self.fc3 = nn.Linear(128, 10)
        self.relu = nn.ReLU()

    def forward(self, x):
        x = x.view(-1, 28 * 28)
        x = self.relu(self.fc1(x))
        x = self.relu(self.fc2(x))
        x = self.fc3(x)
        return x


def train_model(model, epochs, train_loader, val_loader, optimizer, criterion):
    """ 训练模型 """
    # 一轮训练的损失
    train_loss = 0.
    val_loss = 0.
    # 多轮训练的损失历史
    train_losses_history = []
    val_losses_history = []
    # 多轮训练的准确率历史
    train_acc_history = []
    val_acc_history = []

    # 当前最佳准确率
    best_acc = init_best_acc

    for epoch in range(1, epochs + 1):
        model.train()  # 训练模式
        num_correct = 0
        num_samples = 0
        for batch, (data, target) in enumerate(train_loader, 1):
            data, target = data.to(device), target.to(device)
            # 梯度清零
            optimizer.zero_grad()
            # 前向传播
            output = model(data)
            # 计算损失
            loss = criterion(output, target)
            # 反向传播
            loss.backward()
            # 更新参数
            optimizer.step()
            # 记录损失
            train_loss += loss.item() * target.size(0)
            # 将概率最高的类别作为预测类
            _, predicted = torch.max(output.data, dim=1)
            num_samples += target.size(0)
            num_correct += (predicted == target).int().sum()

        # 训练准确率
        train_acc = 1.0 * num_correct / num_samples
        train_acc_history.append(train_acc)

        # 验证模型
        with torch.no_grad():
            model.eval()  # 验证模式
            num_correct = 0
            num_samples = 0
            for data, target in val_loader:
                data, target = data.to(device), target.to(device)
                # 前向传播
                output = model(data)
                # 计算损失
                loss = criterion(output, target)
                # 记录验证损失
                val_loss += loss.item() * target.size(0)
                # 将概率最高的类别作为预测类
                _, predicted = torch.max(output.data, dim=1)
                num_samples += target.size(0)
                num_correct += (predicted == target).int().sum()

            # 验证准确率
            val_acc = 1.0 * num_correct / num_samples
            val_acc_history.append(val_acc)

            # 计算一轮训练后的损失
            train_loss = train_loss / num_samples
            val_loss = val_loss / num_samples
            train_losses_history.append(train_loss)
            val_losses_history.append(val_loss)

            # 打印统计信息
            epoch_len = len(str(epochs))
            print(f'[{epoch:>{epoch_len}}/{epochs:>{epoch_len}}] ' +
                  f'训练准确率：{train_acc:.3%} ' +
                  f'验证准确率：{val_acc:.3%} ' +
                  f'训练损失：{train_loss:.5f} ' +
                  f'验证损失：{val_loss:.5f}')

            # 记录最佳测试准确率
            if val_acc > best_acc:
                best_acc = val_acc
                print("保存模型......")
                torch.save(model.state_dict(), checkpoint)

        # 为下一轮训练清除统计数据
        train_loss = 0
        val_loss = 0

    # 加载最佳模型
    model.load_state_dict(torch.load(checkpoint))

    return model, train_acc_history, val_acc_history, train_losses_history, val_losses_history


def plot_metrics_curves(train_acc, val_acc, train_loss, val_loss):
    """ 绘制性能曲线 """
    # 训练和验证准确率
    plt.figure(figsize=(10, 8))
    plt.plot(range(1, len(train_acc) + 1), train_acc, label=u'训练准确率')
    plt.plot(range(1, len(val_acc) + 1), val_acc, label=u'验证准确率')

    max_position = np.argmin(val_acc)+1
    # max_position = val_acc.index(max(val_acc)) + 1
    plt.axvline(max_position, linestyle='--', color='r', label=u'提前终止检查点')

    plt.xlabel(u'轮次')
    plt.ylabel(u'准确率')
    plt.ylim(0, 1.2)
    plt.xlim(0, len(train_acc) + 1)
    plt.grid(True)
    plt.title(u'训练和验证准确率')
    plt.legend()
    plt.tight_layout()
    plt.show()

    # 训练和验证损失
    plt.figure(figsize=(10, 8))
    plt.plot(range(1, len(train_loss) + 1), train_loss, label=u'训练损失')
    plt.plot(range(1, len(val_loss) + 1), val_loss, label=u'验证损失')

    min_position = np.argmin(val_loss)+1
    # min_position = val_loss.index(min(val_loss)) + 1
    plt.axvline(min_position, linestyle='--', color='r', label=u'提前终止检查点')

    plt.xlabel(u'轮次')
    plt.ylabel(u'损失')
    plt.ylim(0, 0.5)
    plt.xlim(0, len(train_loss) + 1)
    plt.grid(True)
    plt.title(u'训练和验证损失')
    plt.legend()
    plt.tight_layout()
    plt.show()


def test_model(model, test_loader, criterion):
    """ 模型测试 """
    test_loss = 0.0
    total_correct = 0
    total_examples = 0

    model.eval()  # 评估模式

    for data, target in test_loader:
        data, target = data.to(device), target.to(device)
        output = model(data)
        loss = criterion(output, target)
        test_loss += loss.item() * data.size(0)
        _, pred = torch.max(output, dim=1)
        correct = np.squeeze(pred.eq(target.data.view_as(pred)))
        total_correct += correct.sum()
        total_examples += target.size(0)

    test_loss = test_loss / len(test_loader.dataset)
    print('测试损失：{:.6f}\n'.format(test_loss))

    total_acc = 1.0 * total_correct / total_examples
    print(f'\n总体测试准确率： {total_acc:.3%}({total_correct}/{total_examples})')


def main():
    """ 主函数 """
    # 实例化MLP模型
    model = MLPModel().to(device)
    print(model)

    # 交叉熵损失函数
    criterion = nn.CrossEntropyLoss()
    # 优化器
    optimizer = torch.optim.Adam(model.parameters())

    # 加载数据集
    train_loader, val_loader, test_loader = load_mnist_datasets()
    # 模型训练
    model, train_acc, val_acc, train_loss, val_loss = \
        train_model(model, n_epochs, train_loader, val_loader, optimizer, criterion)
    # 绘制性能曲线
    # train_acc2 = train_acc.to(device='cpu')
    # val_acc2 = val_acc.to(device='cpu')
    # train_loss2 = train_loss.to(device='cpu')
    # val_loss2 = val_loss.to(device='cpu')
    # plot_metrics_curves(train_acc2, val_acc2, train_loss2, val_loss2)
    train_acc2 = torch.tensor(train_acc).detach().cpu().clone().numpy()

    val_acc2 = torch.tensor(val_acc).cpu().clone().numpy()
    train_loss2 = torch.tensor(train_loss).cpu().clone().numpy()
    val_loss2 = torch.tensor(val_loss).cpu().clone().numpy()
    plot_metrics_curves(train_acc2, val_acc2, train_loss2, val_loss2)


    # plot_metrics_curves(train_acc, val_acc, train_loss, val_loss)
    # 模型测试
    test_model(model, test_loader, criterion)


if __name__ == '__main__':
    main()

运行结果：

总体测试准确率： 97.630%(9763/10000)

显示Mnist训练和验证准确率及损失曲线

验证损失最小值处就是提前终止检查点。

2）L2正则化

通过对权重参数施加惩罚达到。它是一个减少方差的策略，也就是减少高方差。

误差可分解为：偏差，方差与噪声之和。即误差 = 偏差 + 方差 + 噪声

偏差度量了学习算法的期望预测与真实结果的偏离程度，即刻画了学习算法本身的拟合能力
方差度量了同样大小的训练集的变动所导致的学习性能的变化，即刻画了数据扰动所造成的影响
噪声则表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界。

L1 正则化的特点：

不容易计算，在零点连续但不可导，需要分段求导
L1 模型可以将一些权值缩小到零（稀疏）
执行隐式变量选择。这意味着一些变量值对结果的影响降为 0，就像删除它们一样
其中一些预测因子对应较大的权值，而其余的（几乎归零）
由于它可以提供稀疏的解决方案，因此通常是建模特征数量巨大时的首选模型
它任意选择高度相关特征中的任何一个，并将其余特征对应的系数减少到 0**
L1 范数对于异常值更具提抗力

L2 正则化的特点：

容易计算，可导，适合基于梯度的方法
将一些权值缩小到接近 0
相关的预测特征对应的系数值相似
当特征数量巨大时，计算量会比较大
对于有相关特征存在的情况，它会包含所有这些相关的特征，但是相关特征的权值分布取决于相关性。
对异常值非常敏感
相对于 L1 正则会更加准确

创建文件mnist_regularization.py
添加代码如下：

# -*- coding: utf-8 -*-
"""
MNIST数据集分类示例
L2正则化
"""

import torch
import numpy as np
import matplotlib.pyplot as plt
import matplotlib as mpl
import torch.nn as nn
from torchvision import datasets
from torch.utils.data import DataLoader
import torchvision.transforms as transforms
from torch.utils.data.sampler import SubsetRandomSampler

# 防止plt汉字乱码
mpl.rcParams[u'font.sans-serif'] = ['simhei']
mpl.rcParams['axes.unicode_minus'] = False

# 是否使用GPU
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

# 超参数
batch_size = 256
n_epochs = 50
init_best_acc = 0.975    # 初始最佳验证准确率
checkpoint = "best_mnist_early_stopping.pt"
valid_ratio = 0.2       # 验证集划分比例


def load_mnist_datasets():
    """ 加载MNIST数据集 """
    # 简单数据转换
    transform = transforms.ToTensor()
    # 选择训练集和测试集
    train_data = datasets.MNIST(root='../datasets/mnist/', train=True, download=True, transform=transform)
    test_data = datasets.MNIST(root='../datasets/mnist/', train=False, download=True, transform=transform)

    # 训练集和验证集划分
    num_train = len(train_data)
    indices = list(range(num_train))
    np.random.shuffle(indices)
    split = int(np.floor(valid_ratio * num_train))
    train_idx, valid_idx = indices[split:], indices[:split]

    # 定义获取训练及验证批数据的抽样器
    train_sampler = SubsetRandomSampler(train_idx)
    valid_sampler = SubsetRandomSampler(valid_idx)

    # 加载训练集、验证集和测试集
    train_loader = DataLoader(train_data, batch_size=batch_size, sampler=train_sampler, num_workers=0)
    val_loader = DataLoader(train_data, batch_size=batch_size, sampler=valid_sampler, num_workers=0)
    test_loader = DataLoader(test_data, batch_size=batch_size, num_workers=0)

    return train_loader, val_loader, test_loader


class MLPModel(nn.Module):
    """ 三层简单全连接网络 """

    def __init__(self):
        super(MLPModel, self).__init__()
        self.fc1 = nn.Linear(28 * 28, 128)
        self.fc2 = nn.Linear(128, 128)
        self.fc3 = nn.Linear(128, 10)
        self.relu = nn.ReLU()

    def forward(self, x):
        x = x.view(-1, 28 * 28)
        x = self.relu(self.fc1(x))
        x = self.relu(self.fc2(x))
        x = self.fc3(x)
        return x


def train_model(model, epochs, train_loader, val_loader, optimizer, criterion):
    """ 训练模型 """
    # 一轮训练的损失
    train_loss = 0.
    val_loss = 0.
    # 多轮训练的损失历史
    train_losses_history = []
    val_losses_history = []
    # 多轮训练的准确率历史
    train_acc_history = []
    val_acc_history = []

    # 当前最佳准确率
    best_acc = init_best_acc

    for epoch in range(1, epochs + 1):
        model.train()  # 训练模式
        num_correct = 0
        num_samples = 0
        for batch, (data, target) in enumerate(train_loader, 1):
            data, target = data.to(device), target.to(device)
            # 梯度清零
            optimizer.zero_grad()
            # 前向传播
            output = model(data)
            # 计算损失
            loss = criterion(output, target)
            # 反向传播
            loss.backward()
            # 更新参数
            optimizer.step()
            # 记录损失
            train_loss += loss.item() * target.size(0)
            # 将概率最高的类别作为预测类
            _, predicted = torch.max(output.data, dim=1)
            num_samples += target.size(0)
            num_correct += (predicted == target).int().sum()

        # 训练准确率
        train_acc = 1.0 * num_correct / num_samples
        train_acc_history.append(train_acc)

        # 验证模型
        with torch.no_grad():
            model.eval()  # 验证模式
            num_correct = 0
            num_samples = 0
            for data, target in val_loader:
                data, target = data.to(device), target.to(device)
                # 前向传播
                output = model(data)
                # 计算损失
                loss = criterion(output, target)
                # 记录验证损失
                val_loss += loss.item() * target.size(0)
                # 将概率最高的类别作为预测类
                _, predicted = torch.max(output.data, dim=1)
                num_samples += target.size(0)
                num_correct += (predicted == target).int().sum()

            # 验证准确率
            val_acc = 1.0 * num_correct / num_samples
            val_acc_history.append(val_acc)

            # 计算一轮训练后的损失
            train_loss = train_loss / num_samples
            val_loss = val_loss / num_samples
            train_losses_history.append(train_loss)
            val_losses_history.append(val_loss)

            # 打印统计信息
            epoch_len = len(str(epochs))
            print(f'[{epoch:>{epoch_len}}/{epochs:>{epoch_len}}] ' +
                  f'训练准确率：{train_acc:.3%} ' +
                  f'验证准确率：{val_acc:.3%} ' +
                  f'训练损失：{train_loss:.5f} ' +
                  f'验证损失：{val_loss:.5f}')

            # 记录最佳测试准确率
            if val_acc > best_acc:
                best_acc = val_acc
                print("保存模型......")
                torch.save(model.state_dict(), checkpoint)

        # 为下一轮训练清除统计数据
        train_loss = 0
        val_loss = 0

    # 加载最佳模型
    model.load_state_dict(torch.load(checkpoint))

    return model, train_acc_history, val_acc_history, train_losses_history, val_losses_history


def plot_metrics_curves(train_acc, val_acc, train_loss, val_loss):
    """ 绘制性能曲线 """
    # 训练和验证准确率
    plt.figure(figsize=(10, 8))
    plt.plot(range(1, len(train_acc) + 1), train_acc, label=u'训练准确率')
    plt.plot(range(1, len(val_acc) + 1), val_acc, label=u'验证准确率')

    max_position = val_acc.index(max(val_acc)) + 1
    plt.axvline(max_position, linestyle='--', color='r', label=u'提前终止检查点')

    plt.xlabel(u'轮次')
    plt.ylabel(u'准确率')
    plt.ylim(0, 1.2)
    plt.xlim(0, len(train_acc) + 1)
    plt.grid(True)
    plt.title(u'训练和验证准确率')
    plt.legend()
    plt.tight_layout()
    plt.show()

    # 训练和验证损失
    plt.figure(figsize=(10, 8))
    plt.plot(range(1, len(train_loss) + 1), train_loss, label=u'训练损失')
    plt.plot(range(1, len(val_loss) + 1), val_loss, label=u'验证损失')

    min_position = val_loss.index(min(val_loss)) + 1
    plt.axvline(min_position, linestyle='--', color='r', label=u'提前终止检查点')

    plt.xlabel(u'轮次')
    plt.ylabel(u'损失')
    plt.ylim(0, 0.5)
    plt.xlim(0, len(train_loss) + 1)
    plt.grid(True)
    plt.title(u'训练和验证损失')
    plt.legend()
    plt.tight_layout()
    plt.show()


def test_model(model, test_loader, criterion):
    """ 模型测试 """
    test_loss = 0.0
    total_correct = 0
    total_examples = 0

    model.eval()  # 评估模式

    for data, target in test_loader:
        data, target = data.to(device), target.to(device)
        output = model(data)
        loss = criterion(output, target)
        test_loss += loss.item() * data.size(0)
        _, pred = torch.max(output, dim=1)
        correct = np.squeeze(pred.eq(target.data.view_as(pred)))
        total_correct += correct.sum()
        total_examples += target.size(0)

    test_loss = test_loss / len(test_loader.dataset)
    print('测试损失：{:.6f}\n'.format(test_loss))

    total_acc = 1.0 * total_correct / total_examples
    print(f'\n总体测试准确率： {total_acc:.3%}({total_correct}/{total_examples})')


def main():
    """ 主函数 """
    # 实例化MLP模型
    model = MLPModel().to(device)
    print(model)

    # 交叉熵损失函数
    criterion = nn.CrossEntropyLoss()
    # 优化器
    optimizer = torch.optim.Adam(model.parameters(), weight_decay=0.0001)

    # 加载数据集
    train_loader, val_loader, test_loader = load_mnist_datasets()
    # 模型训练
    model, train_acc, val_acc, train_loss, val_loss = \
        train_model(model, n_epochs, train_loader, val_loader, optimizer, criterion)

    # 绘制性能曲线
    plot_metrics_curves(train_acc, val_acc, train_loss, val_loss)
    # 模型测试
    test_model(model, test_loader, criterion)


if __name__ == '__main__':
    main()

3）Dropout

在神经网络训练时，随机把一些神经单元去除，“瘦身”后的神经网络继续训练，最后的模型，是保留所有神经单元，但是神经的连接权重w乘上了一个刚才随机去除指数p.

# -*- coding: utf-8 -*-
"""
MNIST数据集分类示例
Dropout 
"""

import torch
import numpy as np
import matplotlib.pyplot as plt
import matplotlib as mpl
import torch.nn as nn
from torchvision import datasets
from torch.utils.data import DataLoader
import torchvision.transforms as transforms
from torch.utils.data.sampler import SubsetRandomSampler

# 防止plt汉字乱码
mpl.rcParams[u'font.sans-serif'] = ['simhei']
mpl.rcParams['axes.unicode_minus'] = False

# 是否使用GPU
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

# 超参数
batch_size = 256
n_epochs = 50
init_best_acc = 0.975    # 初始最佳验证准确率
checkpoint = "best_mnist_dropout.pt"
valid_ratio = 0.2       # 验证集划分比例


def load_mnist_datasets():
    """ 加载MNIST数据集 """
    # 简单数据转换
    transform = transforms.ToTensor()
    # 选择训练集和测试集
    train_data = datasets.MNIST(root='../datasets/mnist/', train=True, download=True, transform=transform)
    test_data = datasets.MNIST(root='../datasets/mnist/', train=False, download=True, transform=transform)

    # 训练集和验证集划分
    num_train = len(train_data)
    indices = list(range(num_train))
    np.random.shuffle(indices)
    split = int(np.floor(valid_ratio * num_train))
    train_idx, valid_idx = indices[split:], indices[:split]

    # 定义获取训练及验证批数据的抽样器
    train_sampler = SubsetRandomSampler(train_idx)
    valid_sampler = SubsetRandomSampler(valid_idx)

    # 加载训练集、验证集和测试集
    train_loader = DataLoader(train_data, batch_size=batch_size, sampler=train_sampler, num_workers=0)
    val_loader = DataLoader(train_data, batch_size=batch_size, sampler=valid_sampler, num_workers=0)
    test_loader = DataLoader(test_data, batch_size=batch_size, num_workers=0)

    return train_loader, val_loader, test_loader


class MLPModel(nn.Module):
    """ 三层简单全连接网络 """

    def __init__(self):
        super(MLPModel, self).__init__()
        self.fc1 = nn.Linear(28 * 28, 128)
        self.fc2 = nn.Linear(128, 128)
        self.fc3 = nn.Linear(128, 10)
        self.relu = nn.ReLU()
        self.dropout = nn.Dropout(0.4)  # 随机丢弃的概率

    def forward(self, x):
        x = x.view(-1, 28 * 28)
        x = self.relu(self.fc1(x))
        x = self.dropout(x)
        x = self.relu(self.fc2(x))
        x = self.dropout(x)
        x = self.fc3(x)
        return x


def train_model(model, epochs, train_loader, val_loader, optimizer, criterion):
    """ 训练模型 """
    # 一轮训练的损失
    train_loss = 0.
    val_loss = 0.
    # 多轮训练的损失历史
    train_losses_history = []
    val_losses_history = []
    # 多轮训练的准确率历史
    train_acc_history = []
    val_acc_history = []

    # 当前最佳准确率
    best_acc = init_best_acc

    for epoch in range(1, epochs + 1):
        model.train()  # 训练模式
        num_correct = 0
        num_samples = 0
        for batch, (data, target) in enumerate(train_loader, 1):
            data, target = data.to(device), target.to(device)
            # 梯度清零
            optimizer.zero_grad()
            # 前向传播
            output = model(data)
            # 计算损失
            loss = criterion(output, target)
            # 反向传播
            loss.backward()
            # 更新参数
            optimizer.step()
            # 记录损失
            train_loss += loss.item() * target.size(0)
            # 将概率最高的类别作为预测类
            _, predicted = torch.max(output.data, dim=1)
            num_samples += target.size(0)
            num_correct += (predicted == target).int().sum()

        # 训练准确率
        train_acc = 1.0 * num_correct / num_samples
        train_acc_history.append(train_acc)

        # 验证模型
        with torch.no_grad():
            model.eval()  # 验证模式
            num_correct = 0
            num_samples = 0
            for data, target in val_loader:
                data, target = data.to(device), target.to(device)
                # 前向传播
                output = model(data)
                # 计算损失
                loss = criterion(output, target)
                # 记录验证损失
                val_loss += loss.item() * target.size(0)
                # 将概率最高的类别作为预测类
                _, predicted = torch.max(output.data, dim=1)
                num_samples += target.size(0)
                num_correct += (predicted == target).int().sum()

            # 验证准确率
            val_acc = 1.0 * num_correct / num_samples
            val_acc_history.append(val_acc)

            # 计算一轮训练后的损失
            train_loss = train_loss / num_samples
            val_loss = val_loss / num_samples
            train_losses_history.append(train_loss)
            val_losses_history.append(val_loss)

            # 打印统计信息
            epoch_len = len(str(epochs))
            print(f'[{epoch:>{epoch_len}}/{epochs:>{epoch_len}}] ' +
                  f'训练准确率：{train_acc:.3%} ' +
                  f'验证准确率：{val_acc:.3%} ' +
                  f'训练损失：{train_loss:.5f} ' +
                  f'验证损失：{val_loss:.5f}')

            # 记录最佳测试准确率
            if val_acc > best_acc:
                best_acc = val_acc
                print("保存模型......")
                torch.save(model.state_dict(), checkpoint)

        # 为下一轮训练清除统计数据
        train_loss = 0
        val_loss = 0

    # 加载最佳模型
    model.load_state_dict(torch.load(checkpoint))

    return model, train_acc_history, val_acc_history, train_losses_history, val_losses_history


def plot_metrics_curves(train_acc, val_acc, train_loss, val_loss):
    """ 绘制性能曲线 """
    # 训练和验证准确率
    plt.figure(figsize=(10, 8))
    plt.plot(range(1, len(train_acc) + 1), train_acc, label=u'训练准确率')
    plt.plot(range(1, len(val_acc) + 1), val_acc, label=u'验证准确率')

    max_position = val_acc.index(max(val_acc)) + 1
    plt.axvline(max_position, linestyle='--', color='r', label=u'提前终止检查点')

    plt.xlabel(u'轮次')
    plt.ylabel(u'准确率')
    plt.ylim(0, 1.2)
    plt.xlim(0, len(train_acc) + 1)
    plt.grid(True)
    plt.title(u'训练和验证准确率')
    plt.legend()
    plt.tight_layout()
    plt.show()

    # 训练和验证损失
    plt.figure(figsize=(10, 8))
    plt.plot(range(1, len(train_loss) + 1), train_loss, label=u'训练损失')
    plt.plot(range(1, len(val_loss) + 1), val_loss, label=u'验证损失')

    min_position = val_loss.index(min(val_loss)) + 1
    plt.axvline(min_position, linestyle='--', color='r', label=u'提前终止检查点')

    plt.xlabel(u'轮次')
    plt.ylabel(u'损失')
    plt.ylim(0, 1.0)
    plt.xlim(0, len(train_loss) + 1)
    plt.grid(True)
    plt.title(u'训练和验证损失')
    plt.legend()
    plt.tight_layout()
    plt.show()


def test_model(model, test_loader, criterion):
    """ 模型测试 """
    test_loss = 0.0
    total_correct = 0
    total_examples = 0

    model.eval()  # 评估模式

    for data, target in test_loader:
        data, target = data.to(device), target.to(device)
        output = model(data)
        loss = criterion(output, target)
        test_loss += loss.item() * data.size(0)
        _, pred = torch.max(output, dim=1)
        correct = np.squeeze(pred.eq(target.data.view_as(pred)))
        total_correct += correct.sum()
        total_examples += target.size(0)

    test_loss = test_loss / len(test_loader.dataset)
    print('测试损失：{:.6f}\n'.format(test_loss))

    total_acc = 1.0 * total_correct / total_examples
    print(f'\n总体测试准确率： {total_acc:.3%}({total_correct}/{total_examples})')


def main():
    """ 主函数 """
    # 实例化MLP模型
    model = MLPModel().to(device)
    print(model)

    # 交叉熵损失函数
    criterion = nn.CrossEntropyLoss()
    # 优化器
    optimizer = torch.optim.Adam(model.parameters())

    # 加载数据集
    train_loader, val_loader, test_loader = load_mnist_datasets()
    # 模型训练
    model, train_acc, val_acc, train_loss, val_loss = \
        train_model(model, n_epochs, train_loader, val_loader, optimizer, criterion)

    # 绘制性能曲线
    plot_metrics_curves(train_acc, val_acc, train_loss, val_loss)
    # 模型测试
    test_model(model, test_loader, criterion)


if __name__ == '__main__':
    main()

3.优化算法

寻找最优参数

1）梯度下降

批量梯度下降算法（BGD）：计算全部样本平均梯度；

随机梯度下降算法（SGD）：计算一个样本；

小批量梯度下降算法（MBGD）：

2）Momentum算法

动量是一个能够对抗鞍点和局部最小值的技术。其运算速度较快。

结合当前梯度与上一次更新信息，用于当前更新；

动量，他的作用是尽量保持当前梯度的变化方向。没有动量的网络可以视为一个质量很轻的棉花团，风往哪里吹就往哪里走，一点风吹草动都影响他，四处跳动不容易学习到更好的局部最优。没有动力来源的时候可能又不动了。加了动量就像是棉花变成了铁球，咕噜咕噜的滚在参数空间里，很容易闯过鞍点，直到最低点。可以参照指数滑动平均。优化效果是梯度二阶导数不会过大，优化更稳定，也可以看做效果接近二阶方法，但是计算容易的多。

其实本质应该是对参数加了约束。

创建文件gradient_descent.py，演示梯度下降算法的缺点
添加代码如下：

import numpy as np
from matplotlib import pyplot as plt

# 尝试修改学习率为0.43和0.55，看看效果
learning_rate = 0.43


def f_2d(w, b):
    """ 待优化的函数 """
    return 0.1 * w ** 2 + 2 * b ** 2


def gd_2d(w, b):
    """ 优化一步 """
    return w - learning_rate * 0.2 * w, b - learning_rate * 4 * b


def train_2d(optimizer):
    """ 使用定制优化器optimizer来训练二维目标函数 """
    w, b = -7, 4  # 初始值
    history = [(w, b)]
    epochs = 20  # 训练轮次
    for i in range(epochs):
        w, b = optimizer(w, b)
        history.append((w, b))
    print('经过轮次：%d，最终的w：%f，b：%f' % (epochs, w, b))
    return history


def trace_2d(f, hist):
    """ 追踪训练二维目标函数的过程 """
    w, b = zip(*hist)
    plt.rcParams['figure.figsize'] = (5, 3)
    plt.plot(w, b, '-o', color='blue')
    w = np.arange(-7.5, 7.5, 0.1)
    b = np.arange(min(-4.0, min(b) - 1), max(4.0, max(b) + 1), 0.1)
    w, b = np.meshgrid(w, b)
    plt.contour(w, b, f(w, b), colors='green')
    plt.xlabel('w')
    plt.ylabel('b')
    plt.show()


def main():
    history = train_2d(gd_2d)
    trace_2d(f_2d, history)


if __name__ == '__main__':
    main()

运行结果：

创建文件momentum.py，演示Momentum算法
添加代码如下：

# -*- coding: utf-8 -*-
"""
演示Momentum算法
"""
import numpy as np
from matplotlib import pyplot as plt

# 尝试修改学习率为0.43和0.55，看看效果
learning_rate = 0.55
gamma = 0.5


def f_2d(w, b):
    """ 待优化的函数 """
    return 0.1 * w ** 2 + 2 * b ** 2


def momentum_2d(w, b, vw, vb, nesterov=False):
    """ 优化一步 """
    if nesterov:
        vw = gamma * vw + (1 - gamma) * 0.2 * w
        vb = gamma * vb + (1 - gamma) * 4 * b
        return w - learning_rate * vw, b - learning_rate * vb, vw, vb
    else:
        vw = gamma * vw + learning_rate * (1 - gamma) * 0.2 * w
        vb = gamma * vb + learning_rate * (1 - gamma) * 4 * b
        return w - vw, b - vb, vw, vb


def train_2d(optimizer):
    """ 使用定制优化器optimizer来训练二维目标函数 """
    w, b, vw, vb = -7, 4, 0, 0  # 初始值
    history = [(w, b)]
    epochs = 20  # 训练轮次
    for i in range(epochs):
        w, b, vw, vb = optimizer(w, b, vw, vb, True)
        history.append((w, b))
    print('经过轮次：%d，最终的w：%f，b：%f' % (epochs, w, b))
    return history


def trace_2d(f, hist):
    """ 追踪训练二维目标函数的过程 """
    w, b = zip(*hist)
    plt.rcParams['figure.figsize'] = (5, 3)
    plt.plot(w, b, '-o', color='blue')
    w = np.arange(-7.5, 7.5, 0.1)
    b = np.arange(min(-4.0, min(b) - 1), max(4.0, max(b) + 1), 0.1)
    w, b = np.meshgrid(w, b)
    plt.contour(w, b, f(w, b), colors='green')
    plt.xlabel('w')
    plt.ylabel('b')
    plt.show()


def main():
    history = train_2d(momentum_2d)
    trace_2d(f_2d, history)


if __name__ == '__main__':
    main()

运行结果：

3)RMSprop算法

与动量梯度下降一样，都是消除梯度下降过程中的摆动来加速梯度下降的方法。

创建文件rmsprop.py
添加代码如下：

# -*- coding: utf-8 -*-
"""
演示RMSprop算法
"""
import numpy as np
from matplotlib import pyplot as plt

# 尝试修改学习率为0.43和0.55，看看效果
learning_rate = 0.55
gamma = 0.9


def f_2d(w, b):
    """ 待优化的函数 """
    return 0.1 * w ** 2 + 2 * b ** 2


def rmsprop_2d(w, b, sw, sb):
    """ 优化一步 """
    dw, db, eps = 0.2 * w, 4 * b, 1e-8
    sw = gamma * sw + (1 - gamma) * dw ** 2
    sb = gamma * sb + (1 - gamma) * db ** 2
    return (w - learning_rate * dw / (np.sqrt(sw) + eps),
            b - learning_rate * db / (np.sqrt(sb) + eps), sw, sb)


def train_2d(optimizer):
    """ 使用定制优化器optimizer来训练二维目标函数 """
    w, b, sw, sb = -7, 4, 0, 0  # 初始值
    history = [(w, b)]
    epochs = 20  # 训练轮次
    for i in range(epochs):
        w, b, sw, sb = optimizer(w, b, sw, sb)
        history.append((w, b))
    print('经过轮次：%d，最终的w：%f，b：%f' % (epochs, w, b))
    return history


def trace_2d(f, hist):
    """ 追踪训练二维目标函数的过程 """
    w, b = zip(*hist)
    plt.rcParams['figure.figsize'] = (5, 3)
    plt.plot(w, b, '-o', color='blue')
    w = np.arange(-7.5, 7.5, 0.1)
    b = np.arange(min(-4.0, min(b) - 1), max(4.0, max(b) + 1), 0.1)
    w, b = np.meshgrid(w, b)
    plt.contour(w, b, f(w, b), colors='green')
    plt.xlabel('w')
    plt.ylabel('b')
    plt.show()


def main():
    history = train_2d(rmsprop_2d)
    trace_2d(f_2d, history)


if __name__ == '__main__':
    main()

运行结果：

4)Adam算法

是RMSProp的更新版本

Adam中动量直接并入了梯度一阶矩（指数加权）的估计。其次，相比于缺少修正因子导致二阶矩估计可能在训练初期具有很高偏置的RMSProp，Adam包括偏置修正，修正从原点初始化的一阶矩（动量项）和（非中心的）二阶矩估计。

创建文件adam.py
添加代码如下：

# -*- coding: utf-8 -*-
"""
演示Adam算法
"""
import numpy as np
from matplotlib import pyplot as plt

# 尝试修改学习率为0.43和0.55，看看效果
learning_rate = 0.43
beta1 = 0.9
beta2 = 0.999


def f_2d(w, b):
    """ 待优化的函数 """
    return 0.1 * w ** 2 + 2 * b ** 2


def adam_2d(w, b, vw, vb, sw, sb, t):
    """ 优化一步 """
    dw, db, eps = 0.2 * w, 4 * b, 1e-8
    vw = beta1 * vw + (1 - beta1) * dw
    vb = beta1 * vb + (1 - beta1) * db
    sw = beta2 * sw + (1 - beta2) * dw ** 2
    sb = beta2 * sb + (1 - beta2) * db ** 2
    vwc = vw / (1 - beta1 ** t)
    vbc = vb / (1 - beta1 ** t)
    swc = sw / (1 - beta2 ** t)
    sbc = sb / (1 - beta2 ** t)
    return (w - learning_rate * vwc / np.sqrt(swc + eps),
            b - learning_rate * vbc / np.sqrt(sbc + eps), vw, vb, sw, sb)


def train_2d(optimizer):
    """ 使用定制优化器optimizer来训练二维目标函数 """
    w, b, vw, vb, sw, sb = -7, 4, 0, 0, 0, 0  # 初始值
    history = [(w, b)]
    epochs = 20  # 训练轮次
    for t in range(epochs):
        w, b, vw, vb, sw, sb = optimizer(w, b, vw, vb, sw, sb, t + 1)
        history.append((w, b))
    print('经过轮次：%d，最终的w：%f，b：%f' % (epochs, w, b))
    return history


def trace_2d(f, hist):
    """ 追踪训练二维目标函数的过程 """
    w, b = zip(*hist)
    plt.rcParams['figure.figsize'] = (5, 3)
    plt.plot(w, b, '-o', color='blue')
    w = np.arange(-7.5, 7.5, 0.1)
    b = np.arange(min(-4.0, min(b) - 1), max(4.0, max(b) + 1), 0.1)
    w, b = np.meshgrid(w, b)
    plt.contour(w, b, f(w, b), colors='green')
    plt.xlabel('w')
    plt.ylabel('b')
    plt.show()


def main():
    history = train_2d(adam_2d)
    trace_2d(f_2d, history)


if __name__ == '__main__':
    main()

运行结果：

4.PyTorch的初始化函数

训练需要给参数赋初始值。torch.nn.init模块定义了多种初始化函数。

1）普通初始化

常数初始化；

均匀分布初始化；

正态分布

初始化为1；

初始化为0；

初始化为对角阵

初始化为狄拉克函数

2）Xavier 初始化

均匀分布初始化

高斯分布；

gain的计算

3）He初始化

均匀分布初始化

高斯分布；

你可能感兴趣的:(pytorch,机器学习,深度学习,深度学习,pytorch,神经网络)

用Pytorch训练手写签名模型并进行签名识别 TBM矩阵 #AI体系学习 pytorch 人工智能 python
整体思路收集至少两个人的手写签名图片，每个人至少20张使用Pytorch进行模型训练使用Flask搭建Web服务使用Html/JavaScript实现前端调用进行签名识别项目结构signature-systemdatatrainuser001001.png...user002001.png...templatesindex.htmlapp.pymodel.pytrain.py建模：model.py
AI人工智能领域知识图谱在深度学习中的应用拓展
AI人工智能领域知识图谱在深度学习中的应用拓展关键词：知识图谱、深度学习、神经网络、图嵌入、知识表示学习、推理机制、应用场景摘要：本文深入探讨了知识图谱与深度学习的融合应用，系统性地分析了知识图谱在深度学习中的关键技术路径和应用场景。文章首先介绍了知识图谱的基本概念和表示方法，然后详细阐述了知识图谱与深度学习结合的多种技术路线，包括图神经网络、知识嵌入和推理机制等。接着通过具体案例展示了知识图谱增
equine在神经网络中建立量化不确定性 struggle2025 神经网络人工智能深度学习
一、软件介绍文末提供程序和源码下载众所周知，用于监督标记问题的深度神经网络（DNN）可以在各种学习任务中产生准确的结果。但是，当准确性是唯一目标时，DNN经常会做出过于自信的预测，并且无论测试数据是否属于任何已知标签，它们也总是进行标签预测。EQUINEwascreatedtosimplifytwokindsofuncertaintyquantificationforsupervisedlabel
CARLsim开源程序是一个高效、易用、GPU 加速的软件框架，用于模拟具有高度生物细节的大规模脉冲神经网络（SNN）模型。 struggle2025 神经网络人工智能深度学习
一、软件介绍文末提供程序和源码下载CARLsim是一个高效、易用的GPU加速库，用于模拟具有高度生物学细节的大规模脉冲神经网络（SNN）模型。CARLsim允许在通用x86CPU和标准现成GPU上以逼真的突触动力学执行Izhikevich脉冲神经元网络。该模拟器在C/C++中提供了一个类似PyNN的编程接口，允许在突触、神经元和网络级别指定详细信息和参数。二、CARLsim6的新功能包括：CUDA
nnv开源神经网络验证软件工具
一、软件介绍文末提供程序和源码下载用于神经网络验证的Matlab工具箱，该工具箱实现了可访问性方法，用于分析自主信息物理系统（CPS）领域中带有神经网络控制器的神经网络和控制系统。二、相关工具和软件该工具箱利用神经网络模型转换工具（nnmt）和闭环系统分析、混合系统模型转换和转换工具（HyST）以及CONTINUOUSReachabilityAnalyzer（CORA）三、无需安装即可执行NNV可
[pytorch] pytorch_model.bin 和 training_args.bin 的区别心心喵 pytorch 深度学习 pytorch 神经网络
pytorch_model.bin和training_args.bin是与PyTorch框架和训练过程相关的两个文件。pytorch_model.bin:这是保存了PyTorch模型的二进制文件。在使用PyTorch进行深度学习训练时，经过训练的模型会被保存为这个文件，其中包含了模型的权重参数。这个文件可以被加载到PyTorch中，以便进行推理、评估或继续训练。training_args.bin:
【2025最新】AI大模型项目实战教程大揭秘！超详细攻略，手把手带你飞，记得收藏！大模型教程人工智能产品经理大模型大模型教程大数据大模型学习程序员
一、大模型开发整理流程1.1、什么是大模型开发我们将开发以大语言模型为功能核心、通过大语言模型的强大理解能力和生成能力、结合特殊的数据或业务逻辑来提供独特功能的应用称为大模型开发。开发大模型相关应用，其技术核心点虽然在大语言模型上，但一般通过调用API或开源模型来实现核心的理解与生成，通过PromptEnginnering来实现大语言模型的控制，因此，虽然大模型是深度学习领域的集大成之作，大模型开
深入理解AI技术与实践：如何贡献代码 Wurenyu957 人工智能
在现代AI技术的开发过程中，贡献代码是推动项目发展、提升技术能力的重要方式。在这篇文章中，我们将结合AI技术实践，深入探讨如何有效地为开源项目贡献代码，尤其是那些使用AI模型的项目。技术背景介绍AI技术的迅猛发展得益于开源社区的共享和协作。诸如TensorFlow、PyTorch等开源框架，极大地降低了AI模型开发的门槛。与此同时，越来越多的项目通过GitHub等平台开放源码，接受来自全球开发者的
基于django+Spark+大数据+爬虫技术的国漫推荐与可视化平台设计和实现(源码+论文+部署讲解等) 阿勇学长大数据项目实战案例 Java精品毕业设计实例 Python数据可视化项目案例大数据 django spark 国漫推荐与可视化平台毕业设计 Java
博主介绍：✌全网粉丝50W+,csdn特邀作者、博客专家、CSDN新星计划导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流✌技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等
文本生成新纪元：解锁大模型的企业级应用密码
数字化浪潮席卷各行业的当下，文本生成技术正经历着翻天覆地的变革，这场变革的幕后功臣正是大模型。今天，咱们就来深入探讨大模型在文本生成领域的奥秘，看看它如何赋能企业，又该怎样规避风险，实现价值最大化。技术跃迁：从笨拙规则到智能生成回首往昔，文本生成依靠规则模板与关键字替换，虽能实现基础自动化，却如机械舞者，动作生硬、缺乏灵动。业务稍有变动，规则需全面重构，耗时费力。随着N-gram等统计机器学习方法
【零基础学AI】第10讲：线性回归 1989 0基础学AI 人工智能线性回归算法 python 回归 numpy 开源
本节课你将学到理解线性回归的原理和应用场景掌握最小二乘法的基本思想使用Python构建房价预测模型学会评估回归模型的性能指标开始之前环境要求Python3.8+JupyterNotebook或任何PythonIDE需要安装的包pipinstallscikit-learnpandasmatplotlibseabornnumpy前置知识第9讲：机器学习概述基本的Python和数据处理能力核心概念什么是
【零基础学AI】第9讲：机器学习概述 1989 0基础学AI 人工智能机器学习 python numpy devops 开源
本节课你将学到理解什么是机器学习，以及它与传统编程的区别掌握监督学习、无监督学习的基本概念使用scikit-learn完成你的第一个机器学习项目构建一个完整的iris花朵分类器开始之前环境要求Python3.8+JupyterNotebook或任何PythonIDE需要安装的包pipinstallscikit-learnpandasmatplotlibseaborn前置知识基本的Python语法（
NLP随机插入 Humbunklung 机器学习自然语言处理人工智能 python nlp
文章目录随机插入示例Python代码示例随机插入随机插入是一种文本数据增强方法，其核心思想是在原句中随机选择若干位置，插入与上下文相关的词语，从而生成新的训练样本。这种方法能够增加句子的多样性，提高模型对不同词序和表达方式的鲁棒性。示例原句：机器学习可以提升数据分析的效率。随机插入后（插入“显著”）：机器学习可以显著提升数据分析的效率。Python代码示例下面是一个简单的随机插入实现，假设我们有一
DiNA：扩张邻域注意力 Transformer AI专题精讲 Paper阅读 transformer 人工智能
摘要Transformer正迅速成为跨模态、跨领域和跨任务中应用最广泛的深度学习架构之一。在计算机视觉领域，除了持续发展的纯transformer架构，分层transformer也因其优越的性能和在现有框架中易于集成而受到广泛关注。这类模型通常采用局部化的注意力机制，如滑动窗口的NeighborhoodAttention（NA）或SwinTransformer的ShiftedWindowSelfA
解释神经网络的普适逼近定理（面试题200合集，中频、实用）快撑死的鱼算法工程师宝典（面试学习最新技术必备）深度学习人工智能
神经网络的普适逼近定理（UniversalApproximationTheorem,UAT）是理解为什么神经网络如此强大和灵活的理论基石之一。它为我们提供了信心，即在某些条件下，一个相对简单的神经网络结构原则上能够模拟出几乎任何复杂的函数。这个定理在深度学习领域中经常被提及，尤其是在讨论模型表达能力的时候。普适逼近定理（UniversalApproximationTheorem）概述普适逼近定理的
【TVM 教程】PAPI 入门
ApacheTVM是一个深度的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。更多TVM中文文档可访问→https://tvm.hyper.ai/性能应用程序编程接口（PerformanceApplicationProgrammingInterface，简称PAPI）是一个可在各种平台上提供性能计数器的库。在指定的运行期间，性能计数器提供处理器行为的准确底层信息，包含简单的指标，如总
机器学习在智能供应链中的应用：需求预测与库存优化 Blossom.118 机器学习与人工智能机器学习人工智能机器人深度学习 python 神经网络 sklearn
在当今全球化的商业环境中，供应链管理的效率和灵活性对于企业的竞争力至关重要。智能供应链通过整合先进的信息技术，如物联网（IoT）、大数据和机器学习，能够实现从原材料采购到产品交付的全流程优化。机器学习技术在智能供应链中的应用尤为突出，尤其是在需求预测和库存优化方面。本文将探讨机器学习在智能供应链中的应用，并分析其带来的机遇和挑战。一、智能供应链中的需求预测准确的需求预测是供应链管理的核心。需求预测
面向隐私保护的机器学习：联邦学习技术解析与应用 Blossom.118 机器学习与人工智能机器学习人工智能深度学习 tensorflow python 神经网络 cnn
在当今数字化时代，数据隐私和安全问题日益受到关注。随着《数据安全法》《个人信息保护法》等法律法规的实施，企业和机构在数据处理和分析过程中面临着越来越严格的合规要求。然而，机器学习模型的训练和优化往往需要大量的数据支持，这就产生了一个矛盾：如何在保护数据隐私的前提下，充分利用数据的价值进行机器学习模型的训练和优化？联邦学习（FederatedLearning）作为一种新兴的隐私保护技术，为解决这一问
人工智能-基础篇-10-什么是卷积神经网络CNN（网格状数据处理：输入层，卷积层，激活函数，池化层，全连接层，输出层等） weisian151 人工智能人工智能 cnn 神经网络
卷积神经网络（ConvolutionalNeuralNetwork,CNN）是一种专为处理网格状数据（如图像、视频、音频）设计的深度学习模型。它通过模拟生物视觉机制，从原始数据中自动提取多层次的特征，最终实现高效的分类、检测或生成任务。1、核心概念与原理1、生物视觉启发局部感受野：模仿人类视觉皮层神经元仅响应局部区域刺激的特性，每个神经元关注输入数据的局部区域（如图像的一小块区域）。权值共享：同一
CNN-GRU混合模型学习笔记 weixin_54372988 cnn gru 学习
GRU学习笔记CNN：卷积神经网络GRU（GateRecurrentUnit），门控循环单元CNN：卷积神经网络3个组成部分：1.卷积层——提取图像局部特征2.池化层——降维（防止过拟合）3.全连接层——输出结果一个卷积核扫完整张图片，得到每个小区域的特征值具体应用中通常有多个卷积核CNN可能有多层结构，如LeNet-5：卷积层–池化层–卷积层–池化层–卷积层–全连接层处理时间序列（1D序列）：（
CPO-CNN-GRU-Attention、CNN-GRU-Attention、CPO-CNN-GRU、CNN-GRU四模型多变量时序预测对比 Matlab科研辅导帮 cnn gru 人工智能
✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。个人主页：Matlab科研工作室个人信条：格物致知，求助可私信。内容介绍多变量时序预测在诸多领域扮演着至关重要的角色，例如金融、气象和工业控制等。近年来，深度学习方法在时序预测任务中取得了显著的进展。本文旨在系统地比较四种基于卷积神经网络（CNN）和循环神经网络（GRU）的不同架构，包
DeepSeek：AI驱动的效率革命与实战案例解 weixin_45788582 人工智能 ai DeepSeek
在人工智能技术的浪潮中，DeepSeek作为一款专注实现AGI（通用人工智能）的先锋工具，正通过其强大的自然语言处理（NLP）与分布式计算能力，重新定义高效办公的边界。以下通过技术解析与实战案例，展现DeepSeek如何赋能个人与企业，开启职场效率革命。一、技术革新：DeepSeek的核心竞争力深度学习赋能DeepSeek的技术架构基于BERT、Transformer等先进深度学习模型，通过构建复
AI驱动的智能电网:平衡供需提高效率 AI智能应用 AI大模型应用入门实战与进阶 java python javascript kotlin golang 架构人工智能
智能电网，AI，机器学习，预测模型，优化算法，供需平衡，能源效率1.背景介绍随着全球能源需求的不断增长和可再生能源的快速发展，传统电网面临着越来越多的挑战。传统的电网结构是集中式供电，难以适应分布式能源的接入和负荷需求的波动性。智能电网应运而生，它利用先进的通信技术、传感器网络和数据分析技术，实现电网的自动化、智能化和可视化，从而提高电网的可靠性、效率和安全性。人工智能（AI）作为一种新兴技术，在
AI 技术&AI开发框架 34号树洞人工智能深度学习人工智能机器学习 NLP GAI
目录一、AI技术及其开发框架1.AI技术分类与代表方向2.主流AI开发框架3.AI应用开发流程简述4.补充：基础依赖与生态二、AI技术方向1.机器学习（MachineLearning,ML）✦核心概念：✦关键方法：✦应用案例：2.深度学习（DeepLearning,DL）✦核心概念：✦网络结构举例：✦技术趋势：3.自然语言处理（NLP）✦核心任务：✦代表模型：4.计算机视觉（ComputerVis
机器学习算法——神经网络1（神经元模型）
神经网络是由具有适应性的简单单元组成的广泛并行互连的网络，它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应。神经网络中最基本的成分是神经元（neuron）模型。即上述定义中的“简单单元”。在生物神经网络中，每个神经元与其他申请元相连，当它“兴奋”时，就会向相连的神经元发送化学物质，从而改变这些神经元内的电位；如果某神经元的电位超过一个“阈值”，那么它就会被激活，即“兴奋”起来，向其他神经
NeRF-Pytorch：NeRF神经辐射场复现——Pytorch版全流程分析与测试【Ubuntu20.04】【2025最新版！！！】那就举个栗子！三维重建计算机视觉人工智能
一、引言在计算机视觉和计算机图形学的交叉领域中，视图合成（ViewSynthesis）一直是一个充满挑战的研究方向。传统的三维重建方法往往需要复杂的几何建模和纹理映射过程，而且在处理复杂光照和材质时效果有限。2020年，来自UCBerkeley的研究团队提出了NeuralRadianceFields（NeRF），这一革命性的方法彻底改变了我们对三维场景表示和渲染的理解。NeRF的核心思想是将三维场
【深度学习|冰川制图3】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构努力毕业的小土博^_^ 论文推荐深度学习学习架构人工智能机器学习
【深度学习|冰川制图3】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构【深度学习|冰川制图3】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构文章目录【深度学习|冰川制图3】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构引言欢迎铁子们点赞、关注、收藏！祝大家逢考必过！逢投必中！上岸上岸上岸！upupup大多数高校硕博生毕业要求需要参加学术会议，发
【深度学习|冰川制图4】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构努力毕业的小土博^_^ 论文推荐深度学习学习架构人工智能
【深度学习|冰川制图4】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构【深度学习|冰川制图4】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构文章目录【深度学习|冰川制图4】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构数据与方法2.1数据欢迎铁子们点赞、关注、收藏！祝大家逢考必过！逢投必中！上岸上岸上岸！upupup大多数高校硕博生毕业要求需要
【深度学习|冰川制图5】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构努力毕业的小土博^_^ 优秀论文推荐深度学习学习人工智能
【深度学习|冰川制图5】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构【深度学习|冰川制图5】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构文章目录【深度学习|冰川制图5】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构数据与方法2.2深度学习模型2.2.1GlacierNet模型2.2.2DeepLabV3+模型欢迎铁子们点赞、关注、收藏！祝大
【深度学习|学习笔记】什么是k折交叉验证？K折交叉验证的步骤详解？以及如何在K折交叉验证中选择k? 努力毕业的小土博^_^ 机器学习基础算法优质笔记2 深度学习学习笔记人工智能
【深度学习|学习笔记】什么是k折交叉验证？K折交叉验证的步骤详解？以及如何在K折交叉验证中选择k?【深度学习|学习笔记】什么是k折交叉验证？K折交叉验证的步骤详解？以及如何在K折交叉验证中选择k?文章目录【深度学习|学习笔记】什么是k折交叉验证？K折交叉验证的步骤详解？以及如何在K折交叉验证中选择k?一、什么是K折交叉验证？✅目的：二、K折交叉验证的发展背景三、K折交叉验证的步骤详解步骤如下：数学
Java 并发包之线程池和原子计数 lijingyao8206 Java计数 ThreadPool 并发包 java线程池
对于大数据量关联的业务处理逻辑，比较直接的想法就是用JDK提供的并发包去解决多线程情况下的业务数据处理。线程池可以提供很好的管理线程的方式，并且可以提高线程利用率，并发包中的原子计数在多线程的情况下可以让我们避免去写一些同步代码。这里就先把jdk并发包中的线程池处理器ThreadPoolExecutor 以原子计数类AomicInteger 和倒数计时锁C
java编程思想抽象类和接口百合不是茶 java 抽象类接口
接口c++对接口和内部类只有简介的支持,但在java中有队这些类的直接支持 1 ,抽象类 : 如果一个类包含一个或多个抽象方法,该类必须限定为抽象类(否者编译器报错) 抽象方法 : 在方法中仅有声明而没有方法体 package com.wj.Interface;
[房地产与大数据]房地产数据挖掘系统 comsci 数据挖掘
随着一个关键核心技术的突破,我们已经是独立自主的开发某些先进模块,但是要完全实现,还需要一定的时间... 所以,除了代码工作以外,我们还需要关心一下非技术领域的事件..比如说房地产 &nb
数组队列总结沐刃青蛟数组队列
数组队列是一种大小可以改变，类型没有定死的类似数组的工具。不过与数组相比，它更具有灵活性。因为它不但不用担心越界问题，而且因为泛型（类似c++中模板的东西）的存在而支持各种类型。以下是数组队列的功能实现代码： import List.Student; public class
Oracle存储过程无法编译的解决方法 IT独行者 oracle 存储过程　
今天同事修改Oracle存储过程又导致2个过程无法被编译，流程规范上的东西，Dave 这里不多说，看看怎么解决问题。 1. 查看无效对象 XEZF@xezf(qs-xezf-db1)> select object_name,object_type,status from all_objects where status='IN
重装系统之后oracle恢复文强chu oracle
前几天正在使用电脑，没有暂停oracle的各种服务。突然win8.1系统奔溃，无法修复，开机时系统提示正在搜集错误信息，然后再开机，再提示的无限循环中。无耐我拿出系统u盘准备重装系统，没想到竟然无法从u盘引导成功。晚上到外面早了一家修电脑店，让人家给装了个系统，并且那哥们在我没反应过来的时候，直接把我的c盘给格式化了并且清理了注册表，再装系统。然后的结果就是我的oracl
python学习二（一些基础语法）小桔子 pthon 基础语法
紧接着把！昨天没看继续看django 官方教程，学了下python的基本语法与c类语言还是有些小差别： 1.ptyhon的源文件以UTF-8编码格式 2. / 除结果浮点型 // 除结果整形 % 除取余数 * 乘 ** 乘方 eg 5**2 结果是5的2次方25 _&
svn 常用命令 aichenglong SVN 版本回退
1 svn回退版本 1)在window中选择log,根据想要回退的内容,选择revert this version或revert chanages from this version 两者的区别: revert this version:表示回退到当前版本(该版本后的版本全部作废) revert chanages from this versio
某小公司面试归来 alafqq 面试
先填单子，还要写笔试题，我以时间为急，拒绝了它。。时间宝贵。老拿这些对付毕业生的东东来吓唬我。。面试官很刁难，问了几个问题，记录下； 1，包的范围。。。public,private,protect. --悲剧了 2，hashcode方法和equals方法的区别。谁覆盖谁.结果，他说我说反了。 3，最恶心的一道题，抽象类继承抽象类吗？（察，一般它都是被继承的啊） 4，stru
动态数组的存储速度比较集合框架百合不是茶集合框架
集合框架：自定义数据结构(增删改查等) package 数组; /** * 创建动态数组 * @author 百合 * */ public class ArrayDemo{ //定义一个数组来存放数据 String[] src = new String[0]; /** * 增加元素加入容器 * @param s要加入容器
用JS实现一个JS对象，对象里有两个属性一个方法 bijian1013 js对象
<html> <head> </head> <body> 用js代码实现一个js对象，对象里有两个属性，一个方法 </body> <script> var obj={a:'1234567',b:'bbbbbbbbbb',c:function(x){
探索JUnit4扩展：使用Rule bijian1013 java 单元测试 JUnit Rule
在上一篇文章中，讨论了使用Runner扩展JUnit4的方式，即直接修改Test Runner的实现(BlockJUnit4ClassRunner)。但这种方法显然不便于灵活地添加或删除扩展功能。下面将使用JUnit4.7才开始引入的扩展方式——Rule来实现相同的扩展功能。 1. Rule &n
[Gson一]非泛型POJO对象的反序列化 bit1129 POJO
当要将JSON数据串反序列化自身为非泛型的POJO时，使用Gson.fromJson(String, Class)方法。自身为非泛型的POJO的包括两种： 1. POJO对象不包含任何泛型的字段 2. POJO对象包含泛型字段，例如泛型集合或者泛型类 Data类 a.不是泛型类， b.Data中的集合List和Map都是泛型的 c.Data中不包含其它的POJO
【Kakfa五】Kafka Producer和Consumer基本使用 bit1129 kafka
0.Kafka服务器的配置一个Broker，一个Topic Topic中只有一个Partition（） 1. Producer： package kafka.examples.producers; import kafka.producer.KeyedMessage; import kafka.javaapi.producer.Producer; impor
lsyncd实时同步搭建指南——取代rsync+inotify ronin47
1. 几大实时同步工具比较 1.1 inotify + rsync 最近一直在寻求生产服务服务器上的同步替代方案，原先使用的是 inotify + rsync，但随着文件数量的增大到100W+，目录下的文件列表就达20M，在网络状况不佳或者限速的情况下，变更的文件可能10来个才几M，却因此要发送的文件列表就达20M，严重减低的带宽的使用效率以及同步效率；更为要紧的是，加入inotify
java-9. 判断整数序列是不是二元查找树的后序遍历结果 bylijinnan java
public class IsBinTreePostTraverse{ static boolean isBSTPostOrder(int[] a){ if(a==null){ return false; } /*1.只有一个结点时，肯定是查找树 *2.只有两个结点时，肯定是查找树。例如{5,6}对应的BST是 6 {6,5}对应的BST是
MySQL的sum函数返回的类型 bylijinnan java spring sql mysql jdbc
今天项目切换数据库时，出错访问数据库的代码大概是这样： String sql = "select sum(number) as sumNumberOfOneDay from tableName"; List<Map> rows = getJdbcTemplate().queryForList(sql); for (Map row : rows
java设计模式之单例模式 chicony java设计模式
在阎宏博士的《JAVA与模式》一书中开头是这样描述单例模式的：　　作为对象的创建模式，单例模式确保某一个类只有一个实例，而且自行实例化并向整个系统提供这个实例。这个类称为单例类。单例模式的结构　　单例模式的特点：单例类只能有一个实例。单例类必须自己创建自己的唯一实例。单例类必须给所有其他对象提供这一实例。　　饿汉式单例类 publ
javascript取当月最后一天 ctrain JavaScript
 <script language=javascript> var current = new Date(); var year = current.getYear(); var month = current.getMonth(); showMonthLastDay(year, mont
linux tune2fs命令详解 daizj linux tune2fs 查看系统文件块信息
一.简介： tune2fs是调整和查看ext2/ext3文件系统的文件系统参数，Windows下面如果出现意外断电死机情况，下次开机一般都会出现系统自检。Linux系统下面也有文件系统自检，而且是可以通过tune2fs命令，自行定义自检周期及方式。二.用法： Usage: tune2fs [-c max_mounts_count] [-e errors_behavior] [-g grou
做有中国特色的程序员 dcj3sjt126com 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有
Android：TextView属性大全 dcj3sjt126com textview
android:autoLink 设置是否当文本为URL链接/email/电话号码/map时，文本显示为可点击的链接。可选值(none/web/email/phone/map/all) android:autoText 如果设置，将自动执行输入值的拼写纠正。此处无效果，在显示输入法并输
tomcat虚拟目录安装及其配置 eksliang tomcat配置说明 tomca部署web应用 tomcat虚拟目录安装
转载请出自出处：http://eksliang.iteye.com/blog/2097184 1.-------------------------------------------tomcat 目录结构 config：存放tomcat的配置文件 temp ：存放tomcat跑起来后存放临时文件用的 work ：当第一次访问应用中的jsp
浅谈：APP有哪些常被黑客利用的安全漏洞 gg163 APP
首先，说到APP的安全漏洞，身为程序猿的大家应该不陌生；如果抛开安卓自身开源的问题的话，其主要产生的原因就是开发过程中疏忽或者代码不严谨引起的。但这些责任也不能怪在程序猿头上，有时会因为BOSS时间催得紧等很多可观原因。由国内移动应用安全检测团队爱内测（ineice.com）的CTO给我们浅谈关于Android 系统的开源设计以及生态环境。 1. 应用反编译漏洞：APK 包非常容易被反编译成可读
C#根据网址生成静态页面 hvt Web .net C#asp.net hovertree
HoverTree开源项目中HoverTreeWeb.HVTPanel的Index.aspx文件是后台管理的首页。包含生成留言板首页，以及显示用户名，退出等功能。根据网址生成页面的方法： bool CreateHtmlFile(string url, string path) { //http://keleyi.com/a/bjae/3d10wfax.htm stri
SVG 教程（一）天梯梦 svg
SVG 简介 SVG 是使用 XML 来描述二维图形和绘图程序的语言。学习之前应具备的基础知识：继续学习之前，你应该对以下内容有基本的了解： HTML XML 基础如果希望首先学习这些内容，请在本站的首页选择相应的教程。什么是SVG？ SVG 指可伸缩矢量图形 (Scalable Vector Graphics) SVG 用来定义用于网络的基于矢量
一个简单的java栈 luyulong java 数据结构栈
public class MyStack { private long[] arr; private int top; public MyStack() { arr = new long[10]; top = -1; } public MyStack(int maxsize) { arr = new long[maxsize]; top
基础数据结构和算法八：Binary search sunwinner Algorithm Binary search
Binary search needs an ordered array so that it can use array indexing to dramatically reduce the number of compares required for each search, using the classic and venerable binary search algori
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！刘星宇 c 面试
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！ 1.gets()函数问：请找出下面代码里的问题： #include<stdio.h> int main(void) { char buff[10]; memset(buff,0,sizeof(buff));
ITeye 7月技术图书有奖试读获奖名单公布 ITeye管理员活动 ITeye 试读
ITeye携手人民邮电出版社图灵教育共同举办的7月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 7月试读活动回顾： http://webmaster.iteye.com/blog/2092746 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《Java性能优化权威指南》