不吃香菜（扣1复活版）

第三章回归训练实战（以预测新冠感染人数为例）

完整项目代码（预测第三天的新冠感染人数）

from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2
import csv #读 CSV
import numpy as np
import time
import matplotlib.pyplot as plt
import pandas as pd
from torch import optim
import torch.nn as nn
import torch
from torch.utils.data import Dataset,DataLoader


def get_feature_importance(feature_data, label_data, k=4,column = None):
    """
    此处省略 feature_data, label_data 的生成代码。
    如果是 CSV 文件，可通过 read_csv() 函数获得特征和标签。
    这个函数的目的是， 找到所有的特征ZHONG， 比较有用的k个特征， 并打印这些列的名字。
    """
    model = SelectKBest(chi2, k=k)      #定义一个选择k个最佳特征的函数
    X_new = model.fit_transform(feature_data, label_data)   #用这个函数选择k个最佳特征
    #feature_data是特征数据，label_data是标签数据，该函数可以选择出k个特征
    print('x_new', X_new)
    scores = model.scores_                # scores即每一列与结果的相关性
    # 按重要性排序，选出最重要的 k 个
    indices = np.argsort(scores)[::-1]        #[::-1]表示反转一个列表或者矩阵。
    # argsort这个函数， 可以矩阵排序后的下标。 比如 indices[0]表示的是，scores中最小值的下标。

    if column:                            # 如果需要打印选中的列
        k_best_features = [column[i+1] for i in indices[0:k].tolist()]         # 选中这些列 打印
        print('k best features are: ',k_best_features)
    return X_new, indices[0:k]                  # 返回选中列的特征和他们的下标。


class covidDataset(Dataset):
    def __init__(self, path, mode="train", feature_dim=5, all_feature=False):
        with open(path, 'r') as f:
            csv_data = list(csv.reader(f))
            column = csv_data[0]
            x = np.array(csv_data)[1:,1:-1]     # 1: 第一行后面的，   1：-1
            y = np.array(csv_data)[1:,-1]
            if all_feature:
                col_indices = np.array([i for i in range(0,93)])                  # 若全选，则选中所有列。
            else:
                _, col_indices = get_feature_importance(x, y, feature_dim, column)      # 选重要的dim列。
            col_indices = col_indices.tolist()             # col_indices 从array 转为列表。
            csv_data = np.array(csv_data[1:])[:,1:].astype(float)       #取csvdata从第二行开始， 第二列开始的数据，并转为float

            if mode == 'train':                                # 训练数据逢5选4， 记录他们的所在行
                indices = [i for i in range(len(csv_data)) if i % 5 != 0]       #1，2，3，4， 6，7，8，9
                self.y = torch.tensor(csv_data[indices,-1])      # 训练标签是csvdata的最后一列。 要转化为tensor型
            elif mode == 'val':               # 验证数据逢5选1， 记录他们的所在列
                indices = [i for i in range(len(csv_data)) if i % 5 == 0]
                # data = torch.tensor(csv_data[indices,col_indices])
                self.y = torch.tensor(csv_data[indices,-1])        # 验证标签是csvdata的最后一列。 要转化为tensor型
            else:
                indices = [i for i in range(len(csv_data))]     # 测试机只有数据
                # data = torch.tensor(csv_data[indices,col_indices])
            data = torch.tensor(csv_data[indices, :])           # 根据选中行取 X , 即模型的输入特征
            self.data = data[:, col_indices]                   #  col_indices 表示了重要的K列， 根据重要性， 选中k列。
            self.mode = mode                                   # 表示当前数据集的模式

            self.data = (self.data - self.data.mean(dim=0,keepdim=True)) / self.data.std(dim=0,keepdim=True)  # 对数据进行列归一化 0正太分布
            assert feature_dim == self.data.shape[1]                   # 判断数据的列数是否为规定的dim列， 要不然就报错。

            print('Finished reading the {} set of COVID19 Dataset ({} samples found, each dim = {})'
                  .format(mode, len(self.data), feature_dim))             # 打印读了多少数据

    def __getitem__(self, item):               # getitem 需要完成读下标为item的数据
        if self.mode == 'test':                  # 测试集没标签。   注意data要转为模型需要的float32型
            return self.data[item].float()
        else :                                  # 否则要返回带标签数据
            return self.data[item].float(), self.y[item].float()
    def __len__(self):
        return len(self.data)                 # 返回数据长度。


class myNet(nn.Module):
    def __init__(self, inDim):
        super(myNet,self).__init__()
        self.fc1 = nn.Linear(inDim, 128)              # 全连接
        self.relu = nn.ReLU()                        # 激活函数 ,添加非线性
        # self.fc3 = nn.Linear(128, 128)
        self.fc2 = nn.Linear(128,1)                     # 全连接             设计模型架构。 他没有数据

    def forward(self, x):                     #forward， 即模型前向过程
        x = self.fc1(x)
        x = self.relu(x)
        # x = self.fc3(x)
        x = self.fc2(x)
        if len(x.size()) > 1:
            return x.squeeze(1)
        else:
            return x




def train_val(model, trainloader, valloader,optimizer, loss, epoch, device, save_):

    # trainloader = DataLoader(trainset,batch_size=batch,shuffle=True)
    # valloader = DataLoader(valset,batch_size=batch,shuffle=True)
    model = model.to(device)                # 模型和数据 ，要在一个设备上。  cpu - gpu
    plt_train_loss = []
    plt_val_loss = []
    val_rel = []
    min_val_loss = 100000                 # 记录训练验证loss 以及验证loss和结果

    for i in range(epoch):                 # 训练epoch 轮
        start_time = time.time()             # 记录开始时间
        model.train()                         # 模型设置为训练状态      结构
        train_loss = 0.0
        val_loss = 0.0
        for data in trainloader:                     # 从训练集取一个batch的数据
            optimizer.zero_grad()                   # 梯度清0
            x, target = data[0].to(device), data[1].to(device)       # 将数据放到设备上
            pred = model(x)                          # 用模型预测数据
            bat_loss = loss(pred, target)       # 计算loss
            bat_loss.backward()                        # 梯度回传， 反向传播。
            optimizer.step()                            #用优化器更新模型。  轮到SGD出手了
            train_loss += bat_loss.detach().cpu().item()             #记录loss和

        plt_train_loss. append(train_loss/trainloader.dataset.__len__())   #记录loss到列表。注意是平均的loss ，因此要除以数据集长度。

        model.eval()                 # 模型设置为验证状态
        with torch.no_grad():                    # 模型不再计算梯度
            for data in valloader:                      # 从验证集取一个batch的数据
                val_x , val_target = data[0].to(device), data[1].to(device)          # 将数据放到设备上
                val_pred = model(val_x)                 # 用模型预测数据
                val_bat_loss = loss(val_pred, val_target)          # 计算loss
                val_loss += val_bat_loss.detach().cpu().item()                  # 计算loss
                val_rel.append(val_pred)                 #记录预测结果
        if val_loss < min_val_loss:
            torch.save(model, save_)               #如果loss比之前的最小值小， 说明模型更优， 保存这个模型

        plt_val_loss.append(val_loss/valloader.dataset.__len__())  #记录loss到列表。注意是平均的loss ，因此要除以数据集长度。
        #
        print('[%03d/%03d] %2.2f sec(s) TrainLoss : %.6f | valLoss: %.6f' % \
              (i, epoch, time.time()-start_time, plt_train_loss[-1], plt_val_loss[-1])
              )              #打印训练结果。 注意python语法， %2.2f 表示小数位为2的浮点数， 后面可以对应。


        # print('[%03d/%03d] %2.2f sec(s) TrainLoss : %3.6f | valLoss: %.6f' % \
        #       (i, epoch, time.time()-start_time, 2210.2255411, plt_val_loss[-1])
        #       )              #打印训练结果。 注意python语法， %2.2f 表示小数位为2的浮点数， 后面可以对应。
    plt.plot(plt_train_loss)              # 画图， 向图中放入训练loss数据
    plt.plot(plt_val_loss)                # 画图， 向图中放入训练loss数据
    plt.title('loss')                      # 画图， 标题
    plt.legend(['train', 'val'])             # 画图， 图例
    plt.show()                                 # 画图， 展示





def evaluate(model_path, testset, rel_path ,device):
    model = torch.load(model_path).to(device)                     # 模型放到设备上。  加载模型
    testloader = DataLoader(testset, batch_size=1, shuffle=False)         # 将验证数据放入loader 验证时， 一般batch为1
    val_rel = []
    model.eval()               # 模型设置为验证状态
    with torch.no_grad():               # 模型不再计算梯度
        for data in testloader:                 # 从测试集取一个batch的数据
            x = data.to(device)                # 将数据放到设备上
            pred = model(x)                        # 用模型预测数据
            val_rel.append(pred.item())                #记录预测结果
    print(val_rel)                                     #打印预测结果
    with open(rel_path, 'w') as f:                        #打开保存的文件
        csv_writer = csv.writer(f)                           #初始化一个写文件器 writer
        csv_writer.writerow(['id','tested_positive'])         #在第一行写上 “id” 和 “tested_positive”
        for i in range(len(testset)):                           # 把测试结果的每一行放入输出的excel表中。
            csv_writer.writerow([str(i),str(val_rel[i])])
    print("rel已经保存到"+ rel_path)





all_col = False            #是否使用所有的列
device = 'cuda' if torch.cuda.is_available() else 'cpu'       #选择使用cpu还是gpu计算。
print(device)
train_path = 'covid.train.csv'                     # 训练数据路径
test_path = 'covid.test.csv'              # 测试数据路径
file = pd.read_csv(train_path)
file.head()                    # 用pandas 看看数据长啥样

if all_col == True:
    feature_dim = 93
else:
    feature_dim = 6              #是否使用所有的列

trainset = covidDataset(train_path,'train', feature_dim=feature_dim, all_feature=all_col)
valset = covidDataset(train_path,'val', feature_dim=feature_dim, all_feature=all_col)
testset = covidDataset(test_path,'test', feature_dim=feature_dim, all_feature=all_col)   #读取训练， 验证，测试数据

         # 返回损失。
#
# def mseLoss(pred, target, model):
#     loss = nn.MSELoss(reduction='mean')
#     ''' Calculate loss '''
#     regularization_loss = 0                    # 正则项
#     for param in model.parameters():
#         # TODO: you may implement L1/L2 regularization here
#         # 使用L2正则项
#         # regularization_loss += torch.sum(abs(param))
#         regularization_loss += torch.sum(param ** 2)                  # 计算所有参数平方
#     return loss(pred, target) + 0.00075 * regularization_loss             # 返回损失。
#
# loss =  mseLoss           # 定义mseloss 即 平方差损失，


loss =  nn.MSELoss()          # 定义mseloss 即 平方差损失，

config = {
    'n_epochs': 50,                # maximum number of epochs
    'batch_size': 32,               # mini-batch size for dataloader
    'optimizer': 'SGD',              # optimization algorithm (optimizer in torch.optim)
    'optim_hparas': {                # hyper-parameters for the optimizer (depends on which optimizer you are using)
        'lr': 0.0001,                 # learning rate of SGD
        'momentum': 0.9              # momentum for SGD
    },
    'early_stop': 200,               # early stopping epochs (the number epochs since your model's last improvement)
    'save_path': 'model_save/model.pth',  # your model will be saved here
}

model = myNet(feature_dim).to(device)                      # 实例化模型

optimizer = optim.SGD(model.parameters(), lr=0.001, momentum=0.9)             # 定义优化器  动量
trainloader = DataLoader(trainset, batch_size=config['batch_size'], shuffle=True)
valloader = DataLoader(valset, batch_size=config['batch_size'], shuffle=True)  # 将数据装入loader 方便取一个batch的数据

train_val(model, trainloader, valloader, optimizer, loss, config['n_epochs'], device,save_=config['save_path'])  # 训练


evaluate(config['save_path'], testset, 'pred.csv', device)           # 验证

分析

1. 导入必要的库

from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2
import csv  # 读 CSV
import numpy as np
import time
import matplotlib.pyplot as plt
import pandas as pd
from torch import optim
import torch.nn as nn
import torch
from torch.utils.data import Dataset, DataLoader

解析

sklearn.feature_selection: 用于特征选择，SelectKBest 和 chi2 是常用的方法。
csv: 处理 CSV 文件读写。
numpy: 数值计算和数组操作。
time: 记录训练时间。
matplotlib.pyplot: 绘制训练过程中的损失曲线。
pandas: 数据处理和分析，尤其适合处理表格数据。
torch 相关库: 深度学习框架 PyTorch 的核心模块，用于构建模型、优化、数据加载等。

2. 特征选择函数 `get_feature_importance`

def get_feature_importance(feature_data, label_data, k=4, column=None):
    """
    此处省略 feature_data, label_data 的生成代码。
    如果是 CSV 文件，可通过 read_csv() 函数获得特征和标签。
    这个函数的目的是，找到所有的特征中，比较有用的 k 个特征，并打印这些列的名字。
    """
    model = SelectKBest(chi2, k=k)  # 定义一个选择 k 个最佳特征的函数
    X_new = model.fit_transform(feature_data, label_data)  # 用这个函数选择 k 个最佳特征
    print('x_new', X_new)
    scores = model.scores_  # scores 即每一列与结果的相关性

    # 按重要性排序，选出最重要的 k 个
    indices = np.argsort(scores)[::-1]  # [::-1] 表示反转一个列表或者矩阵

    if column:  # 如果需要打印选中的列
        k_best_features = [column[i + 1] for i in indices[0:k].tolist()]  # 选中这些列并打印
        print('k best features are: ', k_best_features)
    return X_new, indices[0:k]  # 返回选中列的特征和它们的下标

解析

功能:
1. 从给定的特征数据中选择与标签数据相关性最高的 k 个特征。
2. 这是优化模型训练的一种方法，让模型只关注最重要的一些数据。
步骤:
1. 使用 SelectKBest 和 chi2 统计方法来选择最佳特征。
2. fit_transform 方法选择并转换特征数据，这是进行特征提取与数据转换的关键函数。
3. 获取每个特征的相关性评分 (scores_)，model.scores_是SelectKBest对象的一个属性，包含了每个特征的得分，得分越高，表示该特征与目标变量的相关性越强。
4. 使用 argsort 对评分进行排序，选出得分最高的 k 个特征，注意argsort排序得到的是相关性评分从小到大的行的下标的队列。
5. 如果提供了列名 (column)，则打印选中的特征名称。
6. 返回选中的特征数据和它们的索引。
注意:
- chi2 适用于非负特征。
- k 的默认值为 4，可以根据需要调整。

3. 自定义数据集类 `covidDataset`

class covidDataset(Dataset):
    def __init__(self, path, mode="train", feature_dim=5, all_feature=False):
        with open(path, 'r') as f:
            csv_data = list(csv.reader(f))
            column = csv_data[0]
            x = np.array(csv_data)[1:, 1:-1]  # 特征数据
            y = np.array(csv_data)[1:, -1]    # 标签数据

            if all_feature:
                col_indices = np.array([i for i in range(0, 93)])  # 选中所有特征列
            else:
                _, col_indices = get_feature_importance(x, y, feature_dim, column)  # 选择重要的特征列
            col_indices = col_indices.tolist()

            csv_data = np.array(csv_data[1:])[:, 1:].astype(float)  # 转换为浮点数

            if mode == 'train':
                indices = [i for i in range(len(csv_data)) if i % 5 != 0]  # 训练集: 选取 4/5 的数据
                self.y = torch.tensor(csv_data[indices, -1])
            elif mode == 'val':
                indices = [i for i in range(len(csv_data)) if i % 5 == 0]  # 验证集: 选取 1/5 的数据
                self.y = torch.tensor(csv_data[indices, -1])
            else:
                indices = [i for i in range(len(csv_data))]  # 测试集: 选取所有数据

            data = torch.tensor(csv_data[indices, :])
            self.data = data[:, col_indices]  # 选取重要的特征列
            self.mode = mode

            # 数据归一化（标准化）
            self.data = (self.data - self.data.mean(dim=0, keepdim=True)) / self.data.std(dim=0, keepdim=True)
            assert feature_dim == self.data.shape[1], "特征维度不匹配"

            print('Finished reading the {} set of COVID19 Dataset ({} samples found, each dim = {})'
                  .format(mode, len(self.data), feature_dim))

    def __getitem__(self, item):
        if self.mode == 'test':
            return self.data[item].float()
        else:
            return self.data[item].float(), self.y[item].float()

    def __len__(self):
        return len(self.data)

解析

作用：对数据进行预处理，在模型训练中是相当重要的一步，很多时候不同任务的神经网络结构可能相似，而对于数据的处理则大有不同。
继承: 继承自 torch.utils.data.Dataset，用于创建自定义数据集。
构造函数 __init__:
1. 读取数据:
  - 使用 csv.reader 读取 CSV 文件。
  - column 存储列名。
  - x 为特征数据，去除第一列（假设是 ID）和最后一列（标签）。
  - y 为标签数据。
2. 特征选择:
  - 如果 all_feature 为 True，则选取所有 93 个特征。
  - 否则，调用 get_feature_importance 函数选择最重要的 feature_dim 个特征。
3. 数据预处理:
  - 将选定的特征列转换为浮点数。
  - 根据 mode 划分训练集、验证集和测试集：
    - 训练集: 选择非 5 的倍数索引的数据（即 4/5 的数据）。
    - 验证集: 选择 5 的倍数索引的数据（即 1/5 的数据）。
    - 测试集: 选择所有数据。
  - 将特征和标签转换为 PyTorch 的 tensor 类型。
4. 数据归一化:
  - 对每一列特征进行标准化，使其均值为 0，标准差为 1。
  - 如果不进行归一化，则数据的大小参差不齐，影响神经网络的判断。
  - self.data = (self.data - self.data.mean(dim=0, keepdim=True)) / self.data.std(dim=0, keepdim=True) 这个运算能够运行，原因是self.data是张量，而PyTorch 张量支持广播机制，即使 self.data 的形状是 (n_samples, n_features)，而 mean 和 std 的形状是 (1, n_features)，PyTorch 会自动将 mean 和 std 广播到与 self.data 相同的形状，然后进行逐元素运算。
5. 验证特征维度
  - 使用 assert 确保选择的特征维度与 feature_dim 一致。
6. 打印信息:
  - 输出数据集类型、样本数量和特征维度。
方法 __getitem__:
- 作用： __getitem__ 是 PyTorch Dataset 类的必需方法。它定义了如何通过索引 item 从数据集中获取一个样本。每次调用 DataLoader 时，__getitem__ 会被自动调用，用于加载一个批次的数据。
- 测试集: 仅返回特征数据。
- 训练/验证集: 返回特征数据和对应的标签。
方法 __len__:
- 返回数据集的样本数量。
注意:
- 数据划分采用的是简单的按索引划分，确保训练集和验证集的比例约为 4:1。
- 特征选择和归一化在数据加载时完成，保证一致性。

4. 神经网络模型类 `myNet`

class myNet(nn.Module):
    def __init__(self, inDim):
        super(myNet, self).__init__()
        self.fc1 = nn.Linear(inDim, 128)  # 全连接层，将输入维度映射到 128 维
        self.relu = nn.ReLU()             # 激活函数，增加非线性
        self.fc2 = nn.Linear(128, 1)      # 输出层，将 128 维映射到 1 维（回归任务）

    def forward(self, x):
        x = self.fc1(x)        # 输入通过第一层全连接
        x = self.relu(x)       # 激活函数
        x = self.fc2(x)        # 输出层
        if len(x.size()) > 1:
            return x.squeeze(1)  # 如果输出有多个维度，压缩第1维
        else:
            return x

解析

继承: 继承自 torch.nn.Module，用于定义神经网络模型。
构造函数 __init__:
- fc1: 第一个全连接层，将输入特征维度 (inDim) 映射到 128 维。
- relu: ReLU 激活函数，增加网络的非线性能力。
- fc2: 输出层，将 128 维映射到 1 维，适用于回归任务（预测连续值）。
方法 forward:
1. 输入数据通过第一个全连接层 fc1。
2. 通过 ReLU 激活函数。
3. 通过输出层 fc2。
4. 检查输出的维度：
  - 如果输出有多个维度（例如 batch_size x 1），则使用 squeeze 压缩第 1 维，变为 (batch_size,)。
  - 否则，直接返回输出。
注意:
- 此模型结构简单，适用于初学者理解。可以根据需要增加更多层或调整神经元数量以提升模型性能。

5. 训练与验证函数 `train_val`

def train_val(model, trainloader, valloader, optimizer, loss, epoch, device, save_):
    model = model.to(device)  # 将模型移动到指定设备（CPU 或 GPU）
    plt_train_loss = []
    plt_val_loss = []
    val_rel = []
    min_val_loss = 100000  # 初始化最小验证损失

    for i in range(epoch):  # 训练多个轮次
        start_time = time.time()
        model.train()  # 设置模型为训练模式
        train_loss = 0.0
        val_loss = 0.0

        # 训练阶段
        for data in trainloader:
            optimizer.zero_grad()  # 清空梯度
            x, target = data[0].to(device), data[1].to(device)  # 将数据移动到设备
            pred = model(x)  # 前向传播
            bat_loss = loss(pred, target)  # 计算损失
            bat_loss.backward()  # 反向传播
            optimizer.step()  # 更新参数
            train_loss += bat_loss.detach().cpu().item()  # 累加训练损失

        # 记录平均训练损失
        plt_train_loss.append(train_loss / len(trainloader.dataset))

        # 验证阶段
        model.eval()  # 设置模型为评估模式
        with torch.no_grad():  # 关闭梯度计算
            for data in valloader:
                val_x, val_target = data[0].to(device), data[1].to(device)
                val_pred = model(val_x)
                val_bat_loss = loss(val_pred, val_target)
                val_loss += val_bat_loss.detach().cpu().item()
                val_rel.append(val_pred)

        # 保存最优模型
        if val_loss < min_val_loss:
            torch.save(model, save_)  # 保存模型
            min_val_loss = val_loss  # 更新最小验证损失

        # 记录平均验证损失
        plt_val_loss.append(val_loss / len(valloader.dataset))

        # 打印训练和验证损失
        print('[%03d/%03d] %2.2f sec(s) TrainLoss : %.6f | valLoss: %.6f' % (
            i, epoch, time.time() - start_time, plt_train_loss[-1], plt_val_loss[-1]))

    # 绘制损失曲线
    plt.plot(plt_train_loss)
    plt.plot(plt_val_loss)
    plt.title('Loss')
    plt.legend(['Train', 'Val'])
    plt.show()

解析

功能: 负责模型的训练和验证过程，并记录和可视化损失。
参数:
- model: 神经网络模型。
- trainloader: 训练数据的 DataLoader。
- valloader: 验证数据的 DataLoader。
- optimizer: 优化器，用于更新模型参数。
- loss: 损失函数。
- epoch: 训练的总轮次。
- device: 设备类型（CPU 或 GPU）。
- save_: 模型保存路径。
步骤:
1. 初始化:
  - 将模型移动到指定设备。
  - 初始化用于记录训练和验证损失的列表。
  - 设置一个初始的最小验证损失值，用于保存最优模型。
2. 训练循环（外层循环，按轮次）:
  - 记录开始时间。
  - 将模型设置为训练模式 (model.train())，启用 Dropout 等层的训练行为。
  - 初始化训练和验证损失累加变量。
  1. 训练阶段（内层循环，按批次）:
    - 清空优化器的梯度缓存 (optimizer.zero_grad()）。
    - 获取输入数据和标签，并移动到设备。
    - 前向传播得到预测值。
    - 计算损失。
    - 反向传播计算梯度。
    - 优化器更新模型参数。
    - 累加训练损失。
  2. 记录训练损失:
    - 计算并记录平均训练损失（总损失除以训练集样本数）。
  3. 验证阶段:
    - 将模型设置为评估模式 (model.eval())，禁用 Dropout 等层的训练行为。
    - 使用 torch.no_grad() 禁用梯度计算，节省内存和计算资源。
    - 遍历验证数据集，计算验证损失并累加。
    - 累加预测结果到 val_rel（虽然在代码中未被使用）。
  4. 保存最优模型:
    - 如果当前验证损失小于之前的最小验证损失，保存模型并更新最小验证损失。
  5. 记录验证损失:
    - 计算并记录平均验证损失（总损失除以验证集样本数）。
  6. 打印训练进度:
    - 输出当前轮次、总轮次、训练时间、训练损失和验证损失。
3. 绘制损失曲线:
  - 使用 matplotlib 绘制训练和验证损失随轮次变化的曲线，帮助可视化训练过程。
注意:
- train_loss 和 val_loss 的计算方式需要确保正确，避免由于批次大小不同导致的损失不一致。
- val_rel 变量在函数中被记录但未被使用，可能需要进一步处理或删除。

6. 评估函数 `evaluate`

def evaluate(model_path, testset, rel_path, device):
    model = torch.load(model_path).to(device)  # 加载并移动模型到指定设备
    testloader = DataLoader(testset, batch_size=1, shuffle=False)  # 测试集 DataLoader
    val_rel = []
    model.eval()  # 设置模型为评估模式

    with torch.no_grad():  # 禁用梯度计算
        for data in testloader:
            x = data.to(device)
            pred = model(x)
            val_rel.append(pred.item())  # 存储预测结果

    print(val_rel)  # 打印所有预测结果

    # 将预测结果保存到 CSV 文件
    with open(rel_path, 'w') as f:
        csv_writer = csv.writer(f)
        csv_writer.writerow(['id', 'tested_positive'])  # 写入表头
        for i in range(len(testset)):
            csv_writer.writerow([str(i), str(val_rel[i])])
    print("rel已经保存到" + rel_path)

解析

功能: 使用训练好的模型对测试集进行预测，并将结果保存到 CSV 文件中。
参数:
- model_path: 已保存的模型文件路径。
- testset: 测试数据集（covidDataset 实例）。
- rel_path: 结果保存的 CSV 文件路径。
- device: 设备类型（CPU 或 GPU）。
步骤:
1. 加载模型:
  - 使用 torch.load 加载保存的模型，并将其移动到指定设备。
2. 准备测试数据加载器:
  - 创建一个 DataLoader，批次大小为 1，且不进行数据洗牌（shuffle=False），保证预测结果的顺序与数据集一致。
3. 预测阶段:
  - 将模型设置为评估模式 (model.eval())，禁用 Dropout 等层的训练行为。
  - 使用 torch.no_grad() 禁用梯度计算，提高预测效率。
  - 遍历测试数据集，获取每个样本的预测值，并存储在 val_rel 列表中。
4. 输出预测结果:
  - 打印所有预测结果。
5. 保存预测结果到 CSV:
  - 创建并打开目标 CSV 文件。
  - 写入表头 ['id', 'tested_positive']。
  - 遍历预测结果，将每个预测值与其对应的 ID（索引）一起写入 CSV 文件。
  - 打印保存成功的提示信息。
注意:
- 预测结果是回归任务的连续值，需确保保存格式正确。
- id 对应于测试集中的样本索引，确保与实际数据匹配。

7. 主程序流程

all_col = False  # 是否使用所有的列
device = 'cuda' if torch.cuda.is_available() else 'cpu'  # 选择使用 CPU 还是 GPU
print(device)

train_path = 'covid.train.csv'  # 训练数据路径
test_path = 'covid.test.csv'    # 测试数据路径
file = pd.read_csv(train_path)
file.head()  # 用 pandas 查看数据结构（仅用于调试，未赋值）

if all_col == True:
    feature_dim = 93
else:
    feature_dim = 6  # 是否使用所有的列

# 创建数据集实例
trainset = covidDataset(train_path, 'train', feature_dim=feature_dim, all_feature=all_col)
valset = covidDataset(train_path, 'val', feature_dim=feature_dim, all_feature=all_col)
testset = covidDataset(test_path, 'test', feature_dim=feature_dim, all_feature=all_col)

# 定义损失函数（此处使用均方误差损失）
loss = nn.MSELoss()

# 训练配置
config = {
    'n_epochs': 50,                 # 最大轮次
    'batch_size': 32,               # 每个批次的大小
    'optimizer': 'SGD',             # 优化算法
    'optim_hparas': {               # 优化器的超参数
        'lr': 0.0001,                # 学习率
        'momentum': 0.9              # 动量
    },
    'early_stop': 200,              # 早停策略（未使用）
    'save_path': 'model_save/model.pth',  # 模型保存路径
}

# 实例化模型
model = myNet(feature_dim).to(device)

# 定义优化器
optimizer = optim.SGD(model.parameters(), lr=0.001, momentum=0.9)

# 创建数据加载器
trainloader = DataLoader(trainset, batch_size=config['batch_size'], shuffle=True)
valloader = DataLoader(valset, batch_size=config['batch_size'], shuffle=True)

# 开始训练与验证
train_val(model, trainloader, valloader, optimizer, loss, config['n_epochs'], device, save_=config['save_path'])

# 评估并保存预测结果
evaluate(config['save_path'], testset, 'pred.csv', device)

解析

变量设置:
- all_col: 是否使用所有特征列，False 表示选择部分重要特征。
- device: 检查是否有可用的 GPU，优先使用 GPU 加速，否则使用 CPU。
数据路径:
- train_path: 训练数据文件路径。
- test_path: 测试数据文件路径。
查看数据:
- 使用 pandas 读取训练数据并查看前几行（file.head()），帮助理解数据结构。注意：此行代码未赋值或使用，实际运行时可能不显示输出。
特征维度:
- 如果 all_col 为 True，则 feature_dim 为 93。
- 否则，设置 feature_dim 为 6（根据特征选择函数选择的特征数）。
创建数据集实例:
- trainset: 训练集。
- valset: 验证集。
- testset: 测试集。
- 数据集的特征选择和预处理在 covidDataset 类中完成。
损失函数:
- 使用均方误差损失 (nn.MSELoss)，适用于回归任务。
训练配置 (config 字典):
- n_epochs: 训练的总轮次，设置为 50。
- batch_size: 每个批次的样本数量，设置为 32。
- optimizer: 优化算法，设置为 SGD。
- optim_hparas: 优化器的超参数，包括学习率和动量。
- early_stop: 早停策略的参数（在当前代码中未使用）。
- save_path: 模型保存路径。
实例化模型:
- 创建 myNet 类的实例，输入维度为 feature_dim，并将模型移动到指定设备。
定义优化器:
- 使用随机梯度下降（SGD）优化器，学习率为 0.001，动量为 0.9。
- 注意：config['optim_hparas'] 中定义的学习率 (0.0001) 未被使用，实际使用的是 0.001。
创建数据加载器:
- trainloader: 训练数据的 DataLoader，启用数据洗牌 (shuffle=True)。
- valloader: 验证数据的 DataLoader，启用数据洗牌 (shuffle=True)。
- 注意：通常验证集不需要洗牌 (shuffle=False)，以保持验证结果的一致性。
训练与验证:
- 调用 train_val 函数，传入模型、训练加载器、验证加载器、优化器、损失函数、轮次、设备和模型保存路径。
评估与保存预测结果:
- 调用 evaluate 函数，传入模型保存路径、测试数据集、结果保存路径和设备类型。
注意:
- early_stop 参数在当前代码中未被实现，可以考虑在 train_val 函数中添加早停机制，以防止过拟合。
- 优化器的超参数定义与实际使用不一致，建议统一设置。

优化模型训练过程的常用策略

【1】正则化

深度学习中的正则化

正则化（Regularization）是深度学习中一种防止模型过拟合的技术。过拟合是指模型在训练集上表现很好，但在验证集或测试集上的表现较差，这通常是因为模型过于复杂，过度拟合了训练数据中的噪声或细节，导致泛化能力下降。

正则化通过在模型训练过程中引入某些约束或修改优化目标，减少模型对训练数据的过度依赖，从而提高模型的泛化能力。

1. 为什么需要正则化？

在深度学习中，模型通常具有大量的参数（例如深度神经网络中的权重和偏置），这使得模型非常灵活，能够拟合复杂的数据分布。然而，这种灵活性也会导致模型容易记住训练数据中的噪声或异常值，而不是学习到数据的真实分布，最终导致模型在新数据上的表现较差。

正则化的目标是限制模型的复杂度，使模型能够更好地泛化到未见过的数据。

2. 常见的正则化方法

以下是深度学习中常见的正则化方法：

(1) L1 和 L2 正则化

L1 和 L2 正则化通过在损失函数中添加权重参数的约束，限制模型参数的大小，从而防止模型过于复杂。

L2 正则化（权重衰减，Weight Decay）
在损失函数中添加权重的平方和作为惩罚项：
$L_{\text{total}} = L_{\text{original}} + \lambda \sum_{i} w_i^2$
其中， $L_{\text{original}}$ 是原始损失函数， $w_i$ 是模型的权重， $\lambda$ 是正则化强度的超参数。

L2 正则化倾向于让权重变得更小、更平滑，从而减少过拟合。
L1 正则化
在损失函数中添加权重的绝对值和作为惩罚项：
$L_{\text{total}} = L_{\text{original}} + \lambda \sum_{i} |w_i|$
L1 正则化会导致一些权重变为零，从而实现特征选择（稀疏性）。

(2) Dropout

Dropout 是一种随机失活的方法，用于防止神经网络过拟合。在每次训练迭代中，随机将一部分神经元的输出置为零，模拟多个子网络的训练过程。

在训练过程中，Dropout 会随机以一定的概率（如 $p = 0.5$ ）将一些神经元的输出置为零。
在测试过程中，所有神经元都会被激活，但其输出会乘以保留概率 $p$ ，以保证输出的期望值一致。

这种方法可以减少神经元之间的共适应性，从而提高模型的泛化能力。

(3) 数据增强

数据增强通过对训练数据进行随机变换（如图像的旋转、翻转、裁剪等），生成更多样化的训练样本，从而降低模型对特定数据模式的依赖。

例如，在图像分类任务中，可以对图像进行随机旋转、缩放、翻转等操作。
数据增强可以被视为一种隐式正则化方法，因为它通过扩展数据集间接限制了模型的复杂度。

(4) 提前停止（Early Stopping）

提前停止是一种简单但有效的正则化方法。在训练过程中，监控验证集的损失或准确率，如果验证集的性能不再提升，则提前停止训练。

这样可以防止模型在训练集上过度拟合，同时提高验证集和测试集上的性能。

(5) Batch Normalization

Batch Normalization（批归一化）是通过对每一层的激活值进行归一化，防止激活值过大或过小，从而使训练过程更加稳定。

虽然 Batch Normalization 的主要目的是加速训练，但它也具有一定的正则化效果。

(6) 正则化激活函数

正则化激活函数（如 ReLU、Leaky ReLU 等）通过限制激活值的范围，间接降低模型的复杂度，从而减少过拟合。

3. 正则化的作用

防止过拟合：通过限制模型的复杂度，减少模型对训练数据的过度依赖。
提高泛化能力：使模型在未见过的数据上也能表现良好。
增强模型鲁棒性：减少模型对噪声和异常值的敏感性。

4. 如何选择正则化方法？

正则化方法的选择依赖于具体任务和数据特点：

如果模型参数过多且容易过拟合，L2 正则化是一个常见的选择。
如果数据较少，可以使用数据增强来扩展数据集。
如果训练时间较长且验证集性能开始下降，可以使用提前停止。
如果神经网络较深，Dropout 是一种有效的方法。
如果需要加速训练并提高稳定性，可以使用 Batch Normalization。

【2】特征选择——SelectKBest

在深度学习或机器学习中，SelectKBest 是一种特征选择方法，通常用于从高维特征中选择最重要的特征，以提高模型的性能或减少计算成本。它属于特征选择（Feature Selection）的一部分，特征选择的目的是减少输入数据的维度，同时保留对模型预测最有用的信息。

1. 什么是 `SelectKBest`？

SelectKBest 是 Scikit-learn 库中提供的一种特征选择工具。它按照统计指标对特征进行评分，然后选择得分最高的 $k$ 个特征。其核心思想是基于某种统计方法评估每个特征与目标变量之间的相关性，从而挑选出最相关的特征。

公式化地说，给定一个数据集 $X$ 和目标变量 $y$ ：

$X$ 是特征矩阵，形状为 $(n, m)$ ，其中 $n$ 是样本数， $m$ 是特征数。
SelectKBest 会根据每个特征 $x_i$ 与目标变量 $y$ 的相关性得分，选择得分最高的 $k$ 个特征。

2. `SelectKBest` 的工作流程

计算每个特征的得分：
- 根据用户指定的评分函数（如卡方检验、F检验、互信息等），对每个特征进行打分，衡量其与目标变量的相关性。
排序：
- 按得分从高到低对特征进行排序。
选择前 $k$ 个特征：
- 根据排序结果，选择得分最高的 $k$ 个特征，丢弃其他特征。

3. 常用的评分函数

SelectKBest 支持多种评分函数，不同的评分函数适用于不同类型的数据。以下是一些常用的评分函数及其适用场景：

(1) 卡方检验（Chi-Square, `chi2`）

适用场景：用于分类任务中的离散型特征。
评估方式：计算每个特征与目标变量之间的卡方统计量，衡量特征与目标变量的独立性。
注意：特征值必须为非负数，因此通常需要对数据进行预处理（如归一化或标准化）。

(2) F 检验（F-Test, `f_classif` 和 `f_regression`）

适用场景：
- f_classif：用于分类任务中的连续型特征。
- f_regression：用于回归任务中的连续型特征。
评估方式：计算每个特征与目标变量之间的方差分析（ANOVA）F 值，衡量特征对目标变量的区分能力。

(3) 互信息（Mutual Information, `mutual_info_classif` 和 `mutual_info_regression`）

适用场景：
- mutual_info_classif：用于分类任务。
- mutual_info_regression：用于回归任务。
评估方式：计算每个特征与目标变量之间的互信息，衡量它们之间的依赖关系（非线性相关性也能捕获）。

4. `SelectKBest` 的实现

在 Scikit-learn 中，SelectKBest 的使用非常简单。以下是一个具体的实现示例：

示例 1：用于分类任务（卡方检验）

from sklearn.feature_selection import SelectKBest, chi2
from sklearn.datasets import load_iris

# 加载数据集
data = load_iris()
X, y = data.data, data.target

# 使用卡方检验选择前 2 个最重要的特征
selector = SelectKBest(score_func=chi2, k=2)
X_new = selector.fit_transform(X, y)

print("原始特征维度：", X.shape)
print("选择后的特征维度：", X_new.shape)

示例 2：用于回归任务（F 检验）

from sklearn.feature_selection import SelectKBest, f_regression
from sklearn.datasets import make_regression

# 生成回归数据
X, y = make_regression(n_samples=100, n_features=10, noise=0.1)

# 使用 F 检验选择前 5 个最重要的特征
selector = SelectKBest(score_func=f_regression, k=5)
X_new = selector.fit_transform(X, y)

print("原始特征维度：", X.shape)
print("选择后的特征维度：", X_new.shape)

5. `SelectKBest` 的优点和局限性

优点：

简单易用：只需指定评分函数和 $k$ 值，就可以快速进行特征选择。
提高模型性能：通过减少无关或冗余特征，可以提高模型的训练速度和预测性能。
减少过拟合：通过去除不重要的特征，可以降低模型的复杂度，从而减少过拟合的风险。

局限性：

单变量方法：SelectKBest 是一种单变量特征选择方法，它独立地评估每个特征与目标变量的相关性，而不考虑特征之间的交互作用。
依赖评分函数：选择的特征质量高度依赖于所使用的评分函数。如果评分函数不适合数据分布，可能会导致错误的特征选择。
固定特征数量：需要手动指定 $k$ 的值，这可能需要通过实验或交叉验证来确定。

6. `SelectKBest` 在深度学习中的应用

在深度学习中，SelectKBest 通常用于数据预处理阶段，尤其是在处理高维稀疏数据（如文本特征或基因数据）时。通过先用 SelectKBest 降维，可以减少输入特征的数量，从而加速深度学习模型的训练过程。

例如：

在自然语言处理（NLP）任务中，SelectKBest 可以用于从词袋模型（Bag-of-Words）或 TF-IDF 特征中选择最重要的词语。
在生物信息学中，SelectKBest 可以用于从基因表达数据中选择与疾病分类最相关的基因。

【3】主成分分析（PCA）

主成分分析（Principal Component Analysis，简称 PCA）是一种广泛应用于数据降维和特征提取的线性技术。它在深度学习和机器学习中经常被用来减少数据的维度，同时保留尽可能多的有用信息，从而提高模型的效率。以下是关于 PCA 的详细介绍：

1. 什么是 PCA？

主成分分析是一种线性降维方法，旨在通过寻找数据的主要变化方向，将高维数据投影到一个低维子空间，同时尽可能保留原始数据的主要信息（即数据的方差）。

核心思想：

数据的主要信息通常体现在数据的方差中。
PCA 通过找到数据的主成分（Principal Components），即数据中方差最大的方向，将数据投影到这些主成分上，从而实现降维。

数学目标：

给定一个数据集 $\in \mathbb{R}^{n \times m}$ （ $n$ 是样本数， $m$ 是特征数），PCA 的目标是找到一组正交向量（主成分），将数据从 $m$ 维投影到 $k$ 维（ $k < m$ ），使得投影后的数据保留尽可能多的方差。

2. PCA 的数学原理

PCA 的数学原理可以分为以下几个步骤：

(1) 数据标准化

为了确保每个特征对结果的影响是均等的，PCA 通常要求对数据进行标准化处理，使得每个特征的均值为 $0$ ，方差为 $1$ 。公式为：
$X_{\text{标准化}} = \frac{X - \mu}{\sigma}$
其中， $\mu$ 是特征的均值， $\sigma$ 是特征的标准差。

(2) 计算协方差矩阵

协方差矩阵衡量了不同特征之间的线性关系。对于标准化后的数据 $\in \mathbb{R}^{n \times m}$ ，协方差矩阵 $C$ 的计算公式是：
$\frac{1}{n-1} X^T X$
其中， $\in \mathbb{R}^{m \times m}$ 。

(3) 特征值分解

对协方差矩阵 $C$ 进行特征值分解，得到特征值和特征向量：
$v_i = \lambda_i v_i$

$\lambda_i$ 是协方差矩阵的特征值，表示数据在对应方向上的方差大小。
$v_i$ 是协方差矩阵的特征向量，表示数据的主成分方向。

(4) 按特征值排序

将特征值从大到小排序，并选择前 $k$ 个特征值对应的特征向量，构成投影矩阵 $\in \mathbb{R}^{m \times k}$ 。

(5) 数据投影

将原始数据 $X$ 投影到低维空间：
$X_{\text{降维}} = X W$
其中， $X_{\text{降维}} \in \mathbb{R}^{n \times k}$ 是降维后的数据。

3. PCA 的优点和局限性

优点：

降维：
- PCA 能有效降低数据维度，减少计算开销。
去冗余：
- PCA 可以去除特征之间的多重共线性，保留独立的主成分。
可视化：
- 在高维数据中，PCA 常用于将数据降维到 2D 或 3D 空间，以便进行可视化分析。
数据压缩：
- PCA 可以用于数据压缩，同时尽量保留数据的主要信息。

局限性：

线性假设：
- PCA 假设数据的主要结构是线性的，无法处理非线性数据。
信息损失：
- 降维过程中可能会丢失一些重要信息，特别是在降维到非常低的维度时。
特征可解释性差：
- PCA 的主成分是线性组合，通常很难解释它们的具体含义。
对数据分布敏感：
- PCA 对数据的标准化和分布非常敏感，如果数据未标准化或分布不均匀，可能导致结果偏差。

4. PCA 在深度学习中的应用

在深度学习中，PCA 通常用于数据预处理和特征降维，以下是一些典型的应用场景：

(1) 数据降维

在处理高维数据（如图像、文本或基因数据）时，PCA 可以减少数据的维度，从而加速模型的训练过程。
例如，在处理图像数据时，可以使用 PCA 将每张图片的像素数据降维为主成分表示。

(2) 噪声过滤

PCA 可以用来去除数据中的噪声。例如，将数据投影到前几个主成分上，可以去除小特征值对应的高频噪声。

(3) 可视化

对于高维数据，PCA 可以将数据降维到 2D 或 3D 空间，从而便于可视化分析和理解数据分布。

(4) 特征压缩

在深度学习中，PCA 可以用于减少模型输入特征的数量，从而减小模型的复杂度。

5. PCA 的实现

以下是使用 Python 和 Scikit-learn 实现 PCA 的示例代码：

示例 1：基本的 PCA 实现

import numpy as np
from sklearn.decomposition import PCA
from sklearn.datasets import load_iris

# 加载数据集
data = load_iris()
X = data.data

# 初始化 PCA，保留 2 个主成分
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X)

print("原始数据维度：", X.shape)
print("降维后数据维度：", X_pca.shape)

示例 2：查看主成分的方差解释率

# 查看主成分的方差解释率
explained_variance_ratio = pca.explained_variance_ratio_
print("每个主成分的方差解释率：", explained_variance_ratio)
print("总方差解释率：", np.sum(explained_variance_ratio))

示例 3：手动实现 PCA

# 手动实现 PCA
# 数据标准化
X_mean = np.mean(X, axis=0)
X_std = X - X_mean

# 计算协方差矩阵
cov_matrix = np.cov(X_std, rowvar=False)

# 计算特征值和特征向量
eigenvalues, eigenvectors = np.linalg.eigh(cov_matrix)

# 按特征值排序
sorted_indices = np.argsort(eigenvalues)[::-1]
eigenvalues = eigenvalues[sorted_indices]
eigenvectors = eigenvectors[:, sorted_indices]

# 选择前 2 个主成分
W = eigenvectors[:, :2]

# 数据投影
X_pca_manual = np.dot(X_std, W)

print("手动实现的降维结果：", X_pca_manual[:5])

6. PCA 的扩展

(1) 核 PCA (Kernel PCA)

核 PCA 使用核方法将数据映射到高维空间，再在高维空间中进行 PCA。
它可以处理非线性数据。

(2) 稀疏 PCA (Sparse PCA)

稀疏 PCA 在降维的同时，强制主成分具有稀疏性，从而提高主成分的可解释性。

(3) 增量 PCA (Incremental PCA)

增量 PCA 适用于大规模数据集，通过批量处理数据来进行降维。

【4】归一化

在深度学习中，归一化（Normalization）是一种重要的预处理和优化技术，目的是对数据或中间特征进行变换，使其满足某些特定的统计特性，从而加速训练过程、提高模型的性能和稳定性。归一化可以应用于输入数据或神经网络的中间层输出，主要目的是减少梯度消失或梯度爆炸问题，增强模型的收敛性。

以下是深度学习中常见的归一化操作及其详细介绍：

1. 输入数据的归一化

输入数据的归一化是深度学习中最基本的归一化操作，目的是将数据调整到某个固定范围或分布，便于模型处理。

a. Min-Max 归一化

将数据缩放到固定范围（通常是 $[0, 1]$ 或 $[- 1, 1]$ ）。公式如下：
$\frac{x - \text{min}(x)}{\text{max}(x) - \text{min}(x)}$
其中 $x$ 是原始数据， $\text{min}(x)$ 和 $\text{max}(x)$ 分别是数据的最小值和最大值。

优点：简单直观，适合数据分布已知的情况。
缺点：对异常值（outliers）非常敏感。

b. Z-Score 归一化

将数据调整为均值为 $0$ ，标准差为 $1$ 的正态分布。公式如下：
$\frac{x - \mu}{\sigma}$
其中 $\mu$ 是数据的均值， $\sigma$ 是数据的标准差。

优点：对不同量纲的数据统一处理，适合数据分布未知的情况。
缺点：如果数据分布严重偏态，可能仍会有问题。

c. 对数变换

对具有长尾分布的数据，使用对数变换压缩数据范围：
$\log(x + 1)$

优点：对数据分布不均匀（如指数分布）有较好的效果。
缺点：仅适用于非负数据。

2. 神经网络中的归一化方法

在深度学习中，除了对输入数据进行归一化，还可以对神经网络的中间层输出进行归一化，以加速训练和提高模型的性能。

a. Batch Normalization（BN）

Batch Normalization 是最常用的归一化方法之一，主要用于对每一层的激活值进行归一化。其核心思想是：在每个小批量（batch）中，将每个神经元的输出调整为均值为 $0$ ，标准差为 $1$ ，然后再通过可学习的参数进行线性变换。

公式如下：

计算均值和方差：
$\mu_B = \frac{1}{m} \sum_{i=1}^m x_i, \quad \sigma_B^2 = \frac{1}{m} \sum_{i=1}^m (x_i - \mu_B)^2$
其中 $m$ 是 batch 的大小。
标准化：
$\hat{x}_i = \frac{x_i - \mu_B}{\sqrt{\sigma_B^2 + \epsilon}}$
其中 $\epsilon$ 是一个小值，用于避免分母为零。
缩放和平移（可学习参数）：
$y_i = \gamma \hat{x}_i + \beta$
其中 $\gamma$ 和 $\beta$ 是可学习的参数。

优点：
- 加速收敛。
- 减少对权重初始化的敏感性。
- 在一定程度上起到正则化作用。
缺点：
- 对小批量（batch size 很小）较为敏感。
- 在某些任务中（如序列模型）可能不适用。

b. Layer Normalization（LN）

Layer Normalization 是一种不依赖 batch 的归一化方法，主要用于序列模型（如 RNN、Transformer）。它对每个样本的所有神经元的激活值进行归一化。

公式如下：

计算均值和方差：
$\mu = \frac{1}{H} \sum_{i=1}^H x_i, \quad \sigma^2 = \frac{1}{H} \sum_{i=1}^H (x_i - \mu)^2$
其中 $H$ 是当前层的神经元数。
标准化：
$\hat{x}_i = \frac{x_i - \mu}{\sqrt{\sigma^2 + \epsilon}}$
缩放和平移（可学习参数）：
$y_i = \gamma \hat{x}_i + \beta$

优点：
- 不依赖 batch size，适合小批量或序列模型。
缺点：
- 在某些任务中可能不如 Batch Normalization 效果好。

c. Instance Normalization（IN）

Instance Normalization 是一种专门用于图像生成任务（如风格迁移）的归一化方法。它对每个样本的每个通道单独归一化。

公式与 Layer Normalization 类似，但归一化范围是每个样本的每个通道。

优点：适合风格迁移等任务。
缺点：对某些任务的泛化能力较差。

d. Group Normalization（GN）

Group Normalization 是一种结合了 Batch Normalization 和 Layer Normalization 的方法。它将特征划分为多个组，然后对每一组进行归一化。

公式类似于 Layer Normalization，但归一化范围是每个组。

优点：适合小批量训练。
缺点：需要选择合适的组数。

e. Weight Normalization

Weight Normalization 是一种对网络权重进行归一化的方法，目的是使权重的范数固定，以便更稳定地训练。

公式如下：
$\frac{g}{\|v\|} v$
其中 $g$ 是可学习的标量， $v$ 是原始权重向量。

优点：提高训练稳定性。
缺点：不如 Batch Normalization 常用。

3. 归一化的作用

加速训练：归一化可以使梯度下降更快、更稳定。
防止梯度爆炸或消失：归一化可以避免激活值过大或过小，导致梯度异常。
减少对初始化的敏感性：归一化使得模型对权重初始化的依赖性降低。
正则化效果：某些归一化方法（如 Batch Normalization）可以在一定程度上防止过拟合。

4. 归一化的选择

对于大多数任务，优先尝试 Batch Normalization。
对于序列任务或小批量任务，使用 Layer Normalization 或 Group Normalization。
对于特定任务（如风格迁移），可以尝试 Instance Normalization。

归一化方法的选择取决于任务的特性和模型的架构。通过实验和调参，可以找到最适合的归一化策略。

你可能感兴趣的:(深度学习入门笔记,深度学习,人工智能)

解密GPT工作原理：Transformer架构详解与自注意力机制剖析 AI智能应用 gpt transformer 架构 ai
解密GPT工作原理：Transformer架构详解与自注意力机制剖析关键词：GPT、Transformer、自注意力机制、神经网络、语言模型、深度学习、人工智能摘要：本文将深入浅出地解析GPT模型的核心架构——Transformer，重点剖析其革命性的自注意力机制。我们将从基本概念出发，通过生活化的比喻解释复杂的技术原理，并用Python代码示例展示实现细节，最后探讨这一技术的应用场景和未来发展方
ChatGPT、DeepSeek等大语言模型技术教程
随着人工智能技术的快速发展，大语言模型如ChatGPT和DeepSeek在科研领域的应用正在为科研人员提供强大的支持。这些模型通过深度学习和大规模语料库训练，能够帮助科研人员高效地筛选文献、生成论文内容、进行数据分析和优化机器学习模型。ChatGPT和DeepSeek能够快速理解和生成复杂的语言，帮助研究人员在撰写论文时提高效率，不仅生成高质量的文章内容，还能优化论文结构和语言表达。在数据分析方面
【openAI库】Python语言openAI库详解：从入门到精通（从0到1手把手教程） Java八股文 python 人工智能开发语言
在人工智能（AI）领域，OpenAI无疑是全球最受瞩目的机构之一。它推出的GPT系列模型、DALL·E等创新技术，正在深刻改变各行各业。作为Python开发者，我们该如何快速上手并高效利用OpenAI的API，成为了提升个人竞争力的关键。本文将带你从零开始，深入解析Python语言中的openAI库，助你掌握AI开发的核心工具，成为AI领域的专家。一、什么是openAI库？它能为开发者带来什么？1
世界人工智能大会在即，中国AI布局展现多重深意未来智慧谷人工智能世界人工智能大会（WAIC）
2025年世界人工智能大会（WAIC）将于7月26日至28日在上海举行。本次大会以“智能时代同球共济”为主题，展览面积首次突破7万平方米，汇聚了来自30余个国家和地区的1200余位嘉宾，其中包括12位图灵奖、诺贝尔奖得主及80余位中外院士。这一全球性平台的搭建，揭示了中国在人工智能领域深化发展的战略路径。技术展示：从模型开源到终端落地本届大会将呈现3000余项前沿展品，涵盖40余款大模型、60余款
全面学习 OpenAI API：从 Python 教程到 API Key 使用详解，快速上手调用和部署我的学校你进不来学习 python 开发语言人工智能语言模型深度学习
说在前面我们正身处在人工智能迅猛发展的时代，OpenAIAPI无疑是其中的翘楚，它提供了强大的工具，让开发者能够创建智能应用程序。然而，对于许多刚接触这个领域的开发者来说，如何开始使用OpenAIAPI可能是一个不小的挑战。这篇文章旨在全面介绍如何从零开始学习和使用OpenAIAPI，从申请APIKey到在Python中调用和部署，助力你快速上手并实现在项目中的应用。在接下来的内容中，我们将详细阐
讯飞星火深度推理模型X1，为教育医疗带来革新
在科技飞速发展的今天，人工智能大模型已经成为推动各行业变革的重要力量。科大讯飞作为人工智能领域的佼佼者，其研发的星火深度推理模型X1，凭借独特的技术优势和强大的功能，为教育和医疗两大关乎国计民生的领域带来了前所未有的革新。技术原理与创新讯飞星火深度推理模型X1基于Transformer架构，并在此基础上进行了一系列创新。它通过大规模多阶段强化学习训练方法，在复杂推理、数学、代码、语言理解等场景全面
Rust实现FasterR-CNN目标检测全流程 KENYCHEN奉孝 rust Polars
使用Rust和FasterR-CNN进行目标检测FasterR-CNN是目标检测领域广泛使用的深度学习模型。Rust生态中可以通过tch-rs（Torch绑定）调用预训练的PyTorch模型实现。以下为完整实现步骤：环境准备安装Rust和必要的依赖：cargoaddtchcargoaddanyhow#错误处理下载预训练的FasterR-CNN模型（需PyTorch格式.pt文件），或使用Torch
Hamiltonian Transformer理论：融合哈密顿力学与Transformer架构的新范式墨顿 transformer 架构深度学习
HamiltonianTransformer理论是一种将经典哈密顿力学原理与现代Transformer架构相结合的新型神经网络范式。这一理论框架试图解决当前深度学习模型在效率、动态系统建模和长期依赖处理等方面的核心挑战。本文将系统梳理HamiltonianTransformer的理论基础、关键创新点、实现方法以及应用前景，并分析其相对于传统Transformer架构的优势与潜在限制。哈密顿力学与T
Spring AI ETL Pipeline使用指南超级小忍 SpringAI spring 人工智能
前言（Introduction）版本声明：本文基于SpringAI1.0.0版本编写。由于SpringAI目前仍处于活跃开发阶段，API和组件可能在后续版本中发生变化，请注意及时关注官方文档更新以保持兼容性。在当今大数据和人工智能快速发展的背景下，ETL（Extract,Transform,Load）系统已经不再只是简单的数据搬运工。ETL是数据仓库和数据分析流程中的核心环节，它负责将分散的数据从
使用numpy或pytorch校验两个张量是否相等
文章目录1、numpy2、pytorch做算法过程中，如果涉及到模型落地，那必然会将原始的深度学习的框架训练好的模型转换成目标硬件模型的格式，如onnx,tensorrt,openvino,tflite;那么就有对比不同格式模型输出的一致性，从而判断模型转换是否成功。1、numpy用到的核心代码就一行，就是：importnumpyasnpnp.testing.assert_allclose(act
【深度学习pytorch-6】张量与numpy相互转换超华东算法王 DL-pytorch 深度学习 pytorch numpy
张量与Numpy数组之间的互相转换在深度学习中，张量（tensor）和Numpy数组（numpyarray）是两种常见的数据结构。张量通常用于深度学习框架（如PyTorch、TensorFlow等），而Numpy数组在科学计算中被广泛使用。为了便于数据处理和计算，常常需要在它们之间进行转换。下面介绍张量和Numpy数组之间的互相转换。1.PyTorch张量与Numpy数组的互相转换PyTorch提
LoRA微调详解：如何为AIGC模型节省90%显存 SuperAGI2025 AI大模型应用开发宝典 AIGC ai
LoRA微调详解：如何为AIGC模型节省90%显存关键词：LoRA、低秩适应、AIGC模型、参数高效微调、显存优化摘要：在AIGC（人工智能生成内容）领域，大模型（如GPT-3、LLaMA、StableDiffusion）的微调需要消耗海量显存，普通用户或企业难以负担。本文将深入解析LoRA（Low-RankAdaptation，低秩适应）这一参数高效微调技术，通过生活类比、数学原理、代码实战和应
探索《非官方知乎 API》：解锁知乎数据潜能指南
探索《非官方知乎API》：解锁知乎数据潜能指南Unofficial-Zhihu-API深度学习模型自动识别验证码，python爬虫库自动管理会话，通过简单易用的API，实现知乎数据的爬取项目地址:https://gitcode.com/gh_mirrors/un/Unofficial-Zhihu-API项目介绍非官方知乎API是一个由社区贡献的开源工具，位于https://github.com/l
结合LangGraph、DeepSeek-R1和Qdrant 的混合 RAG 技术实践大模型之路 RAG rag
一、引言：混合RAG技术的发展与挑战在人工智能领域，检索增强生成（RAG）技术正成为构建智能问答系统的核心方案。传统RAG通过向量数据库存储文档嵌入并检索相关内容，结合大语言模型（LLM）生成回答，有效缓解了LLM的“幻觉”问题。然而，单一的稠密向量检索（如基于Transformer的嵌入模型）在处理关键词匹配和多义词歧义时存在局限性，而稀疏向量检索（如BM25）虽擅长精确关键词匹配，却缺乏语义理
军事，本身就是智能人机与认知实验室人工智能大数据
军事智能后面两个字不重要，军事本身就是智能。军事活动中的许多决策和操作本质上都离不开“智能”，不论是指人类的智慧，还是现代技术和人工智能的应用。军事行动本质上是一种复杂的决策过程，涉及到战略、战术、资源配置、情报分析等多个方面。每一个决策都需要充分的智慧和智能的支持，考虑的因素包括敌我态势、地理环境、气候、技术优势等。人类指挥官的战略智慧和经验在军事行动中至关重要，但随着现代技术的发展，智能化技术
图像分类：从基础原理到前沿技术随机森林404 计算机视觉分类数据挖掘人工智能
引言在当今数字化时代，图像数据正以惊人的速度增长。从社交媒体上的照片分享到医疗影像诊断，从自动驾驶到工业质检，图像分类技术已经成为人工智能领域最基础也最重要的应用之一。本文将全面介绍图像分类的基础概念、发展历程、关键技术、应用场景以及未来趋势，帮助读者系统性地理解这一领域。第一章图像分类概述1.1什么是图像分类图像分类（ImageClassification）是计算机视觉中的一项核心任务，其目标是
通义灵码+DeepSeek：国产代码生成王炸组合，带你飞！
引言在人工智能飞速发展的当下，AI代码生成工具如雨后春笋般涌现，为开发者们带来了前所未有的编程体验。其中，国产的通义灵码结合DeepSeek模型异军突起，成为众多开发者关注的焦点。它们凭借强大的功能和出色的表现，在代码生成领域崭露头角，不仅提升了开发效率，还为编程工作流注入了新的活力。然而，如同任何新兴技术一样，在使用过程中也会遇到各种问题和挑战。本文将通过实测，深入剖析通义灵码与DeepSeek
uni-app 多端开发中 AI 的集成与适配：一次开发，智能多端运行欧阳天羲大前端与 AI 的深度融合 #AI 与大前端框架结合篇 uni-app 人工智能前端
一、引言：uni-app与AI多端集成的背景在当今跨平台开发趋势下，uni-app凭借"一次编写，多端运行"的特性成为企业级应用开发的首选框架之一。随着人工智能技术的普及，将AI能力集成到多端应用中已成为提升用户体验的关键需求。然而，小程序、APP、Web等不同端的运行环境差异显著，如何实现AI功能的统一集成与高效适配成为开发难点。本文将系统讲解在uni-app框架中集成AI能力的完整方案，涵盖跨
大语言模型技术系列讲解：大模型应用了哪些技术知世不是芝士语言模型人工智能自然语言处理 chatgpt 大模型
为了弄懂大语言模型原理和技术细节，笔者计划展开系列学习，并将所学内容从简单到复杂的过程给大家做分享，希望能够体系化的认识大模型技术的内涵。本篇文章作为第一讲，先列出大模型使用到了哪些技术，目的在于对大模型使用的技术有个整体认知。后续我们讲一一详细讲解这些技术概念并解剖其背后原理。正文开始大语言模型（LLMs）在人工智能领域通常指的是参数量巨大、能够处理复杂任务的深度学习模型。这些模型使用的技术主要
免费学中医，这些优质资源不容错过少林659 零基础学中医免费学中医
零基础学中医，学中医如何入门免费学中医！问止精一书院链接：https://tool.nineya.com/qrcode/1iv54b4ts想入门中医却担心成本太高？其实有不少免费又优质的学习资源，问止中医的系列免费课程就是其中的佼佼者，涵盖理论与实操，满足不同学习者的需求。问止中医旗下的精一书院，是免费学中医的绝佳平台。由问止中医联合创始人林大栋博士主讲，课程聚焦中医结构分析、人工智能中医大脑技术
思维树(Tree of Thoughts): 超越链式思维的AI推理新范式司南锤 LLM 人工智能
引言在人工智能快速发展的今天，大语言模型(LLM)的推理能力一直是研究的热点。从最初的直接问答，到链式思维(ChainofThoughts,CoT)的出现，再到如今的思维树(TreeofThoughts,TOT)，AI的推理方式正在变得越来越接近人类的思维过程。思维树作为一种全新的推理框架，不仅继承了链式思维的优势，更通过树状结构的探索和回溯机制，实现了更加复杂和深入的推理过程。本文将深入探讨TO
【深度学习-Day 33】从零到一：亲手构建你的第一个卷积神经网络（CNN）吴师兄大模型深度学习入门到精通深度学习 cnn 人工智能 python 大模型卷积神经网络（CNN）机器学习
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
AttributeError: module ‘openai‘ has no attribute ‘ChatCompletion‘解决方案爱编程的喵喵 Python基础课程 python AttributeError openai ChatCompletion 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了AttributeError:mod
RAG技术全面对比研究：探索最优检索增强生成策略
检索增强生成（RAG）技术全景解析：从基础到前沿在当今信息爆炸的时代，如何从海量数据中快速准确地获取所需信息，是人工智能领域的一大挑战。Retrieval-AugmentedGeneration（RAG，检索增强生成）技术应运而生，它结合了检索和生成的优势，通过从大量文档中检索相关信息，再利用这些信息生成高质量的回答。本文将系统性地介绍18种RAG技术，通过概念解析、代码示例和实际应用场景分析，帮
基于深度学习的草莓成熟度检测系统：YOLOv5 + UI界面 + 数据集 YOLO实战营深度学习YOLO实战项目深度学习 YOLO ui 人工智能目标跟踪
引言随着农业科技的发展，智能化的农业生产方式正逐步替代传统农业。果实的成熟度检测对于农业生产的管理至关重要，尤其是在果蔬的采摘、分拣和运输过程中。草莓作为一种广泛种植且受消费者喜爱的水果，其成熟度检测一直是农业智能化的重要研究方向。传统的草莓成熟度检测方法大多依赖人工经验，劳动强度大且容易出现误差，因此，基于计算机视觉和深度学习的草莓成熟度自动检测系统成为了一种理想选择。深度学习技术，尤其是卷积神
【人工智能】 AI的进化之路：大模型如何重塑技术格局蒙娜丽宁 Python杂谈人工智能人工智能 python
《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界本文深入探讨了人工智能大模型的进化历程及其对技术格局的深远影响。从早期神经网络到现代大模型的突破，文章分析了关键技术进步，如Transformer架构、预训练机制和分布式计算。结合数学公式和代码示例，详细阐述了大模型的训练原理、优化方法及实际应用场景。文
数字人矩阵源码--基于深度学习的数字人面部表情合成我~18339948121 数字人源码数字人矩阵源码 123数字人源码矩阵深度学习线性代数人工智能 flask tornado python
AI正在席卷全球，数字人市场需求增长，用AI数字分身一天就能生产出几十条高质量短视频，你只需要上传一段视频，甚至都不用开口说话，直接复制粘贴文案，就能得到一个属于你的数字分身。深度学习数字人面部表情合成的关键技术3D面部建模与参数化建立高精度3D面部模型是表情合成的基础，常用Blendshape或面部动作编码系统（FACS）作为参数化控制方法。Blendshape通过线性组合基础表情形状生成新表情
数字人视频剪辑与数字人分身源码开发的的核心技术解析微~18339948121 数字人分身源码数字人剪辑源码数字人源码 django pygame virtualenv plotly scikit-learn flask tornado
数字人视频剪辑与分身的核心技术解析数字人视频剪辑和分身技术是近年来人工智能与计算机视觉领域的热点，涉及虚拟形象生成、动作驱动、语音合成等多项技术。以下从技术实现、应用场景和工具选择三个方面展开分析。数字人视频剪辑的关键技术视频剪辑中数字人的核心在于动态形象的生成与编辑。基于深度学习的生成对抗网络（GAN）和3D建模技术可实现高保真虚拟形象构建。典型流程包括：人物建模：通过多视角图像或视频数据重建3
探秘AI的秘密：leaked-system-prompts 人工智能我来了人工智能 AI 人工智能
揭秘：揭秘系统提示合集背后的秘密在当今这个人工智能技术迅速发展的时代，了解和使用大型语言模型（LLM）已成为技术爱好者、开发者和研究人员的共同目标。而作为核心组成部分，系统提示（systemprompts）的设计和应用直接影响了LLM的表现和功能。今天，我们将为大家揭示一个神秘而又充满吸引力的项目——“leaked-system-prompts”。这个项目为我们打开了一扇窥探这些大型语言模型系统提
代码探秘人工智能万能小贤哥人工智能
当你在手机上用语音发送消息，当短视频平台精准推送你感兴趣的内容，当智能音箱陪你聊天解闷，背后都有一位“隐形伙伴”——人工智能。它就像从科幻电影中走出的神奇力量，正悄然改变着我们的生活。今天，就让我们借助简单的Python代码，开启一场探索人工智能奥秘的奇妙之旅！人工智能：计算机的“超能力大脑”想象一下，如果给计算机装上“大脑”，让它学会像人类一样思考、学习和解决问题，会发生什么？这就是人工智能（A
JVM StackMapTable 属性的作用及理解 lijingyao8206 jvm 字节码 Class文件 StackMapTable
在Java 6版本之后JVM引入了栈图(Stack Map Table)概念。为了提高验证过程的效率，在字节码规范中添加了Stack Map Table属性，以下简称栈图，其方法的code属性中存储了局部变量和操作数的类型验证以及字节码的偏移量。也就是一个method需要且仅对应一个Stack Map Table。在Java 7版
回调函数调用方法百合不是茶 java
最近在看大神写的代码时,.发现其中使用了很多的回调 ,以前只是在学习的时候经常用到 ,现在写个笔记记录一下代码很简单: MainDemo :调用方法得到方法的返回结果
[时间机器]制造时间机器需要一些材料 comsci 制造
根据我的计算和推测,要完全实现制造一台时间机器,需要某些我们这个世界不存在的物质和材料... 甚至可以这样说,这种材料和物质,我们在反应堆中也无法获得......
开口埋怨不如闭口做事邓集海邓集海做人做事工作
“开口埋怨，不如闭口做事。”不是名人名言，而是一个普通父亲对儿子的训导。但是，因为这句训导，这位普通父亲却造就了一个名人儿子。这位普通父亲造就的名人儿子，叫张明正。　　　　张明正出身贫寒，读书时成绩差，常挨老师批评。高中毕业，张明正连普通大学的分数线都没上。高考成绩出来后，平时开口怨这怨那的张明正，不从自身找原因，而是不停地埋怨自己家庭条件不好、埋怨父母没有给他创造良好的学习环境。　　　　
jQuery插件开发全解析，类级别与对象级别开发 IT独行者 jquery 开发插件　函数
jQuery插件的开发包括两种：一种是类级别的插件开发，即给 jQuery添加新的全局函数，相当于给 jQuery类本身添加方法。 jQuery的全局函数就是属于 jQuery命名空间的函数，另一种是对象级别的插件开发，即给 jQuery对象添加方法。下面就两种函数的开发做详细的说明。 1 、类级别的插件开发类级别的插件开发最直接的理解就是给jQuer
Rome解析Rss 413277409 Rome解析Rss
import java.net.URL; import java.util.List; import org.junit.Test; import com.sun.syndication.feed.synd.SyndCategory; import com.sun.syndication.feed.synd.S
RSA加密解密无量加密解密 rsa
RSA加密解密代码代码有待整理 package com.tongbanjie.commons.util; import java.security.Key; import java.security.KeyFactory; import java.security.KeyPair; import java.security.KeyPairGenerat
linux 软件安装遇到的问题 aichenglong linux 遇到的问题 ftp
1 ftp配置中遇到的问题 500 OOPS: cannot change directory 出现该问题的原因:是SELinux安装机制的问题.只要disable SELinux就可以了修改方法:1 修改/etc/selinux/config 中SELINUX=disabled 2 source /etc
面试心得 alafqq 面试
最近面试了好几家公司。记录下；支付宝，面试我的人胖胖的，看着人挺好的；博彦外包的职位，面试失败；阿里金融，面试官人也挺和善，只不过我让他吐血了。。。由于印象比较深，记录下； 1，自我介绍 2，说下八种基本类型；（算上string。楼主才答了3种，哈哈，string其实不是基本类型，是引用类型） 3，什么是包装类，包装类的优点； 4，平时看过什么书？NND，什么书都没看过。。照样
java的多态性探讨百合不是茶 java
java的多态性是指main方法在调用属性的时候类可以对这一属性做出反应的情况 //package 1; class A{ public void test(){ System.out.println("A"); } } class D extends A{ public void test(){ S
网络编程基础篇之JavaScript-学习笔记 bijian1013 JavaScript
1.documentWrite <html> <head> <script language="JavaScript"> document.write("这是电脑网络学校"); document.close(); </script> </h
探索JUnit4扩展：深入Rule bijian1013 JUnit Rule 单元测试
本文将进一步探究Rule的应用，展示如何使用Rule来替代@BeforeClass，@AfterClass，@Before和@After的功能。在上一篇中提到，可以使用Rule替代现有的大部分Runner扩展，而且也不提倡对Runner中的withBefores()，withAfte
[CSS]CSS浮动十五条规则 bit1129 css
这些浮动规则，主要是参考CSS权威指南关于浮动规则的总结，然后添加一些简单的例子以验证和理解这些规则。 1. 所有的页面元素都可以浮动 2. 一个元素浮动后，会成为块级元素，比如<span>,a, strong等都会变成块级元素 3.一个元素左浮动，会向最近的块级父元素的左上角移动，直到浮动元素的左外边界碰到块级父元素的左内边界；如果这个块级父元素已经有浮动元素停靠了
【Kafka六】Kafka Producer和Consumer多Broker、多Partition场景 bit1129 partition
0.Kafka服务器配置 3个broker 1个topic，6个partition，副本因子是2 2个consumer，每个consumer三个线程并发读取 1. Producer package kafka.examples.multibrokers.producers; import java.util.Properties; import java.util.
zabbix_agentd.conf配置文件详解 ronin47 zabbix 配置文件
Aliaskey的别名，例如 Alias=ttlsa.userid:vfs.file.regexp[/etc/passwd,^ttlsa:.:([0-9]+),,,,\1]，或者ttlsa的用户ID。你可以使用key：vfs.file.regexp[/etc/passwd,^ttlsa:.: ([0-9]+),,,,\1]，也可以使用ttlsa.userid。备注: 别名不能重复，但是可以有多个
java--19.用矩阵求Fibonacci数列的第N项 bylijinnan fibonacci
参考了网上的思路，写了个Java版的： public class Fibonacci { final static int[] A={1,1,1,0}; public static void main(String[] args) { int n=7; for(int i=0;i<=n;i++){ int f=fibonac
Netty源码学习-LengthFieldBasedFrameDecoder bylijinnan java netty
先看看LengthFieldBasedFrameDecoder的官方API http://docs.jboss.org/netty/3.1/api/org/jboss/netty/handler/codec/frame/LengthFieldBasedFrameDecoder.html API举例说明了LengthFieldBasedFrameDecoder的解析机制，如下：实
AES加密解密 chicony 加密解密
AES加解密算法，使用Base64做转码以及辅助加密： package com.wintv.common; import javax.crypto.Cipher; import javax.crypto.spec.IvParameterSpec; import javax.crypto.spec.SecretKeySpec; import sun.misc.BASE64Decod
文件编码格式转换 ctrain 编码格式
package com.test; import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream;
mysql 在linux客户端插入数据中文乱码 daizj mysql 中文乱码
1、查看系统客户端，数据库，连接层的编码查看方法： http://daizj.iteye.com/blog/2174993 进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+------
好代码是廉价的代码 dcj3sjt126com 程序员读书
长久以来我一直主张：好代码是廉价的代码。当我跟做开发的同事说出这话时，他们的第一反应是一种惊愕，然后是将近一个星期的嘲笑，把它当作一个笑话来讲。当他们走近看我的表情、知道我是认真的时，才收敛一点。当最初的惊愕消退后，他们会用一些这样的话来反驳： “好代码不廉价，好代码是采用经过数十年计算机科学研究和积累得出的最佳实践设计模式和方法论建立起来的精心制作的程序代码。” 我只
Android网络请求库——android-async-http dcj3sjt126com android
在iOS开发中有大名鼎鼎的ASIHttpRequest库，用来处理网络请求操作，今天要介绍的是一个在Android上同样强大的网络请求库android-async-http，目前非常火的应用Instagram和Pinterest的Android版就是用的这个网络请求库。这个网络请求库是基于Apache HttpClient库之上的一个异步网络请求处理库，网络处理均基于Android的非UI线程，通
ORACLE 复习笔记之SQL语句的优化 eksliang SQL优化 Oracle sql语句优化 SQL语句的优化
转载请出自出处：http://eksliang.iteye.com/blog/2097999 SQL语句的优化总结如下 sql语句的优化可以按照如下六个步骤进行：合理使用索引避免或者简化排序消除对大表的扫描避免复杂的通配符匹配调整子查询的性能 EXISTS和IN运算符下面我就按照上面这六个步骤分别进行总结：
浅析：Android 嵌套滑动机制（NestedScrolling） gg163 android 移动开发滑动机制嵌套
谷歌在发布安卓 Lollipop版本之后，为了更好的用户体验，Google为Android的滑动机制提供了NestedScrolling特性 NestedScrolling的特性可以体现在哪里呢？ 比如你使用了Toolbar，下面一个ScrollView，向上滚
使用hovertree菜单作为后台导航 hvt JavaScript jquery .net hovertree asp.net
hovertree是一个jquery菜单插件，官方网址：http://keleyi.com/jq/hovertree/ ，可以登录该网址体验效果。 0.1.3版本：http://keleyi.com/jq/hovertree/demo/demo.0.1.3.htm hovertree插件包含文件： http://keleyi.com/jq/hovertree/css
SVG 教程（二）矩形天梯梦 svg
SVG <rect> SVG Shapes SVG有一些预定义的形状元素，可被开发者使用和操作：矩形 <rect> 圆形 <circle> 椭圆 <ellipse> 线 <line> 折线 <polyline> 多边形 <polygon> 路径 <path>
一个简单的队列 luyulong java 数据结构队列
public class MyQueue { private long[] arr; private int front; private int end; // 有效数据的大小 private int elements; public MyQueue() { arr = new long[10]; elements = 0; front
基础数据结构和算法九：Binary Search Tree sunwinner Algorithm
A binary search tree (BST) is a binary tree where each node has a Comparable key (and an associated value) and satisfies the restriction that the key in any node is larger than the keys in all
项目出现的一些问题和体会 Steven-Walker DAO Web servlet
第一篇博客不知道要写点什么，就先来点近阶段的感悟吧。这几天学了servlet和数据库等知识，就参照老方的视频写了一个简单的增删改查的，完成了最简单的一些功能，使用了三层架构。 dao层完成的是对数据库具体的功能实现，service层调用了dao层的实现方法，具体对servlet提供支持。 &
高手问答：Java老A带你全面提升Java单兵作战能力！ ITeye管理员 java
本期特邀《Java特种兵》作者：谢宇，CSDN论坛ID: xieyuooo 针对JAVA问题给予大家解答，欢迎网友积极提问，与专家一起讨论! 作者简介：淘宝网资深Java工程师，CSDN超人气博主，人称“胖哥”。 CSDN博客地址： http://blog.csdn.net/xieyuooo 作者在进入大学前是一个不折不扣的计算机白痴，曾经被人笑话过不懂鼠标是什么，

第三章 回归训练实战（以预测新冠感染人数为例）

完整项目代码（预测第三天的新冠感染人数）

分析

1. 导入必要的库

解析

2. 特征选择函数 get_feature_importance

解析

3. 自定义数据集类 covidDataset

解析

4. 神经网络模型类 myNet

解析

5. 训练与验证函数 train_val

解析

6. 评估函数 evaluate

解析

7. 主程序流程

解析

优化模型训练过程的常用策略

【1】 正则化

深度学习中的正则化

1. 为什么需要正则化？

2. 常见的正则化方法

(1) L1 和 L2 正则化

(2) Dropout

(3) 数据增强

(4) 提前停止（Early Stopping）

(5) Batch Normalization

(6) 正则化激活函数

3. 正则化的作用

4. 如何选择正则化方法？

【2】 特征选择——SelectKBest

1. 什么是 SelectKBest？

2. SelectKBest 的工作流程

3. 常用的评分函数

(1) 卡方检验（Chi-Square, chi2）

(2) F 检验（F-Test, f_classif 和 f_regression）

(3) 互信息（Mutual Information, mutual_info_classif 和 mutual_info_regression）

4. SelectKBest 的实现

示例 1：用于分类任务（卡方检验）

示例 2：用于回归任务（F 检验）

5. SelectKBest 的优点和局限性

优点：

局限性：

6. SelectKBest 在深度学习中的应用

【3】 主成分分析（PCA）

1. 什么是 PCA？

核心思想：

数学目标：

2. PCA 的数学原理

(1) 数据标准化

(2) 计算协方差矩阵

(3) 特征值分解

(4) 按特征值排序

(5) 数据投影

3. PCA 的优点和局限性

优点：

局限性：

4. PCA 在深度学习中的应用

(1) 数据降维

(2) 噪声过滤

(3) 可视化

(4) 特征压缩

5. PCA 的实现

示例 1：基本的 PCA 实现

示例 2：查看主成分的方差解释率

示例 3：手动实现 PCA

6. PCA 的扩展

(1) 核 PCA (Kernel PCA)

(2) 稀疏 PCA (Sparse PCA)

(3) 增量 PCA (Incremental PCA)

【4】归一化

1. 输入数据的归一化

a. Min-Max 归一化

b. Z-Score 归一化

c. 对数变换

2. 神经网络中的归一化方法

a. Batch Normalization（BN）

b. Layer Normalization（LN）

c. Instance Normalization（IN）

d. Group Normalization（GN）

第三章回归训练实战（以预测新冠感染人数为例）

2. 特征选择函数 `get_feature_importance`

3. 自定义数据集类 `covidDataset`

4. 神经网络模型类 `myNet`

5. 训练与验证函数 `train_val`

6. 评估函数 `evaluate`

【1】正则化

【2】特征选择——SelectKBest

1. 什么是 `SelectKBest`？

2. `SelectKBest` 的工作流程

(1) 卡方检验（Chi-Square, `chi2`）

(2) F 检验（F-Test, `f_classif` 和 `f_regression`）

(3) 互信息（Mutual Information, `mutual_info_classif` 和 `mutual_info_regression`）

4. `SelectKBest` 的实现

5. `SelectKBest` 的优点和局限性

6. `SelectKBest` 在深度学习中的应用

【3】主成分分析（PCA）