享子

PyTorch：tensor、torch.nn、autograd、loss等神经网络学习手册（持续更新）

PyTorch¹：tensor²、torch.nn、autograd、loss等神经网络学习手册（持续更新）链接：画图、读写图片

文章目录

一、tensor
二、完整训练过程：数据、模型、可学习参数、保存与加载
- 1、数据data
- - a、构建网络-数据
  - b、补充知识：查看数据集与自定义数据集
  - - 补充1：查看torchvision.datasets下载的数据集
    - 补充2：查看通过torch.utils.data.DataLoader(training_data, batch_size=64, shuffle=True)的数据集
    - 补充3：利用torch.utils.data.Dataset自定义数据集
- 2、模型torch.nn
- 3、查看可学习参数state_dict
- 4、优化模型参数、迭代optim/loss
- 5、保存和加载模型save/load_state_dict
- 6、实例：任意数据处理、训练网络、保存误分图像、灰度图像增强
- - - 第一段程序：得到预期的数据集结构
    - 第二段程序：打包数据、训练模型
    - 第三段程序：查找误分图像并保存
    - 第四段程序：图像增强、针对tensor数据和标签来自定义dataloader、测试
- 7、说明：requires_grad、with torch.no_grad
三、知识点汇总
- 1、反向传播
- 2、图像归一化ToTensor与标准化Normalize、批标准化
- 3、nn.Module类：
- - - add_module,apply,cuda/cpu/to,type,state_dict/load_state_dict,parameters/named_parameters,children/named_children,modules/named_modules,train/eval,required_grad_/zero_grad详细说明
- 4、创建模型
- - - 1、传统方法
    - 2、nn.Sequential创建模型
    - 3、nn.ModuleList创建模型
    - 4、加载并修改已有官方模型
- 5、自动求导机制
- - (1)基础部分
  - (2)backward(gradient=None, retain_graph=None, create_graph=False)
  - (3)backward()方法中设置gradient、retain_graph、create_graph
- 6、CE交叉熵损失函数和softmax函数求导
- 7、激活函数与损失函数
- - 1、激活函数
  - 2、损失函数在神经网络中的使用过程
  - 3、常见的损失函数
  - - (1) nn.CrossEntropyLoss：LogSoftmax+负对数似然损失函数NLLLoss
    - (2) KLDivLoss
    - (3) nn.BCEWithLogitsLoss：Sigmoid+二元交叉熵损失函数BCELoss
  - 4、onehot编码、标签平滑正则化
- 8、优化算法optim类

一、tensor

简介：tensor是torch的一种专门的数据结构，类似于‎‎NumPy的ndarrays‎‎，可以在GPU或其他硬件加速器上运行。在PyTorch中，使用张量对模型的输入和输出以及模型的参数进行编码‎

创建张量(返回tensor结构数据)：tensor,rand/randint/randn/normal/manual_seed,arange,from_numpy,linspace,ones_like
查看属性(tensor数据)：shape,ndim,dtype,is_cuda,device,grad,requires_grad
改变类型：type,type_as
修改形状：view(只能用于内存连续存储/contiguous的张量上),resize,reshape(不依赖于tensor在内存中是不是连续的,≈ tensor.contiguous().view),unsqueeze,squeeze
指定设备：to/cuda
数据转换：辨析cuda,cpu,detach,data,item,numpy
索引切片：gather(在input中选取index位置的值形成相同形状的张量作为输出),scatter(把src指定位置上的值取代input对应index位置的值),where(根据条件进行选择填充),nonzero/argmax/argmin(下标),maximum
合并分割：cat,stack(会在原来的基础上再增加一维),split
元素操作：abs,ceil/floor,round,sigmoid/softmax/tanh
统计分析：max,mean,std,var,median
数学运算包括：+,-,*,/,//,%,sqrt,prod,exp,pow,norm
线性代数：trance,diag,t,inverse,det,
np乘法：vdot,matmul,dot,inner
torch乘法：mul(矩阵对应位相乘),dot(向量对应位相乘再求和),mm(矩阵乘法),mv(AX^T),matmul(向量-向量，矩阵-矩阵，向量-矩阵_{(向量维数前面加上1变成矩阵乘法，相乘后前面的维度被移除)}，矩阵-向量_{(矩阵向量积)})

二、完整训练过程：数据、模型、可学习参数、保存与加载

1、数据data

a、构建网络-数据

加载数据torch.utils.data
（1）数据集来源

自定义数据集：继承torch.utils.data.Dataset，重写__len__和_getitem_[说明1]，[说明2]
官方提供数据集：torchvision/torchaudio/torchtext.datasets.

（2）变成可迭代数据集：torch.utils.data.DataLoader

'''利用官方提供数据集，并将其变成可迭代数据集'''
from torchvision import datasets
from torchvision.transforms import ToTensor
from torch.utils.data import DataLoader

'''Download training data from open datasets.'''
training_data = datasets.FashionMNIST( root="data", train=True, download=True, transform=ToTensor(), )
'''Download test data from open datasets.'''
test_data = datasets.FashionMNIST( root="data", train=False, download=True, transform=ToTensor(), )

batch_size = 64
'''Create data loaders.'''
train_dataloader = DataLoader(training_data, batch_size=batch_size)
test_dataloader = DataLoader(test_data, batch_size=batch_size)

b、补充知识：查看数据集与自定义数据集

补充1：查看torchvision.datasets下载的数据集

1、plt.imshow()可以显示（H,W）对应标量值的图片，即FashionMNIST数据集的灰色图片

print(len(training_data)); print(training_data.classes); print(training_data.class_to_idx)
print(type(training_data[0])); img, label = training_data[0]; print(img.shape, label)
img = training_data[0][0]; label = training_data[0][1]; print(img.shape, label)

import matplotlib.pyplot as plt
import torch
figure = plt.figure(figsize=(8, 8))
cols, rows = 3, 3
for i in range(1, cols * rows + 1):
    sample_idx = torch.randint(len(training_data), size=(1,)).item()
    img, label = training_data[sample_idx]
    figure.add_subplot(rows, cols, i)
    plt.title(training_data.classes[label])
    plt.axis("off")
    plt.imshow(img.squeeze(), cmap="gray")
plt.show()

2、plt.imshow()可以显示(H,W,C=3)的numpy或torch类型的RGB图片。但datasets得到的(C,H,W)，所以需要进行维度改变：torch.permute或np.transpose。或者不用plt.imshow而用PIL.Image.show。如下：

plt.imshow(train_data[0][0].permute(1, 2, 0))
plt.imshow((train_data[0][0].numpy().transpose(1,2,0)))
transforms.ToPILImage()(train_data[0][0]).show()

补充2：查看通过torch.utils.data.DataLoader(training_data, batch_size=64, shuffle=True)的数据集

i = 0
for X, y in train_dataloader: 
    print(y); i += 1
    if i == 2: break

from collections.abc import Iterable
print(isinstance(training_data, Iterable) == True)
train_features, train_labels = next(iter(train_dataloader))#一个批次64张图片
print(f"Feature batch shape: {train_features.size()}")#[N, C, H, W]: torch.Size([64, 1, 28, 28])
print(f"Labels batch shape: {train_labels.size()}")
img = train_features[0].squeeze(); label = train_labels[0]#查看第一个批次的第一张图片
plt.imshow(img, cmap="gray")
plt.show()

补充3：利用torch.utils.data.Dataset自定义数据集

常用数据集的形式如下：标签是包含图片的文件夹的名字(左)；图片在一个文件夹，需要创建一个标签文件夹，里面的txt文件与图片同名，且里面内容为标签(右)。

a、对于左图数据形式，继承Dataset类来自定义数据集，等价于torchvision.datasets.ImageFolder函数

import os      
from PIL import Image
from torch.utils.data import Dataset, DataLoader
import torchvision.transforms as transforms
# from torchvision.io import read_image

transform = transforms.Compose([transforms.Resize((300, 300)), transforms.ToTensor()])
class MyDataset(Dataset):
    def __init__(self, root_dir, lable_dir, transform=None, target_transform=None):
        self.root_dir = root_dir
        self.lable_dir = lable_dir
        self.path = os.path.join(self.root_dir, self.lable_dir)
        self.img_path = os.listdir(self.path)
    	self.transform = transform
    	self.target_transform = target_transform
    	
    def __getitem__(self, index):
        img = Image.open(os.path.join(self.path, self.img_path[index]))#得到PIL.JpegImagePlugin.JpegImageFile
        # img = read_image(os.path.join(self.path, self.img_path[index]))#得到torch数据类型，(C, H, W)，使用该读取方式则不需要self.transform
        label = os.path.split(self.lable_dir)[1]
        if self.transform:
        	image = self.transform(image)#将PIL图片转为torch数据类型：(C, H, W)in the range [0.0, 1.0]，C为RGB，H=W=300
    	if self.target_transform:
        	label = self.target_transform(label)
        return img, label  # 返回图片和标签

    def __len__(self):
        return len(self.img_path)
        
root_path = 'hymenoptera_data'; 
train_ants_path = 'train/ants'; train_bees_path = 'train/bees'
val_ants_path = 'val/ants'; val_bees_path = 'val/bees'

train_ants = MyDataset(root_path, train_ants_path, transforms=transform)
train_bees = MyDataset(root_path, train_bees_path, transforms=transform)
val_ants = MyDataset(root_path, val_ants_path, transforms=transform)
val_bees = MyDataset(root_path, val_bees_path, transforms=transform)
train_img = train_ants + train_bees; val_img = val_ants + val_bees

train_ants_img, train_ants_lable = train_img[0] # 查看数据
import torchvision
import matplotlib.pyplot as plt
img = torchvision.transforms.ToPILImage()(train_img[0][0]) #将(C, H, W)torch数据类型图片转成PIL图片,且数值范围从[0,1]变成ToTensor之前的值(原始值)
img.show()#用PIL展示  
# plt.imshow(img)
# plt.show()#用matplotlib展示

train_ants_dataloader = DataLoader(dataset=train_ants, batch_size=10)
for X,Y in train_ants_dataloader: # 一个批次10张图片
    print(len(X), X[0].shape,)
    img = torchvision.transforms.ToPILImage()(X[0]) #将(C, H, W)torch数据类型图片转成PIL图片,且数值范围从[0,1]变成ToTensor之前的值(原始值)
    img.show()#用PIL展示
    break

b、对于右图数据形式：

# 创建一个包含与图片同名的txt文件的标签文件夹
import os
root_dir = 'hymenoptera_data1/train' # 以处理train/ants为例，还需要train/bees, val/ants, val/bees
target_dir = 'ants_image'
img_path = os.listdir(os.path.join(root_dir, target_dir))
label = target_dir.split('_')[0]
out_dir = 'ants_label'
for i in img_path:
    file_name = i.split('.jpg')[0]
    with open(os.path.join(root_dir, out_dir,"{}.txt".format(file_name)),'w') as f:
        f.write(label)  #w：如果没有这个文件，就新建一个；如果有，就把原文件清空再写入新内容
        
# 利用右图数据继承Dataset类来自定义数据集 
from torch.utils.data import Dataset, DataLoader
from PIL import Image
from torchvision import transforms

class MyData(Dataset):
    def __init__(self, root_dir, image_dir, label_dir, transform=None, target_transform=None):
        self.root_dir = root_dir
        self.image_dir = image_dir
        self.label_dir = label_dir
        self.label_path = os.path.join(self.root_dir, self.label_dir)
        self.image_path = os.path.join(self.root_dir, self.image_dir)
        self.image_list = os.listdir(self.image_path)
        self.label_list = os.listdir(self.label_path)
        self.transform = transform
    	self.target_transform = target_transform
        # 因为label 和 Image文件名相同，进行一样的排序，可以保证取出的数据和label是一一对应的
        self.image_list.sort()
        self.label_list.sort()

    def __getitem__(self, idx):
        img_name = self.image_list[idx]
        label_name = self.label_list[idx]
        img_item_path = os.path.join(self.root_dir, self.image_dir, img_name)
        label_item_path = os.path.join(self.root_dir, self.label_dir, label_name)
        img = Image.open(img_item_path)
        with open(label_item_path, 'r') as f:
            label = f.readline()
        if self.transform:
        	image = self.transform(image)
    	if self.target_transform:
        	label = self.target_transform(label)
        return img, label

    def __len__(self):
        assert len(self.image_list) == len(self.label_list)
        return len(self.image_list)

transform = transforms.Compose([transforms.Resize(400), transforms.ToTensor()])
root_dir = 'hymenoptera_data1/train' # 以处理train/(ants、bees)为例，还需要val/(ants、bees)
image_ants, label_ants = "ants_image",  "ants_label"
ants_dataset = MyData(root_dir, image_ants, label_ants, transform=transform)
image_bees, label_bees = "bees_image", "bees_label"
bees_dataset = MyData(root_dir, image_bees, label_bees, transform=transform)
train_img = train_ants + train_bees

2、模型torch.nn

PS1：（1）torch.nn的Conv2d是一个类(内部定义好weight, bias变量，由于继承自nn.Module所以能与nn.Sequential结合使用)，（2）torch.nn.functional的conv2d是一个函数，（3）类实例化self.conv1后self.conv1(x)时执行了forward()函数。（4）定义网络时如果层内有Variable则用nn(当定义有变量参数的层时比如conv2d, linear, batch_norm)，反之用nn.functional(可以在其基础上自定义功能)

#导入必要的包
import torch
import torch.nn as nn
import torch.nn.functional as F

device = "cuda" if torch.cuda.is_available() else "cpu"
class Net(nn.Module):
    def __init__(self):#定义和初始化网络
      super(Net, self).__init__()#对继承自父类nn.Module的属性进行初始化，类似于Module.__init__()
      self.conv1 = nn.Conv2d(1, 32, 3, 1)
      self.conv2 = nn.Conv2d(32, 64, 3, 1)
      self.dropout1 = nn.Dropout2d(0.25)
      self.dropout2 = nn.Dropout2d(0.5)
      self.fc1 = nn.Linear(9216, 128)
      self.fc2 = nn.Linear(128, 10)

    def forward(self, x):#定义数据传播过程，前向传播，x代表数据
      x = self.conv1(x)
      x = F.relu(x)
      x = self.conv2(x)
      x = F.relu(x)
      x = F.max_pool2d(x, 2)
      x = self.dropout1(x)
      x = torch.flatten(x, 1)#Flatten x with start_dim=1，此时shape=(batch, c*w*h)
      x = self.fc1(x)
      x = F.relu(x)
      x = self.dropout2(x)
      x = self.fc2(x)
      output = F.log_softmax(x, dim=1)
      return output

random_data = torch.rand((1, 1, 28, 28)).to(device)#测试模型确保是想要的输出，one random 28x28 image
my_nn = Net().to(device); print(my_nn)
result = my_nn(random_data); print (result)

3、查看可学习参数state_dict

import torch.optim as optim
optimizer = optim.SGD(my_nn.parameters(), lr=0.001, momentum=0.9)
# 上述创建好了模型和随机梯度下降优化器，分别查看它们的参数
print("Model's state_dict:")
for param_tensor in my_nn.state_dict():
    print(param_tensor, "\t", my_nn.state_dict()[param_tensor].size())
for name,param in my_nn.state_dict(keep_vars=True).items():#和上面相同，另外加入keep_vars=True后，requires_grad的打印结果才正确
    print(name,"\t",param.shape,param.requires_grad)

print("Optimizer's state_dict:")
for var_name in optimizer.state_dict():
    print(var_name, "\t", optimizer.state_dict()[var_name])

4、优化模型参数、迭代optim/loss

在每次迭代中：训练过程用训练集³来学习参数以便做出更好的预测，验证过程用验证集⁴来打印模型的准确性和损失

loss_fn = nn.NLLLoss().to(device)#定义优化器（上面）和损失函数

def train(dataloader, model, loss_fn, optimizer):
    size = len(dataloader.dataset)
    my_nn.train()
    for batch, (X, y) in enumerate(dataloader):
        X, y = X.to(device), y.to(device)
        #计算预测误差
        pred = my_nn(X)
        loss = loss_fn(pred, y)
        #反向传播
        optimizer.zero_grad()#将上次迭代计算的梯度值清0
        loss.backward()#反向传播，计算梯度值
        optimizer.step()#更新权值参数
        # print输出格式说明：print(f"a={a:$>8.3f}")#右对齐，共8位，其中三位小数，不够的位数用$填充，默认空格填充
        if batch % 100 == 0:
            loss, current = loss.item(), batch * len(X)
            print(f"loss: {loss:>7f}  [{current:>5d}/{size:>5d}]") 

def test(dataloader, model, loss_fn):
    size = len(dataloader.dataset)
    num_batches = len(dataloader)
    model.eval()
    test_loss, correct = 0, 0
    with torch.no_grad():
        for X, y in dataloader:
            X, y = X.to(device), y.to(device)
            pred = my_nn(X)
            test_loss += loss_fn(pred, y).item()
            correct += (pred.argmax(1) == y).type(torch.float).sum().item()
    test_loss /= num_batches
    correct /= size
    print(f"Test Accuracy: {(100*correct):>0.1f}%, Avg loss: {test_loss:>8f} \n")

epochs = 1
for t in range(epochs):
    print(f"Epoch {t+1}\n-------------------------------")
    train(train_dataloader, my_nn, loss_fn, optimizer)
    test(test_dataloader, my_nn, loss_fn)
print("Done!")

5、保存和加载模型save/load_state_dict

PATH = "state_dict_model.pt" # 约定.ph或.pth拓展名
torch.save(my_nn.state_dict(), PATH) # 保存模型

model = Net() # 加载模型
model.load_state_dict(torch.load(PATH)) # load_state_dict接受字典数据而不是路径

# 利用加载的模型进行预测
model.eval() # set dropout and batch normalization layers to evaluation mode before running inference
x, y = next(iter(test_dataloader))
test_loss, correct = 0, 0
with torch.no_grad():
    x, y = x.to(device), y.to(device)
    pred = my_nn(x)
    test_loss = loss_fn(pred, y).item()
    correct = (pred.argmax(1) == y).type(torch.float).sum().item()
correct /= len(x)
print(f"Test Accuracy: {(100*correct):>0.1f}%, Avg loss: {test_loss:>8f} \n")

6、实例：任意数据处理、训练网络、保存误分图像、灰度图像增强

第一段程序：得到预期的数据集结构

jpg_to_png、数据集划分：形成上面补充3中左图的数据集结构

注意：这样处理数据后，后面构建dataloader时一定要设置shuffle=True，否则网络只会学成前面的预测为一类，后面的预测为另一类

import os
import shutil
import cv2
from torch.utils.tensorboard import SummaryWriter
from sklearn.model_selection import train_test_split
import re    
import numpy as np 
from PIL import Image
from torch.utils.data import Dataset, DataLoader
import torchvision.transforms as transforms
import torchvision
import matplotlib.pyplot as plt
import torch
from torchvision.models import resnet18 
import torch.optim as optim
import torch.nn as nn
import torch.nn.functional as F
os.environ["KMP_DUPLICATE_LIB_OK"]="TRUE"
plt.rcParams['font.sans-serif'] = ['SimHei']# 画图时手动选择字体，显示中文标签。SimHei 中文黑体 Kaiti 中文楷体 FangSong 中文仿宋
plt.rcParams['font.size'] = 7#设置字体大小
'''创建文件夹'''
def mkdir(path):
    folder = os.path.exists(path)
    if not folder:
        os.makedirs(path)
'''将文件夹input_path下的jpg图片转为png图片，并保存到output_path文件夹中'''
def jpg_to_png(input_path, output_path):
    for root, dirs, files in os.walk(input_path):#->Iterator[tuple( AnyStr(dirpath), list[AnyStr(dirnames)], list[AnyStr(filenames)] )]
        for name in files:
            file = os.path.join(root, name)
            im = cv2.imread(file)
            if output_path:cv2.imwrite(os.path.join(output_path, name.replace('jpg', 'png')), im)
            else:cv2.imwrite(file.replace('jpg', 'png'), im)    
'''将dic_path文件夹下的数据按8:2(函数中test_size更改比例)划分为训练集和测试集，分别保存到train_path和val_path文件夹下'''
def split_for_dic(dic_path, train_path, val_path):
    file_pathes = os.listdir(dic_path)
    # 获取文件夹下所有 png 格式的图像的名称（不包含后缀名）
    img_names = []
    for file_path in file_pathes:
        if os.path.splitext(file_path)[1] == ".png":
            file_name = os.path.splitext(file_path)[0]
            img_names.append(file_name)
    # 划分训练集和验证集
    train_set, val_set = train_test_split(img_names, test_size=0.2, random_state=42)
    print(f"train_set size: {len(train_set)}, val_set size: {len(val_set)}, {dic_path} size:{len(train_set)+len(val_set)}")
    # 得到训练集
    for file_name in train_set:
        img_src_path = os.path.join(dic_path, file_name+".png")
        img_dst_path = os.path.join(train_path, file_name+".png")
        shutil.copyfile(img_src_path, img_dst_path)#->Copy data from src to dst
    # 得到验证集
    for file_name in val_set:
        img_src_path = os.path.join(dic_path, file_name+".png")
        img_dst_path = os.path.join(val_path, file_name+".png")
        shutil.copyfile(img_src_path, img_dst_path)#->Copy data from src to dst

if __name__ == "__main__":
	'''形成上面补充3中左图的数据集文件夹形式'''
	jpg_to_png("./allFake", "./allFake_png"); jpg_to_png("./allReal", "./allReal_png")
	#将第一类数据(fake)划分训练集和验证集							   #将第二类数据(real)划分训练集和验证集
	split_for_dic("./allFake_png", "./train/fake", "./val/fake")； split_for_dic("./allReal_png", "./train/real", "./val/real")

第二段程序：打包数据、训练模型

（1）用封装好的ImageFolder和DataLoader函数处理上面得到的结构的数据集，ImageFolder等价于上面补充3的代码将该数据集表示为data对应label的train_data/test_data的形式
（2）训练模型：用官方提供的各种网络，查看网络print_net，训练train，测试test，多少代main(epochs=10)

device = "cuda" if torch.cuda.is_available() else "cpu"
'''用封装好的ImageFolder和DataLoader函数处理该数据集'''
transform_train = transforms.Compose([
    transforms.RandomCrop(112, padding=4),
    transforms.RandomHorizontalFlip(),
    transforms.ToTensor(),
    transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5)),])
transform_test = transforms.Compose([
    transforms.ToTensor(),
    transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5)),])#matplotlib显示[0,255]及[0,1]数据，所以transform后若马上显示要im/2+0.5

def print_net():
    net = resnet18(weights=None, num_classes=2).to(device)
    optimizer = optim.SGD(net.parameters(), lr=0.001, momentum=0.9)
    # 上述创建好了模型和随机梯度下降优化器，分别查看它们的参数
    print("Model's state_dict:")
    for param_tensor in net.state_dict():
        print(param_tensor, "\t", net.state_dict()[param_tensor].size())
    print("Optimizer's state_dict:")
    for var_name in optimizer.state_dict():
        print(var_name, "\t", optimizer.state_dict()[var_name])

    random_data = torch.rand((64, 3, 28, 28)).to(device)
    result = net(random_data)
    print(net)
    print(result)
    print (result.size())
# print_net()

def train(dataloader, net, loss_fn, optimizer, epoch):
    size = len(dataloader.dataset)
    num_batches = len(dataloader)
    net.train()
    for batch, (X, y) in enumerate(dataloader):
        X, y = X.to(device), y.to(device)
        #计算预测误差
        pred = net(X)
        loss = loss_fn(pred, y)
        #反向传播
        optimizer.zero_grad()#将上次迭代计算的梯度值清0
        loss.backward()#反向传播，计算梯度值
        optimizer.step()#更新权值参数
        # print输出格式说明：print(f"a={a:$>8.3f}")#右对齐，共8位，其中三位小数，不够的位数用$填充，默认空格填充
        if batch % 100 == 0:
            loss, current = loss.item(), batch * len(X)
            print(f"loss: {loss:>7f}  [{current:>5d}/{size:>5d}]") 
            '''每训练100批次测试一次，和下面二选一，下面表示只测试20个测试集批次以节省时间'''
            # test(test_dataloader, net, loss_fn)
            with torch.no_grad():
                i = 0
                for x, y in test_dataloader: 
                    i += 1
                    if i == 20: break
                    test_loss, correct = 0, 0
                    x, y = x.to(device), y.to(device)
                    pred = net(x)
                    test_loss = loss_fn(pred, y).item()
                    correct = (pred.argmax(1) == y).type(torch.float).sum().item()
                correct /= len(x)
                print(f"Test Accuracy: {(100*correct):>0.2f}%, Avg loss: {test_loss:>8f} \n")
            PATH = "./model/state_dict_model"+str(epoch*num_batches+batch)+".pt" # 约定.ph或.pth拓展名
            torch.save(net.state_dict(), PATH) # 保存模型
            
def test(dataloader, net, loss_fn):
    size = len(dataloader.dataset)
    num_batches = len(dataloader)
    net.eval()
    test_loss, correct = 0, 0
    with torch.no_grad():
        for X, y in dataloader:
            X, y = X.to(device), y.to(device)
            pred = net(X)
            test_loss += loss_fn(pred, y).item()
            correct += (pred.argmax(1) == y).type(torch.float).sum().item()
    test_loss /= num_batches
    correct /= size
    print(f"Test Accuracy: {(100*correct):>0.1f}%, Avg loss: {test_loss:>8f} \n")
    
def main(epochs=10):
    for t in range(epochs):
        print(f"Epoch {t+1}\n-------------------------------")
        train(train_dataloader, net, loss_fn, optimizer, epoch=t)
        test(test_dataloader, net, loss_fn)
        # PATH = "./model/state_dict_model"+t+".pt" # 约定.ph或.pth拓展名
        # torch.save(net.state_dict(), PATH) # 保存模型
    print("Done!")
    
if __name__ == "__main__":
	train_data = torchvision.datasets.ImageFolder(root='./train/', transform=transform_train)
	test_data = torchvision.datasets.ImageFolder(root='./val/', transform=transform_test)
	batch_size = 64
	train_dataloader = DataLoader(train_data, batch_size=batch_size, shuffle=True)
	test_dataloader = DataLoader(test_data, batch_size=batch_size, shuffle=True)
	print("train_data:", len(train_data), train_data.classes, train_data.class_to_idx)
	print("test_data:", len(test_data), test_data.classes, test_data.class_to_idx)
	
	net = resnet18(weights=None, num_classes=2).to(device)
	optimizer = optim.SGD(net.parameters(), lr=0.001, momentum=0.9)
	loss_fn = nn.CrossEntropyLoss().to(device)
	
	main(epochs=10)

第三段程序：查找误分图像并保存

加载模型和测试集、测试函数中ToPILImage保存误识别图片

def test_mis_pic(dataloader, net, loss_fn):
    size = len(dataloader.dataset)
    num_batches = len(dataloader)
    mis_feature, mis_label, mis_pred, mis_dataloder = [], [], [], []
    net.eval()
    test_loss, correct = 0, 0
    with torch.no_grad():
        for i, (X, y) in enumerate(dataloader, start=1):
            X, y = X.to(device), y.to(device)
            pred = F.softmax(net(X), dim=1)
            test_loss += loss_fn(net(X), y).item()
            correct += (pred.argmax(1) == y).type(torch.float).sum().item()
            #取误识别样本和相应的模型输出
            mis_X = X[(pred.argmax(1) != y)].cpu().data
            mis_y = y[(pred.argmax(1) != y)].cpu().data

            mis_feature.append(mis_X)
            mis_label.append(mis_y)
            mis_dataloder.append((mis_X, mis_y))
            mis_pred.append(pred[(pred.argmax(1) != y)].cpu().data)
            # if i == 10: print(len(mis_dataloder), mis_dataloder[i-1][0].size(), mis_dataloder[i-1][1].size()); break; 
    test_loss /= num_batches
    correct /= size
    mis_feature = torch.cat(mis_feature, dim=0)
    mis_label = torch.cat(mis_label, dim=0)
    mis_pred = torch.cat(mis_pred, dim=0)
    mis_pre_lab = torch.cat((mis_pred, mis_label.unsqueeze(1)), dim=1)
    print(f"mis_feature:{mis_feature.shape}, mis_label:{mis_label.shape}, mis_pred:{mis_pred.shape}, mis_pre_lab:{mis_pre_lab.shape}")
    print(f"Test Accuracy: 1-{len(mis_label)}/{size}={(100*correct):>0.1f}%, Avg loss: {test_loss:>8f} \n")
    
    '''保存误识别的图片，关注保存了哪些东西，上面的mis_feature、mis_label 、mis_pred 、 mis_pre_lab 都可用用于返回'''
    mis_feature = mis_feature/2+0.5
    for i, pic in enumerate(mis_feature):
        pic = torchvision.transforms.ToPILImage()(pic)
        if mis_pre_lab[i][2] == 0.0:
            os.makedirs(r"./mispic/fake/"); path = "./mispic/fake/"+str(mis_pre_lab[i])+".png"
        else:
            os.makedirs(r"./mispic/real/"); path = "./mispic/real/"+str(mis_pre_lab[i])+".png"
        pic.save(path)
        
if __name__ == "__main__":
	device = "cuda" if torch.cuda.is_available() else "cpu"
	torch.manual_seed(0)
	PATH="./model/state_dict_model100.pt"
	net = resnet18(weights=None, num_classes=2).to(device) # 加载模型
	net.load_state_dict(torch.load(PATH)) # load_state_dict接受字典数据而不是路径
	loss_fn = nn.CrossEntropyLoss().to(device)
	transform_test = transforms.Compose([transforms.ToTensor(),transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))])
	test_data = torchvision.datasets.ImageFolder(root='./val/', transform=transform_test)
	batch_size = 64
	test_dataloader = DataLoader(test_data, batch_size=batch_size, shuffle=True)
	print(f"test_data:{len(test_data)}, num_batches:{len(test_dataloader)}, class:{test_data.classes}, class_idx:{test_data.class_to_idx}")
	
	test_mis_pic(test_dataloader, net, loss_fn)

第四段程序：图像增强、针对tensor数据和标签来自定义dataloader、测试

误分图像或测试集图像经灰度图像增强再放入模型测试(可挪用到先增强后训练，或许能提高效果)
（1）图像增强(各种变换函数)，下面transGray函数展示了如何使用变换函数；

'''灰度图像增强部分：各种变换可以组合使用。
#灰度变换之线性变换：t=a*x+b,s源灰度值,t目标灰度值
#a>1，原图的灰度值之间的差距被拉大了，即图片中明暗的差距更大(增加对比度)，反之a<1减小对比度
#b，原图整体太亮或太暗，调整b的值使图像一开始处于合适的灰度值'''
def linearGray(img, a=1.2, b=10, showPlt=True, showPlt_i=None):
    newImg = img
    newImg = a * img + b
    newImg[newImg>255] = 255; newImg[newImg<0] = 0
    newImg = np.uint8(newImg)
    if showPlt:
        x = np.arange(0, 256, 0.01)
        y = a * x + b
        plt.subplot(5,4,4*showPlt_i+1)
        plt.plot(x, y, 'r', linewidth=1)
        plt.title(u'线性变换函数')
        plt.xlim(0, 255), plt.ylim(0, 255)
    return newImg

'''灰度变换之对数变换：提升低亮区域，压缩高亮区域，使低亮区域的特征更加突出明显，即非线性改变对比度。t=c*lg(1+s)'''
def logGray(img, c=40, showPlt=True, showPlt_i=None):
    newImg = c * np.log(1.0 + img)
    newImg[newImg>255] = 255; newImg[newImg<0] = 0
    newImg = np.uint8(newImg)
    if showPlt:
        x = np.arange(0, 256, 0.01)
        y = c * np.log(1 + x)
        plt.subplot(5,4,4*showPlt_i+1)
        plt.plot(x, y, 'r', linewidth=1)
        plt.title(u'对数变换函数')
        plt.xlim(0, 255), plt.ylim(0, 255)
    return newImg

'''灰度变换之指数变换：图片低亮度区域将被压缩，高亮度区域将被扩展。t=b^[c*(x-a)]-1'''
def indexGray(img, c=0.41, b=1.06, a=20, showPlt=True, showPlt_i=None):
    newImg = b ** (c * (img - a)) - 1
    newImg[newImg>255] = 255; newImg[newImg<0] = 0
    newImg = np.uint8(newImg)
    if showPlt:
        x = np.arange(0, 256, 0.01)
        y = b ** (c * (x - a)) - 1
        plt.subplot(5,4,4*showPlt_i+1)
        plt.plot(x, y, 'r', linewidth=1)
        plt.title(u'指数变换函数')
        plt.xlim(0, 255), plt.ylim(0, 255)
    return newImg

'''灰度变换之gamma变换（幂变换）：对漂白（相机曝光）或过暗（曝光不足）的图片进行矫正。t=(s+esp)^γ'''
def gammaGray(img, esp=0, gama=2.5, showPlt=True, showPlt_i=None):
    newImg = pow(img/255 + esp, gama)*255
    newImg[newImg>255] = 255; newImg[newImg<0] = 0
    newImg = np.uint8(newImg)
    if showPlt:
        x = np.arange(0, 256, 0.01)
        y = pow(x/255 + esp, gama)*255
        plt.subplot(5,4,4*showPlt_i+1)
        plt.plot(x, y, 'r', linewidth=1)
        plt.title(u'gamma变换函数')
        plt.xlim(0, 255), plt.ylim(0, 255)
    return newImg

'''灰度变换之直方图均衡化：适用于整体偏暗或者偏亮的情况，可以使得整幅图像的灰度值份均匀分布在整个动态范围[0,255]之内(直方图呈均匀分布)，从而增加图像的对比度。'''
def equalize_hist(img, showPlt=True, nbr_bins=256, showPlt_i=True, other_trans=linearGray):
    # 图像直方图统计
    imhist, bins = np.histogram(img.flatten(), nbr_bins)
    # 累积分布函数
    cdf = imhist.cumsum()
    cdf = 255.0 * cdf / cdf[-1]
    # 使用累积分布函数的线性插值，计算新的像素值
    newImg = (np.interp(img.flatten(), bins[:-1], cdf)).reshape(img.shape)  # 分段线性插值函数
    if other_trans != None:
        newImg = other_trans(newImg, showPlt=False)#容易太亮，和其他变换组合使用
    if showPlt:
        plt.subplot(5,4,4*showPlt_i+1)
        plt.hist(img.flatten(), 256, label='源图片直方图')
        plt.hist(newImg.flatten(), 256, label='变换后直方图')
        plt.plot(cdf, color='r', label='累计分布函数')# 显示累积分布函数
        plt.legend()#显示图例
        plt.title(u'直方图均衡化')
    return np.uint8(newImg)

'''将一张图片分布经上述五种灰度变换，再经网络模型得到经变换后的图片的预测类别'''
def transGray(path, label):
    data, label= [],label 
    im = np.asarray(Image.open(path))
    plt.figure(figsize=(10, 12))
    plt.subplots_adjust(left=None, bottom=0.1, right=None, top=0.9, wspace=None, hspace=0.5)
    '''一张图片经单个变换函数'''
    # plt.figure(figsize=(15, 5))
    # im1 = equalize_hist(im, showPlt=False)#变换函数组合使用
    # im1 = linearGray(im)
    # plt.subplot(1,3,2); plt.imshow(im); plt.title(os.path.split(path)[1])
    # plt.subplot(1,3,3); plt.imshow(im1); plt.title("灰度变换")
    # plt.show()
    ''' 一张图片经各个变换函数'''
    transfun = {'linearGray':'linearGray', 'logGray':'logGray', 'indexGray':'indexGray', 'gammaGray':'gammaGray', 'equalize_hist':'equalize_hist'}
    for i, (key,value) in enumerate(transfun.items()):
        im1 = eval(value+'(im, showPlt_i=i)')
        data.append(im1)
        plt.subplot(5,4,4*i+2); plt.imshow(im); plt.title(os.path.splitext(os.path.split(path)[1])[0]+"label", bbox=dict(edgecolor='blue', alpha=0.1))
        plt.subplot(5,4,4*i+3); plt.imshow(im1); plt.title(key, rotation=0, bbox=dict(facecolor='y', edgecolor='blue', alpha=0.3))
    # plt.show()
    return data, label

（2）下面class MyDataset(Dataset)展示了如何将tensor类型数据和标签处理成想要的数据（ImageFolder也是继承Dataset，但它是针对补充3结构的数据）

'''自定义Dataset。因为需要将某张误识别的数据经“各种灰度变换”得到"一批对应的变换后的数据list"，再放入Dataset，再传入DataLoader'''
class MyDataset(Dataset):
    def __init__(self, data, label, transform=None, target_transform=None):
        self.data = data
        self.label = label
        self.transform = transform
        self.target_transform = target_transform	
    def __getitem__(self, index):
        img = self.data[index]
        label = self.label
        if self.transform:
            img = self.transform(img)#将图片转为torch数据类型：(C, H, W)in the range [0.0, 1.0]，C为RGB
        if self.target_transform:
            label =self.target_transform(label)
        # plt.subplot(5,4,4*(index+1)); plt.imshow(img.permute(1, 2, 0)); plt.title(label)
        return img, label  # 返回图片和标签
    def __len__(self):
        return len(self.data)

（3）for每张误分类图片——>5种变换后打包成dataloader(只包含一个批次)——>测试得预测结果；计算所有图片每种变换下的准确率

'''测试DataLoader的函数'''
def test(dataloader, net):
    trans_pred, trans_pred_label = [], []
    net.eval()
    with torch.no_grad():
        for i, (X, y) in enumerate(dataloader):
            X, y = X.to(device), y.to(device)
            pred = F.softmax(net(X), dim=1)
            pred_label = pred.argmax(1)
            trans_pred.append(pred)
            trans_pred_label.append(pred_label)
 
    trans_pred = torch.cat(trans_pred, dim=0)
    trans_pred_label = torch.cat(trans_pred_label, dim=0)
    cat_pred_label = torch.cat((trans_pred, trans_pred_label.unsqueeze(1)), dim=1)
    return(cat_pred_label)
    
if __name__ == "__main__":
	import time
	start=time.time()
	'''获取误分类的图片(或测试集图片)路径和标签'''
	fake_paths = os.walk("./mispic/fake"); real_paths = os.walk("./mispic/real")
	fakefile = next(fake_paths); realfile = next(real_paths)
	a=[fakefile[0]+'/'+i for i in fakefile[2]]; b=[realfile[0]+'/'+i for i in realfile[2]]
	all_path = a+b; all_label = list(map(float, re.findall("0.0000|1.0000", "".join(all_path))))  
	if fakefile[0]=="./val/fake":all_label =  [0]*len(a)+[1]*len(b)#对于测试集，直接得到标签
	print("待测试图片的路径及图片数：", fakefile[0], len(a), '\t', realfile[0], len(b), '\t', len(all_path), len(all_label))
	'''最终需要输出的结果'''
	mis_final_pred = []
	linearGray_correct, logGray_correct, indexGray_correct, gammaGray_correct, equalize_hist_correct = 0, 0, 0, 0, 0  
	correct = [linearGray_correct, logGray_correct, indexGray_correct, gammaGray_correct, equalize_hist_correct] 
	'''加载模型'''
	PATH="./model/state_dict_model7729.pt"
	net = resnet18(weights=None, num_classes=2).to(device) # 加载模型
	net.load_state_dict(torch.load(PATH)) # load_state_dict接受字典数据而不是路径
	loss_fn = nn.CrossEntropyLoss().to(device)
	transform_test = transforms.Compose([transforms.ToTensor(),transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))])
	'''开始测试：对所有图片'''
	for b, path_label in enumerate(zip(all_path, all_label)):
	    # path = r"mispic\fake\tensor([0.3263, 0.6737, 0.0000]).png"; label = torch.tensor(0)
	    path, label = path_label[0], path_label[1]
	    #都进行五种灰度变换
	    trans_data, trans_label = transGray(path, label)
	    #每张图片都经五种变换作为一个批次打包成dataloader
	    mis_trans_data = MyDataset(trans_data, trans_label, transform=transform_test, target_transform=None)
	    batch_size = 5  #5种变换共5张图片
	    mis_trans_dataloader = DataLoader(mis_trans_data, batch_size=batch_size, shuffle=False)
	    #变换好的图片（DataLoader(只有一个批次)里的数据）给网络测试
	    pred_label = test(mis_trans_dataloader, net); mis_final_pred.append(pred_label)
	    #查看测试结果
	    train_features, train_labels = next(iter(mis_trans_dataloader))# print(f"Feature batch shape: {train_features.size()}")#[N, C, H, W]
	    for i in range(len(trans_data)):
	        img = train_features[i]; label = train_labels[i]#查看经变换后的第一个批次的所有图片
	        # plt.subplot(5,4,4*(i+1)); plt.imshow((img).permute(1, 2, 0))
	        # plt.title("NormalTo[-1,1]_"+str(pred_label[i,:])+"pre", bbox=dict(edgecolor='blue', alpha=0.1))
	        plt.subplot(5,4,4*(i+1)); plt.imshow((img/2+0.5).permute(1, 2, 0))
	        plt.title(str(pred_label[i,:])+"pre", bbox=dict(edgecolor='blue', alpha=0.1))#plt.imshow((img/2+0.5)
	    plt.suptitle(os.path.splitext(os.path.split(path)[1])[0]+"————5trans————"+str(mis_final_pred[b][:,-1]), bbox=dict(edgecolor='red', alpha=0.8))
	    #plt.show()#是否显示图片
	    plt.close("all")
	    #是否保存图片
	    # filePath = os.path.splitext(os.path.split(path)[1])[0]+"——》"+str(mis_final_pred[b][:,-1])+".png"; plt.savefig(filePath)  
	    # img_PIL = Image.open(filePath); img_PIL.show()
	    #以下用来对     误分类或测试集 经 灰度变换后 来批测试，计算 各种灰度变换后 的准确率
	    for i, trans_correct in enumerate(correct):
	        correct[i] += (all_label[b] == mis_final_pred[b][i][-1]).type(torch.float).item()
	    # if b == 1: break #b代表测试的图片数量
	
	print("被测试的图片数量：", len(all_label[:b+1]), '\t', "预测数量：", len(mis_final_pred[:b+1]), '\t', "每个预测输出数量", len(mis_final_pred[0])); 
	print([i for i in correct])
	correct = list(map(lambda x:x/len(all_label[:b+1]), correct))  
	print(f"linearGray Test Accuracy: {(100*correct[0]):>0.2f}%")
	print(f"logGray Test Accuracy: {(100*correct[1]):>0.2f}%")
	print(f"indexGray Test Accuracy: {(100*correct[2]):>0.2f}%")
	print(f"gammaGray Test Accuracy: {(100*correct[3]):>0.2f}%")
	print(f"equalize_hist Test Accuracy: {(100*correct[4]):>0.2f}%")
	end=time.time()
	print('Running time: %ss, 即: %dmin, %ds'%(end-start, (end-start)/60, (end-start)%60))

7、说明：requires_grad、with torch.no_grad

requires_grad是tensor的一个属性。构建网络时没有直接看见将tensor设置requires_grad=True，实际上用torch.nn构建网络时，内部定义好的weight/bias变量是可导的，是通过torch.nn.parameter里面requires_grad=True实现的
@no_grad()等价于with torch.no_grad():，之后的内容不进行计算图构建（测试时只进行了前向传播而没有反向传播，因此两者计算的结果实际上是没有区别的），但可以加速运算和节省GPU显存空间

三、知识点汇总

1、反向传播

反向传播算法⁵的核心是代价函数C对网络中参数（各层的权重w和偏置b）的偏导表达式 $\frac{\partial C}{\partial w}$ 和 $\frac{\partial C}{\partial b}$

2、图像归一化ToTensor与标准化Normalize、批标准化

(1) 什么是图像归一化与标准化：

先transforms.ToTensor
：数据通过除以255归一化到0~1，类似的还有sigmoid函数)，
然后transforms.Normalize
mean=(0.485, 0.456, 0.406)，std=(0.229, 0.224, 0.225))：假设原数据是正态分布，通过(x-mean(x))/std(x)标准化到均值为0、标准差为1的标准正态分布
- 补充1：上述mean和std是根据ImageNet数据集随机数百万张图像计算得出的，因此只针对ImageNet数据集
- 补充2：mean和std参数值需要对自己的数据集进行计算得到，计算方法
- 补充3：常见不计算自己数据集的mean和std，而直接设mean=(0.5,0.5,0.5), std=(0.5,0.5,0.5)。其作用是将每个元素分布到[-1,1]，但均值和标准差并不是0和1
- 补充4：其实Normalization之后并不会变成正态分布，而是变为均值为0，方差为1的与原来相同的分布，只有当原数据是正态分布时BN后才变成标准正态分布

(2) 批标准化Batch Normalization的作用：
通过规范化的手段，将越来越偏的分布拉回到均值0、方差1的分布，使得激活函数的输入值主要集中在[-1,1]，即激活函数对输入比较敏感的区域，从而使梯度变大，加快学习收敛速度，避免梯度消失的问题。

3、nn.Module类：

通过继承Module类的MyNet类为例，实例化为model对象来展示如何使用Module类的以下方法：add_module,apply,cuda/cpu/to,type,state_dict/load_state_dict,parameters/named_parameters,children/named_children,modules/named_modules,train/eval,required_grad_/zero_grad

class MyNet(nn.Module):
    def __init__(self):
        super(MyNet, self).__init__()
        ···
    def forward(self, x):
    	···
    	return out
 
 model = MyNet()

add_module,apply,cuda/cpu/to,type,state_dict/load_state_dict,parameters/named_parameters,children/named_children,modules/named_modules,train/eval,required_grad_/zero_grad详细说明

add_module(name: str, module: Optional['Module'])
用法：Adds a child module to the current module
apply(fn: Callable[['Module'], None])
(1) 用法1/2/3：Applies fn recursively to every submodule. Typical use includes initializing the parameters of a model
(2) 说明：模型参数初始化是为了防止出现梯度消失或爆炸，让模型能够更快收敛，提高训练速度_{(为了让神经网络在训练过程中学习到有用的信息，要保证参数梯度不等于0，那么参数初始化应该使得各层激活值不会出现饱和且激活值不为0)}。PyTorch已有默认的模型参数初始化，非特殊情况不必自定义模型参数初始化。
- Xavier初始化：基本思想是保持输入和输出的方差一致，这样就避免了所有输出值都趋向于0。
  torch.nn.init.xavier_uniform_服从均匀分布 $\mathcal{U}(-a, a)$ ，参数 $fan_in + fan_out a = \text{gain} \times \sqrt{\frac{6}{\text{fan\_in} + \text{fan\_out}}}$
  torch.nn.init.xavier_normal_服从正态分布 $\mathcal{N}(0, \text{std}^2)$ ，参数 $fan_in + fan_out \text{std} = \text{gain} \times \sqrt{\frac{2}{\text{fan\_in} + \text{fan\_out}}}$
- He初始化方法：使得在采用ReLU和Leaky ReLU激活函数下依旧保持每一层的输入输出方差不变。
  torch.nn.init.kaiming_uniform_服从均匀分布 $\mathcal{U}(-\text{bound}, \text{bound})$ ，_下面的gain：_{即增益，是依据激活函数类型来设定；a为激活函数的负半轴的斜率}
  参数 $fan_mode \text{bound} = \text{gain} \times \sqrt{\frac{3}{\text{fan\_mode}}}$ = $fan_mode \sqrt{\frac{2}{(1 + a^2) }}\times \sqrt{\frac{3}{\text{fan\_mode}}}$ = $fan_in \sqrt{\frac{6}{(1 + a^2) \times \text{fan\_in}}}$
  torch.nn.init.kaiming__normal_服从正态分布 $\mathcal{N}(0, \text{std}^2)$ ，参数 $fan_mode \text{std} = \text{gain} \times \sqrt{\frac{1}{\text{fan\_mode}}}$ = $fan_in \sqrt{\frac{2}{(1 + a^2) \times \text{fan\_in}}}$

cuda/cpu/to

device = "cuda" if torch.cuda.is_available() else "cpu"
tensor/model/loss.to(device)
# 或tensor/model/loss.cuda/cpu，查看是否在cuda上：
next(model.parameters()).is_cuda #或next(model.parameters()).device

type
state_dict/load_state_dict
parameters/named_parameters
children/named_children
modules/named_modules
train/eval
required_grad_/zero_grad
```
在这里插入代码片
```
自定义模型实例化后，用<实例名>.requires_grad_()选择是否可导

model.train/eval
model.train()⁶: 在train模式下，dropout网络层会按照设定的参数p设置保留激活单元的概率。BN层会继续计算数据的mean和var等参数并更新。（放在for epoch:for batch后以保证每一个batch都能进入model.train()的模式）
model.eval(): 在eval模式下，dropout层会让所有的激活单元都通过。BN层会停止计算和更新mean和var，直接使用在训练阶段已经学出的mean和var值。

4、创建模型

（1）需要重写__init__()、forward()函数。__init__里面的模块是模型的“固有属性”，打印时会出现在model里面，而forward里面的不会。（2）需要注意下面三种方法中⁷添加层、索引层的区别⁸

1、传统方法

添加层或模块：model.add_module
索引层或模块：model.children(或named_children/modules/named_modules)，返回迭代器。索引不能像nn.Sequential(见下文)通过整数索引来获得层。

import torch.nn as nn
class MyNet(nn.Module):
    def __init__(self):
        super(MyNet, self).__init__()
        self.conv1 = nn.Conv2d(3, 32, 3, 1, 1)
        self.relu = nn.ReLU()
        self.max_pooling1 = nn.MaxPool2d(2)
        self.dense1 = nn.Linear(32 * 3 * 3, 128)
        self.dense2 = nn.Linear(128, 10)

    def forward(self, x):
        x = self.conv1(x)
        x = self.relu(x)
        x = self.max_pooling1(x)
        x = x.view(x.size(0), -1)
        x = self.dense1(x)
        x = self.relu(x)
        x = self.dense2(x)
        return x
model = MyNet()
model.add_module('add_module_block', nn.Linear(10, 1)) # 添加层
print('打印model：\n',model) 
module_list = [module for module in model.children()] # model.children()返回的是迭代器，用iter()、next()或for循环来访问
print('打印第一个模块：', module_list[0])
'''运行结果为：
打印model：
 MyNet(
  (conv1): Conv2d(3, 32, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
  (relu): ReLU()
  (max_pooling1): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
  (dense1): Linear(in_features=288, out_features=128, bias=True)
  (dense2): Linear(in_features=128, out_features=10, bias=True)
  (add_module_block): Linear(in_features=10, out_features=1, bias=True)
)
打印第一个模块： Conv2d(3, 32, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
'''

2、nn.Sequential创建模型

Sequenrial类继承了Module类，所以可以用Module类的方法
Seq里的各个层是没有名称的，默认按照0、1、2排序；若Seq里采用OrderedDict，则各个层有相应的名称
添加层或模块：model.add_module
索引层或模块：model.Seq_name[index] ，Sequential类实现了整数索引。

import torch.nn as nn
from collections import OrderedDict
class MyNet(nn.Module):
    def __init__(self):
        super(MyNet, self).__init__()
        self.conv_block = nn.Sequential(
            nn.Conv2d(3, 32, 3, 1, 1),
            nn.ReLU(),
            nn.MaxPool2d(2))#Seq里的各个层是没有名称的，默认按照0、1、2排序
        self.dense_block = nn.Sequential(
            OrderedDict([
                ("dense1", nn.Linear(32 * 3 * 3, 128)),
                ("relu2", nn.ReLU()),
                ("dense2", nn.Linear(128, 10))])#Seq里采用OrderedDict，所以各个层有相应的名称
        )
    def forward(self, x):
        conv_out = self.conv_block(x)
        res = conv_out.view(conv_out.size(0), -1)
        out = self.dense_block(res)
        return out
model = MyNet()
model.add_module('add_module_block',nn.Sequential(nn.ReLU(), nn.Linear(10, 2))) #添加层
print('打印model：\n', model) #只会出现__init__里面的层
print('打印第一个Sequential里面的第一个模块：\n', model.conv_block[0])#可以通过整数索引
# 当OrderedDict时也可以model.dense_block[0]或model.dense_block.dense1，但不可以model.dense_block['dense1']
'''运行结果为：
打印model：
 MyNet(
  (conv_block): Sequential(
    (0): Conv2d(3, 32, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (1): ReLU()
    (2): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
  )
  (dense_block): Sequential(
    (dense1): Linear(in_features=288, out_features=128, bias=True)
    (relu2): ReLU()
    (dense2): Linear(in_features=128, out_features=10, bias=True)
  )
  (add_module_block): Sequential(
    (0): ReLU()
    (1): Linear(in_features=10, out_features=2, bias=True)
  )
)
打印第一个Sequential里面的第一个模块：
 Conv2d(3, 32, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
'''

3、nn.ModuleList创建模型

ModuleList类继承了Module类，所以可以用Module类的方法。用nn.ModuleList创建模型非常类似于nn.Sequential。
ModuleList类自身还有insert,append,extend方法。相当于Module 和 list 的结合。
添加层或模块：model.add_module以及model.ModuleList_name.insert/append/extend
索引层或模块：model.ModuleList_name[index]

import torch.nn as nn
class MyNet(nn.Module):
    def __init__(self):
        super(MyNet, self).__init__()
        self.conv_block = nn.ModuleList([
            nn.Conv2d(3, 32, 3, 1, 1),
            nn.ReLU(),
            nn.MaxPool2d(2)])
        self.dense_block = nn.ModuleList([
            nn.Linear(32 * 3 * 3, 128),
            nn.ReLU(),
            nn.Linear(128, 10)])
    def forward(self, x):
        conv_out = self.conv_block(x)
        res = conv_out.view(conv_out.size(0), -1)
        out = self.dense_block(res)
        return out
model = MyNet()
model.dense_block.append(nn.ReLU()) #用ModuleList的append函数在第一个ModuleList(dense_block)的末尾添加层
model.add_module('add_module_block',nn.Linear(10, 5)) #用Module类的add_module函数添加层
model.dense_block.insert(index=1, module=nn.Sigmoid())#用ModuleList的insert函数在第一个ModuleList的索引为1的位置插入层
print('打印model：\n', model) #只会出现__init__里面的层
print('打印第一个ModuleList里面的第一个模块：\n', model.conv_block[0])#ModuleList可以像列表一样来索引层
'''运行结果为：
打印model：
 MyNet(
  (conv_block): ModuleList(
    (0): Conv2d(3, 32, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (1): ReLU()
    (2): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
  )
  (dense_block): ModuleList(
    (0): Linear(in_features=288, out_features=128, bias=True)
    (1): Sigmoid()
    (2): ReLU()
    (3): Linear(in_features=128, out_features=10, bias=True)
    (4): ReLU()
  )
  (add_module_block): Linear(in_features=10, out_features=5, bias=True)
)
打印第一个ModuleList里面的第一个模块：
 Conv2d(3, 32, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
'''

4、加载并修改已有官方模型

vgg16_false = torchvision.models.vgg16(pretrained=False)
vgg16_true = torchvision.models.vgg16(pretrained=True)
vgg16_true.classifier.add_module('add_linear', nn.Linear(1000, 10))
vgg16_false.classifier[6] = nn.Linear(4096, 10)#通过model.Seq_name[index]索引层

5、自动求导机制

(1)基础部分

tensor定义时requires_grad=True，或后面用tensor.requires_grad_(True)。可以用tensor.detach()阻止一个张量被跟踪历史。
可导的tensor的属性：data_{(变量持有的数据)},required_grad_{(是否追踪对于该张量的所有操作，形成一个用于梯度计算的向后图)},grad_{(tensor的所有梯度将会自动累加到.grad属性.)},grad_fn_{(用来计算梯度的向后函数)},is_leaf_{(是否是叶节点，对可导的叶节点tensor进行加减乘除等运算得到最终的根节点)}
with torch.no_grad():和with torch.enable_grad():和with torch.set_grad_enabled(True/False):以及@torch.no_grad()和@torch.enable_grad()。不用上下文管理器with时，张量是否被跟踪历史需要自己开启和关闭。
在调用backward()时，只计算以下tensor_{(1、张量初始化方法定义的requires_grad=True的tensor。2、前面tensor进行加减乘除等运算，通过tensor.detach得到中间tensor2，再tensor2.requires_grad_(True)的tensor。3、所有张量都是requires_grad_(False)，对某一个tensor.requires_grad_(True))}的梯度，且只保留is_leaf节点的grad(PS:hook机制可以获得中间节点的梯度)。在 optimizer.step()过程中也只更新给定模型的叶子节点的data属性值。以GAN网络为例进行分析

(2)backward(gradient=None, retain_graph=None, create_graph=False)

在pytorch里面，自动求导直接调用backward()方法，只会计算对计算图【叶节点】的导数;
默认只能是【标量】对【标量/向量/矩阵】求导，所以常用out.sum().backward()作为标量输出，因为sum()对各分量导数为1，没有影响。_{也用out.mean().backward()作为标量输出，最终导数的结果相当于out.sum().backward()的导数除以输出向量的长度}

(3)backward()方法中设置gradient、retain_graph、create_graph

【向量/矩阵】对【向量/矩阵】求导：通过backward的第一个参数gradient_{(参数gradient的shape与输出的shape一致，相当于输出的每一个分量对每一个输入分量求偏导数，所以grad的shape和输入的shape一致)}来实现。相当于【输出向量各分量】与【gradient向量各分量】加权求和形成1个新的标量，再对标量求梯度
retain_graph=True：一个计算图在进行反向求导之后，为了节省内存，这个计算图就销毁了。设置 retain_graph=True来保留计算图，后面又可以对该计算图用backward
create_graph=True：更高层次的计算图会创建出来，允许计算高阶导数，如二阶导数、三阶导数等，如下：

"""实例：
y.backward(gradient=torch.tensor([1., 1., 1.]), retain_graph=True)
#设置gradient可以对向量和矩阵求导，设置retain_graph保留计算图
z_x = torch.autograd.grad(outputs=z, inputs=x, create_graph=True),
#设置create_graph用来求高阶导数
"""
import torch
x = torch.tensor([1., 2., 3.], requires_grad=True)  # 1, 2, 3
y = 2 * x + 1   # 3, 5, 7   y对x的导数：2
z = torch.pow(y, 3)  # 27, 125, 343     z对x的(一阶)导数(z只能对x，不能对y，因为x是叶节点)：2*{3*[(2x+1)^^2]}=[54, 150, 294]

y.backward(gradient=torch.tensor([1., 1., 1.]), retain_graph=True)  # 设置retain_graph=True来保留计算图,所以后面还能用backward()
print('y对x的导数: ', x.grad)#y对x的导数:  tensor([2., 2., 2.])

x.grad = None
z.backward(gradient=torch.tensor([1., 0.1, 0.01]), retain_graph=True)
print('z对x的导数: ', x.grad)#z对x的导数:  tensor([54.0000, 15.0000,  2.9400])

z = z.sum() # 用sum()将其变成标量，故下面不用需要用gradient
z1_y = torch.autograd.grad(outputs=z, inputs=y, create_graph=True)  # z对y的一阶导数：{3*(y^^2)}=[27, 75, 147]，create_graph使得后面可以求高阶导数
print('z对y的一阶导数: ', z1_y)#z对y的一阶导数:  (tensor([ 27.,  75., 147.], grad_fn=),)

z1_y = z1_y[0].sum()
z2_y = torch.autograd.grad(outputs=z1_y, inputs=y, create_graph=True)   # z对y的二阶导数：2*{3*(y)}=[18, 30, 42]
print('z对y的二阶导数: ', z2_y)#z对y的二阶导数:  (tensor([18., 30., 42.], grad_fn=),)

# z对y的(三阶)导数：z对y的二阶导数：2*{3*(y)}再对y求导，即6
z3_y = torch.autograd.grad(outputs=z2_y[0].sum(), inputs=y, create_graph=True)
print('z对y的三阶导数: ', z3_y)#z对y的三阶导数:  (tensor([6., 6., 6.], grad_fn=),)

# z对y的(四阶)导数：z对y的三阶导数6再对y求导，即0
print('z对y的四阶导数: ', torch.autograd.grad(outputs=z3_y[0].sum(), inputs=y, create_graph=True))#z对y的四阶导数:  (tensor([0., 0., 0.]),)

x.grad, z.grad = None,  None
z.backward(retain_graph=True)
print('z对x的(一阶)导数: ', x.grad)#z对x的(一阶)导数:  tensor([ 54., 150., 294.])
z_x = torch.autograd.grad(outputs=z, inputs=x, create_graph=True)  # z对y的一阶导数：{3*(y^^2)}=[27, 75, 147]
print('z对x的一阶导数: ', z_x)#z对x的一阶导数:  (tensor([ 54., 150., 294.], grad_fn=),)
# z对x的(二阶)导数：z对x的一阶导数2*{3*[(2x+1)^^2]}再对x求导，即2*{3*[2*2*(2x+1)]}=[ 72., 120., 168.]
print('z对x的二阶导数: ', torch.autograd.grad(outputs=z_x[0].sum(), inputs=x, create_graph=True))#z对x的二阶导数:  (tensor([ 72., 120., 168.], grad_fn=),)

6、CE交叉熵损失函数和softmax函数求导

1、交叉熵损失函数的用法：给定样本及真实标签 ${y_{label}}$ (CE会自动编码成对应的onehot形式: $\overrightarrow y$ )，样本通过模型进行前向传播得到最后一层的输出 $\overrightarrow o$ ，再通过 ${soft\max }$ 函数得到归一化为[0,1]之间的预测结果 $\overrightarrow {\hat y}$ 。通过交叉熵损失函数CE计算 $\overrightarrow y$ 与 $\overrightarrow {\hat y}$ 之间的损失，再对损失求导进行反向传播来更新模型参数。
2、softmax公式和交叉熵损失函数的几种常见形式：
$(1)\ {\hat y_i} = soft\max ( o ) = \frac{{{e^{{o_i}}}}}{{\sum\limits_{j \in class}^j {{e^{{o_j}}}} }}$ ， ${soft\max }$ 函数，一个 ${o_i}$ 对应一个 ${{\hat y}_i}$ ，但由 ${soft\max }$ 函数表达式可知 ${{\hat y}_i}$ 不仅与对应的 ${o_i}$ 有关，还与其它的 ${{\hat o}_j}$ 有关，因此存在多个偏导。
$\sum\limits_{{\text{i}} \in class}^i {({y_i}} \lg {{\hat y}_i})$ ，是交叉熵损失函数CE的标准形式。
$\lg {{\hat y}_{(与label对应的)}}$ ，是多分类问题的交叉熵损失函数，真实标签输入一个标量值，当用onehot编码后其余地方为0，便得到该形式。
$[{y_ + }\lg {{\hat y}_ + } + {y_ - }{\text{l}}g{{\hat y}_ - }] = - [{y_ + }\lg {{\hat y}_ + } + (1 - {y_ + }){\text{l}}g(1 - {{\hat y}_ + })]$ ，是二分类问题的交叉熵损失函，见下文BCELoss函数。

3、实例分析：多分类问题交叉熵损失函数及偏导的计算
交叉熵损失函数的计算：如[猫,狗,猪]三分类问题，已知给定某张图片样本的标签1_{(即是猫)，}对应onehot编码为[1,0,0]，若经softmax后预测输出为[0.7,0.1,0.2]，则CE=-(1*lg0.7+0*lg0.1+0*lg0.2)=-lg0.7= $\lg {{\hat y}_{label}}$ ，即只有标签对应的 ${{\hat y}_i}$ 进行了负对数。
损失函数的偏导：CE对最后一层输出 $\overrightarrow o$ 的偏导数公式如下(不同在于softmax函数求导)，结果为[-0.3,0.1,0.2]： $\begin{array}{l}\frac{{\partial CE}}{{\partial {o_1}}} = \frac{{\partial CE}}{{\partial {{\hat y}_{i = 1}}}}*\frac{{\partial {{\hat y}_{i = 1}}}}{{\partial {o_{j = i = 1}}}} = - \frac{1}{{{{\hat y}_{i = 1}}}}*[{{\hat y}_{i = 1}}(1 - {{\hat y}_{i = 1}})] = {{\hat y}_{i = 1}} - 1\\\frac{{\partial CE}}{{\partial {o_2}}} = \frac{{\partial CE}}{{\partial {{\hat y}_{i = 1}}}}*\frac{{\partial {{\hat y}_{i = 1}}}}{{\partial {o_{j \in (2,3) \ne i}}}} = - \frac{1}{{{{\hat y}_{i = 1}}}}*( - {{\hat y}_{_{j \in (2,3) \ne i}}}{{\hat y}_{i = 1}}) = {{\hat y}_{_{j \in (2,3) \ne i}}}\end{array}$

7、激活函数与损失函数

1、激活函数

relu, leakly_relu, tanh, sigmoid等激活函数，能学到非线性的关系，具有更强的特征提取能力

2、损失函数在神经网络中的使用过程

loss = nn.XXLoss()
各种损失函数对应的输入与标签的shape
1）BCEWithLogitsLoss/BCELoss, MSELoss/L1Loss, KLDivLoss等损失函数
Input(神经网络的输出): (N,∗), Target (样本标签):(N,∗)
2）CrossEntropyLoss/NLLLoss等损失函数
Input: (N, C),where C = number of classes, Target: (N),where each value is $\leq \text{targets}[i] \leq C-1$
output = loss(input, target)#Output: scalar.(Default reduction: ‘mean’)
output.backward()#model的各层参数requires_grad=True

3、常见的损失函数

常见的损失函数：对于回归问题，常用均方损失函数；对于分类问题，常用交叉熵损失函数和二元交叉熵损失函数。(重要链接1:熵/KL散度/交叉熵的关系，链接2:pytorch官网-Loss Functions)

(1) nn.CrossEntropyLoss：LogSoftmax+负对数似然损失函数NLLLoss

a、交叉熵损失函数nn.CrossEntropyLoss： $\sum\limits_{{\rm{i}} \in class}^i {({y_i}} \lg {{\hat y}_i})}$ ， $y_i$ 是真实标签， ${{\hat y}_i}$ 是神经网络的输出。等价于Softmax_{(最后一层神经元的输出归一化到0~1，且和为1)}–Log_(取对数)–NLLLoss_{(将前面的对数取负，再取出label对应的值，再求均值)}。函数log_softmax相当于对softmax做了log操作。
b、用于多分类问题，判断属于哪一类
c、注意：调用F.cross_entropy函数时，input(即即神经网络的输出 ${{\hat y}_i}$ )不需要自己接softmax层，target(即 $y_i$ 或label)不是one_hot编码格式。Input: (N, C),where C = number of classes, Target: (N)。

import torch
import torch.nn.functional as F
torch.manual_seed(1)
input = torch.randn(2,3)#对于[猫,狗,猪]三分类问题，2为两张图片样本，3为模型最后一层的输出神经元个数
target = torch.tensor([0,2])#target不是one_hot编码格式，分别是2为两张图片样本的标签
#CrossEntropyLoss等价于Softmax–Log()–NLLLoss等价于LogSoftmax–NLLLoss，以下三个loss是相同的
loss = F.cross_entropy(input,target)
loss = F.nll_loss(F.log_softmax(input, dim=1),target)
loss = F.nll_loss(torch.log(F.softmax(input, dim=1)),target)
'''过程：
input:tensor([[ 0.6614,  0.2669,  0.0617],
       		  [ 0.6213, -0.4519, -0.1661]])
target:tensor([0, 2])
      F.log_softmax(input, dim=1):
   	  tensor([[-0.7989, -1.1933, -1.3986],
       		  [-0.5861, -1.6593, -1.3735]])
cross_entropy: tensor(1.0862),即(0.7989+1.3735)/2
'''

(2) KLDivLoss

a、KL散度 ${D_{K L}({y_i} \| {{\hat y}_i}) = \sum\limits_{{\rm{i}} \in class}^i {({y_i}}( \lg {{y}_i}- \lg {{\hat y}_i}))}$ ，用来衡量两个概率分布的差异性。
b、应用:当KL散度越小时_{(KL散度恒大于等于0，即当KL散度越接近0时)}，学生神经网络的输出 ${{\hat y}_i}$ 就越接近于教师网络的输出(相当于真实标签) ${{\hat y}_i}$ 。
c、注意：pytorch官方的F.cross_entropy函数公式为 ${{y_i}}( \lg {{y}_i}- {{\hat y}_i})$ ，因此使用该接口时，input(即神经网络的输出)需要对自身进行lg操作，target(即 $y_i$ )为真实的概率分布。Input: (N,∗),Target:(N,∗)。

import torch
import torch.nn.functional as F
x = torch.tensor([0.4, 0.4, 0.2], dtype=torch.float32)
y = torch.tensor([0.5, 0.1, 0.4], dtype=torch.float32)

# 用标签y(即target)指导x(即input,神经网络的输出),kl散度：ylg(y/x)=y(lgy-lgx)
# F.kl_div给的kl散度公式是y(lgy-x)，所以接口传入的是：x的对数概率，y的概率
logp_x = torch.log(x)
kl_mean = F.kl_div(logp_x, y, reduction='batchmean')
print(kl_mean, torch.matmul(y,torch.log(y/x))/len(x))#输出：tensor(0.0834) tensor(0.0834)

(3) nn.BCEWithLogitsLoss：Sigmoid+二元交叉熵损失函数BCELoss

a、BCEWithLogitsLoss等价于：Sigmoid+二元交叉熵损失函数nn.BCELoss $[{y_ + }\lg {{\hat y}_ + } + (1 - {y_ + }){\text{l}}g(1 - {{\hat y}_ + })]$ 。即神经元的输出经sigmoid归一化后的对数损失函数，或逻辑回归模型的损失函数。求导过程
b、用于二分类问题Input:(N),Target:(N)，例：判断N张图片每一张是猫还是不是猫(即狗)
b、用于多标签分类Input:(N,M),Target:(N,M)，例：判断N张图片每一张有还是没有花(某标签)、房子(某标签)、猫(某标签)等共M种标签的东西
c、注意：调用nn.BCEWithLogitsLoss时，input(即神经网络的输出 ${{\hat y}_i}$ )不需要自己接sigmoid层，target(即 $y_i$ 或label)里面元素的值只能取0或1。Input: (N,∗),Target:(N,∗)。

import torch
import torch.nn as nn
torch.manual_seed(1)
input = torch.randn(3)#是猫还是不是猫(即狗)]的二分类问题。3为三张图片样本
target = torch.tensor([1., 0., 0.])#分别是3为两张图片样本的标签，第一张1代表是猫，第二三张图片0代表是不是猫(即狗)
#BCEWithLogitsLoss等价于Sigmoid–BCELoss，以下三个loss是相同的
loss = nn.BCEWithLogitsLoss()(input, target)
loss = nn.BCELoss()(nn.Sigmoid()(input),target)
'''过程：
input:tensor([0.6614, 0.2669, 0.0617])
target:tensor([1., 0., 0.])
      nn.Sigmoid()(input):
   	  tensor([0.6596, 0.5663, 0.5154])
cross_entropy: tensor(0.6587),即-[lg(0.6596)+lg(1-0.5663)+lg(1-0.5154)]/3
'''

4、onehot编码、标签平滑正则化

标签平滑正则化(LSR)：主要思想是改变以往ground truth label onehot编码的方式，通过引入一些固定分布的噪声，使得label更加soft，防止过拟合。

import torch
def onehot_encoding(labels, n_classes):
    return torch.zeros(labels.size(0), n_classes).scatter_(dim=1, index=labels.view(-1, 1), value=1)
def label_smoothing(targets_onehot, epsilon, n_classes):
    return targets_onehot*(1 - epsilon) + torch.ones_like(targets_onehot)*0.1/n_classes
    
targets_onehot = onehot_encoding(torch.tensor([0,2]), 4)
targets_LSR = label_smoothing(targets_onehot, 0.1, 4)
'''结果：
labels:tensor([0,2])
targets_onehot:tensor([[1., 0., 0., 0.],
        			   [0., 0., 1., 0.]])
targets_LSR: tensor([[0.9250, 0.0250, 0.0250, 0.0250],
        			 [0.0250, 0.0250, 0.9250, 0.0250]])
'''

8、优化算法optim类

优化算法寻找目标函数最小值的过程就像使用一个小球在一个超平面滚来滚去最终滚到最低点的过程，注意是寻找最小值而不是接近0的值(寻找函数最小值实例)

官网使用方法及源码解读参考

构造一个优化器对象：_{该对象将保持当前状态，并根据计算出的梯度更新参数}

#(1)可以指定特定的优化器，如SGD、Adam
optimizer = optim.SGD(model.parameters(), lr=0.01, momentum=0.9)
#(2)对于一个优化器而言，可以给特定层的参数指定特定的学习速率、权重衰减等
#如下：除了classifier层的学习率是1e-3，其余层的学习率是1e-2，所有层的momentum是0.9
optimizer = optim.SGD([{'params': model.base.parameters()},
			           {'params': model.classifier.parameters(), 'lr': 1e-3}], 
			           lr=1e-2, momentum=0.9)

优化过程：_{将所有被优化器优化的参数的梯度设为0；计算损失；损失反向传播计算损失对各个被优化的参数的偏导数；更新参数}
```
for input, target in dataset:
    optimizer.zero_grad()
    output = model(input), loss = loss_fn(output, target)
    loss.backward()
    optimizer.step()
```
- 补充：一些优化算法，如共轭梯度和LBFGS_{（需要重新评估函数多次，所以必须传递一个闭包，允许他们重新计算您的模型。闭包应该清除梯度，计算损失，并返回它）}的优化过程
```
for input, target in dataset:
    def closure():
        optimizer.zero_grad()
        output = model(input), loss = loss_fn(output, target)
        loss.backward()
        return loss
    optimizer.step(closure)
```

调节学习率
torch.optim.lr_scheduler.提拱了多种根据epoch来调整学习率的方法。官方学习率调整实例及手动调整实例

# 调节学习率的模型训练模板，scheduler.step()应该在optimizer.step()后面
scheduler = ...
for epoch in range(100):
    train(...)
    validate(...)
    scheduler.step()

#手动调整实例：
def adjust_learning_rate(optimizer, epoch):
    if epoch < 80:lr = 0.1
    elif epoch < 120:lr = 0.01
    else:lr = 0.001
    for param_group in optimizer.param_groups:
        param_group['lr'] = lr
        
optimizer = torch.optim.SGD(net.parameters(),lr=0.1,momentum=0.9,weight_decay=5e-4)
for epoch in range(20):
	adjust_learning_rate(optimizer, epoch)
	train(...)
    validate(...)
    scheduler.step()

官方学习率调整函数能一个接一个地应用在前一个调整函数所获得的学习速率上，相当于组合调整，如：

model = [Parameter(torch.randn(2, 2, requires_grad=True))]
optimizer = SGD(model, 0.1)
scheduler1 = ExponentialLR(optimizer, gamma=0.9)
scheduler2 = MultiStepLR(optimizer, milestones=[30,80], gamma=0.1)

for epoch in range(20):
    for input, target in dataset:
        optimizer.zero_grad()
        output = model(input)
        loss = loss_fn(output, target)
        loss.backward()
        optimizer.step()
    scheduler1.step() #lr1=lr*0.9**epoch
    scheduler2.step() #在第30和80个epoch时，在上面基础上：lr2=lr1*0.9

https://pytorch.org/tutorials ↩︎
https://blog.csdn.net/weixin_43485035/article/details/119062538 ↩︎
https://zhuanlan.zhihu.com/p/48976706 ↩︎
https://www.jianshu.com/p/00ed9abc5555 ↩︎
https://blog.csdn.net/bitcarmanlee/article/details/78819025 ↩︎
https://blog.csdn.net/qq_38410428/article/details/101102075 ↩︎
https://blog.csdn.net/qq_38863413/article/details/104118055 ↩︎
https://blog.csdn.net/qq_27825451/article/details/90550890 ↩︎

你可能感兴趣的:(基础知识,pytorch,神经网络,深度学习)

【深度学习目标检测|YOLO算法5-1-1】YOLO家族进化史：从YOLOv1到YOLOv11的架构创新、性能优化与行业应用全解析... 985小水博一枚呀论文解读深度学习目标检测 YOLO 人工智能算法架构网络
【深度学习目标检测|YOLO算法5-1-1】YOLO家族进化史：从YOLOv1到YOLOv11的架构创新、性能优化与行业应用全解析…【深度学习目标检测|YOLO算法5-1-1】YOLO家族进化史：从YOLOv1到YOLOv11的架构创新、性能优化与行业应用全解析…文章目录【深度学习目标检测|YOLO算法5-1-1】YOLO家族进化史：从YOLOv1到YOLOv11的架构创新、性能优化与行业应用全解
Python从0到100（三十九）：数据提取之正则（文末免费送书）是Dream呀 python mysql 开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
深度学习环境配置——Anaconda安装 tyyhmtyyhm 深度学习环境配置深度学习人工智能
目录Ⅰ.Windows系统安装Anaconda1.1下载安装Ⅱ.Linux系统安装Anaconda（适用于服务器安装）2.1下载2.2安装操作系统：windows11/ubuntu20/ubuntu18更新时间：20240221Ⅰ.Windows系统安装Anaconda1.1下载安装https://www.anaconda.com/download默认安装即可。Ⅱ.Linux系统安装Anacond
深度学习工厂的蓝图：拆解CUDA驱动、PyTorch与OpenCV的依赖关系时光旅人01号深度学习 pytorch opencv
想象一下，你正在建造一座深度学习工厂，这座工厂专门用于高效处理深度学习任务（如训练神经网络）和计算机视觉任务（如图像处理）。为了让工厂顺利运转，你需要搭建基础设施、安装设备、设置生产线，并配备控制台来管理整个生产过程。以下是这座工厂的详细构建过程：1.工厂的基础设施：Ubuntu比喻：Ubuntu是工厂所在的土地和建筑，提供了基础设施和运行环境。作用：提供操作系统环境，支持安装和运行各种工具和框架
FakeApp 技术浅析（一）爱研究的小牛 AIGC—深度伪造虚拟现实人工智能 AIGC 深度学习机器学习
FakeApp是一款早期的深度伪造（Deepfake）工具，最初于2018年发布，用于生成和编辑换脸视频。尽管FakeApp已经不再更新，但它在深度伪造技术的发展中起到了重要作用。1.技术背景与理论基础1.1生成对抗网络（GANs）生成对抗网络（GANs）是深度学习领域中的一种重要模型，由生成器（Generator）和判别器（Discriminator）组成。生成器负责生成逼真的数据（如图像、视频
DeepSeek 赋能工业软件之全流程方案爱吃青菜的大力水手人工智能自动化持续部署语言模型开源
deepseek赋能工业软件之全流程方案之侧重半导体FABdeepseek在工业软件中的应用场景“deepseek”大模型在工业软件领域拥有广泛的应用场景，包括以下几个方面：智能调度：利用深度学习和优化算法，根据实时数据动态调整生产计划和资源分配。它可以综合考虑订单需求、设备状态和产能限制，智能生成最优的生产排程方案，减少等待时间和切换成本。例如在汽车制造工厂，deepseek可根据订单需求和设备
深度学习之目标检测的常用标注工具铭瑾熙人工智能机器学习深度学习深度学习目标检测目标跟踪
1LabelImgLabelImg是一款开源的图像标注工具，标签可用于分类和目标检测，它是用Python编写的，并使用Qt作为其图形界面，简单好用。注释以PASCALVOC格式保存为XML文件，这是ImageNet使用的格式。此外，它还支持COCO数据集格式。2labelmelabelme是一款开源的图像/视频标注工具，标签可用于目标检测、分割和分类。灵感是来自于MIT开源的一款标注工具Label
34、深度学习-自学之路-深入理解-NLP自然语言处理-RNN一个简单的程序，可以从程序中理解RNN的基本思想。小宇爱深度学习-自学之路深度学习自然语言处理 rnn
importsys,random,mathfromcollectionsimportCounterimportnumpyasnpf=open('tasks_1-20_v1/en/qa1_single-supporting-fact_train.txt','r')raw=f.readlines()f.close()tokens=list()forlineinraw[0:1000]:tokens.ap
DeepSeek-R1 技术全景解析：从原理到实践的“炼金术配方” ——附多阶段训练流程图与核心误区澄清... 雪停时偶遇一叶春流程图
合集-人工智能(5)1.如何改进AI模型在特定环境中的知识检索2024-09-242.深度学习与统计学中的时间序列预测2024-10-033.《使用coze搭建一个会搜索、写ppt、思维导图的Agent》2024-10-294.深入浅出：Agent如何调用工具——从OpenAIFunctionCall到CrewAI框架01-145.DeepSeek-R1技术全景解析：从原理到实践的“炼金术配方”—
YOLOv8 Pose使用RKNN进行推理い不靠譜︶朱Sir 实用项目部署 YOLO 人工智能 python linux pip
关注微信公众号：朱sir的小站，发送202411081即可免费获取源代码下载链接一、简单介绍YOLOv8-Pose是一种基于YOLOv8架构的姿态估计模型，能够识别图像中的关键点位置，这些关键点通常表示人体的关节、特征点或其他显著位置。该模型在COCO关键点数据集上训练，适合多种姿势估计任务。二、ONNX推理1.首先需要先将Pytorch模型转换为Onnx模型，下载pt模型这里给出官方的权重下载地
【CUDA】Pytorch_Extensions joker D888 深度学习 pytorch python cuda c++深度学习
【CUDA】Pytorch_Extensions为什么要开发CUDA扩展？当我们在PyTorch中实现自定义算子时，通常有两种选择：使用纯Python实现（简单但效率低）使用C++/CUDA扩展（高效但需要编译）对于计算密集型的操作（如神经网络中的自定义激活函数），使用CUDA扩展可以获得接近硬件极限的性能。本文将以实现一个多项式激活函数x²+x+1为例，展示完整的开发流程。完整CUDA扩展代码解
本地搭建小型 DeepSeek 并进行微调非著名架构师大模型知识文档智能硬件人工智能大数据大模型 deepseek
本文将指导您在本地搭建一个小型的DeepSeek模型，并进行微调，以处理您的特定数据。1.环境准备Python3.7或更高版本PyTorch1.8或更高版本CUDA(可选，用于GPU加速)Git2.克隆DeepSeek仓库bash复制gitclonehttps://github.com/deepseek-ai/deepseek.gitcddeepseek3.安装依赖bash复制pipinstall
Transformer 模型架构 2401_89793006 热门话题 transformer 深度学习人工智能
Transformer是一种模型架构（ModelArchitecture），而不是一个软件框架（Framework）。它的定位更接近于一种设计蓝图，类似于建筑中的结构设计方案。以下是详细解释：1.架构vs框架的区别概念定义示例模型架构定义神经网络的结构设计Transformer、CNN、RNN开发框架提供实现模型的工具和库PyTorch、TensorFlow2.Transformer作为架构的核心
《神经网络与深度学习》(邱锡鹏) 内容概要【不含数学推导】 code_stream #机器学习神经网络
第1章绪论基本概念：介绍了人工智能的发展历程及不同阶段的特点，如符号主义、连接主义、行为主义等。还阐述了深度学习在人工智能领域的重要地位和发展现状，以及其在图像、语音、自然语言处理等多个领域的成功应用。术语解释人工智能：旨在让机器模拟人类智能的技术和科学。深度学习：一种基于对数据进行表征学习的方法，通过构建具有很多层的神经网络模型，自动从大量数据中学习复杂的模式和特征。第2章机器学习概述基本概念：
BP 神经网络在考古数据分析中的应用 fanxbl957 人工智能理论与实践神经网络数据分析人工智能
BP神经网络在考古数据分析中的应用摘要：本文深入探讨了BP神经网络在考古数据分析领域的应用。首先阐述了考古数据分析的重要性以及传统分析方法的局限性。随后详细介绍了BP神经网络的结构、原理与训练算法。通过丰富的代码示例展示了如何运用BP神经网络进行考古文物的分类鉴定、年代预测以及遗址空间分布分析等任务，涵盖数据预处理、网络构建、模型训练与评估等关键环节。分析了该应用的优势与局限性，并对其在考古数据分
图像识别与应用狂踹瘸子那条好脚 python
图像识别作为人工智能领域的重要分支，近年来取得了显著进展，其中卷积神经网络（CNN）功不可没。CNN凭借其强大的特征提取能力，在图像分类、目标检测、人脸识别等任务中表现出色，成为图像识别领域的核心技术。一、卷积神经网络：图像识别的利器CNN是一种专门处理网格状数据的深度学习模型，其结构设计灵感来源于生物视觉系统。与全连接神经网络不同，CNN通过卷积层、池化层等结构，能够有效提取图像的局部特征，并逐
大模型如何改变教育？典型应用场景的探究与展望！ AGI大模型学习大模型应用人工智能 AI产品经理 llama 大模型 AI 大模型教程
目前，大模型在教育领域的应用主要体现在个性化学习助手、智能问答系统、内容生成与创作辅助、智能写作评估、跨语言学习支持、数学解题辅助等几个方面。大模型技术在教育领域凭借卓越的数据处理能力和深度学习技术，极大推动了教育质量的提升与教育公平的实现。分级分类的教育数据助力大模型发展在构建与优化大模型的过程中，教育数据能够帮助我们更精准地理解教育现象，更有质量地辅助教学。教育数据涵盖广泛，包括但不限于学生的
DeepSeek原理介绍以及对网络安全行业的影响 AI拉呱 Deepseek 人工智能
大家好，我是AI拉呱，一个专注于人工智领域与网络安全方面的博主，现任资深算法研究员一职，兼职硕士研究生导师；热爱机器学习和深度学习算法应用，深耕大语言模型微调、量化、私域部署。曾获多次获得AI竞赛大奖，拥有多项发明专利和学术论文。对于AI算法有自己独特见解和经验。曾辅导十几位非计算机学生转行到算法岗位就业。关注评审分享一起学习更多知识。1.DeepSeek公司介绍1.1DeepSeek是什么：wh
auto-gptq安装以及不适配软硬件环境可能出现的问题及解决方式 IT修炼家大模型部署大模型 auto-gptq cuda
目录1、auto-gptq是什么？2、auto-gptq安装3、auto-gptq不正确安装可能会出现的问题（1）爆出：`CUDAextensionnotinstalled.`（2）没有报错但是推理速度超级慢1、auto-gptq是什么？Auto-GPTQ是一种专注于量化深度学习模型的工具库。它的主要目标是通过量化技术（Quantization）将大型语言模型（LLM）等深度学习模型的大小和计算复
【deepseek与chatGPT辩论】辩论题： “人工智能是否应当具备自主决策能力？” 海宁不掉头发软件工程人工智能人工智能 chatgpt deepseek
探讨辩论题这个提案涉及创建一个精确的辩论题目，旨在测试deepseek的应答能力。创建辩论题目提议设计一个辩论题目以测试deepseek的应答能力。希望这个题目具有挑战性并能够测量其回应质量。好的，来一道适合深度学习的辩论题：辩论题：“人工智能是否应当具备自主决策能力？”这个话题涉及到人工智能的发展、伦理以及未来应用，可以从以下几个方面展开辩论：支持方：认为人工智能的自主决策能力能够加速科技进步，
线性回归理论狂踹瘸子那条好脚 python
###线性回归与Softmax回归####线性回归线性回归是一种用于估计连续值的回归方法。它的应用场景非常广泛，比如在房地产市场中，参观一个房子后，我们可以通过线性回归模型来估计房子的价格，从而决定出价。线性回归的核心思想是通过训练数据来学习参数，使得模型的预测值与真实值之间的差异最小化。在神经网络中，线性回归可以看作是一个单层神经网络。通过损失函数来衡量预测值与真实值之间的差异，常用的损失函数包
基于python深度学习遥感影像地物分类与目标识别、分割实践技术应用 xiao5kou4chang6kai4 深度学习遥感勘测 python 深度学习分类
专题一：深度学习发展与机器学习深度学习的历史发展过程机器学习，深度学习等任务的基本处理流程梯度下降算法讲解不同初始化，学习率对梯度下降算法的实例分析从机器学习到深度学习算法专题二深度卷积网络、卷积神经网络、卷积运算的基本原理池化操作，全连接层，以及分类器的作用BP反向传播算法的理解一个简单CNN模型代码理解特征图，卷积核可视化分析专题三TensorFlow与keras介绍与入门TensorFlow
设计数据密集型应用之数据系统基础知识 xt01234
第一章可靠性针对系统的容错设计，提高系统错误的抛出率，而不是忽略它(除了安全这种不可恢复类型的)，尽量避免failure硬件错误硬件自身容许设计软件系统的灵活性与弹性。即容许整台机器异常，而不影响系统软件错误影响范围大，连锁反应，排查难。bug，依赖服务错误等避免：考虑全面，全面测试，处理隔离，监控人类错误最小化犯错机会的方式设计系统，全面测试，允许从错误中恢复，监控Scaliability(可扩
如何备战软考网络工程师？互联网之路. 知识点网络
互联网各领域资料分享专区(不定期更新)：Sheet前言软考网络工程师属于中级资格考试，通过这个考试来获得职称或者提升自己的专业技能。软考网络工程师的考试内容和结构。考试分为上午的综合知识和下午的案例分析，可能涉及计算机网络的基础知识、网络设备配置、网络安全、网络管理等方面。实践操作对下午的案例题很重要，可能需要配置模拟器来练习。但一般没有实际设备，所以模拟器是必要的。同时，真题的重要性不可忽视，需
muzero 算法原理战神哥
Muzero算法是一种通用的强化学习算法，它可以在没有预先设定策略的情况下进行学习。它通过模拟整个游戏进程来自我学习，并通过回报函数来评估每一步的决策。Muzero算法的核心部分是一个叫做模型的神经网络，它会对游戏的状态进行预测，预测未来的游戏状态。另一部分是策略网络，它会根据当前状态预测每一步的最优决策。Muzero算法通过不断地训练模型和策略网络，来提高它们的准确性，从而使得机器学到了如何玩游
LLM与知识图谱融合:智能运维知识库构建 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战 AI实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍随着信息技术的飞速发展，IT运维管理面临着越来越大的挑战。海量的设备、复杂的网络环境、日益增长的数据量，使得传统的运维方式难以满足需求。为了提高运维效率和质量，智能运维应运而生。智能运维的核心是将人工智能技术应用于运维领域，通过机器学习、深度学习等算法，实现自动化、智能化的运维管理。其中，大语言模型（LLM）和知识图谱是两个重要的技术方向。LLM能够理解和生成自然语言，可以用于构建智能
前端开发入门指南：HTML、CSS和JavaScript基础知识方向感超强的 javascript css html 前端
引言：大家好，我是一名简单的前端开发爱好者，对于网页设计和用户体验的追求让我深深着迷。在本篇文章中，我将带领大家探索前端开发的基础知识，涵盖HTML、CSS和JavaScript。如果你对这个领域感兴趣，或者想要了解如何开始学习前端开发，那么这篇文章将为你提供一个良好的起点。1.前端开发概述在我们深入了解前端开发的细节之前，让我们先了解一下前端开发的定义和作用。简而言之，前端开发涉及构建用户直接与
深度应用场景：DeepSeek —— 探索AI赋能的智慧未来人工智能专属驿站人工智能
深度应用场景：DeepSeek——探索AI赋能的智慧未来随着人工智能的迅猛发展，数据的价值已不再局限于简单的存储与处理，它们正变得更加智能与高效。DeepSeek，这一创新的AI技术平台，正以其独特的深度学习能力，开启了各行各业的智能化变革。让我们走进一个由DeepSeek打造的深度应用场景，探索它如何推动未来的发展。1.智能医疗：精准诊断，拯救生命想象一下，医生们不再是唯一的诊断专家，而是与AI
卷积神经网络之AlexNet经典神经网络，实现手写数字0~9识别知识鱼丸深度学习神经网络 cnn 人工智能深度学习 AlexNet 经典神经网络
深度学习中较为常见的神经网络模型AlexNet，AlexNet是一个采用GPU训练的深层CNN，本质是种LeNet变体。由特征提取层的5个卷积层两个下采样层和分类器中的三个全连接层构成。先看原理：AlexNet网络特点采用ReLU激活函数，使训练速度提升6倍采用dropout层，防止模型过拟合通过平移和翻转的方式对数据进行增强采用LRN局部响应归一化，限制数据大小，防止梯度消失和爆炸。但后续证明批
用 TensorFlow 搭建简单的手写数字识别模型 lozhyf 工作面试学习 tensorflow 人工智能 python
一、引言手写数字识别是机器学习领域中一个经典且基础的问题，它在很多实际场景中都有广泛的应用，比如邮政系统中的邮件分拣、银行支票金额识别等。TensorFlow是一个强大的开源机器学习框架，由Google开发并维护，它提供了丰富的工具和接口，能帮助我们快速搭建和训练深度学习模型。在这篇博客中，我们将使用TensorFlow构建一个简单的神经网络模型，用于识别手写数字。二、环境准备在开始之前，你需要安
如何用ruby来写hadoop的mapreduce并生成jar包 wudixiaotie mapreduce
ruby来写hadoop的mapreduce，我用的方法是rubydoop。怎么配置环境呢： 1.安装rvm：不说了网上有 2.安装ruby：由于我以前是做ruby的，所以习惯性的先安装了ruby，起码调试起来比jruby快多了。 3.安装jruby： rvm install jruby然后等待安
java编程思想 -- 访问控制权限百合不是茶 java 访问控制权限单例模式
访问权限是java中一个比较中要的知识点,它规定者什么方法可以访问,什么不可以访问一:包访问权限; 自定义包: package com.wj.control; //包 public class Demo { //定义一个无参的方法 public void DemoPackage(){ System.out.println("调用
[生物与医学]请审慎食用小龙虾 comsci 生物
现在的餐馆里面出售的小龙虾,有一些是在野外捕捉的,这些小龙虾身体里面可能带有某些病毒和细菌,人食用以后可能会导致一些疾病,严重的甚至会死亡..... 所以,参加聚餐的时候,最好不要点小龙虾...就吃养殖的猪肉,牛肉,羊肉和鱼,等动物蛋白质
org.apache.jasper.JasperException: Unable to compile class for JSP: 商人shang maven 2.2 jdk1.8
环境： jdk1.8 maven tomcat7-maven-plugin 2.0 原因： tomcat7-maven-plugin 2.0 不知吃 jdk 1.8，换成 tomcat7-maven-plugin 2.2就行，即 <plugin>
你的垃圾你处理掉了吗?GC oloz GC
前序:本人菜鸟，此文研究学习来自网络，各位牛牛多指教　 1.垃圾收集算法的核心思想　　Java语言建立了垃圾收集机制，用以跟踪正在使用的对象和发现并回收不再使用(引用)的对象。该机制可以有效防范动态内存分配中可能发生的两个危险：因内存垃圾过多而引发的内存耗尽，以及不恰当的内存释放所造成的内存非法引用。　　垃圾收集算法的核心思想是：对虚拟机可用内存空间，即堆空间中的对象进行识别
shiro 和 SESSSION 杨白白 shiro
shiro 在web项目里默认使用的是web容器提供的session，也就是说shiro使用的session是web容器产生的，并不是自己产生的，在用于非web环境时可用其他来源代替。在web工程启动的时候它就和容器绑定在了一起，这是通过web.xml里面的shiroFilter实现的。通过session.getSession()方法会在浏览器cokkice产生JESSIONID，当关闭浏览器，此
移动互联网终端淘宝客如何实现盈利小桔子移動客戶端淘客淘寶App
2012年淘宝联盟平台为站长和淘宝客带来的分成收入突破30亿元，同比增长100%。而来自移动端的分成达1亿元，其中美丽说、蘑菇街、果库、口袋购物等App运营商分成近5000万元。可以看出，虽然目前阶段PC端对于淘客而言仍旧是盈利的大头，但移动端已经呈现出爆发之势。而且这个势头将随着智能终端(手机，平板)的加速普及而更加迅猛
wordpress小工具制作 aichenglong wordpress 小工具
wordpress 使用侧边栏的小工具，很方便调整页面结构小工具的制作过程 1 在自己的主题文件中新建一个文件夹(如widget)，在文件夹中创建一个php(AWP_posts-category.php) 小工具是一个类,想侧边栏一样，还得使用代码注册，他才可以再后台使用，基本的代码一层不变 <?php class AWP_Post_Category extends WP_Wi
JS微信分享 AILIKES js
// 所有功能必须包含在 WeixinApi.ready 中进行 WeixinApi.ready(function(Api) { // 微信分享的数据 var wxData = { &nb
封装探讨百合不是茶 JAVA面向对象封装
//封装属性方法将某些东西包装在一起，通过创建对象或使用静态的方法来调用，称为封装；封装其实就是有选择性地公开或隐藏某些信息，它解决了数据的安全性问题，增加代码的可读性和可维护性在 Aname类中申明三个属性，将其封装在一个类中：通过对象来调用例如 1： //属性将其设为私有姓名 name 可以公开
jquery radio/checkbox change事件不能触发的问题 bijian1013 JavaScript jquery
我想让radio来控制当前我选择的是机动车还是特种车，如下所示： <html> <head> <script src="http://ajax.googleapis.com/ajax/libs/jquery/1.7.1/jquery.min.js" type="text/javascript"><
AngularJS中安全性措施 bijian1013 JavaScript AngularJS 安全性 XSRF JSON漏洞
在使用web应用中，安全性是应该首要考虑的一个问题。AngularJS提供了一些辅助机制，用来防护来自两个常见攻击方向的网络攻击。一.JSON漏洞当使用一个GET请求获取JSON数组信息的时候（尤其是当这一信息非常敏感，
[Maven学习笔记九]Maven发布web项目 bit1129 maven
基于Maven的web项目的标准项目结构 user-project user-core user-service user-web src
【Hive七】Hive用户自定义聚合函数(UDAF) bit1129 hive
用户自定义聚合函数，用户提供的多个入参通过聚合计算(求和、求最大值、求最小值)得到一个聚合计算结果的函数。问题：UDF也可以提供输入多个参数然后输出一个结果的运算，比如加法运算add(3，5)，add这个UDF需要实现UDF的evaluate方法,那么UDF和UDAF的实质分别究竟是什么？ Double evaluate(Double a, Double b)
通过 nginx-lua 给 Nginx 增加 OAuth 支持 ronin47
前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGeek 在过去几年中取得了发展，我们已经积累了不少针对各种任务的不同管理接口。我们通常为新的展示需求创建新模块，比如我们自己的博客、图表等。我们还定期开发内部工具来处理诸如部署、可视化操作及事件处理等事务。在处理这些事务中，我们使用了几个不同的接口来认证： &n
利用tomcat-redis-session-manager做session同步时自定义类对象属性保存不上的解决方法 bsr1983 session
在利用tomcat-redis-session-manager做session同步时，遇到了在session保存一个自定义对象时，修改该对象中的某个属性，session未进行序列化，属性没有被存储到redis中。在 tomcat-redis-session-manager的github上有如下说明： Session Change Tracking As noted in the &qu
《代码大全》表驱动法-Table Driven Approach-1 bylijinnan java 算法
关于Table Driven Approach的一篇非常好的文章： http://www.codeproject.com/Articles/42732/Table-driven-Approach package com.ljn.base; import java.util.Random; public class TableDriven { public
Sybase封锁原理 chicony Sybase
昨天在操作Sybase IQ12.7时意外操作造成了数据库表锁定，不能删除被锁定表数据也不能往其中写入数据。由于着急往该表抽入数据，因此立马着手解决该表的解锁问题。无奈此前没有接触过Sybase IQ12.7这套数据库产品，加之当时已属于下班时间无法求助于支持人员支持，因此只有借助搜索引擎强大的
java异常处理机制 CrazyMizzz java
java异常关键字有以下几个，分别为 try catch final throw throws 他们的定义分别为 try： Opening exception-handling statement. catch： Captures the exception. finally： Runs its code before terminating
hive 数据插入DML语法汇总 daizj hive DML 数据插入
Hive的数据插入DML语法汇总1、Loading files into tables语法：1) LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]解释：1)、上面命令执行环境为hive客户端环境下： hive>l
工厂设计模式 dcj3sjt126com 设计模式
使用设计模式是促进最佳实践和良好设计的好办法。设计模式可以提供针对常见的编程问题的灵活的解决方案。工厂模式工厂模式（Factory）允许你在代码执行时实例化对象。它之所以被称为工厂模式是因为它负责“生产”对象。工厂方法的参数是你要生成的对象对应的类名称。 Example #1 调用工厂方法（带参数） <?phpclass Example{
mysql字符串查找函数 dcj3sjt126com mysql
FIND_IN_SET(str,strlist) 假如字符串str 在由N 子链组成的字符串列表strlist 中，则返回值的范围在1到 N 之间。一个字符串列表就是一个由一些被‘,’符号分开的自链组成的字符串。如果第一个参数是一个常数字符串，而第二个是type SET列，则 FIND_IN_SET() 函数被优化，使用比特计算。如果str不在strlist 或st
jvm内存管理 easterfly jvm
一、JVM堆内存的划分分为年轻代和年老代。年轻代又分为三部分：一个eden,两个survivor。工作过程是这样的：e区空间满了后，执行minor gc，存活下来的对象放入s0, 对s0仍会进行minor gc，存活下来的的对象放入s1中，对s1同样执行minor gc，依旧存活的对象就放入年老代中；年老代满了之后会执行major gc，这个是stop the word模式，执行
CentOS-6.3安装配置JDK-8 gengzg centos
JAVA_HOME=/usr/java/jdk1.8.0_45 JRE_HOME=/usr/java/jdk1.8.0_45/jre PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib export JAVA_HOME
【转】关于web路径的获取方法 huangyc1210 Web 路径
假定你的web application 名称为news,你在浏览器中输入请求路径： http://localhost:8080/news/main/list.jsp 则执行下面向行代码后打印出如下结果： 1、 System.out.println(request.getContextPath()); //可返回站点的根路径。也就是项
php里获取第一个中文首字母并排序远去的渡口数据结构 PHP
很久没来更新博客了，还是觉得工作需要多总结的好。今天来更新一个自己认为比较有成就的问题吧。最近在做储值结算，需求里结算首页需要按门店的首字母A-Z排序。我的数据结构原本是这样的： Array ( [0] => Array ( [sid] => 2885842 [recetcstoredpay] =&g
java内部类 hm4123660 java 内部类匿名内部类成员内部类方法内部类
　在Java中，可以将一个类定义在另一个类里面或者一个方法里面，这样的类称为内部类。内部类仍然是一个独立的类，在编译之后内部类会被编译成独立的.class文件，但是前面冠以外部类的类名和$符号。内部类可以间接解决多继承问题,可以使用内部类继承一个类，外部类继承一个类，实现多继承。 &nb
Caused by: java.lang.IncompatibleClassChangeError: class org.hibernate.cfg.Exten zhb8015
maven pom.xml关于hibernate的配置和异常信息如下，查了好多资料，问题还是没有解决。只知道是包冲突，就是不知道是哪个包....遇到这个问题的分享下是怎么解决的。。 maven pom: <dependency> <groupId>org.hibernate</groupId> <ar
Spark 性能相关参数配置详解－任务调度篇 Stark_Summer spark cache cpu 任务调度 yarn
随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。由于篇幅较长，所以在这里分篇组织，如果要看最新完整的网页版内容，可以戳这里：http://spark-config.readthedocs.org/，主要是便
css3滤镜 wangkeheng html css
经常看到一些网站的底部有一些灰色的图标，鼠标移入的时候会变亮，开始以为是js操作src或者bg呢，搜索了一下，发现了一个更好的方法：通过css3的滤镜方法。 html代码： <a href='' class='icon'><img src='utv.jpg' /></a> css代码： .icon{-webkit-filter: graysc