zhaohui24

PyTorch框架

文章目录

1. 张量
- 1.1 Variable
- 1.2 Tensor
- 1.3 张量的创建
- 1.4 张量的操作
- 1.5 计算图与动态图
- - 1.5.1 计算图
- 1.6 autograd
- - 1.6.1 torch.autograd.backward()
  - 1.6.2 torch.autograd.gard()
  - 1.6.3 autograd 三个要点
2. 数据处理
- 2.1 数据读取 Dataloader
- 2.2 数据预处理 transforms
- - 2.2.1 数据增强 Data Augmentation
  - 2.2.2 自定义 transforms
3. 模型构建
- 3.1 nn.Module
- 3.2 模型容器 Containers
- - 3.2.1 nn.Sequetial
  - 3.2.2 nn.ModuleList
  - 3.2.3 nn.ModuleDict
- 3.3 卷积层
- - 3.3.1 卷积维度
  - 3.3.2 nn.Conv2d
- 3.4 池化层
- - 3.4.1 线性层 nn.Linear
  - 3.4.2 激活函数层
4. 损失函数与优化器
- 4.1 权值初始化
- - 4.1.1 Xavier 方法
  - 4.1.2 Kaiming 方法
  - 4.1.3 十种初始化方法
- 4.2 损失函数
- - 4.2.1 熵，交叉熵
  - 4.2.2 nn.CrossEntropyLoss()
- 4.3 优化器
- - 4.3.1 Optimizer
  - 4.3.2 学习率
  - 4.3.3 Momentum 动量，冲量
  - 4.3.4 学习率调整策略
5. TensorBoard 与 Hook
- 5.1 TensorBorad 可视化
- 5.2 Hook函数
6. Regularization 与 Normalization
- 6.1 正则化之 weight_decay
- 6.2 正则化之 Dropout
- 6.3 Batch Normalization
- - 6.3.1 _BatchNorm
- 6.4 Normalization
- - 6.4.1 Layer Normalization
  - 6.4.2 Instance Normalization
  - 6.4.3 Group Normalization
7. 模型保存与加载

1. 张量

1.1 Variable

Variable 是torch.autograd中的数据类型，主要用于封装Tensor，进行自动求导。

data：被包装的 Tensor
grad：data 的梯度
grad_fn ：创建 Tensor 的 Function，是自动求导的关键
requires_grad：指示是否需要梯度
is_leaf：指示是否是叶子节点

1.2 Tensor

Pytorch 0.4.0 开始，Variable 并入Tensor。

dtype：张量的数据类型，如 torch.FloatTensor, torch.cuda.FloatTensor
shape：张量的形状，如 $(64, 3, 224, 224)$
device ：张量所在的设备，GPU/CPU，是加速的关键

1.3 张量的创建

张量创建-参考链接-pytorch中文手册
① 直接创建

torch.tensor()，从data 创建 tensor
torch.from_numpy(ndarry)，从numpy 创建 tensor，共享内存，当修改一个值时，另一个也将被改动。

② 依据数值创建

torch.zeros()，依 size 创建全 0 张量
torch.zeros_like()，依 input 形状创建全 0 张量
torch.ones()、torch.ones_likes()，依 input 形状创建全 1 张量
torch.full()、torch.full_likes()，依 input 形状创建指定数据的张量
torch.arange()，创建等差的 1 维张量
torch.linspace()，创建均分的 1 维张量
torch.logspace()，创建对数均分的 1 维张量
torch.eye()，创建单位对角矩阵（2维张量）

③ 依概率分布创建张量

torch.normal()，生成正太分布
torch.randn()，生成标准正太分布
torch.rand()，在区间 [0,1) 上，生成均匀分布
torch.randint()，生成均匀分布
torch.randperm()，生成从0~1的随机排列
torch.bernoulli()，以 input 为概率，生成伯努利分布（ 0-1 分布，两点分布）

1.4 张量的操作

张量-索引，切片，连接，换位Indexing, Slicing, Joining, Mutating Ops-参考链接

pytorch实现线性回归小案例-code

1.5 计算图与动态图

1.5.1 计算图

计算图是用来描述运算的有向无环图，计算图有两个主要元素：节点（Node）和边（Edge）。节点表示数据，如向量，矩阵，张量；边表示运算，如加减乘除卷积等。
用计算图表示 $(x+w)\cdot(w+1)$ ，则可表示为 $y=a\cdot b$

计算图与梯度求导
$\begin{aligned} \frac{\partial y}{\partial w} &=\frac{\partial y}{\partial a} \frac{\partial a}{\partial w}+\frac{\partial y}{\partial b} \frac{\partial b}{\partial w} \\ &=b * 1+a * 1 \\ &=b+a \\ &=(w+1)+(x+w) \\ &=2 * w+x+1 \\ &=2\times1+2+1=5 \end{aligned}$

叶子节点：用户创建的结点成为叶子节点，如 $x$ 与 $w$
设置叶子节点主要是为了节省内存，在梯度反向传播结束之后，非叶子结点的梯度会被释放掉。

grad_fn ：记录创建该张量时所用的方法（函数）

w = torch.tensor([1.], requires_grad=True)  # 梯度为1
x = torch.tensor([2.], requires_grad=True)  # 梯度为2
a = torch.add(w, x)  # retain_grad()保留梯度
# a.retain_grad()
b = torch.add(w, 1)
y = torch.mul(a, b)
y.backward()
print(w.grad)   # tensor([5.])

# 查看叶子结点
print("is_leaf:\n", w.is_leaf, x.is_leaf, a.is_leaf, b.is_leaf, y.is_leaf)
# True True False False False

# 查看梯度
print('gradient:\n', w.grad, x.grad, a.grad, b.grad, y.grad)
# tensor([5.]) tensor([2.]) None None None

# 查看grad_fn
print("grad_fn:\n", w.grad_fn, x.grad_fn, a.grad_fn, b.grad_fn, y.grad_fn)
# None None 
# 
#

1.6 autograd

1.6.1 torch.autograd.backward()

自动求取梯度

torch.autograd.backward(tensors,  # 用于求导的张量，如 loss
						grad_tensors=None,   # 多梯度权重  
						retain_grad=None,    # 保存计算图
						create_graph=False)  # 创建导数计算图，用于高阶求导

例子：

w = torch.tensor([1.], requires_grad=True)  # 梯度为1
x = torch.tensor([2.], requires_grad=True)
a = torch.add(w, x)  
# a.retain_grad()   # retain_grad()保留梯度
b = torch.add(w, 1)
y0 = torch.mul(a, b)  # y0 = (x+w) * (w+1) = 6    dy0/dw = 5   y0对 w求梯度，也可看上面
y1 = torch.add(a, b)  # y1 = (x+w) + (w+1) = 5    dy1/dw = 2

loss = torch.cat([y0, y1], dim=0)   # tensor([6., 5.])
grad_tenors = torch.tensor([1., 2.])    # 多个梯度中权重的设置，y0对应 1，y1对应 2
# gradient 传入 torch.autograd.backward()中的grad_tensors
loss.backward(gradient=grad_tenors)

print(w.grad)  # 9 = 1*5 + 2*2

1.6.2 torch.autograd.gard()

求取梯度

torch.autograd.grad(outputs,  # 用于求导的张量，如loss
                    inputs,   # 需要梯度的张量
                    grad_outputs=None,   # 多梯度权重
                    retain_graph=None,   # 保存计算图
                    create_graph=False)  # 创建计算图

例子：

x = torch.tensor([3.], requires_grad=True)
y = torch.pow(x, 2)  # y = x**2

grad_1 = torch.autograd.grad(y, x, create_graph=True)
# grad_1 = dy/dx = 2x = 2 * 3 = 6
print(grad_1)  # (tensor([6.], grad_fn=),)

print(grad_1[0])  # tensor([6.], grad_fn=)
grad_2 = torch.autograd.grad(grad_1[0], x)  # 求二阶导
# grad_2 = d(dy/dx)/dx = d(2x)/dx = 2
print(grad_2)   # (tensor([2.]),)

1.6.3 autograd 三个要点

梯度不自动清零

w = torch.tensor([1.], requires_grad=True)
x = torch.tensor([2.], requires_grad=True)
for i in range(4):
    a = torch.add(w, x)
    b = torch.add(w, 1)
    y = torch.mul(a, b)
    y.backward()
    print(w.grad)

    w.grad.zero_()  # 手动对梯度进行清零，'_'：原位操作。
# tensor([5.])
# tensor([5.])
# tensor([5.])

依赖于叶子结点的结点，requires_grad 默认为True

w = torch.tensor([1.], requires_grad=True)
x = torch.tensor([2.], requires_grad=True)
a = torch.add(w, x)
b = torch.add(w, 1)
y = torch.mul(a, b)

print(a.requires_grad, b.requires_grad, y.requires_grad)
# True True True

叶子结点不可执行in-place
in-place 原位操作：在原始内存当中去改变这一数据
为什么叶子节点不能进行in-place操作？
在反向传播过程中需要用到叶子结点。而在前向传播时，要记录叶子结点的地址。到反向传播时根据叶子结点的地址去寻找这个数据，进行使用计算。

a = torch.ones((1, ))
print(id(a), a)
# 1970317858920 tensor([1.])

a = a + torch.ones((1, ))
print(id(a), a)
# 1970369990728 tensor([2.])
# 开辟了新的地址，就不是原位操作，

a += torch.ones((1, ))  # 原位操作.在原始地址上改变
print(id(a), a)
# 1970369990728 tensor([3.])

另一个例子

w = torch.tensor([1.], requires_grad=True)
x = torch.tensor([2.], requires_grad=True)

a = torch.add(w, x)
b = torch.add(w, 1)
y = torch.mul(a, b)

w.add_(1)
"""
autograd小贴士：
    梯度不自动清零 
    依赖于叶子结点的结点，requires_grad默认为True     
    叶子结点不可执行in-place 
"""
y.backward()  # 报错，叶子结点不可执行in-place

这一节的代码，可查看链接
逻辑回归pytorch实现小案例

2. 数据处理

机器学习训练五大步骤，数据，模型，损失函数，优化器，迭代训练。

2.1 数据读取 Dataloader

torch.utils.data.DataLoader()，数据加载器。组合数据集和采样器，并在数据集上提供单进程或多进程迭代器。参数解释链接

Epoch ：所有训练样本都已输入到模型中，成为一个Epoch
Iteration：一批样本输入到模型中，称之为一个Iteration
BatchSize：批大小，决定一个Epoch有多少个Iteration
假如有80个样本，设置 BatchSize 为 8，则 1 Epoch = 10 Iteration。

torch.utils.data.Dataset()，Dataset 抽象类，所有自定义的 Dataset 需要继承它，并且复写 __getitem__()。getitem：接收一个索引，返回一个样本。对__getitem__()具体解释可参考链接。

class Dataset(object):
    def __getitem__(self, index):
        raise NotImplementedError
    def __add__(self, other):
        return ConcatDataset([self, other])

数据读取流程图

dataloader 划分人民币小案例

2.2 数据预处理 transforms

torchvision.transforms 常用的图像预处理方法，数据中心化，数据标准化，缩放，裁剪，旋转，翻转，填充，噪声添加，灰度变换，线性变换，仿射变换，亮度、饱和度及对比度变换。

transforms.Normalize()，逐channel 的对图像进行标准化， $o u t p u t = (i n p u t - m e a n) / s t d$

from torchvision import transforms
transforms.Normalize(mean,     # 各通道的均值
                     std,      # 各通道的标准差
                     inplace=False)   # 是否原地操作

2.2.1 数据增强 Data Augmentation

数据增强又称为数据增广，数据扩增，它是对训练集进行变换，使训练集更丰富，从而让模型更具泛化能力。
张贤同学 - 二十二种 transforms 图片数据预处理方法 - 参考链接

方法	功能
transforms.CenterCrop()	裁剪，从图像中心裁剪图片
transforms.RandomCrop()	裁剪，从图片中随机裁剪出尺寸为size的图片
transforms.RandomResizedCrop()	裁剪，随机大小，长宽比裁剪图片
transforms.FiveCrop()	裁剪，在图像上下左右以及中心裁剪出尺寸为`size`的`5`张图片
transforms.TenCrop()	裁剪，对这`5`张图片进行水平或者垂直镜像获得`10`张图片
transforms.RandomHorizontalFlip()	翻转和旋转，依概率水平或左右翻转图片
transforms.RandomVerticalFlip()	翻转和旋转，依概率垂直或上下翻转图片
transforms.RandomRotation()	翻转和旋转，随机旋转图片
transforms.Pad()	图像变换，对图片边缘进行填充
transforms.ColorJitter()	图像变换，调整亮度，对比度，饱和度和色相
transforms.Grayscale()	图像变换，依概率将图片转为灰度图
transforms.RandomGrayscale()	图像变换，依概率将图片转为灰度图
transforms.RandomAffine()	图像变换，对图片进行仿射变换，仿射变换是二维的线性变换，由五种基本原子变换构成，分别是`旋转`，`平移`，`缩放`，`错切`和`翻转`
transforms.LinearTransformation()	图像变换，
transforms.RandomErasing()	图像变换，对图像进行随机遮挡
transforms.Lambda()	图像变换，用户自定义Lambda方法
transforms.Resize()	图像变换，给定大小缩放
transforms.Totensor()	图像变换，转为张量
transforms.Normalize()	图像变换，标准化，归一化
transforms.RandomChoice()	transforms的操作，从一系列`transforms`方法中随机挑一个
transforms.RandomApply()	transforms的操作，依据概率执行一组`transforms`操作
transforms.RandomOrder()	transforms的操作，对一组`transforms`操作打乱顺序

2.2.2 自定义 transforms

自定义 transforms 要素：

仅接收一个参数，返回一个参数
注意上下游的输出与输入，上一个transform 的输出是下一个 tranform 的输入

可以通过类实现多参数的传入，这里代码相关解释可参考链接

class YourTransforms(object):
	def __init__(self, ...):
		...
	def __call__(self, img):
		...
		return img
	def Compose(object):
		def __call__(self, img):
			for t in self.transforms:
				img = t(img)
			return img

椒盐噪声：

椒盐噪声又称为脉冲噪声，是一种随机出现的白点或者黑点，白点称为盐噪声，黑色为椒噪声。
信噪比（Signal-Noise Rate，SNR）是衡量噪声的比例，图像中图像像素的占比。值越大（越接近 1），噪声越小。

定义一个AddPepperNoise类，作为添加椒盐噪声的 transform。在构造函数中传入信噪比和概率，在__call__()函数中执行具体的逻辑，返回的是 image。

# 自定义添加椒盐噪声的 transform
class AddPepperNoise(object):
    """增加椒盐噪声
    Args:
        snr （float）: Signal Noise Rate
        p (float): 概率值，依概率执行该操作
    """

    def __init__(self, snr, p=0.9):
        assert isinstance(snr, float) or (isinstance(p, float))
        self.snr = snr
        self.p = p

    # transform 会调用该方法
    def __call__(self, img):
        """
        Args:
            img (PIL Image): PIL Image
        Returns:
            PIL Image: PIL image.
        """
        # 如果随机概率小于 seld.p，则执行 transform
        if random.uniform(0, 1) < self.p:
            # 把 image 转为 array
            img_ = np.array(img).copy()
            # 获得 shape
            h, w, c = img_.shape
            # 信噪比
            signal_pct = self.snr
            # 椒盐噪声的比例 = 1 -信噪比
            noise_pct = (1 - self.snr)
            # 选择的值为 (0, 1, 2)，每个取值的概率分别为 [signal_pct, noise_pct/2., noise_pct/2.]
            # 椒噪声和盐噪声分别占 noise_pct 的一半
            # 1 为盐噪声，2 为 椒噪声
            mask = np.random.choice((0, 1, 2), size=(h, w, 1), p=[signal_pct, noise_pct/2., noise_pct/2.])
            mask = np.repeat(mask, c, axis=2)
            img_[mask == 1] = 255   # 盐噪声
            img_[mask == 2] = 0     # 椒噪声
            # 再转换为 image
            return Image.fromarray(img_.astype('uint8')).convert('RGB')
        # 如果随机概率大于 seld.p，则直接返回原图
        else:
            return img

3. 模型构建

模型创建包括两个要素，构建子模块 __init__() 和拼接子模块 forward()。在 LeNet 中继承nn.Module，必须实现__init__() 方法和forward()方法。其中在__init__() 方法里创建子模块，在 forward() 方法里拼接子模块。
在 LeNet 的__init__()中创建了 5 个子模块，nn.Conv2d()和nn.Linear()都是继承于nn.module，也就是说一个 module 都是包含多个子 module 的。

class LeNet(nn.Module):
	# 子模块创建
    def __init__(self, classes):  #  父类函数调用
        super(LeNet, self).__init__()
        self.conv1 = nn.Conv2d(3, 6, 5)
        self.conv2 = nn.Conv2d(6, 16, 5)
        self.fc1 = nn.Linear(16*5*5, 120)
        self.fc2 = nn.Linear(120, 84)
        self.fc3 = nn.Linear(84, classes)
	# 子模块拼接
    def forward(self, x):
        out = F.relu(self.conv1(x))
        out = F.avg_pool2d(out, 2)
        out = F.relu(self.conv2(out))
        out = F.avg_pool2d(out, 2)
        out = out.view(out.size(0), -1)
        out = F.relu(self.fc1(out))
        out = F.relu(self.fc2(out))
        out = self.fc3(out)
        return out

3.1 nn.Module

pytorch神经网络模块 torch.nn 里包含很多子模块，主要以下面四个展开，其具体方法可参考链接。

nn.Module主要包含有8 个属性，都是OrderDict（有序字典）。在 LeNet 的__init__()方法中会调用父类nn.Module 的__init__()方法，创建这 8 个属性。
nn.Module 代码debug 解释部分 - 参考链接

def __init__(self):
    """
    Initializes internal Module state, shared by both nn.Module and ScriptModule.
    """
    torch._C._log_api_usage_once("python.nn_module")

    self.training = True
    self._parameters = OrderedDict()   # 存储管理nn.Parameter类型的参数
    self._buffers = OrderedDict()      # 存储管理缓存属性，如BN层中的running_mean
    self._non_persistent_buffers_set = set()   
    self._backward_hooks = OrderedDict()  # ***_hooks: 存储管理钩子函数
    self._forward_hooks = OrderedDict()
    self._forward_pre_hooks = OrderedDict()
    self._state_dict_hooks = OrderedDict()
    self._load_state_dict_pre_hooks = OrderedDict()
    self._modules = OrderedDict()    # 存储管理 nn.Module类型的参数

nn.Module 使用方法总结：

一个 Module 里可以包含多个子 module。比如 LeNet 是一个Module，里面包括多个卷积层、池化层、全连接层等子Module
一个 Module 相当于一个运算，必须实现 forward() 运算
每个 Module 都有 8 个字典管理自己的属性

3.2 模型容器 Containers

常见的模型容器Containers包含如下：

nn.Sequetial： 按顺序包装多个网络层。 顺序性，各网络层之间严格按顺序执行，常用于block构建。
nn.ModuleList：像python的 list 一样包装多个网络层。 迭代性，常用于大量重复网构建，通过 for 循环实现重复构建。
nn.ModuleDict：像python的 dict 一样包装多个网络层。 索引性，常用于可选择的网络层。

3.2.1 nn.Sequetial

在深度学习中，特征工程的概念被弱化了，特征提取和分类器这两步被融合到了一个神经网络中。在卷积神经网络中，前面的卷积层以及池化层可以认为是特征提取部分，而后面的全连接层可以认为是分类器部分。比如 LeNet 就可以分为特征提取和分类器两部分，这 2 部分都可以分别使用 nn.Sequetial 来包装。
nn.Sequential 是 nn.module 的容器，用于按顺序包装一组网络层，有以下两个特征：

顺序性：各网络层之间严格按照顺序构建
自带 forward()：自带的 forward 里，通过 for 循环依次执行前向传播运算。

LeNet网络结构- 图片引用链接

class LeNetSequential(nn.Module):
    def __init__(self, classes):
        super(LeNetSequential, self).__init__()
        self.features = nn.Sequential(
            nn.Conv2d(3, 6, 5),
            nn.ReLU(),
            nn.MaxPool2d(kernel_size=2, stride=2),
            nn.Conv2d(6, 16, 5),
            nn.ReLU(),
            nn.MaxPool2d(kernel_size=2, stride=2),
        )

        self.classifier = nn.Sequential(
            nn.Linear(16*5*5, 120),
            nn.ReLU(),
            nn.Linear(120, 84),
            nn.ReLU(),
            nn.Linear(84, classes),
        )

    def forward(self, x):
        x = self.features(x)
        x = x.view(x.size()[0], -1)
        x = self.classifier(x)
        return x

初始化时，nn.Sequetial会调用__init__()方法，将每一个子module 添加到自身的_modules属性中。这里可以看到，传入的参数可以是一个list，或者一个 OrderDict。如果是一个 OrderDict，那么则使用 OrderDict 里的 key，否则使用数字作为 key 。(下图所示)

# container.py
def __init__(self, *args: Any):
    super(Sequential, self).__init__()
    if len(args) == 1 and isinstance(args[0], OrderedDict):
        for key, module in args[0].items():
            self.add_module(key, module)
    else:
        for idx, module in enumerate(args):
            self.add_module(str(idx), module)

网络初始化后，得到两个子Module：features 和 classifier。

上面图以序号为 key,下面图以自定义的字符串为key

在进行前向传播时，会进入 LeNet 的forward()函数，首先调用第一个Sequetial容器：self.features，由于self.features也是一个 module，因此会调用_call_impl(self, *input, **kwargs):函数，里面调用result = self.forward(*input, **kwargs)，进入nn.Seuqetial的forward()函数，在这里依次调用所有的 module。具体过程可参考视频链接-模型容器章节。

在nn.Sequetial中，里面的每个子网络层 module 是使用序号来索引的，即使用数字来作为 key。一旦网络层增多，难以查找特定的网络层，这种情况可以使用 OrderDict (有序字典)。(结果如上图所示)

class LenetSequentialOrderDict(nn.Module):
    def __init__(self, classes):
        super(LenetSequentialOrderDict, self).__init__()

        self.features = nn.Sequential(OrderedDict({
            'conv1': nn.Conv2d(3, 6, 5),
            'relu1': nn.ReLU(inplace=True),
            'pool1': nn.MaxPool2d(kernel_size=2, stride=2),
            'conv2': nn.Conv2d(6, 16, 5),
            'relu2': nn.ReLU(inplace=True),
            'pool2': nn.MaxPool2d(kernel_size=2, stride=2),
        }))

        self.classifier = nn.Sequential(OrderedDict({
            'fc1': nn.Linear(16*5*5, 120),
            'relu3': nn.ReLU(),
            'fc2': nn.Linear(120, 84),
            'relu4': nn.ReLU(inplace=True),
            'fc3': nn.Linear(84, classes)
        }))

    def forward(self, x):
        x = self.features(x)
        x = x.view(x.size()[0], -1)
        x = self.classifier(x)
        return x

3.2.2 nn.ModuleList

nn.ModuleList 是 nn.module 的容器，用于包装一组网络层，以迭代方式调用网络层，主要方法如下：

append()：在ModoleList 后面添加网络层
extend()：拼接两个ModuleList
insert()：指定在ModuleList 中位置插入网络层

class ModuleList(nn.Module):
    def __init__(self):
        super(ModuleList, self).__init__()
        # 列表生成式，生成20个全连接层，每个全连接层是 10个神经元的网络
        self.linears = nn.ModuleList([nn.Linear(10, 10) for i in range(20)])

    def forward(self, x):
        for i, linear in enumerate(self.linears):
            x = linear(x)
        return x

3.2.3 nn.ModuleDict

nn.ModuleDict 是 nn.module 的容器，用于包装一组网络层，以索引方式调用网络层，主要方法如下：

clear()：清空 ModoleDict
items()：返回可迭代的键值对 (Key-value)
keys()：返回字典的键（key）
values()：返回字典的值 (values)
pop()：返回一对键值，并从字典中删除

class ModuleDict(nn.Module):
    def __init__(self):
        super(ModuleDict, self).__init__()
        self.choices = nn.ModuleDict({
            'conv': nn.Conv2d(10, 10, 3),
            'pool': nn.MaxPool2d(3)
        })

        self.activations = nn.ModuleDict({
            'relu': nn.ReLU(),
            'prelu': nn.PReLU()   # prelu：有正有负， relu：仅有正
        })

    def forward(self, x, choice, act):
        x = self.choices[choice](x)
        x = self.activations[act](x)
        return x

3.3 卷积层

对CNN卷积神经网络的描述可参考这篇博文CNN-卷积神经网络

3.3.1 卷积维度

一般情况下，卷积核在几个维度上滑动，就是几维卷积。下面图片引用链接

一维卷积

二维卷积

三维卷积

3.3.2 nn.Conv2d

对多个二维信号进行二维卷积

nn.Conv2d(in_channels= ,    # 输入通道数
          out_channels= ,   # 输出通道数，等价于卷积核数
          kernel_size= ,    # 卷积核尺寸
          stride=1,         # 步长
          padding=0,        # 填充个数
          dilation=1,       # 空洞卷积大小
          groups=1,         # 分组卷积设置
          bias=True,        # 偏置
          padding_mode='zeros')

转置卷积 Transpose Convolution
转置卷积（nn.ConvTranspose2d）和部分跨越卷积 (Fractionally-strided Convolution)，用于对图像进行上采样 。转置矩阵形状上是一个转置关系，权值完全不一样，则正常矩阵与转置卷积是不可逆的。

详细理解可参考这篇博文一文搞懂反卷积，转置卷积
公式推导细节可参考知乎文章转置卷积(Transpose Convolution)

正常卷积

转置卷积

3.4 池化层

池化层函数参数具体参考链接
nn.MaxPool2d 是对二维信号（图像）进行最大化池化。

nn.MaxPool2d(kernel_size,   # 池化核尺寸
             stride=None,     # 步长
             padding=0,       # 填充个数
             dilation=1,      # 池化核间隔大小
             return_indices=False,   # 记录池化像素索引。记录最大值像素所在位置的索引，在最大值反池化上采样时使用
             ceil_mode=False)        # 默认为 False，尺寸向下取整。为 True 时，尺寸向上取整

nn.AvgPool2d 是对二维信号（图像）进行平均值池化。
nn.MaxUnPool2d 是对二维信号（图像）进行最大值池化上采样。

3.4.1 线性层 nn.Linear

线性层又称全连接层，其每个神经元与上一层所有神经元相连。实现对前一层的 线性组合， 线性变换。
nn.Linear 对一维信号（向量）进行线性组合。

inputs = torch.tensor([[1., 2, 3]])
linear_layer = nn.Linear(3, 4)
linear_layer.weight.data = torch.tensor([[1., 1., 1.],
                                         [2., 2., 2.],
                                         [3., 3., 3.],
                                         [4., 4., 4.]])
linear_layer.bias.data.fill_(0.5)  # 先测试 0
output = linear_layer(inputs)
print(inputs, inputs.shape)
print(linear_layer.weight.data, linear_layer.weight.data.shape)
print(output, output.shape)

3.4.2 激活函数层

激活函数对特征进行非线性变换，赋予多层神经网络具有深度的意义。
激活层描述可以参考之前博文 - 神经网络基础知识。

4. 损失函数与优化器

4.1 权值初始化

梯度消失与梯度爆炸
考虑以下的三层全连接网络。

$H_1=X\times W_1$ ， $H_2=H_1\times W_2$ ， $out=H_2\times W_3$ ，第二层的权重梯度
$\begin{aligned} \Delta \mathrm{W}_{2} =\frac{\partial \mathrm{Loss}}{\partial \mathrm{W}_{2}}=\frac{\partial \mathrm{Loss}}{\partial \mathrm{out}} * \frac{\partial \mathrm{out}}{\partial \mathrm{H}_{2}} * \frac{\partial \mathrm{H}_{2}}{\partial \mathrm{w}_{2}} =\frac{\partial \mathrm{Loss}}{\partial \mathrm{out}} * \frac{\partial \mathrm{out}}{\partial \mathrm{H}_{2}} * \mathrm{H}_{1} \end{aligned}$

则有 $\Delta \mathrm{W}_{2}$ 依赖于前一层的输出 $H_{1}$ 。如果 $H_{1}$ 趋近于零，那么 $\Delta \mathrm{W}_{2}$ 也接近于 0，造成 梯度消失 。如果 $H_{1}$ 趋近于无穷大，那么 $\Delta \mathrm{W}_{2}$ 也接近于无穷大，造成 梯度爆炸 。要避免梯度爆炸或梯度消失，就要严格控制网络层输出的数值范围。
梯度爆炸实例代码解析过程，参考链接张贤同学-权值初始化。

4.1.1 Xavier 方法

Xavier 是 2010 年在文献《Understanding the difficult of training deep feedforward neural networks》提出的，详细探讨了具有激活函数时，应该如何进行初始化。结合 方差一致性 原则，保持数据尺度维持在恰当范围，通常方差为 1。主要针对饱和 / 激活函数如 sigmoid 和 tanh 等进行分析。同时考虑前向传播和反向传播数据尺度问题，需要满足两个等式： $\boldsymbol{n}_{\boldsymbol{i}} * \boldsymbol{D}(\boldsymbol{W})=\mathbf{1}$ 和 $\boldsymbol{n}_{\boldsymbol{i+1}} * \boldsymbol{D}(\boldsymbol{W})=\mathbf{1}$ ， $n_i$ ：输入神经元的个数， $n_{i+1}$ ：输出神经元的个数。 $\Rightarrow D(W)=\frac{2}{n_{i}+n_{i+1}}$ 。

通常 Xavier 服从均匀分布，假设 W 服从均匀分布 $\boldsymbol{W} \sim \boldsymbol{U}[-\boldsymbol{a}, \boldsymbol{a}]$ ，下限是 $-\alpha$ ，上限是 $\alpha$ ，通常采用 0 均值，所以上下线是对称的关系。那么方差 $D(W)=\frac{(-a-a)^{2}}{12}=\frac{(2 a)^{2}}{12}=\frac{a^{2}}{3}$ ，令 $\frac{2}{n_{i}+n_{i+1}}=\frac{a^{2}}{3} \Rightarrow a=\frac{\sqrt{6}}{\sqrt{n_{i}+n_{i+1}}}$ ，则可推导出
$\Rightarrow W \sim U\left[-\frac{\sqrt{6}}{\sqrt{n_{i}+n_{i+1}}}, \frac{\sqrt{6}}{\sqrt{n_{i}+n_{i+1}}}\right]$

# 手动xavier初始化
a = np.sqrt(6 / (self.neural_num + self.neural_num))
tanh_gain = nn.init.calculate_gain('tanh') # 计算增益
a *= tanh_gain
nn.init.uniform_(m.weight.data, -a, a)

# pytorch 自带 Xavier初始化方法
tanh_gain = nn.init.calculate_gain('tanh')
nn.init.xavier_uniform_(m.weight.data, gain=tanh_gain)

4.1.2 Kaiming 方法

虽然 Xavier 方法提出了针对饱和激活函数的权值初始化方法，但是 AlexNet 出现后，大量网络开始使用非饱和的激活函数如 ReLU 等，这时 Xavier 方法不再适用。2015 年针对 ReLU 及其变种等激活函数提出了 Kaiming 初始化方法。
针对 ReLU，方差应该满足： $\mathrm{D}(W)=\frac{2}{n_{i}}$ ；针对 ReLu 的变种，方差应该满足： $\mathrm{D}(W)=\frac{2}{\left(1+\alpha^{2}\right) * n_{i}}$ ， $\alpha$ 表示负半轴的斜率，如 PReLU 方法，标准差满足 $\operatorname{std}(W)=\sqrt{\frac{2}{\left(1+a^{2}\right) * n_{i}}}$ 。

# 激活函数改为 ReLU
# 手动kaiming初始化
# nn.init.normal_(m.weight.data, std=np.sqrt(2 / self.neural_num))

# pytorch 提供 kaiming初始化方法
# nn.init.kaiming_normal_(m.weight.data)

calculate_gain()：计算激活函数的方差变化尺度。
方差变化尺度指，输入数据的方差除以经过激活函数之后输出数据的方差，也就是方差的一个比例。

nn.init.calculate_gain(nonlinearity, param=None)
# nonlinearity: 激活函数名称
# param: 激活函数的参数，如Leaky ReLU 的 negative_slop

4.1.3 十种初始化方法

Xavier均匀分布
Xavier正态分布
Kaiming均匀分布
Kaiming正态分布
均匀分布
正态分布
常数分布
正交矩阵初始化
单位矩阵初始化
稀疏矩阵初始化

4.2 损失函数

损失函数，衡量模型输出与真实标签的差异。
损失函数 Loss function：一个样本。 $Loss=f\left(y^{\wedge}, y\right)$
代价函数 Cost function：整个样本集。 $\cos t=\frac{1}{N} \sum_{i}^{N} f\left(y_{i}^{\wedge}, y_{i}\right)$
目标函数 Objective function： $O b j = C o s t + R e g u l a r i z a t i o n$

class _Loss(nn.Module):
    def __init__(self, size_average=None, reduce=None, reduction='mean'):
        super(_Loss, self).__init__()
        if size_average is not None or reduce is not None:
            self.reduction = _Reduction.legacy_get_string(size_average, reduce)
        else:
            self.reduction = reduction

4.2.1 熵，交叉熵

交叉熵的与softmax推导公式可以参考神经网络基础知识-Softmax+CrossEntropy

4.2.2 nn.CrossEntropyLoss()

nn.CrossEntropyLoss()，nn.LogSoftmax() 与 nn.NLLLoss() 结合，进行交叉熵计算。此函数并不是公式意义上的交叉熵计算，而是采用softmax对数据进行了一个归一化的处理，把数据值归一化到概率输出值的形式。
分类任务通常是以概率值输出为主的，交叉熵其实是衡量两个概率分布之间的差异。交叉熵值越低，表示两个分布越近。

nn.CrossEntropyLoss(weight=None,  # weight: 各类别的Loss设置权值
					size_average=None,   
					ignore_index=-100,   # ignore_index: 忽略某个类别
					reduce=None,
					reduction='mean')  # reduction: 计算模式，可为 none/sum/mean
					 # none - 逐个元素计算，sum - 所有元素求和，返回标量，mean - 加权平均，返回标量

熵，交叉熵

交叉熵 = 信息熵 + 相对熵
交叉熵： $\mathrm{H}(\boldsymbol{P}, \boldsymbol{Q})=-\sum_{i=1}^{N} \boldsymbol{P}\left(\boldsymbol{x}_{i}\right) \log \boldsymbol{Q}\left(\boldsymbol{x}_{i}\right)$
自信息： $\mathrm{I}(x)=-\log [p(x)]$
熵： $\mathrm{H}(\mathrm{P})=E_{x \sim p}[I(x)]=-\sum_{i}^{N} P\left(x_{i}\right) \log P\left(x_{i}\right)$
相对熵：
$\begin{aligned} \boldsymbol{D}_{K L}(\boldsymbol{P}, \boldsymbol{Q}) &=\boldsymbol{E}_{\boldsymbol{x} \sim p}\left[\log \frac{P(x)}{Q(\boldsymbol{x})}\right] \\ &=\boldsymbol{E}_{\boldsymbol{x} \sim p}[\log P(\boldsymbol{x})-\log Q(\boldsymbol{x})] \\ &=\sum_{i=1}^{N} P\left(x_{i}\right)\left[\log P\left(\boldsymbol{x}_{i}\right)-\log Q\left(\boldsymbol{x}_{i}\right)\right] \\ &=\sum_{i=1}^{N} P\left(\boldsymbol{x}_{i}\right) \log P\left(\boldsymbol{x}_{i}\right)-\sum_{i=1}^{N} P\left(\boldsymbol{x}_{i}\right) \log \boldsymbol{Q}\left(\boldsymbol{x}_{i}\right) \\ &=H(P, Q)-H(P) \end{aligned}$

熵也叫信息熵，用来描述一个事件的不确定性，不确定性越大熵就越大。熵是自信息的一个期望。
自信息是用于衡量单个输出、单个事件的不确定性，p(x)表示事件x的概率。
熵是整个概率分布的一个不确定性，它是用来描述整个概率分布，所以需要对自信息I(x)求期望。
相对熵又称为KL散度，用来衡量两个分布之间的差异（即两个分布之间的距离，但不是距离函数，无对称性）

交叉熵是衡量两个概率分布P,Q之间的一个关系，一个相似度。P是一个真实概率分布，训练集中样本的分布；Q是模型输出的分布。
交叉熵： $\mathrm{H}(\boldsymbol{P}, \boldsymbol{Q})=\boldsymbol{D}_{K L}(\boldsymbol{P}, \boldsymbol{Q})+H(P)$ 。机器学习中优化（最小化）交叉熵，等价于优化相对熵 $\boldsymbol{D}_{K L}(\boldsymbol{P}, \boldsymbol{Q})$ 的（优化KL距离）。等号右边的信息熵 $H (P)$ ，由于训练集是固定的，所以 $H (P)$ 是一个常数，概率分布式是固定的。优化时常数可以忽略掉。

对于一个样本的 Loss 计算公式为： $\mathrm{H}(\boldsymbol{P}, \boldsymbol{Q})=-\sum_{i=1}^{N} \boldsymbol{P}\left(\boldsymbol{x}_{\boldsymbol{i}}\right) \log Q\left(\boldsymbol{x}_{\boldsymbol{i}}\right) = logQ(x_{i})$ ，因为 N=1， $P(x_{i})=1$ 。所以 $\operatorname{loss}(x, \text { class })=-\log \left(\frac{\exp (x[\text { class }])}{\sum_{j} \exp (x[j])}\right)=-x[\text { class }]+\log \left(\sum_{j} \exp (x[j])\right)$ 。如果增添了类别的权重，则 $\operatorname{loss}(x, \text { class })=\operatorname{weight}[\text { class }]\left(-x[\text { class }]+\log \left(\sum_{j} \exp (x[j])\right)\right)$ 。

代码调试部分可参考链接张贤同学 - 4.2 损失函数

损失函数	功能
nn.NLLLoss()	实现负对数似然函数中的负号功能
nn.BCELoss()	二分类交叉熵，输入值取值在[0,1]
nn.BCEWithLogitsLoss()	结合`Sigmoid`与二分类交叉熵，网络最后不加`Sigmoid`函数
nn.L1Loss()	计算`inputs`与 `target`之差的绝对值
nn.MSELoss()	计算`inputs`与 `target`之差的平方， $l_{n}={(x_{n}-y_{n})}^2$
nn.SmoothL1Loss()	平滑的`L1Loss`
nn.PoissonNLLLoss()	泊松分布的负对数似然损失函数
nn.KLDivLoss()	计算`KLD(divergence)`，KL散度，相对熵
nn.MarginRankingLoss()	计算两个向量之间的相似度，用于排序任务； $\operatorname{loss}(x, y)=\max (0,-y (x1-x2)+\operatorname{margin})$ ，该方法计算两组数据之间的差异，返回一个 $n n$ 的 Loss 矩阵
nn.MultiLabelMarginLoss()	多标签边界损失函数
nn.SoftMarginLoss()	计算二分类的 `Logistic` 损失
nn.MultiLabelSoftMarginLoss()	`SoftMarginLoss` 多标签版本
nn.MultiMarginLoss()	计算多分类的折页损失
nn.TripletMarginLoss()	计算三元组损失，人脸验证中常用
nn.HingeEmbeddingLoss()	计算两个输入的相似性，常用于非线性`embedding`和半监督学习
nn.CosineEmbeddingLoss()	采用余弦相似度计算两个输入的相似性
nn.CTCLoss()	计算`CTC` `(Connection Temporal Classification)`损失，解决时序类数据的分类

4.3 优化器

pytorch的优化器，管理并更新模型中可学习的参数的值，使得模型输出更接近真实标签。

导数 : 函数在指定坐标轴上的变化率
方向导数：指定方向上的变化率
梯度：一个向量，方向为方向导数取得最大值的方向

4.3.1 Optimizer

基本属性

class Optimizer(Object):
	def __init__(self, params, defaults):
		self.defaults = defaults       # 优化器的超参数，如 weight_decay, momentum
		self.state = defaultdict(dict)   # 参数的缓存，如 momentum 中需要用到前几次的梯度，就缓存在这个变量中
		self.param_groups = []        # 管理的参数数组，是一个list,其中每一个元素是字典
		
								  # _step_count: 记录更新次数，学习率调整中使用

基本方法
zero_grad() ：清空所管理参数的梯度，在pytorch 中，张量的梯度不自动清零。
step() ：执行一步更新
add_param_group() ：向优化器中添加参数组
state_dict() ：获取优化器当前状态信息字典
load_state_dict() ：加载状态信息字典

代码调试部分可参考链接张贤同学 - 4.3 优化器

4.3.2 学习率

梯度下降： $w_{i+1} = w_i -lr *g(w_i)$ ，学习率lr控制更新的步伐

iter_rec, loss_rec, x_rec = list(), list(), list()
lr = 1  # /1. /.5 /.2 /.1 /.125
max_iteration = 4  # /1. 4   /.5 4    /.2 20 200   # 最大迭代次数

for i in range(max_iteration):

    y = func(x)
    y.backward()   # 求 x 的梯度

    print("Iter:{}, X:{:8}, X.grad:{:8}, loss:{:10}".format(
        i, x.detach().numpy()[0], x.grad.detach().numpy()[0], y.item()))

    x_rec.append(x.item())

    x.data.sub_(lr * x.grad)   # x -= x.grad    # 0.5 0.2 0.1 0.125
    x.grad.zero_()    # 梯度清零

    iter_rec.append(i)
    loss_rec.append(y)

plt.subplot(121).plot(iter_rec, loss_rec, '-ro')
plt.xlabel('Iteration')
plt.ylabel('Loss value')

x_t = torch.linspace(-3, 3, 100)
y = func(x_t)
plt.subplot(122).plot(x_t.numpy(), y.numpy(), label='y = 4*x^2')
plt.grid()
y_rec = [func(torch.tensor(i)).item() for i in x_rec]
plt.subplot(122).plot(x_rec, y_rec, '-ro')
plt.legend()
plt.show()

先以学习率 lr=1，最大迭代次数 max_iteration=4，画出图形

学习率 lr=0.2，最大迭代次数 max_iteration=4，画出图形

学习率 lr=0.2，最大迭代次数 max_iteration=20，画出图形

在学习率 lr=0.125时，达到最好的情况，但事先不知道如何才能选到 0.125 这个值，先观察多个学习率，不同Loss的变化情况。

iteration = 100
num_lr = 10
lr_min, lr_max = 0.01, 0.2

lr_list = np.linspace(lr_min, lr_max, num=num_lr).tolist()
loss_rec = [[] for l in range(len(lr_list))]
iter_rec = list()

for i, lr in enumerate(lr_list):
    x = torch.tensor([2.], requires_grad=True)
    for iter in range(iteration):
        y = func(x)
        y.backward()
        x.data.sub_(lr * x.grad)  # x.data -= x.grad
        x.grad.zero_()
        
        loss_rec[i].append(y.item())
    
for i, loss_r in enumerate(loss_rec):
    plt.plot(range(len(loss_r)), loss_r, label="LR: {}".format(lr_list[i]))
plt.legend()
plt.xlabel('Iteration')
plt.ylabel('Loss value')
plt.show()

上图中学习率在0.136时收敛最快，（最下面紫色曲线，离0.125 最近）

4.3.3 Momentum 动量，冲量

momentum 动量的更新方法，结合当前梯度与上一次更新信息，用于当前更新。

指数加权平均（时间序列中常用）
求取当前时刻的平均值，距离当前时刻越近的参数值，参考性越大，所占权重越大，权重随着时间间隔增大呈指数下降的。
$v_t=\beta*v_{t-1}+(1-\beta)*\theta_t$

$v_t$ 是当前时刻的平均值， $\theta_t$ 是当前时刻的值，它所占的权重是 $(1-\beta)$ ， $v_{t-1}$ 是上一时刻的指数加权平均值。

实例 - 现求得是第100天时刻的平均值
$\begin{array}{l} \mathrm{v}_{100}=\boldsymbol{\beta} * \boldsymbol{v}_{99}+(\mathbf{1}-\boldsymbol{\beta}) * \boldsymbol{\theta}_{100} \\ =(\mathbf{1}-\boldsymbol{\beta}) * \boldsymbol{\theta}_{100}+\boldsymbol{\beta} *\left(\boldsymbol{\beta} * \boldsymbol{v}_{98}+(\mathbf{1}-\boldsymbol{\beta}) * \boldsymbol{\theta}_{99}\right) \\ =(\mathbf{1}-\boldsymbol{\beta}) * \boldsymbol{\theta}_{100}+(\mathbf{1}-\boldsymbol{\beta}) * \boldsymbol{\beta} * \boldsymbol{\theta}_{99}+\left(\boldsymbol{\beta}^{2} * \boldsymbol{v}_{98}\right) \\ =(1-\beta) * \theta_{100}+(1-\beta) * \beta * \theta_{99}+(1-\beta) * \beta^{2} * \theta_{98}+\left(\beta^{3} * v_{97}\right) \\ =(1-\beta) * \theta_{100}+(1-\beta) * \beta^{1} * \theta_{99}+(1-\beta) * \beta^{2} * \theta_{98}+\left(\beta^{3} * v_{97}\right) \\ =\sum_{i}^{N}(1-\beta) * \beta^{i} * \theta_{N-i} \end{array}$

def exp_w_func(beta, time_list):
    return [(1 - beta) * np.power(beta, exp) for exp in time_list]

beta = 0.9
num_point = 100
time_list = np.arange(num_point).tolist()

weights = exp_w_func(beta, time_list)
plt.plot(time_list, weights, '-ro', label='Beta:{} \ny= B^t *(1-B)'.format(beta))
plt.xlabel('time')
plt.ylabel('weight')
plt.legend()
plt.title('exponential weight average')
plt.show()

print(np.sum(weights))

距离当前时刻越远，对当前时刻平均值的影响越小；距离当前时刻越近，影响越大，权重越大。
下面对不同的 $B e t a$ ，权重的变化情况：

$B e t a$ 可理解为记忆周期的概念。 $B e t a$ 值越小，记忆周期越短（红色曲线20天之后就不关注远期的参数值），蓝色曲线（ $B e a t = 0.98$ ）记忆周期较长，80天之后不再关注。
β 越小，记忆周期越短， β 越大，记忆周期越长。
通常 $B e t a$ 值会设置为 0.9。物理意义，会更关注当前时刻 10 天左右的数据（ $\frac{1}{1-\beta}=10$ ）。

Pytorch中momentum更新公式：
$\begin{array}{c} v_{i}=m * v_{i-1}+g\left(w_{i}\right) \\ w_{i+1}=w_{i}-l r * v_{i} \end{array}$

对比梯度下降更新公式： $w_{i+1} = w_i -lr *g(w_i)$ ，其中 $w_{i+1}$ 表示第 $i + 1$ 次更新的参数， $l r$ 表示学习率， $v_{i}$ 表示更新量， $m$ 表示 $m o m e n t u m$ 系数， $g(w_{i})$ 表示 $w_{i}$ 的梯度。
$\begin{aligned} v_{100} &=m * v_{99}+g\left(w_{100}\right) \\ &=g\left(w_{100}\right)+m *\left(m * v_{98}+g\left(w_{99}\right)\right) \\ &=g\left(w_{100}\right)+m * g\left(w_{99}\right)+m^{2} * v_{98} \\ &=g\left(w_{100}\right)+m * g\left(w_{99}\right)+m^{2} * g\left(w_{98}\right)+m^{3} * v_{97} \end{aligned}$

代入上面例子，可看到，当前的更新量 $v_{100}$ 要考虑到当前的梯度 $g(w_{100})$ ，上一时刻的梯度 $g(w_{99})$ ，前一个时刻梯度 $g(w_{98})$ … 之前时刻更新梯度对当前更新量的影响，会受到权重 $m$ 的影响，由于 $m < 1$ ，越往前，权重越小，梯度信息的作用越小。

上图左图学习率为 0.03 时收敛更快。中间图把学习率为 0.01 时，设置 momentum 为 0.9，收敛更快。虽然设置了 momentum，但是震荡收敛，这是由于 momentum 的值太大，每一次都考虑上一次的比例太多，可以把 momentum 设置为 0.63 ，可以看到设置适当的 momentum 后，学习率 0.01 的情况下收敛更快了。

优化器	解释说明	参考文献 / 链接
optim.SGD	随机梯度下降法	《On the importance of initialization and momentum in deep learning》
optim.Adagrad	自适应学习率梯度下降法	《Adaptive Subgradient Methods for Online Learning and Stochastic Optimization》
optim.RMSprop	Adagrad 的改进	http://www.cs.toronto.edu/~tijmen/csc321/slides/lecture_slides_lec6.pdf
optim.Adadelta	Adagrad的改进	《 AN ADAPTIVE LEARNING RATE METHOD》》
optim.Adam	RMSprop结合Momentum	《Adam: A Method for Stochastic Optimization》
optim.Adamax	Adam增加学习率上限	《Adam: A Method for Stochastic Optimization》
optim.SparseAdam	稀疏版的Adam
optim.ASGD	随机平均梯度下降	《Accelerating Stochastic Gradient Descent using Predictive Variance Reduction》
optim.Rprop	弹性反向传播	《Martin Riedmiller und Heinrich Braun》
optim.LBFGS	BFGS的改进

4.3.4 学习率调整策略

学习率调整一般为先大后小

class _LRScheduler(Object):
	def __init__(self, optimizer, last_epoch=-1):
	
	def get_lr(self):
		raise NotImplementedError

主要属性：

optimizer：关联的优化器
last_epoch：记录 epoch 数
base_lrs：记录初始学习率

主要方法：

step()：更新下一个 epoch 的学习率
get_lrs()：虚函数，计算下一个epoch 的学习率

学习率初始化：

设置较小数：0.01，0.001，0.0001
搜索最大学习率：《Cyclical Learning Rates for Training Neural Networks》

Pytorch 学习率调整的策略

有序调整： Step、MultiStep、Exponential 和 CosineAnnealing
有序调整： ReduceLROnPleateau
有序调整： Lambda

StepLR：等间隔调整学习率。
主要参数：step_size：调整间隔数；gamma：调整系数。
调整方式： $l r = l r * g a m m a$

scheduler_lr = optim.lr_scheduler.StepLR(optimizer, step_size=50, gamma=0.1)  # 设置学习率下降策略

lr_list, epoch_list = list(), list()
for epoch in range(max_epoch):
    lr_list.append(scheduler_lr.get_lr())
    epoch_list.append(epoch)

    for i in range(iteration):
        loss = torch.pow((weights-target), 2)
        loss.backward()

        optimizer.step()
        optimizer.zero_grad()
        scheduler_lr.step()

MultiStepLR：按给定间隔调整学习率。
主要参数：milestone：设定调整时刻数；gamma：调整系数。
调整方式： $l r = l r * g a m m a$
ExponentialLR：按指数衰减调整学习率。
主要参数：gamma：指数的底。
调整方式： $l r = l r * g a m m a * * e p o c h$
CosineAnnealingLR：余弦周期调整学习率。
主要参数：T_max：下降周期；eta_min：学习率下限。
调整方式： $\eta_{t}=\eta_{\min }+\frac{1}{2}\left(\eta_{\max }-\eta_{\min }\right)\left(1+\cos \left(\frac{T_{c u r}}{T_{\max }} \pi\right)\right)$

scheduler_lr2 = optim.lr_scheduler.MultiStepLR(optimizer, milestones=milestones, gamma=0.1)
scheduler_lr3 = optim.lr_scheduler.ExponentialLR(optimizer, gamma=gamma)
scheduler_lr4 = optim.lr_scheduler.CosineAnnealingLR(optimizer, T_max=t_max, eta_min=0.)

ReduceLRonPlateau：监控指标，当指标不在变化 则调整学习率。
主要参数：mode：min / max 两种模式，min：观察所在的指标下降，若不下降，则调整，通常观察Loss；max：观察监控指标，若不上升，则调整，通常观察分类准确率accuracy。
factor：调整系数
patience：“耐心”，接受几次不变化
cooldown：“冷却时间”，停止监控一段时间
verbose：是否打印日志
min_lr：学习率下限
eps：学习率衰减最小值

loss_value = 0.5
accuracy = 0.9
factor = 0.1   # 系数是 0.1，也就是除以 10
mode = 'min'   # 下降模式
patience = 10  # 连续10个epoch不变化
cooldown = 10
min_lr = 1e-4   # 当学习率到了10^-4,就不再下降
verbose = True
scheduler_lr = optim.lr_scheduler.ReduceLROnPlateau(optimizer, factor=factor, mode=mode, patience=patience, cooldown=cooldown, min_lr=min_lr, verbose=verbose)  # 设置学习率下降策略

for epoch in range(max_epoch):
    for i in range(iteration):

        optimizer.step()
        optimizer.zero_grad()
        
    # if epoch == 5:
    #     loss_value = 0.4

    scheduler_lr.step(loss_value)   # loss_value是标量，要放进函数step()中

Output：

Epoch    12: reducing learning rate of group 0 to 1.0000e-02.
Epoch    33: reducing learning rate of group 0 to 1.0000e-03.
Epoch    54: reducing learning rate of group 0 to 1.0000e-04.

前10个loss_value都是0.5，连续10个epoch都没有下降，就改变学习率。第二次间隔21个epoch，有10个是处于冷却时间，无需调整。
若将代码中if epoch == 5: loss_value = 0.4的#去掉，则输出变为17，38，59个Epoch输出上面的结果。说明是在第5个epoch之后，再连续10个epoch无变化，会接受调整。

LambdaLR：自定义调整策略。
主要参数：lr_lambda：function or list

自定义一个lambda函数，函数的输入是epoch数，返回的是一个调整的系数，这个系数会乘以base_lr，得到下一个epoch的学习率，这就是Lambda可以自定义调整学习率的方法。
这个方法最实用的地方在于设置不同的参数组有不同学习率调整策略，在模型的fitting当中非常实用。

lr_init = 0.1

weight_1 = torch.randn((6,3,5,5)) # 可以对不同的参数组 设置不同学习率调整方法
weight_2 = torch.ones((5,5))

optimizer = optim.SGD([{'params': [weight_1]}, {'params': [weight_2]}], lr=lr_init)

lambda1 = lambda epoch: 0.1**(epoch//20)   # 在lambda当中设置调整系数，去更新学习率
lambda2 = lambda epoch: 0.95**epoch

scheduler_lr = optim.lr_scheduler.LambdaLR(optimizer, lr_lambda=[lambda1, lambda2])  # 设置学习率下降策略

lr_list, epoch_list = list(), list()
for epoch in range(max_epoch):
    for i in range(iteration):
        optimizer.step()
        optimizer.zero_grad()
    scheduler_lr.step()

    lr_list.append(scheduler_lr.get_lr())
    epoch_list.append(epoch)
    print('epoch:{:5d}, lr:{}'.format(epoch, scheduler_lr.get_lr()))

5. TensorBoard 与 Hook

5.1 TensorBorad 可视化

迭代训练可视化 - TensorBoard，TensorBoard 是TensorFlow 中强大的可视化工具。使用pip install tensorboard安装。

# 记录可视化数据到硬盘当中，以一个eventfile 形式去保存，保存在当前文件夹中run文件夹下
import numpy as np
from torch.utils.tensorboard import SummaryWriter

writer = SummaryWriter(comment='test_tensorboard')

for x in range(100):
    writer.add_scalar('y=2x', x*2, x)
    writer.add_scalar('y=pow(2,x)', 2**x, x)

    writer.add_scalars('data/scalar_group', {'xsinx': x * np.sin(x),
                                            'xcosx': x * np.cos(x),
                                            'arctanx': np.arctan(x)}, x)

writer.close()

之后在终端 Terminal 中输入tensorboard --logdir=./deepeye/runs，eventfile文件保存在runs文件夹下。

SummaryWriter
SummaryWriter：提供创建 event file 的高级接口
主要属性：

log_dir : event file 输出文件夹
comment：不指定 log_dir 时，文件夹后缀
filename_suffix：event file 文件名后缀

from torch.utils.tensorboard import SummaryWriter
log_dir = './train_log/test_log_dir'
writer = SummaryWriter(log_dir=log_dir, comment='_scalars', filename_suffix='12345678')
# writer = SummaryWriter(comment='_scalars', filename_suffix='12345678')

for x in range(100):
    writer.add_scalar('y=pow_2_x', 2**x, x)

writer.close()

一般会指定输出文件夹，使用log_dir，若不使用，会保存在当前文件夹下runs文件夹下，不推荐。

主要方法：

add_scalar()：记录标量
tage：图像的标签名，图的唯一标识
scalar_value：要记录的标量
global_step：x轴
add_scalars()：
main_tag：下降周期
tag_scalar_dict：key是变量的tag，value是变量的值

max_epoch = 100
writer = SummaryWriter(comment='test_comment', filename_suffix='test_suffix')

for x in range(max_epoch):
    writer.add_scalar('y=2x', x * 2, x)  # 'x*2': 是y轴，'x':是X轴
    writer.add_scalar('y=pow_2_x', 2 ** x, x)  # '2**x': 是y轴，'x':是X轴

    writer.add_scalars('data/scalar_group', {'xsinx': x * np.sin(x),
                                             'xcosx': x * np.cos(x)}, x)  # 'main_tag': 'data/scalar_group'
writer.close()

add_histogram()：统计直方图与多分为数折线图
tag：图像的标签名，图的唯一标识
value：要统计的参数
global_step：y轴
bins：取直方图的bins

TensorBoard监控模型指标，可以参考链接张贤同学-5.1 TensorBoard 介绍

add_image()：记录图像
tag：图像的标签名，图的唯一标识
img_tensor：图像数据，注意尺度
global_step：x轴
dataformats：数据形式，CHW，HWC，HW。如果像素值在 [0, 1] 之间，那么默认会乘以 255，放大到 [0, 255] 范围之间。如果有大于 1 的像素值，认为已经是 [0, 255] 范围，那么就不会放大。

writer = SummaryWriter(comment='test_your_comment', filename_suffix='_test_your_filename_suffix')

# img 1  random
fake_img = torch.randn(3, 512, 512)
writer.add_image('fake_img', fake_img, 1)
time.sleep(1)

# img 2  ones  // 全为 1 ，会默认×255，所有像素值都是255，是白色的
fake_img = torch.ones(3, 512, 512)
time.sleep(1)
writer.add_image('fake_img', fake_img, 2)

# img 3  1.1  // 所有像素值都是 1.1, 大于1, 默认为0~255之间，不会进行其他操作。都是1.1的像素值，是黑色的
fake_img = torch.ones(3, 512, 512) * 1.1
time.sleep(1)
writer.add_image('fake_img', fake_img, 3)

# img 4 HW  单通道的灰度图 // 没有彩色信息的rand，二维的灰度图
fake_img = torch.rand(512, 512)
writer.add_image('fake_img', fake_img, 4, dataformats='HW')

# img 5 HWC  通道放在最后一维  // 和方法1 两种模式，适应不同数据
fake_img = torch.rand(512, 512, 3)
writer.add_image('fake_img', fake_img, 5, dataformats='HWC')

writer.close()

将上面的显示结果显示在一个界面，不需要额外拖动鼠标显示，使用pytorch 中的torchvision.utils.make_grid。
torchvision.utils.make_grid()：制作网格图像
主要参数：tensor：图像数据，B*C*H*W形式；
nrow：行数（列数自动计算）；
padding：图像间距（像素单位）；
normalize：是否将像素值标准化到 [0, 255]之间；
range：标准化范围，例如原图的像素值范围是 [-1000, 2000]，设置 range 为 [-600, 500]，那么会把小于 -600 的像素值变为 -600，那么会把大于 500 的像素值变为 500，然后标准化到 [0, 255] 之间；
scale_each：是否单张图维度标准化，；
pad_value：padding像素值。

add_graph()：可视化模型计算图
model：模型，必须是nn.Module
input_to_model：输出给模型的数据
verbose：是否打印计算图结构信息

torchsummary：查看模型信息，便于调试
主要参数：model：pytorch模型；
input_size：模型输入size；
batch_size：batch size；
device：cpu or cuda；

from torchsummary import summary  # pip 安装
print(summary(lenet, (3, 32, 32), device='cpu'))

5.2 Hook函数

Hook函数机制：不改变函数主体，实现额外功能，像一个挂钩，hook。因为pytorch为动态图运行机制，在动态图运算过程中，运算结束之后，一些中间变量会被释放掉；例如特征图，非叶子节点的梯度等在运算结束后都会被释放掉。想要提取和记录这些中间边量，采用Hook函数。

torch.Tensor.register_hook
Tensor.register_hook，针对tensor，功能是注册一个反向传播的hook函数，张量在反向传播时，若是非叶子节点，梯度会消失。针对这个反向传播过程中有可能存在的数据会消失，释放，就有了这个hook函数。
Hook函数仅一个输入参数，为张量的梯度。

torch.Module.register_forward_hook
Module.register_forward_hook，注册module的前向传播hook函数
主要参数：model：当前网络层； input：当前网络层输入数据；output：当前网络层输出数据。

torch.Module.register_forward_pre_hook
Module.register_forward_pre_hook，注册module前向传播前的hook函数
主要参数：model：当前网络层； input：当前网络层输入数据。

torch.Module.register_backward_hook
Module.register_backward_hook，注册module反向传播hook函数
主要参数：model：当前网络层； grad_input：当前网络层输入梯度数据；grad_output：当前网络层输出梯度数据。

具体解释过程，可参考这篇博文链接TensorSense-PyTorch的hook及其在Grad-CAM中的应用

6. Regularization 与 Normalization

6.1 正则化之 weight_decay

Regularization：减小方差的策略
误差可分解为：偏差，方差与噪声之和。即误差 = 偏差 + 方差 + 噪声之和。
偏差度量了学习算法本身的期望预测与真实结果的偏离程度，即刻画了学习算法本身的拟合能力。
方差度量了同样大小的训练集的变动所导致的学习性能的变化，即刻画了数据扰动所造成的影响。
噪声则表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界。

目标函数：Obj = Cost Function + Regularization Term
代价函数： $\operatorname{Cos} t=\frac{1}{N} \sum_{i}^{N} f\left(y_{i}^{\wedge}, y_{i}\right)$ ，L1 正则项： $\sum_{i}^{N}\left|w_{i}\right|$ ， L2 正则项： $\sum_{i}^{N}w_{i}^2$

在线性回归中应用正则化方式减小过拟合，LASSO回归运用L1范数正则化解决过拟合，岭回归运用L2范数正则化解决过拟合。可参考之前博文线性回归。
对L1正则化与L2正则化详细理解，可参考知乎文章 bingo酱-L1正则化与L2正则化

L2 Regularization = weight decay (权值衰减)
目标函数： Obj = Cost + Regularization Term = $+\frac{\lambda}{2}*\sum_{i}^{N}w_{i}^2$
$\begin{aligned} w_{i+1}=w_{i}-\frac{\partial O b j}{\partial w_{i}} &=w_{i}-\frac{\partial L o s s}{\partial w_{i}} \\ &=w_{i}-\left(\frac{\partial L o s s}{\partial w_{i}}+\lambda* w_{i}\right) \\ &=w_{i}(1-\lambda)-\frac{\partial L o s s}{\partial w_{i}} \end{aligned}$

其中 $\lambda < 1$ ，所以具有权值衰减的作用，权值每次更新乘一个小于1 的数。

无权值衰减虽然对训练数据拟合很好，但很容易产生过拟合。

6.2 正则化之 Dropout

Dropout：随机失活。随机：dropout probability；以一定的概率让神经元失去活性；失活：weight = 0，可理解为权值为0，相当于这个神经元不存在；
出自文章《Dropout: A simple way to prevent neural networks from overfitting》

dropout 依据一定的概率让一部分的神经元失活，这就可以让神经元学习到更鲁棒的特征，减轻过度的依赖性，从而缓解过拟合，降低方差达到正则化效果。这样的操作也使得模型更加多样化，前向传播随机失活。

数据尺度变化： dropout 测试时，所有权重乘以 1- drop_prob，drop_prob=3，1- drop_prob=0.7

nn.Dropout()：Dropout 层；主要参数 p：被舍弃概率，失活概率。

红色曲线经过每个训练点，产生过拟合；蓝色曲线采用0.5概率的dropout，降低方差，减小过拟合。

pytoch 实现训练时对权重实现缩放，权重均乘以 $\frac{1}{1-p}$ ，即除以 $1 - p$ ，测试时不需要额外操作。详细结果可参考代码部分。

6.3 Batch Normalization

Batch Normalization: 批标准化
批：一批数据，通常为mini-batch
标准化：0 均值，1 方差

优点：

可以用更大学习率，加速模型收敛。
可以不用精心设计权值初始化。数据的尺度变大变小，导致梯度的激增或消失，模型无法训练。用Batch Normalization 可以将数据尺度一定的规范化，进行一定约束
可以不用 dropout或较小的dropout。
可以不用 L2 或较小的 weight decay。
可以不用 LRN (local response normalization)。

出自文章《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》

输入层有一个Batch数据 $x_{1...m}$ ，m 个数据，两个可学习的参数 $\gamma, \beta$ 。输出层将 $x_i$ 变换成 $y_i$ 。首先在 mini-batch 上求一个均值，然后得到方差，再标准化；参数 $\epsilon$ 是一个修正项，用来防止分母是 0；最后在进行 affine transform 操作，这个操作的可以增强模型 capacity，使模型更灵活，选择性更多，比如可以让模型自行判断是否对数据分布进行变换。

Batch Normalization 的提出主要为了解决 Internal Covariate Shift (ICS)，在训练过程中数据尺度发生变化，可能导致梯度爆炸或者梯度消失，从而模型无法有效训练。

6.3.1 _BatchNorm

_BatchNorm 基类包含 nn.BatchNorm1d()， nn.BatchNorm2d()， nn.BatchNorm3d() 三个基本方法。_BatchNorm 主要参数有，
num_feature : 一个样本特征数量（最重要）
e p s : $\epsilon$ 分母修正项
momentum : 指数加权平均估计当前 mean / var，通常设置为0.1
affine : 是否需要 affine transform，默认True
track_running_stats : 是训练状态（True），mean / var 会根据每个 mini-batch而改变；还是测试状态。

nn.BatchNorm1d()， nn.BatchNorm2d()， nn.BatchNorm3d()
主要属性：
running_mean : 均值
running_var : 方差
weight : affine transform 中的 $\gamma$
bias : affine transform 中的 $\beta$ ， $\gamma$ 和 $\beta$ 可学习。

均值和方差， 训练状态（track_running_stats=True）时，采用指数加权平均计算，考虑之前和现在的mini_batch的均值和方差，进行综合估计；
$running\_mean = (1 - momentum) * pre\_running\_mean + momentum * mean\_t$
$running\_var = (1 - momentum) * pre\_running\_var + momentum * var\_t$
测试状态（track_running_stats=False）时，直接采用已经估计好的统计值。

输入数据的形状是 $B * 特征数 * n d 特征$ 。在下面的例子左图中，数据的维度是：(3, 5, 1)，表示一个 mini-batch 有 3 个样本，每个样本有 5 个特征，每个特征的维度是 1。那么就会计算 5 个均值和方差，分别对应每个特征维度……

6.4 Normalization

Internal Covariate Shift(ICS)：数据尺度 / 分布异常，导致训练异常
深度学习中常见的 Normalization：

Batch Normalizaiton (BN)
Layer Normalization (LN)
Instance Normalization (IN)
Group Normalization (GN)

四种方法相同地方：需要对数据 $x_i$ 进行normalization，最终变成 $y_i$

四种方法不同地方：均值 $\mu_{\beta}$ 和方差 $\sigma_{\beta}^2$ 求取方式不同。
BN 是在一个Batch上找特征的均值和方差，LN 是在一个网络层里找均值和方差，IN 在图像生成当中使用的求均值和方差的方法，GN 分组求取。

6.4.1 Layer Normalization

起因：BN 不适用于变长的网络，如RNN。网络层的神经元长度可能不一样，导致不能使用BN去计算它们的均值和方差。
出自文章《Layer Normalization》

纵轴理解为神经元的个数，（RNN的神经元每一次可能会变长度）， $5\rightarrow 3\rightarrow 4$
解决思路：逐层计算均值和方差
注意事项：

不再有running_mean和running_var；LN不会在通过统计信息去获得均值和方差
$\gamma$ 和 $\beta$ 为逐元素的；（逐特征的），每一个神经元有它的 $\gamma$ 和 $\beta$

nn.LayerNorm() 主要参数:
normalized_shape : 该层特征形状；然后根据该层的特征和形状，求取特征和方差
e p s : $\epsilon$ 分母修正项
elementwise_affine : 是否需要affine transform

6.4.2 Instance Normalization

起因：BN 在图像生成（Image Generation）中不适用。
解决思路：逐Instance (channel) 计算均值和方差
出自文章《Instance Normalization: The Missing Ingredient for Fast Stylization》，《Image Style Transfer Using Convolutional Neural Networks》

不是将所有特征为1 一起计算，一行（3个2*2的正方形块）。而是一个通道一个通道计算（虚线，一个 $2 * 2$ 特征图）。

6.4.3 Group Normalization

起因：小 batch 样本中，BN 估计的值不准
解决思路：数据不够，通道来凑。每个样本的特征分为几组，每组特征分别计算均值和方差。可以看作是 Layer Normalization 的基础上添加了特征分组。
出自文章《Group Normalization》
注意事项：

不再有running_mean和running_var；
$\gamma$ 和 $\beta$ 为逐通道的

应用场景：大模型（小batch size）任务

7. 模型保存与加载

待续…

参考-深度之眼-PyTorch框架班
参考-github代码
参考-pytorch中文文档
参考-张贤同学-pytorch专栏

你可能感兴趣的:(NLP,pytorch)

全过程带你从入门到精通《动手学PyTorch深度学习建模与应用》第二章：2.1-2.3节详解，篇幅超了，缺的后面再补吧环工人学Python 深度学习 pytorch 人工智能 python 机器学习
写在前面：点点关注不迷路，免费的赞和收藏走起来！后续更新第一时间提示哦，每周会更新不同内容，下周更新如何用各种模态的大模型去为你服务，编写代码。在深度学习的世界里，理解基础概念是构建复杂模型的关键。第二章“深度学习基础与PyTorch实现”将帮助我们深入理解深度学习的核心概念，并通过PyTorch实现这些概念。这一章的内容非常重要，因为它不仅涵盖了神经网络的基本原理，还介绍了激活函数、损失函数和优
基于 Pytorch 的全卷积网络人脸表情识别：从数据到部署的实战之旅那年一路北 Pytorch理论+实践 pytorch 网络人工智能
前言：本文将详细介绍基于Pytorch框架，利用全卷积网络进行人脸表情识别的完整过程，涵盖从数据集的准备、模型的设计与训练，再到模型的部署与预测，通过代码实现以及详细讲解，帮助读者深入理解并掌握这一技术。一、引言人脸表情是人类情感交流的重要方式，不同的表情能够传达出丰富的情感信息。人脸表情识别在智能交互、安防监控、心理健康分析等众多领域有着广泛的应用前景。随着深度学习技术的发展，基于卷积神经网络的
基于yolov8的糖尿病视网膜病变严重程度检测系统python源码+pytorch模型+评估指标曲线+精美GUI界面 FL1623863129 深度学习 YOLO
【算法介绍】基于YOLOv8的糖尿病视网膜病变严重程度检测系统基于YOLOv8的糖尿病视网膜病变严重程度检测系统是一款利用深度学习技术，专为糖尿病视网膜病变早期诊断设计的智能辅助工具。该系统采用YOLOv8目标检测模型，结合经过标注和处理的医学影像数据集，能够高效且准确地检测并分类糖尿病视网膜病变的不同严重程度。YOLOv8模型以其高速和高精度的特点，在处理眼底图像时展现了强大的能力。通过优化模型
全网国内外总结Prompt&LLM论文，开源数据&模型，AIGC应用（持续更新，收藏查看）代码讲故事智能工具 Prompt LLM AIGC 模型开源数据集深度学习
全网国内外总结Prompt&LLM论文，开源数据&模型，AIGC应用（持续更新，收藏查看）目录顺序如下国内外，垂直领域大模型Agent和指令微调等训练框架开源指令，预训练，rlhf，对话，agent训练数据梳理AIGC相关应用prompt写作指南和5星博客等资源梳理Prompt和LLM论文细分方向梳理Prompt是在自然语言处理（NLP）中，尤其是在使用预训练语言模型时，用来引导模型生成特定类型输
机器学习AI/ML/CV/NLP/GNN算法公式汇总Latex代码 rockingdingo tensorflow 大数据自然语言处理算法深度学习机器学习
图学习和LinkPrediction任务KnowledgeGraphLinkPredictionEquationsAndLatexCodehttp://www.deepnlp.org/blog/knowledge-graph-link-prediction小样本学习和零样本学习公式的Latex代Few-ShotLearningAndZero-ShotLearningEquationsLatexCo
Transformer 代码剖析1 - 数据处理（pytorch实现） lczdyx Transformer代码剖析人工智能 transformer 深度学习 pytorch python
引言Transformer架构自《AttentionIsAllYouNeed》论文发表以来，在自然语言处理领域引起了巨大的变革。它摒弃了传统的循环结构，完全基于注意力机制，显著提高了处理序列数据的效率和性能。本文将通过对一个具体的项目代码结构进行详细分析，带领大家深入了解Transformer模型的数据处理部分。项目结构概述首先，让我们来看看项目的整体结构：（参考项目代码）transformer-
torch对于tensor的常规操作何33512336 Deep Learning python python pytorch
前言使用pytorch框架，会常操作tensor，以下则是对tensor常规操作的汇总。importtorchtorch.Tensor会继承某些torch的某些数学运算，例如sort,min/max....不需要调用相应的torch.funciton进行处理,下文中如果是torch/Tensor即表示该函数可以直接对self的tensor使用，也可以使用torch给的相应函数接口1.torch/T
RuntimeError: Couldn‘t load custom C++ ops.This can happen if your PyTorch and torchvision versions 万年枝常见运行错误服务器使用 pytorch 开发语言 torch版本错误
文章目录出现问题问题分析问题解决出现问题File"/home/anaconda3/envs/tris/lib/python3.8/site-packages/torchvision/ops/boxes.py",line40,innms_assert_has_ops()File"/home/anaconda3/envs/tris/lib/python3.8/site-packages/torchvi
Transformer 代码剖析8 - 编码器模块Encoder （pytorch实现） lczdyx Transformer代码剖析 transformer pytorch 深度学习人工智能 python
一、代码结构总览TransformerEncoder__init__初始化Encoder类forward前向传播super()父类初始化构建词嵌入层self.emb=TransformerEmbedding参数:d_model/max_len/vocab_size/drop_prob/device构建编码层堆栈self.layers=nn.ModuleList循环创建n_layers个Encode
深入理解PyTorch模型训练所需的数据集 mosquito_lover1 pytorch 人工智能 python
在PyTorch中，模型训练的核心是数据集（Dataset）。数据集是模型训练的基础，它提供了模型训练所需的所有输入数据和对应的标签。理解数据集的结构、加载方式以及如何预处理数据是成功训练模型的关键。以下是对PyTorch模型训练所需数据集的深入解析：1.数据集的基本概念数据集：数据集是模型训练的基础，通常由输入数据（如图像、文本、音频等）和对应的标签（目标值）组成。样本（Sample）：数据集中
PyTorch 常见的损失函数：从基础到大模型的应用阿正的梦工坊 LLM PyTorch pytorch 人工智能 python
PyTorch常见的损失函数：从基础到大模型的应用在用PyTorch训练神经网络时，损失函数（LossFunction）是不可或缺的“裁判”。它告诉模型预测结果与真实答案的差距有多大，优化器则根据这个差距调整参数。PyTorch提供了丰富而强大的损失函数接口，位于torch.nn模块中。今天我们就来聊聊几个常见的损失函数（比如nn.MSELoss和nn.CrossEntropyLoss），看看它们
Transformer 代码剖析4 - 编码器层实现（pytorch实现） lczdyx Transformer代码剖析 transformer pytorch 深度学习人工智能 python
一、EncoderLayer-类结构定义参考：项目代码classEncoderLayer(nn.Module):def__init__(self,d_model,ffn_hidden,n_head,drop_prob):super(EncoderLayer,self).__init__()self.attention=MultiHeadAttention(d_model=d_model,n_hea
饿了么算法工程师-AIGC岗内推飞300 AIGC 业界资讯
1、紧跟业界最新自然语言处理技术动态，深入研发并努力创新，特别是在LLM、多模态理解和LLMAgent领域。2、基于大型语言模型开展文本生成、自然语言理解以及智能对话系统的研发，提出新颖的算法/模型，并进行实际开发和应用。3、探索多模态数据的结合，包括图像、文本、语音等，以丰富智能系统的理解和交互能力。4、将自然语言处理技术与具体业务场景相结合，考虑业务的特殊性并适配业务需求。参与到具体的NLP相
自然语言处理入门：从基础概念到实战项目范范0825 自然语言处理人工智能
自然语言处理入门：从基础概念到实战项目一、引言自然语言处理（NaturalLanguageProcessing，简称NLP）是人工智能的重要分支，旨在让计算机能够理解、生成和处理人类语言。随着大数据和深度学习的发展，NLP技术在文本分类、机器翻译、问答系统、情感分析等领域得到了广泛应用。本文将从NLP的基础概念入手，逐步介绍关键技术，最终通过一个完整的实战项目帮助读者掌握如何在实际应用中使用NLP
自然语言处理系列（5）——情感分析的原理与实战 DoYangTan 自然语言处理人工智能
自然语言处理系列（5）——情感分析的原理与实战情感分析（SentimentAnalysis）是自然语言处理中的一项经典任务，目的是通过分析文本，判断其表达的情感倾向性。情感分析广泛应用于社交媒体监控、市场调研、客户服务等领域，帮助企业和机构快速了解用户的情感态度。在本文中，我们将深入探讨情感分析的基本概念、常用方法，并展示如何使用Python和现代NLP工具实现情感分析任务。1.情感分析的基本概念
pytorch基础 nn.embedding yuweififi pytorch 人工智能 nlp
nn.Embedding是PyTorch中的一个模块，用于创建嵌入层（embeddinglayer），它将离散的索引（例如词汇表中的单词索引）映射为固定大小的稠密向量。这是许多NLP模型（包括Transformer）中的基本组件。示例用法：importtorchimporttorch.nnasnn#定义一个嵌入层vocab_size=10000#词汇表大小embedding_dim=512#嵌入向
pytorch基础-layernormal 与 batchnormal yuweififi pytorch 人工智能 python
nn.LayerNorm（层归一化）和nn.BatchNorm（批量归一化）是深度学习中常用的两种归一化方法，都有助于提高模型的训练效率和稳定性，但它们在归一化维度、应用场景、计算方式等方面存在明显区别，以下为你详细介绍：1、归一化维度nn.LayerNorm：对单个样本的特征维度进行归一化。无论输入数据的形状如何，它会计算每个样本在特征维度上的均值和方差，然后进行归一化。例如，对于一个形状为(b
Pytorch使用手册—使用TACOTRON2进行文本到语音转换（专题二十四） AI专题精讲 Pytorch入门到精通 pytorch 人工智能 python
一、概述本教程展示了如何使用torchaudio中的预训练Tacotron2构建文本到语音的管道。文本到语音的管道流程如下：文本预处理首先，输入的文本被编码为一系列符号。在本教程中，我们将使用英语字符和音标作为符号。谱图生成从编码后的文本中生成谱图。我们使用Tacotron2模型来完成这一步。3.时域转换最后一步是将谱图转换为波形。从谱图生成语音的过程也称为Vocder（声码器）。在本教程中，我们
Pytorch使用手册--将 PyTorch 模型导出为 ONNX（专题二十六） AI专题精讲 Pytorch入门到精通 pytorch 人工智能 python
注意截至PyTorch2.1，ONNX导出器有两个版本。torch.onnx.dynamo_export是最新的（仍处于测试阶段）导出器，基于PyTorch2.0发布的TorchDynamo技术。torch.onnx.export基于TorchScript后端，自PyTorch1.2.0起可用。一、torch.onnx.dynamo_export使用在60分钟入门中，我们有机会从高层次上了解PyT
Transformer 代码剖析2 - 模型训练（pytorch实现） lczdyx Transformer代码剖析 transformer pytorch 深度学习人工智能 python
一、模型初始化模块参考：项目代码1.1参数统计函数defcount_parameters(model):returnsum(p.numel()forpinmodel.parameters()ifp.requires_grad)遍历模型参数筛选可训练参数统计参数数量返回总数技术解析：numel()方法计算张量元素总数requires_grad筛选需要梯度更新的参数统计结果反映模型复杂度，典型Tran
Stable diffusion 3.5本地运行环境配置记录寸先生的牛马庄园扩散模型 stable diffusion
1.环境配置创建虚环境condacreate-nsd3.5python=3.10Pytorch(>2.0)condainstallpytorch==2.2.2torchvision==0.17.2torchaudio==2.2.2pytorch-cuda=12.1-cpytorch-cnvidiaJupyter能使用Anaconda虚环境condainstallipykernelpython-mi
PyTorch使用常见异常和解决办法汇总东哥说AI 机器学习与深度学习实战 PyTorch 异常解决办法
文章目录1.使用conda安装PyTorch后同时在Jupyter导入失败Nomodulenamed'torch'2.PyTorch使用张量时报错expectedscalartypeDoublebutfoundFloat3.PyTorch创建Embedding时报错IndexError:indexoutofrangeinself1.使用conda安装PyTorch后同时在Jupyter导入失败No
pytorch基础-比较矩阵是否相等 yuweififi pytorch 人工智能
1、使用NumPy库NumPy是Python中用于科学计算的常用库，它提供了array_equal和allclose函数来判断矩阵是否相等。array_equal用于精确比较，allclose用于考虑一定误差范围的近似比较，适合浮点数矩阵。importnumpyasnp#创建示例矩阵matrix_a=np.array([[1,2,3],[4,5,6]])matrix_b=np.array([[1,
Linux 查看端口占用命令酒酿小圆子～ linux 运维服务器
文章目录1、lsof-i:端口号2、netstat命令2.1netstat-tunlp命令2.2netstat-anp命令1、lsof-i:端口号用于查看某一端口的占用情况，比如查看5000端口使用情况：sudolsof-i:5000注意：这里最好使用sudo开启管理员权限，未开启管理员权限时，可能会检测不到相关进程。（并非所有进程都能被检测到，所有非本用户的进程信息将不会显示，如果想看到所有信息
Empowering LLMs with Logical Reasoning: 从“语言大师”到“逻辑大师”的进化之路步子哥人工智能
“逻辑是智慧的骨架，而语言是智慧的血肉。让大语言模型（LLMs）既能说会道，又能逻辑严谨，是AI发展的下一座高峰。”开篇：语言模型的“逻辑盲区”近年来，大语言模型（LLMs）在自然语言处理（NLP）任务中取得了令人瞩目的成就。从生成流畅的文章到翻译复杂的句子，这些模型似乎无所不能。然而，当我们试图让它们回答逻辑推理问题时，却发现它们的表现常常令人失望。比如，某顶尖LLM在回答以下问题时出现了自相矛
深度学习模型优化与医疗诊断应用突破智能计算研究中心其他
内容概要近年来，深度学习技术的迭代演进正在重塑医疗诊断领域的实践范式。随着PyTorch与TensorFlow等开源框架的持续优化，模型开发效率显著提升，为医疗场景下的复杂数据处理提供了技术基座。当前研究聚焦于迁移学习与模型压缩算法的协同创新，通过复用预训练模型的泛化能力与降低计算负载，有效解决了医疗数据样本稀缺与硬件资源受限的痛点问题。与此同时，自适应学习机制通过动态调整网络参数更新策略，在病理
跨框架模型演进与行业应用路径智能计算研究中心其他
内容概要在人工智能技术持续迭代的背景下，模型框架的演进与行业应用的深度融合已成为推动产业智能化升级的核心驱动力。本文系统性梳理TensorFlow、PyTorch、MXNet等主流框架的技术发展脉络，重点分析其从通用计算架构向多模态、轻量化方向的转型路径。同时，针对模型优化技术领域，深入探讨迁移学习、超参数调优及模型压缩等方法的创新突破，揭示其在降低计算资源消耗、提升推理效率方面的关键作用。在行业
使用Hugging Face Text Embeddings Inference进行文本嵌入推理 dgay_hua python
在自然语言处理中，文本嵌入是一个重要的技术，它将文本转换为可以由机器学习算法处理的数字向量。在这篇文章中，我们将探讨如何使用HuggingFace的TextEmbeddingsInference（TEI）工具包来部署和服务开源文本嵌入和序列分类模型。TEI支持高性能提取，包括常用的嵌入模型如FlagEmbedding、Ember、GTE和E5。技术背景介绍文本嵌入在现代NLP任务中起着关键作用，它
Objective-C实现NLP中文分词（附完整源码）源代码大师 Objective-C实战教程自然语言处理 objective-c 中文分词
Objective-C实现NLP中文分词实现中文分词（NLP中的重要任务之一）在Objective-C中需要处理文本的切分和识别词语边界。尽管Objective-C在自然语言处理（NLP）领域并不常见，但通过合理的算法设计和数据结构，可以实现基本的中文分词功能。本文将介绍如何使用基于字典的最大匹配算法（MaximumMatchingAlgorithm），例如正向最大匹配（ForwardMaximu
pytorch阶段性总结2 Colinnian pytorch 人工智能 python
nn神经网络functional当中卷积的使用importtorchimporttorch.nn.functionalasF#数据input=torch.tensor([[1,2,0,3,1],[0,1,2,3,1],[1,2,1,0,0],[5,2,3,1,1],[2,1,0,1,1]])#卷积核kernel=torch.tensor([[1,2,1],[0,1,0],[2,1,0]])#min
项目中枚举与注解的结合使用飞翔的马甲 java enum annotation
前言：版本兼容，一直是迭代开发头疼的事，最近新版本加上了支持新题型，如果新创建一份问卷包含了新题型，那旧版本客户端就不支持，如果新创建的问卷不包含新题型，那么新旧客户端都支持。这里面我们通过给问卷类型枚举增加自定义注解的方式完成。顺便巩固下枚举与注解。一、枚举 1.在创建枚举类的时候，该类已继承java.lang.Enum类，所以自定义枚举类无法继承别的类，但可以实现接口。
【Scala十七】Scala核心十一：下划线_的用法 bit1129 scala
下划线_在Scala中广泛应用，_的基本含义是作为占位符使用。_在使用时是出问题非常多的地方，本文将不断完善_的使用场景以及所表达的含义 1. 在高阶函数中使用 scala> val list = List(-3,8,7,9) list: List[Int] = List(-3, 8, 7, 9) scala> list.filter(_ > 7) r
web缓存基础：术语、http报头和缓存策略 dalan_123 Web
对于很多人来说，去访问某一个站点，若是该站点能够提供智能化的内容缓存来提高用户体验，那么最终该站点的访问者将络绎不绝。缓存或者对之前的请求临时存储，是http协议实现中最核心的内容分发策略之一。分发路径中的组件均可以缓存内容来加速后续的请求，这是受控于对该内容所声明的缓存策略。接下来将讨web内容缓存策略的基本概念，具体包括如如何选择缓存策略以保证互联网范围内的缓存能够正确处理的您的内容，并谈论下
crontab 问题周凡杨 linux crontab unix
一： 0481-079 Reached a symbol that is not expected. 背景： */5 * * * * /usr/IBMIHS/rsync.sh
让tomcat支持2级域名共享session g21121 session
tomcat默认情况下是不支持2级域名共享session的，所有有些情况下登陆后从主域名跳转到子域名会发生链接session不相同的情况，但是只需修改几处配置就可以了。打开tomcat下conf下context.xml文件找到Context标签,修改为如下内容如果你的域名是www.test.com <Context sessionCookiePath="/path&q
web报表工具FineReport常用函数的用法总结（数学和三角函数）老A不折腾 Web finereport 总结
ABS ABS(number):返回指定数字的绝对值。绝对值是指没有正负符号的数值。 Number:需要求出绝对值的任意实数。示例: ABS(-1.5)等于1.5。 ABS(0)等于0。 ABS(2.5)等于2.5。 ACOS ACOS(number):返回指定数值的反余弦值。反余弦值为一个角度，返回角度以弧度形式表示。 Number:需要返回角
linux 启动java进程 sh文件墙头上一根草 linux shell jar
#!/bin/bash #初始化服务器的进程PId变量 user_pid=0; robot_pid=0; loadlort_pid=0; gateway_pid=0; ######### #检查相关服务器是否启动成功 #说明： #使用JDK自带的JPS命令及grep命令组合，准确查找pid #jps 加 l 参数，表示显示java的完整包路径 #使用awk，分割出pid
我的spring学习笔记5-如何使用ApplicationContext替换BeanFactory aijuans Spring 3 系列
如何使用ApplicationContext替换BeanFactory？ package onlyfun.caterpillar.device; import org.springframework.beans.factory.BeanFactory; import org.springframework.beans.factory.xml.XmlBeanFactory; import
Linux 内存使用方法详细解析 annan211 linux 内存 Linux内存解析
来源 http://blog.jobbole.com/45748/ 我是一名程序员，那么我在这里以一个程序员的角度来讲解Linux内存的使用。一提到内存管理，我们头脑中闪出的两个概念，就是虚拟内存，与物理内存。这两个概念主要来自于linux内核的支持。 Linux在内存管理上份为两级，一级是线性区，类似于00c73000-00c88000，对应于虚拟内存，它实际上不占用
数据库的单表查询常用命令及使用方法(-) 百合不是茶 oracle 函数单表查询
创建数据库; --建表 create table bloguser(username varchar2(20),userage number(10),usersex char(2)); 创建bloguser表,里面有三个字段 &nbs
多线程基础知识 bijian1013 java 多线程 thread java多线程
一．进程和线程进程就是一个在内存中独立运行的程序，有自己的地址空间。如正在运行的写字板程序就是一个进程。 “多任务”：指操作系统能同时运行多个进程（程序）。如WINDOWS系统可以同时运行写字板程序、画图程序、WORD、Eclipse等。线程：是进程内部单一的一个顺序控制流。线程和进程 a. 每个进程都有独立的
fastjson简单使用实例 bijian1013 fastjson
一.简介阿里巴巴fastjson是一个Java语言编写的高性能功能完善的JSON库。它采用一种“假定有序快速匹配”的算法，把JSON Parse的性能提升到极致，是目前Java语言中最快的JSON库；包括“序列化”和“反序列化”两部分，它具备如下特征：
【RPC框架Burlap】Spring集成Burlap bit1129 spring
Burlap和Hessian同属于codehaus的RPC调用框架，但是Burlap已经几年不更新，所以Spring在4.0里已经将Burlap的支持置为Deprecated,所以在选择RPC框架时，不应该考虑Burlap了。这篇文章还是记录下Burlap的用法吧，主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成
【Mahout一】基于Mahout 命令参数含义 bit1129 Mahout
1. mahout seqdirectory $ mahout seqdirectory --input (-i) input Path to job input directory(原始文本文件). --output (-o) output The directory pathna
linux使用flock文件锁解决脚本重复执行问题 ronin47 linux lock　重复执行
linux的crontab命令，可以定时执行操作，最小周期是每分钟执行一次。关于crontab实现每秒执行可参考我之前的文章《linux crontab 实现每秒执行》现在有个问题，如果设定了任务每分钟执行一次，但有可能一分钟内任务并没有执行完成，这时系统会再执行任务。导致两个相同的任务在执行。例如： <? // test .php
java-74-数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 bylijinnan java
public class OcuppyMoreThanHalf { /** * Q74 数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 * two solutions: * 1.O(n) * see <beauty of coding>--每次删除两个不同的数字，不改变数组的特性 * 2.O(nlogn) * 排序。中间
linux 系统相关命令 candiio linux
系统参数 cat /proc/cpuinfo cpu相关参数 cat /proc/meminfo 内存相关参数 cat /proc/loadavg 负载情况性能参数 1）top M：按内存使用排序 P：按CPU占用排序 1：显示各CPU的使用情况 k：kill进程 o：更多排序规则回车：刷新数据 2）ulimit ulimit -a：显示本用户的系统限制参
[经营与资产]保持独立性和稳定性对于软件开发的重要意义 comsci 软件开发
一个软件的架构从诞生到成熟，中间要经过很多次的修正和改造如果在这个过程中，外界的其它行业的资本不断的介入这种软件架构的升级过程中那么软件开发者原有的设计思想和开发路线
在CentOS5.5上编译OpenJDK6 Cwind linux OpenJDK
几番周折终于在自己的CentOS5.5上编译成功了OpenJDK6，将编译过程和遇到的问题作一简要记录，备查。 0. OpenJDK介绍 OpenJDK是Sun（现Oracle）公司发布的基于GPL许可的Java平台的实现。其优点： 1、它的核心代码与同时期Sun（-> Oracle）的产品版基本上是一样的，血统纯正，不用担心性能问题，也基本上没什么兼容性问题；（代码上最主要的差异是
java乱码问题 dashuaifu java乱码问题 js中文乱码
swfupload上传文件参数值为中文传递到后台接收中文乱码在js中用setPostParams（{"tag" : encodeURI( document.getElementByIdx_x("filetag").value，"utf-8")}）; 然后在servlet中String t
cygwin很多命令显示command not found的解决办法 dcj3sjt126com cygwin
cygwin很多命令显示command not found的解决办法修改cygwin.BAT文件如下 @echo off D: set CYGWIN=tty notitle glob set PATH=%PATH%;d:\cygwin\bin;d:\cygwin\sbin;d:\cygwin\usr\bin;d:\cygwin\usr\sbin;d:\cygwin\us
[介绍]从 Yii 1.1 升级 dcj3sjt126com PHP yii2
2.0 版框架是完全重写的，在 1.1 和 2.0 两个版本之间存在相当多差异。因此从 1.1 版升级并不像小版本间的跨越那么简单，通过本指南你将会了解两个版本间主要的不同之处。如果你之前没有用过 Yii 1.1，可以跳过本章，直接从"入门篇"开始读起。请注意，Yii 2.0 引入了很多本章并没有涉及到的新功能。强烈建议你通读整部权威指南来了解所有新特性。这样有可能会发
Linux SSH免登录配置总结 eksliang ssh-keygen Linux SSH免登录认证 Linux SSH互信
转载请出自出处：http://eksliang.iteye.com/blog/2187265 一、原理我们使用ssh-keygen在ServerA上生成私钥跟公钥，将生成的公钥拷贝到远程机器ServerB上后,就可以使用ssh命令无需密码登录到另外一台机器ServerB上。生成公钥与私钥有两种加密方式，第一种是
手势滑动销毁Activity gundumw100 android
老是效仿ios，做android的真悲催！有需求：需要手势滑动销毁一个Activity 怎么办尼？自己写？不用~，网上先问一下百度。结果： http://blog.csdn.net/xiaanming/article/details/20934541 首先将你需要的Activity继承SwipeBackActivity，它会在你的布局根目录新增一层SwipeBackLay
JavaScript变换表格边框颜色 ini JavaScript html Web html5 css
效果查看：http://hovertree.com/texiao/js/2.htm代码如下，保存到HTML文件也可以查看效果： <html> <head> <meta charset="utf-8"> <title>表格边框变换颜色代码-何问起</title> </head> <body&
Kafka Rest : Confluent kane_xie kafka REST confluent
最近拿到一个kafka rest的需求，但kafka暂时还没有提供rest api（应该是有在开发中，毕竟rest这么火），上网搜了一下，找到一个Confluent Platform，本文简单介绍一下安装。这里插一句，给大家推荐一个九尾搜索，原名叫谷粉SOSO，不想fanqiang谷歌的可以用这个。以前在外企用谷歌用习惯了，出来之后用度娘搜技术问题，那匹配度简直感人。环境声明：Ubu
Calender不是单例 men4661273 单例 Calender
在我们使用Calender的时候，使用过Calendar.getInstance()来获取一个日期类的对象，这种方式跟单例的获取方式一样，那么它到底是不是单例呢，如果是单例的话，一个对象修改内容之后，另外一个线程中的数据不久乱套了吗？从试验以及源码中可以得出，Calendar不是单例。测试： Calendar c1 =
线程内存和主内存之间联系 qifeifei java thread
1， java多线程共享主内存中变量的时候，一共会经过几个阶段， lock:将主内存中的变量锁定，为一个线程所独占。 unclock:将lock加的锁定解除，此时其它的线程可以有机会访问此变量。 read:将主内存中的变量值读到工作内存当中。 load:将read读取的值保存到工作内存中的变量副本中。
schedule和scheduleAtFixedRate tangqi609567707 java timer schedule
原文地址：http://blog.csdn.net/weidan1121/article/details/527307 import java.util.Timer;import java.util.TimerTask;import java.util.Date; /** * @author vincent */public class TimerTest {
erlang 部署 wudixiaotie erlang
1.如果在启动节点的时候报这个错： {"init terminating in do_boot",{'cannot load',elf_format,get_files}} 则需要在reltool.config中加入 {app, hipe, [{incl_cond, exclude}]}, 2.当generate时，遇到： ERROR