Miracle8070

系统学习Pytorch笔记六：模型的权值初始化与损失函数介绍

Pytorch官方英文文档：https://pytorch.org/docs/stable/torch.html?
Pytorch中文文档：https://pytorch-cn.readthedocs.io/zh/latest/

1. 写在前面

疫情在家的这段时间，想系统的学习一遍Pytorch基础知识，因为我发现虽然直接Pytorch实战上手比较快，但是关于一些内部的原理知识其实并不是太懂，这样学习起来感觉很不踏实，对Pytorch的使用依然是模模糊糊，跟着人家的代码用Pytorch玩神经网络还行，也能读懂，但自己亲手做的时候，直接无从下手，啥也想不起来，我觉得我这种情况就不是对于某个程序练得不熟了，而是对Pytorch本身在自己的脑海根本没有形成一个概念框架，不知道它内部运行原理和逻辑，所以自己写的时候没法形成一个代码逻辑，就无从下手。这种情况即使背过人家这个程序，那也只是某个程序而已，不能说会Pytorch，并且这种背程序的思想本身就很可怕，所以我还是习惯学习知识先有框架（至少先知道有啥东西）然后再通过实战（各个东西具体咋用）来填充这个框架。而这个系列的目的就是在脑海中先建一个Pytorch的基本框架出来，学习知识，知其然，知其所以然才更有意思 。

今天是该系列的第六篇文章，在上一次nn的网络层介绍(卷积层，池化层，激活函数，全连接层等)的基础上继续学习，我们通过上一次的学习，基本上完成了模型模块，也学会了如何搭建网络模型，下面进入损失函数的模块，但是在这之前，先来看看常用的权值初始化方法，这是网络模型搭建好之后的一个非常重要的步骤，正确的权值初始化可以加速模型的收敛，不恰当的权值初始化导致输出层的输出过大或者过小，最终导致梯度爆炸或者消失，使得模型无法训练, 这里会深层剖析权重初始化的重要性，会学习适用于饱和激活函数tanh等的Xavier初始化方法和非饱和激活函数relu等的Kaiming初始化方法（这些在实践中非常常用，但是有时候并不知道用这个背后的原因），学习完了这个，然后再正式整理关于各种损失函数的一些知识，这里会学习18种损失函数的原理及使用，最后会对这18种损失函数梳理一下，得知道什么样的任务有哪些损失函数可用。通过这篇文章，可以打通权值初始化和损失函数的任督二脉。

注意，本系列都默认已经安装了Cuda，搭建好了Pytorch环境，如果你电脑是Windows，并且没有装Pytorch，那么巧了，我之前写过一篇怎么搭建环境，可以先看看 Pytorch入门+实战系列一：Windows下的Pytorch环境手把手搭建

大纲如下：

权值初始化(梯度消失与爆炸， Xavier方法与Kaiming方法，十种初识化方法）
损失函数(损失函数，代价函数，目标函数这哥仨不是一回事，交叉熵损失， NLL/BCE/BCEWithLogits Loss)
总结梳理

Ok, let’s go!

2. 权值初始化

在网络模型搭建完成之后，对网络中的权重进行合适的初始化是非常重要的一个步骤，初始化好了，比如正好初始化到模型的最优解附近，那么模型训练起来速度也会非常的快，但如果初始化不好，离最优解很远，那么模型就需要更多次迭代，有时候还会引发梯度消失和爆炸现象，所以正确的权值初始化还是非常重要的，下面我们就来看看常用的权值初始化的方法，但是在这之前，先了解一下什么是梯度消失和梯度爆炸现象。

2.1 梯度的消失和爆炸

我们以上一篇的一个图来看一下梯度消失和爆炸现象

看上面这个图，假设我们要算 $W_2$ 的梯度，我们根据链式法则应该是下面这样：
$\mathrm{H}_{2}=\mathrm{H}_{1} * \mathrm{W}_{2}$
$\begin{aligned} \Delta W_{2} &=\frac{\partial L o s s}{\partial W_{2}}=\frac{\partial L o s s}{\partial o u t} * \frac{\partial o u t}{\partial H_{2}} * \frac{\partial H_{2}}{\partial w_{2}} \\ &=\frac{\partial L o s s}{\partial o u t} * \frac{\partial o u t}{\partial H_{2}} * H_{1} \end{aligned}$
这样我们就会发现 $W_2$ 梯度的求解过程中会用到上一层神经元的输出值 $H_1$ , 那么这时候，如果 $H_1$ 的输出值非常小，那么 $W_2$ 的梯度也会非常小，这时候就有可能造成梯度消失的现象，尤其是当网络层很多的时候，这种连乘一个数非常小，就会导致越乘越小，后面的层里面就容易发现梯度消失。而当 $H_1$ 非常大的时候，当然也就会发生梯度爆炸。
$\begin{aligned} &\mathrm{H}_{1} \rightarrow \mathbf{0} \Rightarrow \Delta \mathrm{W}_{2} \rightarrow \mathbf{0}\\ &\mathrm{H}_{1} \rightarrow \infty \Rightarrow \Delta \mathrm{W}_{2} \rightarrow \infty \end{aligned}$
一旦发生梯度消失或者爆炸，就会导致模型无法训练，而如果想避免这个现象，我们就得控制网络输出层的一个尺度范围，也就是不能让它太大或者太小。那么我们怎么控制这个网络输出层的尺度呢？那就是通过合理的初始化权重了。我们下面从代码切入，进行理解吧：

我们建立一个100层的多层感知机，每一层256个神经元，我们使用上面学习的ModuleList进行建立：

class MLP(nn.Module):
	def __init__(self, neural_num, layers):
		super(MLP, self).__init__()
		self.linears = nn.ModuleList([nn.Linear(neural_num, neural_num, bias=False) for i in range(layers)])
		self.neural_num = neural_num
	# 正向传播
	def forward(self, x):
		for (i, linear) in enumerate(self.linears):
			x = linear(x)

			print("layer:{}, std:{}".format(i, x.std()))
			if torch.isnan(x.std()):
				print('output is nan in {} layers".format(i))
				break
		
		return x
	# 权值初始化，我们这里使用标准正态
	def initialize(self):
		for m in self.modules():
			if isinstance(m, nn.Linear):
				nn.init.normal_(m.weight.data)      # normal: mean=0, std=1

# 用一下网络
layer_nums = 100
neural_nums = 256
batch_size = 16

net = MLP(neural_nums, layer_nums)
net.initialize()

inputs = torch.randn((batch_size, neural_nums))  # normal: mean=0, std=1

output = net(inputs)
print(output)

这个结果可以发现，在35层的时候，神经网络的输出就成了nan, 这说明网络出现了问题，导致后面输出的值太大了，当然我们还没有反向传播，根据上面的权重推导的公式，后面的这些如果为nan了之后，反向传播的时候，这些权重根本就没法进行更新，会发生梯度爆炸现象。

这就是有时候我们在训练网络的时候，最后结果全是nan的原因，这往往可能是权重初始化的不当导致的。

可是，这是为啥呢？为啥我初始化权重不当了会影响到网络的输出呢？刚才不是还说是网络的输出影响的权重梯度吗？那是反向传播的时候，而正向传播的时候，权重肯定要影响到每一层的输出啊。我们推导一下上面这个过程中每一层输出的方差是如何变化的就明白了。

下面先进行一个 $D (X Y)$ 方差的公式推导：

借助三个基本公式：

$E (X Y) = E (X) E (Y)$

$D(X) = E(X^2) - [E(X)]^2$

$D (X + Y) = D (X) + D (Y)$

那么

$D(XY)\\=E{[XY-E(XY)]^2}\\=E{X²Y²-2XYE(XY)+E²(XY)}\\=E(X²)E(Y²)-2E²(X)E²(Y)+E²(X)E²(Y)\\=E(X²)E(Y²)-E²(X)E²(Y)\\=(D(X)+[E(X)]^2)(D(Y)+[E(Y)]^2)-E(X²)E(Y²)-E²(X)E²(Y)\\=D(X)D(Y) + D(X)[E(Y)]^2+D(Y)[E(X)]^2$

若 $E (X) = 0, E (Y) = 0$ , 则 $D (X Y) = D (X) D (Y)$

好了，那么我们看看神经网络里面每一层输出的方差计算：

还是这个网络，我们看第一层第一个神经元的方差应该怎么算：
$\begin{aligned} \mathrm{H}_{11}=& \sum_{i=0}^{n} X_{i} * W_{1 i} \quad \\ \mathrm{D}\left(\mathrm{H}_{11}\right) &=\sum_{i=0}^{n} D\left(X_{i}\right) * D\left(W_{1 i}\right) \\ &=\mathrm{n} *(1 * 1) \\ &=\mathrm{n} \\ \operatorname{std}\left(\mathrm{H}_{11}\right) &=\sqrt{\mathrm{D}\left(\mathrm{H}_{11}\right)}=\sqrt{n} \end{aligned}$

这里我们的输入数据和权重都初始化的均值为0，方差为1的标准正态。这样经过一个网络层就发现方差扩大了n倍。而我们上面用了100个网络层，那么这个方差会指数增长，所以我们后面才会出现输出层方差nan的情况。

那么我们怎么解决这种情况呢？那很简单，让网络层的输出方差保持尺度不变就可以了，可是怎么做呢？分析一下网络层的输出方差：

我们发现，每一层的输出方差会和每一层神经元个数，前一层输出方差和本层权重的方差有关，如果想让方差的尺度不变，因为这里都是连乘，有个方法就是让每一层输出方差都是1，也就是 $D(H_{11})=1$ , 这样后面多层相乘，那么也不会变这个尺度。怎么做呢？首先，每一层神经元个数没法变，而前一层输出方差是1又涉及到了方差，所以这里能变得就是权重的方差：
$D(H_1) = n\times D(X) \times D(W) = 1\\D(W) = \frac{1}{n} => std(W) = \sqrt{\frac{1}{n}}$

这样，我们权重在初识的时候，方差如果是 $\sqrt{\frac{1}{n}}$ 的话，每一层的输入方差都是1，这样方差就不会导致nan的情况发生了。在上面代码中改一句话：

    def initialize(self):
        for m in self.modules():
            if isinstance(m, nn.Linear):
                nn.init.normal_(m.weight.data, std=np.sqrt(1/self.neural_num))         # 把权重方差改了

这样就会发现，不会出现nan的情况了：

所以我们只要采用恰当的权值初始化方法，就可以实现多层神经网络的输出值的尺度维持在一定范围内, 这样在反向传播的时候，就有利于缓解梯度消失或者爆炸现象的发生

当然，上面的网络只是一个线性网络，在实际中我们还得考虑激活函数的存在，我们从上面的前向传播中加一个激活函数再看一下结果：

那么，具有激活函数的时候，怎么对权重进行初始化呢？

2.2 Xavier初始化

方差一致性：保持数据尺度范围维持在恰当范围，通常方差为1。如果有了激活函数之后，我们应该怎么对权重初始化呢？

2010年Xavier发表了一篇文章，详细探讨了如果有激活函数的时候，如何进行权重初始化，当然它也是运用的方差一致性原则，但是它这里考虑的是饱和激活函数，如sigmoid， tanh。文章中有个这样的公式推导，从而得到我们权重的方差：
$\begin{aligned} &\boldsymbol{n}_{i} * {D}({W})={1}\\ &\boldsymbol{n}_{i+1} * {D}({W})={1}\\ &\Rightarrow D(W)=\frac{2}{n_{i}+n_{i+1}} \end{aligned}$
这里的 $n_i$ 、 $n_{i+1}$ 分别指的输入层和输出层神经元个数。通常Xavier采用均匀分布对权重进行初始化，那么我们可以推导一下均匀分布的上限和下限：
$\begin{aligned} &{W} \sim \boldsymbol{U}[-{a}, {a}]\\ &D(W)=\frac{(-a-a)^{2}}{12}=\frac{(2 a)^{2}}{12}=\frac{a^{2}}{3} \end{aligned}$

我们让上面的两个 $D (W)$ 相等就会得到
$\begin{array}{l} \frac{2}{n_{i}+n_{i+1}}=\frac{a^{2}}{3} \Rightarrow a=\frac{\sqrt{6}}{\sqrt{n_{i}+n_{i+1}}} \\ \Rightarrow W \sim U\left[-\frac{\sqrt{6}}{\sqrt{n_{i}+n_{i+1}}}, \frac{\sqrt{6}}{\sqrt{n_{i}+n_{i+1}}}\right] \end{array}$
这就是Xavier初始化方法，那么在代码中怎么用呢？还是上面的那个代码例子，我们在参数初始化里面用Xavier初始化权重：

    def initialize(self):
        for m in self.modules():
            if isinstance(m, nn.Linear):
                # Xavier初始化权重
                tanh_gain = nn.init.calculate_gain('tanh')
                nn.init.xavier_uniform_(m.weight.data, gain=tanh_gain)

这里面用到了一个函数nn.init.calculate_gain(nonlinearity, param=None)这个函数的作用是计算激活函数的方差变化尺度，怎么理解这个方差变化尺度呢？其实就是输入数据的方差除以经过激活函数之后的输出数据的方差。nonlinearity表示激活函数的名称，如tanh, param表示激活函数的参数，如Leaky ReLU的negative_slop。（这里不用也行，但得知道这个方法）。这时候再来看一下最后的结果：

所以Xavier权重初始化，有利于缓解带有sigmoid，tanh的这样的饱和激活函数的神经网络的梯度消失和爆炸现象。

但是，2012年AlexNet出现之后，非饱和函数relu也用到了神经网络中，而Xavier初始化对于relu就不好使了，不信我们看看：

2.3 Kaiming初始化

这个依然是考虑的方差一致性原则，**针对的激活函数是ReLU及其变种。**经过公示推导，最后的权值标准差是这样的：
$\begin{aligned} &\mathbf{D}({W})=\frac{2}{\boldsymbol{n}_{i}}\\ &\mathbf{D}({W})=\frac{2}{\left(1+\mathbf{a}^{2}\right)+\boldsymbol{n}_{i}}\\ &\operatorname{std}(W)=\sqrt{\frac{2}{\left(1+a^{2}\right) * n_{i}}} \end{aligned}$

那么Kaiming初始化权重方法怎么用呢？

    def initialize(self):
        for m in self.modules():
            if isinstance(m, nn.Linear):
                nn.init.kaiming_normal_(m.weight.data)
                # nn.init.normal_(m.weight.data, std=np.sqrt(2 / self.neural_num))     # 这两句话其实作用一样，不过自己写还得计算出标准差

我们可以看一下结果：

所以从上面的学习中，我们对权值的初始化有了清晰的认识，发现了权重初始化对于模型的重要性，不好的权重初始化方法会引起输出层的输出值过大过小，从而引发梯度的消失或者爆炸，最终导致我们的模型无法训练。所以我们如果想缓解这种现象，就得控制输出层的值的范围尺度，就得采取合理的权重初始化方法。

2.4 十种权重初始化方法

Pytorch里面提供了很多权重初始化的方法，可以分为下面的四大类：

针对饱和激活函数（sigmoid， tanh）：Xavier均匀分布， Xavier正态分布
针对非饱和激活函数（relu及变种）：Kaiming均匀分布， Kaiming正态分布
三个常用的分布初始化方法：均匀分布，正态分布，常数分布
三个特殊的矩阵初始化方法：正交矩阵初始化，单位矩阵初始化，稀疏矩阵初始化：

好了，到了这里，模型模块才算得上结束，下面我们就进行下一个模块的学习，损失函数模块，在这里面学习各种损失函数的原理及应用场景。

3. 损失函数

这一部分分为三大块，首先看一下损失函数到底是干嘛的？然后学习非常常用的损失函数交叉熵，最后再看看其他的几个重要损失函数。

3.1 损失函数初步介绍

损失函数：衡量模型输出与真实标签的差异。而我们谈损失函数的时候，往往会有三个概念：损失函数，代价函数，目标函数。你知道这仨到底啥区别吗？还是以为这仨就是一个概念？

Loss Function：计算一个样本的一个差异。 $f(y^{\wedge},y)$
Cost Function: 计算整个训练集Loss的一个平均值。 $\cos t=\frac{1}{N} \sum_{i}^{N} f\left(y_{i}^{\wedge}, y_{i}\right)$
Objective Function: 这是一个更广泛的概念，在机器学习模型训练中，这是最终的一个目标，过拟合和欠拟合之间进行一个权衡。 $O b j = C o s t + R e g u l a r i z a t i o n$

而我们一般都是在衡量模型输出和真实标签的差异的时候，往往都直接成损失函数。但是我们得知道这哥仨不是一回事。我们下面看一下Pytorch中的损失函数的真实面目：

我们发现了啥？原来_Loss也是继承于Module，这个在模型创建的时候就已经很熟悉了，也具体介绍过，既然_Loss也是继承于这个类，那么就得先想起来肯定_Loss也有那8个参数字典了，然后这里面是设置一个reduction这个参数。下面我们再以人民币二分类的实验中的交叉熵损失为例子，看看损失函数是如何创建和使用的，背后的运行机制又是什么？哈哈哈，下面就得来一波调试了。这次是损失函数的学习，所以我们在定义损失函数和使用损失函数的地方打上断点，并且开始debug：

程序运行到第一个断点处，我们步入，就到了loss.py文件中的一个class CrossEntropyLoss(_WeightedLoss):交叉熵损失类的__init__方法，这里发现交叉熵损失函数继承_WeightedLoss这个类：

我们继续步入，就到了class _WeightedLoss(_Loss):这个类里面，就会发现这个类继承_Loss, 那么我们继续步入，就到了_Loss这个类里面去，会发现这个继承Module，那么现在就明白了，损失函数的初始化方法和模型其实类似，也是调用Module的初始化方法，最终会有8个属性字典，然后就是设置了一个reduction这个参数。初始化就是这样子了，学过了nn.Module之后，这里都比较好理解。

那么下面看看使用过程中的运行机制：我们到第二个断点，然后步入，我们知道既然这个损失函数也是一个Module，那么在调用的时候肯定也是调用的forward方法了，还真的是这样，它也有一个forward的函数的：

看这里也是调用的forward函数，我们把程序运行到547行，再次步入，看看损失函数的forward长啥样：

我们模型构建里面forward里面写的是各个模块的拼接方式，而损失函数的forward里面调用了F里面的各种函数，我们Ctrl然后点击这个函数，看看这个交叉熵损失函数到底长啥样：

这个是底层计算了，不再往下了，我们退回去。

这就是损失函数的初始化和使用方法的内部运行机制了。从上面我们发现了损失函数其实也是一个Module，那么既然是Module，初始化依然是有8个属性字典，使用的方法依然是定义在了forward函数中。下面我们就详细的学习一个非常重要的函数，也是上面例子里面的函数nn.CrossEntropyLoss，这个在分类任务中很常用，所以下面得详细的说说。

3.2 交叉熵损失CrossEntropyLoss

nn.CrossEntropyLoss: nn.LogSortmax()与nn.NLLLoss()结合，进行交叉熵计算。

weight：各类别的loss设置权值
ignore_index: 忽略某个类别
reduction：计算模式，可为none/sum/mean, none表示逐个元素计算，这样有多少个样本就会返回多少个loss。 sum表示所有元素的loss求和，返回标量， mean所有元素的loss求加权平均（加权平均的含义下面会提到），返回标量。看了下面的原理就懂了。

在详细介绍这些参数用法之前，得先说说这里的交叉熵损失函数，这个并不是公式意义上的交叉熵损失函数，而是有一些不同之处。还记得普通的交叉熵损失函数吗？
$\mathrm{H}(\boldsymbol{P}, \boldsymbol{Q})=-\sum_{i=1}^{N} \boldsymbol{P}\left(\boldsymbol{x}_{i}\right) \log \boldsymbol{Q}\left(\boldsymbol{x}_{i}\right)$

$P$ 表示数据的原始分布， $Q$ 表示模型输出的分布，交叉熵损失衡量两个分布之间的差异程度，交叉熵越低，说明两个分布越近。这里的一个不同就是先用nn.LogSoftmax()把模型的输出值归一化成了概率分布的形式，然后是单个样本的输出，并且没有求和符号。

具体的下面会解释，但是解释之前，得先明白一个问题，就是为什么交叉熵可以衡量两个分布的差异，这个到底是个什么东西？这就不得不提到相对熵，而想了解相对熵，就得先明白熵的概念，而如果想明白熵，就得先知道自信息，好吧，成功懵逼。下面我们先看看这些都是啥吧：

首先从熵开始，这是信息论之父香农从热力学借鉴来的名词，用来描述事件的不确定性，一个事物不确定性越大，熵就越大。比如明天会下雨这个熵就比明天太阳从东边升起这个熵要大。那么熵的公式长这样：
$\mathrm{H}(\mathrm{P})=E_{x \sim p}[\boldsymbol{I}(\boldsymbol{x})]=-\sum_{i}^{N} \boldsymbol{P}\left(\boldsymbol{x}_{i}\right) \boldsymbol{l o g} \boldsymbol{P}\left(\boldsymbol{x}_{i}\right)$
原来这个熵是自信息的一个期望，那么就得先看看自信息是什么东西？下面是自信息的公式：
$I(x)=-\log [p(x)]$
这个比较好理解了，就是一个事件发生的概率，然后取对数再取反。也就是一个事件如果发生的概率越大，那么自信息就会少。所有事件发生的概率都很大，那么熵就会小，则事件的不确定性就小。看个图就好理解了：

这是一个两点分布的一个信息熵，可以看到，当概率是0.5的时候熵最大，也就是事件的不确定性最大，熵大约是0.69。这个数是不是很熟悉？因为这个在二分类模型中经常会碰到，模型训练坏了的时候，或者刚训练的时候，我们就会发现Loss值也可能是0.69，这时候就说模型目前没有任何的判断能力。这就是信息熵的概念。

相对熵又称为KL散度，用来衡量两个分布之间的差异，也就是两个分布之间的距离，但是不是一个距离函数，因为距离函数有对称性，也就是p到q的距离等于q到p的距离。而这里的相对熵不具备这样的对称性，如果看过我写的生成对抗原理推导那篇博客的话，那里面也有KL散度这个概念，并且可以通过组合这个得到一个既能够衡量分布差异也有对称性的一个概念叫做JS散度。这里先不说了，看看这个公式：
$\boldsymbol{D}_{K L}(\boldsymbol{P}, \boldsymbol{Q})=\boldsymbol{E}_{\boldsymbol{x} \sim \boldsymbol{p}}\left[\boldsymbol{\operatorname { l o g }} \frac{\boldsymbol{P}(\boldsymbol{x})}{\boldsymbol{Q}(\boldsymbol{x})}\right]$
这里的P是数据的真实分布，Q是模型输出的分布，这里就是用Q的分布去逼近P的分布。所以这不具备对称性。

好了信息熵和相对熵都说了，就可以引出交叉熵了。其实交叉熵=信息熵+相对熵，公式如下：
$\mathrm{H}(\boldsymbol{P}, \boldsymbol{Q})=-\sum_{i=1}^{N} \boldsymbol{P}\left(\boldsymbol{x}_{i}\right) \log \boldsymbol{Q}\left(\boldsymbol{x}_{i}\right)$
什么？没看出交叉熵等于上面两个熵之和吗？那么我们把相对熵化简一下子：
$\begin{aligned} \boldsymbol{D}_{K L}(\boldsymbol{P}, \boldsymbol{Q}) &=\boldsymbol{E}_{x \sim p}\left[\log \frac{\boldsymbol{P}(\boldsymbol{x})}{Q(\boldsymbol{x})}\right] \\ &=\boldsymbol{E}_{\boldsymbol{x} \sim \boldsymbol{p}}[\log \boldsymbol{P}(\boldsymbol{x})-\log \boldsymbol{Q}(\boldsymbol{x})] \\ &=\sum_{i=1}^{N} \boldsymbol{P}\left(\boldsymbol{x}_{i}\right)\left[\log \boldsymbol{P}\left(\boldsymbol{x}_{i}\right)-\log \boldsymbol{Q}\left(\boldsymbol{x}_{i}\right)\right] \\ &=\sum_{i=1}^{N} \boldsymbol{P}\left(\boldsymbol{x}_{i}\right) \log \boldsymbol{P}\left(\boldsymbol{x}_{i}\right)-\sum_{i=1}^{N} \boldsymbol{P}\left(\boldsymbol{x}_{i}\right) \log \boldsymbol{Q}\left(\boldsymbol{x}_{i}\right) \end{aligned}\\ =-信息熵 + 交叉熵$
这样看出来了吧。

所以，根据上面的推导我们得到：
$\mathrm{H}(\boldsymbol{P}, \boldsymbol{Q})=\boldsymbol{D}_{K L}(\boldsymbol{P}, \boldsymbol{Q})+\mathrm{H}(\boldsymbol{P})$
在机器学习模型中，我们最小化交叉熵，其实就是最小化相对熵，因为我们训练集取出来之后就是固定的了，熵就是一个常数。

好了，我们已经知道了交叉熵是衡量两个分布之间的距离，一个差异。所以这里使用softmax，就可以将一个输出值转换到概率取值的一个范围。我们看看这里的交叉熵损失函数是怎么计算的：
$\begin{aligned} &\operatorname{loss}(x, \text { class })=-\log \left(\frac{\exp (x[\text { class }])}{\sum_{j} \exp (x[j])}\right)=-x[\text { class }]+\log \left(\sum_{j} \exp (x[j])\right)\end{aligned}$
这里的x就是我们输出的概率值，class就是某一个类别，在括号里面执行了一个softmax，把某个神经元的输出归一化成了概率取值，然后-log一下，就得到了交叉熵损失函数。我们可以对比一下我们的交叉熵公式：
$\mathrm{H}(\boldsymbol{P}, \boldsymbol{Q})=-\sum_{i=1}^{N} \boldsymbol{P}\left(\boldsymbol{x}_{i}\right) \log \boldsymbol{Q}\left(\boldsymbol{x}_{i}\right)$
由于是某个样本，那么 $P(x_i)$ 已经是1了，毕竟取出来了已经。而是某个样本，所以也不用求和符号。

这就是用softmax的原因了，把模型的输出值转成概率分布的形式，这样就得到了交叉熵损失函数。

好了，这里就可以说一说那些参数的作用了，第一个参数weight，各类别的loss设置权值，如果类别不均衡的时候这个参数很有必要了，加了之后损失函数变成这样：
$\begin{aligned}&\operatorname{loss}(x, \text { class })=\text { weight }[\text { class }]\left(-x[\text { class }]+\log \left(\sum_{j} \exp (x[j])\right)\right) \end{aligned}$
这样，就是如果我们想让模型更关注某一类的话，就可以把这一类的权值设置的大一点。第二个参数ignore_index, 这个是表示某个类别不去计算loss。而关于第三个参数reduction，有三个计算模式none/sum/mean，上面已经说了，下面我们从代码中看看这三个的区别：


# fake data
inputs = torch.tensor([[1, 2], [1, 3], [1, 3]], dtype=torch.float)  # 这里就是模型预测的输出， 这里是两个类，可以看到模型输出是数值，我们得softmax一下转成分布
target = torch.tensor([0, 1, 1], dtype=torch.long)  # 这里的类型必须是long， 两个类0和1

# 三种模式的损失函数
loss_f_none = nn.CrossEntropyLoss(weight=None, reduction='none')
loss_f_sum = nn.CrossEntropyLoss(weight=None, reduction='sum')
loss_f_mean = nn.CrossEntropyLoss(weight=None, reduction='mean')

# forward
loss_none = loss_f_none(inputs, target)
loss_sum = loss_f_sum(inputs, target)
loss_mean = loss_f_mean(inputs, target)

# view
print("Cross Entropy Loss:\n ", loss_none, loss_sum, loss_mean)

## 结果：
Cross Entropy Loss:
  tensor([1.3133, 0.1269, 0.1269]) tensor(1.5671) tensor(0.5224)

这样可以看到， none模式下是输出三个损失， sum下是三个损失求和，mean下是三个损失求平均。这里还要注意一下这里的target，这个是每个样本给出属于哪一个类即可，类型是torch.long, 为什么要强调这个，我们下面会学习二分类交叉熵损失，是交叉熵损失函数的特例，那里的target更要注意，对比起来更容易理解

下面我们再通过代码看看加上weight的损失：

这里可以发现，给类别加上权值之后，对应样本的损失就会相应的加倍，这里重点是了解一下这个加上权之后，mean模式下怎么计算的损失：其实也很简单，我们三个样本，第一个权值为1，后两个权值为2，所以分母不再是3个样本，而是1+2+2，毕竟后两个样本权为2，一个样本顶第一个的这样的2个。所以mean模式下求平均不是除以样本的个数，而是样本所占的权值的总份数。

3.2.1 还有几个交叉熵损失函数的特例

nn.NLLoss
在上面的交叉熵损失中，我们发现这个是softmax和NLLoss的组合，那么这里的nn.NLLLoss是何物啊？交叉熵损失里面还有个这个东西，其实这个东西不要被这个名字给迷惑了，这个就是实现了一个负号的功能：
nn.NLLoss: 实现负对数似然函数里面的负号功能

下面看看这个东西到底干啥用，我这样测试了一下：

这个损失函数，就是根据真实类别去获得相应的softmax之后的概率结果，然后取反就是最终的损失。还别说，真能反应模型好坏，因为第一个类分错了，所以损失就大，看到没。
nn.BCELoss
这个是交叉熵损失函数的特例，二分类交叉熵。注意：输入值取值在[0,1]

这里的参数和上面的一样，也不说了，看看这个计算公式吧：
$l_{n}=-w_{n}\left[y_{n} \cdot \log x_{n}+\left(1-y_{n}\right) \cdot \log \left(1-x_{n}\right)\right]$
逻辑回归的时候，是不是就是这个公式啊？我们看看代码中这个怎么用：

这里首先注意的点就是target，这里可以发现和交叉熵那里的标签就不一样了，首先是类型是float，每个样本属于哪一类的时候要写成独热的那种形式，这是因为看损失函数的计算公式也能看到，每个神经元一一对应的去计算loss，而不是一个整的神经元向量去计算loss, 看结果也会发现有8个loss，因为每个神经元都一一去计算loss，根据inputs，这里是两个神经元的。
nn.BCEWithLogitsLoss
这个函数结合了Sigmoid与二分类交叉熵，注意事项： 网络最后不加sigmoid函数
这里的参数多了一个pow_weight, 这个是平衡正负样本的权值用的，对正样本进行一个权值设定。比如我们正样本有100个，负样本有300个，那么这个数可以设置为3，在类别不平衡的时候可以用。

计算公式如下：
$l_{n}=-w_{n}\left[y_{n} \cdot \log \sigma\left(x_{n}\right)+\left(1-y_{n}\right) \cdot \log \left(1-\sigma\left(x_{n}\right)\right)\right]$
这里了就是加了个sigmoid。

3.3 剩余的14种损失函数介绍

nn.L1Loss
这个用于回归问题，用来计算inputs与target之差的绝对值

上面的size_average和reduce不用再关注，即将淘汰。而reduction这个三种模式，其实和上面的一样。
nn.MSE
这个也是用于回归问题，计算inputs与target之差的平方
nn.SmoothL1Loss
这是平滑的L1Loss（回归问题）

那么这个平滑到底是怎么体现的呢？

采用这种平滑的损失函数可以减轻离群点带来的影响。
nn.PoissonNLLLoss
功能：泊松分布的负对数似然损失函数，分类里面如果发现数据的类别服从泊松分布，可以使用这个损失函数
- log_intput: 输入是否为对数形式，决定我们的计算公式。若为True， $-target\times input$ . 若为False， $loss(input,target)=input-target\times log(input+eps)$
- full: 计算所有loss，默认为False，这个一般不用管
- eps: 修正项，避免log(input) 为nan
nn.KLDivLoss
功能：计算KLD， KL散度，相对熵，注意：需要提前将输入计算log-probabilities, 如通过nn.logsoftmax()

其实这个已经在上面交叉熵的时候说完了。上面的Pytorch里面的计算和我们原来公式里面的计算还有点不太一样，所以我们得自己先logsoftmax()，完成转换为分布然后转成对数才可以。
这里的reduction还多了一种计算模式叫做batchmean，是按照batchsize的大小求平均值。
nn.MarginRankingLoss
功能：计算两个向量之间的相似度，用于排序任务。 特别说明，该方法计算两组数据之间的差异，也就是每个元素两两之间都会计算差异，返回一个n*n的loss矩阵。类似于相关性矩阵那种。

margin表示边界值， x1与x2之间的差异值。这里的计算公式如下：

$\operatorname{loss}(x, y)=\max (0,-y *(x 1-x 2)+\operatorname{margin})$
- y=1时，希望x1比x2大，当x1>x2时，不产生loss
- y=-1时，希望x2比x1大，当x2>x1时，不产生loss
这个地方看一下代码理解吧还是：
nn.MultiLabelMarginLoss
功能：多标签边界损失函数，这是一个多标签分类，就是一个样本可能属于多个类，和多分类任务还不一样。（多标签问题）

这个的计算公式如下：
$\operatorname{loss}(x, y)=\sum_{i j} \frac{\max (0,1-(x[y[j]]-x[i]))}{x \cdot \operatorname{size}(0)}$
这里的i取值从0到输出的维度减1， j取值也是0到y的维度减1，对于所有的i和j， i不等于y[j]，也就是标签所在的神经元去减掉那些非标签所在的神经元，这说的啥？一脸懵逼，还是看代码理解一下吧：

我们看上面这个代码，假设我们有一个训练样本，输出层4个神经元，也就是4分类的问题，前向传播后，神经网络的四个神经元的输出分别是[0.1, 0.2, 0.4, 0.8], 而这个样本的真实标签是[0, 3, -1, -1], 首先解释这是啥意思，就是说这个样本属于第0类和第3类，这个地方必须是torch.long型，并且必须和输出神经元个数一样，属于哪几类写前面，不够长度的用-1填补。使用多标签边界损失函数的时候，具体计算就是下面那样
我们的输入样本属于0和3这两类，不属于1和2，那么就根据上面那个公式，后面那部分是标签所在的神经元减去标签不不在的神经元，比如标签在第0个神经元：
- item_1 = (1-(x[0]-x[1])) + (1-(x[0]-x[2])) # 标签在第0个神经元的时候
- item_2 = (1-(x[3]-x[1])) + (1-(x[3]-x[2])) # 标签在第3个神经元的时候
- 然后就是这两部分的损失相加除以总的神经元个数： loss = (item_1+item_3) / x.shape[0]
应该差不多明白这个过程了，可以为啥要这么做呢？这个意思就是说我们希望标签所在的神经元要比非标签所在的神经元的输出值要尽量的大，当这个差大于1了，我们根据max(0, 1-差值), 才发现不会有损失产生，当这个差值小或者非标签所在的神经元比标签所在神经元大的时候，都会产生损失。所以上面那个例子，我们想让第0个神经元的值要比第1个，第二个大一些，第3个神经元的值要比第1个，第2个大一些，这才能说明这个样本属于第0类和第3类，才是我们想要的结果啊。有没有一点hinge loss的意思？只不过那里是多分类，而这里是多标签分类，感觉思想差不多。
nn.SoftMarginLoss
功能：计算二分类的logistic损失（二分类问题）

计算公式如下：
$\operatorname{loss}(x, y)=\sum_{i} \frac{\log (1+\exp (-y[i] * x[i]))}{x . \text { nelement()} }$
nn.MultiLabelSortMarginLoss
功能： SoftMarginLoss多标签版本（多标签问题）

之类的weight，表示各类别的loss设置权值。计算公式如下：
$\operatorname{loss}(x, y)=-\frac{1}{C} * \sum_{i} y[i] * \log \left((1+\exp (-x[i]))^{-1}\right)+(1-y[i]) * \log \left(\frac{\exp (-x[i])}{(1+\exp (-x[i]))}\right)$

这个理解起来也不是那么好理解，也是看看代码怎么计算：我们这里是一个三分类的任务，输入的这个样本属于第二类和第三类：
nn.MultiMarginLoss（hingLoss）
功能：计算多分类的折页损失（多分类问题）

这里的p可选1或者2， margin表示边界值。计算公式如下：
$\operatorname{loss}(x, y)=\frac{\left.\sum_{i} \max (0, \operatorname{margin}-x[y]+x[i])\right)^{p}}{x \cdot \operatorname{size}(0)}$
这里的x, y是0-神经元个数减1，并且对于所以i和j， i不等于y[j]。这里就类似于hing loss了，这里的x[y]表示标签所在的神经元， x[i]表示非标签所在的神经元。还是先看个例子，了解一下这个计算过程，然后借着这个机会也说一说hing loss吧：

这个其实和多标签边界损失函数的原理差不多，只不过那里是一个样本属于多个类，需要每个类都这样算算，而这里一个样本属于1个类，只计算一次即可。这个其实就是我们的hinge loss损失，我们可以看一下：

这个地方的原理啥的就先不推了：

假如我们现在有三个类别，而得分函数计算某张图片的得分为$f(x_i, W)=[13, -7, 11]，而实际结果是第一类( $y_i=0$ )。假设 $\Delta=10$ ，这个就是上面的margin，那么上面的公式就把错误类别( $\neq y_i)$ 都遍历了一遍，求值加和：
$L_{i}=\max (0,-7-13+10)+\max (0,11-13+10)$

这个损失和交叉熵损失是不同的两种评判标准，这个损失聚焦于分类错误的与正确类别之间的惩罚距离越小越好，而交叉熵损失聚焦分类正确的概率分布越大越好。
nn.TripletMarginLoss
功能：计算三元组损失，人脸验证中常用

这里的p表示范数的阶。计算公式：
$n)=\max \left\{d\left(a_{i}, p_{i}\right)-d\left(a_{i}, n_{i}\right)+\operatorname{margin}, 0\right\}$
三元组在做这么个事情，我们在做人脸识别训练模型的时候，往往需要把训练集做成三元组(A, P, N)， A和P是同一个人， A和N不是同一个，然后训练我们的模型

我们想让模型把A和P看成一样的，也就是争取让A和P之间的距离小，而A和N之间的距离大，那么我们的模型就能够进行人脸识别任务了。
nn.HingeEmbeddingLoss
功能：计算两个输入的相似性，常用于非线性embedding和半监督学习。特别注意， 输入的x应为两个输入之差的绝对值，也就是手动计算两个输入的差值

计算公式如下：
$l_{n}=\left\{\begin{array}{ll} x_{n}, & \text { if } y_{n}=1 \\ \max \left\{0, \Delta-x_{n}\right\}, & \text { if } y_{n}=-1 \end{array}\right.$
nn.CosineEmbeddingLoss
功能：采用余弦相似度计算两个输入的相似性，常用于半监督学习和embedding

这里的margin可取值[-1, 1], 推荐为[0,0.5].计算公式如下：
$\operatorname{loss}(x, y)=\left\{\begin{array}{ll} 1-\cos \left(x_{1}, x_{2}\right), & \text { if } y=1 \\ \max \left(0, \cos \left(x_{1}, x_{2}\right)-\operatorname{margin}\right), & \text { if } y=-1 \end{array}\right.$
之所以用cos，希望关注于这两个输入方向上的一个差异，而不是距离上的差异，cos函数如下：
$\cos (\theta)=\frac{A \cdot B}{\|A\|\|B\|}=\frac{\sum_{i=1}^{n} A_{i} \times B_{i}}{\sqrt{\sum_{i=1}^{n}\left(A_{i}\right)^{2}} \times \sqrt{\sum_{i=1}^{n}\left(B_{i}\right)^{2}}}$
nn.CTCLoss
功能：计算CTC损失，解决时序类数据的分类

blank: blank label, zeor_infinity: 无穷大的值或者梯度置0，这个使用起来比较复杂，所以具体的可以看看官方文档。

到这里，18种损失函数就介绍完了，哇，太多了，这哪能记得住啊，所以我们可以对这些损失函数从任务的角度分分类，到时候看看是什么任务，然后看看有哪些损失函数可以用，再去查具体用法就可以啦。我这边是这样分的：

分类问题
- 二分类单标签问题： nn.BCELoss, nn.BCEWithLogitsLoss, nn.SoftMarginLoss
- 二分类多标签问题：nn.MultiLabelSoftMarginLoss
- 多分类单标签问题: nn.CrossEntropyLoss, nn.NLLLoss, nn.MultiMarginLoss
- 多分类多标签问题: nn.MultiLabelMarginLoss,
- 不常用：nn.PoissonNLLLoss, nn.KLDivLoss
回归问题: nn.L1Loss, nn.MSELoss, nn.SmoothL1Loss
时序问题：nn.CTCLoss
人脸识别问题：nn.TripletMarginLoss
半监督Embedding问题(输入之间的相似性): nn.MarginRankingLoss, nn.HingeEmbeddingLoss, nn.CosineEmbeddingLoss

4. 总结

今天的内容就到这里了，这次整理的内容还是比较多的，主要分为两大块：权重初始化和损失函数的介绍，第一块里面有10中权重初始化方法，而第二块里面18种损失函数。哇，这个知识量还是很大的，当然我们其实并不需要都记住，只知道有哪些方法，具体什么时候用就行了，这个系列的目的也不是要求一下子都会了，而是先有个框架出来。快速梳理一遍吧：

首先，我们解决了模型模块的小尾巴，权重的初始化方法，我们学习了梯度消失和梯度爆炸的原理，也知道了权重初始化的重要性，针对各种情况学习了不同的初始化方法，重要的是Xavier初始化和Kaiming初始化方法，分别针对非饱和激活函数和包含激活函数的网络。

然后学习了损失函数的相关知识，通过损失函数的初步介绍，我们知道了损失函数也是一个Module，那么初始化和运行机制就基本了解。然后学习了交叉熵损失函数及四个特例，交叉熵损失函数比较重要，所以学习了一下原理，从自信息，熵，相对熵到交叉熵都过了一遍。最后又根据场景的不同学习了其他14种损失函数。

下面依然是一个思维导图把知识拎起来，方便后面的速查：

好了，损失函数模块到这里就结束了，后面进入优化器部分，我们还是那个流程：数据模块 -> 模型模块 -> 损失函数模块 -> 优化器 -> 迭代训练。我们已经完成了3个模块的学习，马上就要看到曙光，再坚持一下, rush

PS: 本次学习视频来自B站https://www.bilibili.com/video/BV1EE41177ot?from=search&seid=13894259699897815176, 时间长了有可能被和谐了。所有代码链接：

链接：https://pan.baidu.com/s/1c5EYdd0w8j6w3g54KTxJJA
提取码：k7rh

你可能感兴趣的:(系统学习Pytorch)

[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
建立系统写写停停
Echo说要建立系统，把零碎化的东西成系统。这个真的很赞。自己最近涉猎的东西很多，可是好像当时收获很大，可是事后却总也记不清楚。2019年，沉下心来，去沉淀。现在认准猎头这条路，那就走下去，管TM的豁出去了。这一年任务很艰巨，2019年1月也过去了大半。这一年最主要的任务是1、猎头系统掌握；2、职业规划学习；3、专升本。一、猎头系统学习。8点哄睡时间可以听一下微分享9：00-9:30看小密圈，Ec
【安装环境】配置MMTracking环境 xuanyu22 安装环境机器学习神经网络深度学习 python
版本v0.14.0安装torchnumpy的版本不能太高，否则后面安装时会发生冲突。先安装numpy，因为pytorch的安装会自动配置高版本numpy。condainstallnumpy=1.21.5mmtracking支持的torch版本有限，需要找到合适的condainstallpytorch==1.11.0torchvision==0.12.0cudatoolkit=10.2-cpytor
Python(PyTorch)和MATLAB及Rust和C++结构相似度指数测量导图亚图跨际 Python 交叉知识算法量化检查图像压缩质量低分辨率多光谱峰值信噪比端到端优化图像压缩手术机器人三维实景实时可微分渲染重建三维可视化
要点量化检查图像压缩质量低分辨率多光谱和高分辨率图像实现超分辨率分析图像质量图像索引/多尺度结构相似度指数和光谱角映射器及视觉信息保真度多种指标峰值信噪比和结构相似度指数测量结构相似性图像分类PNG和JPEG图像相似性近似算法图像压缩，视频压缩、端到端优化图像压缩、神经图像压缩、GPU变速图像压缩手术机器人深度估计算法重建三维可视化推理图像超分辨率算法模型三维实景实时可微分渲染算法MATLAB结构
【深度学习】训练过程中一个OOM的问题，太难查了 weixin_40293999 深度学习深度学习人工智能
现象：各位大佬又遇到过ubuntu的这个问题么？现象是在训练过程中，ssh上不去了，能ping通，没死机，但是ubunutu的pc侧的显示器，鼠标啥都不好用了。只能重启。问题原因：OOM了95G，尼玛！！！！pytorch爆内存了，然后journald假死了，在journald被watchdog干掉之后，系统就崩溃了。这种规模的爆内存一般，即使被oomkill了，也要卡半天的，确实会这样，能不能配
Pyorch中 nn.Conv1d 与 nn.Linear 的区别迪三 #NN_Layer 神经网络
即一维卷积层和全联接层的区别nn.Conv1d和nn.Linear都是PyTorch中的层，它们用于不同的目的，主要区别在于它们处理输入数据的方式和执行的操作类型。nn.Conv1d通过应用滑动过滤器来捕捉序列数据中的局部模式，适用于处理具有时间或序列结构的数据。nn.Linear通过将每个输入与每个输出相连接，捕捉全局关系，适用于将输入数据作为整体处理的任务。1.维度与输入nn.Conv1d（一
图片中的上采样，下采样和通道融合(up-sample, down-sample, channel confusion) 迪三 #图像处理_PyTorch 计算机视觉深度学习人工智能
前言以conv2d为例（即图片），Pytorch中输入的数据格式为tensor，格式为:[N,C,W,H,W]第一维N.代表图片个数，类似一个batch里面有N张图片第二维C.代表通道数，在模型中输入如果为彩色，常用RGB三色图，那么就是3维，即C=3。如果是黑白的，即灰度图，那么只有一个通道，即C=1第三维H.代表图片的高度，H的数量是图片像素的列数第四维W.代表图片的宽度，W的数量是图片像素的
读书随笔25 木木_cd40
【我在悦读】-木木【书名】:《跃迁》【作者】:古典【篇目】:第四章“破局思维”前部分【收获】001高手并不是能力比我们强、智商比我们高、定力比我们好，只是因为他们思考比我们深、见识比我们广，他们看到了更大的系统。(本章的关注点在于系统学习的重要性，以及如何正确看待系统科学在我们日常生活中的应用。掌握正确的破局思维，就是学会系统性的思考问题。)002一个系统至少包含三个因素：元素、元素之间的关系，以
MyBatis系统学习（一）——项目结构及其含义 OEC小胖胖 MyBatis mybatis 学习 web 后端
1.MyBatis简介MyBatis是一款优秀的持久层框架，它通过SQL映射的方式实现Java对数据库操作的映射，既保留了SQL语句的灵活性，也简化了代码的编写。在一个MyBatis项目中，核心部分主要有：配置文件（mybatis-config.xml）映射文件（Mapper.xml）实体类（Entity/POJO）接口类（Mapper接口）MyBatis会话工厂（SqlSessionFactor
深度学习：怎么看pth文件的参数奥利给少年深度学习人工智能
.pth文件是PyTorch模型的权重文件，它通常包含了训练好的模型的参数。要查看或使用这个文件，你可以按照以下步骤操作：1.确保你有模型的定义你需要有创建这个.pth文件时所用的模型的代码。这意味着你需要有模型的类定义和架构。2.加载模型权重使用PyTorch的load_state_dict方法来加载权重。这里是如何操作的：importtorchimporttorch.nnasnn#定义模型结构
每天五分钟玩转深度学习PyTorch：模型参数优化器torch.optim 幻风_huanfeng 深度学习框架pytorch 深度学习 pytorch 人工智能神经网络机器学习优化算法
本文重点在机器学习或者深度学习中，我们需要通过修改参数使得损失函数最小化(或最大化)，优化算法就是一种调整模型参数更新的策略。在pytorch中定义了优化器optim，我们可以使用它调用封装好的优化算法，然后传递给它神经网络模型参数，就可以对模型进行优化。本文是学习第6步(优化器)，参考链接pytorch的学习路线随机梯度下降算法在深度学习和机器学习中，梯度下降算法是最常用的参数更新方法，它的公式
【深度学习】【OnnxRuntime】【Python】模型转化、环境搭建以及模型部署的详细教程牙牙要健康深度学习 onnx onnxruntime 深度学习 python 人工智能
【深度学习】【OnnxRuntime】【Python】模型转化、环境搭建以及模型部署的详细教程提示:博主取舍了很多大佬的博文并亲测有效,分享笔记邀大家共同学习讨论文章目录【深度学习】【OnnxRuntime】【Python】模型转化、环境搭建以及模型部署的详细教程前言模型转换--pytorch转onnxWindows平台搭建依赖环境onnxruntime调用onnx模型ONNXRuntime推理核
虚拟现实智能家居实训系统实训解决方案武汉唯众智创智能家居实训系统智能家居实训室虚拟现实智能家居实训系统
随着科技的飞速发展，智能家居已成为现代生活的重要组成部分，它不仅极大地提升了居住的便捷性与舒适度，还推动了物联网、大数据、人工智能等前沿技术的融合应用。为了满足市场对智能家居专业人才日益增长的需求，虚拟现实智能家居实训系统实训解决方案旨在通过高度仿真的虚拟环境，为职业院校学生提供全面、高效、安全的智能家居系统学习与实践平台。一、解决方案概述该方案是一款深度融合教学理论、实践操作与效果评估的全方位解
天下苦英伟达久矣！PyTorch官方免CUDA加速推理，Triton时代要来？诗者才子酒中仙物联网 /互联网 /人工智能 /其他 pytorch 人工智能 python
在做大语言模型（LLM）的训练、微调和推理时，使用英伟达的GPU和CUDA是常见的做法。在更大的机器学习编程与计算范畴，同样严重依赖CUDA，使用它加速的机器学习模型可以实现更大的性能提升。虽然CUDA在加速计算领域占据主导地位，并成为英伟达重要的护城河之一。但其他一些工作的出现正在向CUDA发起挑战，比如OpenAI推出的Triton，它在可用性、内存开销、AI编译器堆栈构建等方面具有一定的优势
pytorch安装(windows) m0_62244898 windows 人工智能
（1）下载pycharmPyCharm:thePythonIDEforProfessionalDevelopersbyJetBrains(2)下载anacondaAnaconda|TheWorld'sMostPopularDataSciencePlatform(3)创建一个新环境：torchcondacreate-ntorch-y(4)进入新环境condaactivatetorch(5)加入清华源
深度学习入门篇：PyTorch实现手写数字识别 AI_Guru人工智能深度学习 pytorch 人工智能
深度学习作为机器学习的一个分支，近年来在图像识别、自然语言处理等领域取得了显著的成就。在众多的深度学习框架中，PyTorch以其动态计算图、易用性强和灵活度高等特点，受到了广泛的喜爱。本篇文章将带领大家使用PyTorch框架，实现一个手写数字识别的基础模型。手写数字识别简介手写数字识别是计算机视觉领域的一个经典问题，目的是让计算机能够识别并理解手写数字图像。这个问题通常作为深度学习入门的练习，因为
网络安全学习路线图（2024版详解）白帽子008 web安全学习安全网络安全运维
近期，大家在网上对于网络安全讨论比较多，想要学习的人也不少，但是需要学习哪些内容，按照什么顺序去学习呢？其实我们已经出国多版本的网络安全学习路线图，一直以来效果也比较不错，本次我们针对市场需求，整理了一套系统的网络安全学习路线图，供大家学习参考。希望大家按照路线图进行系统学习不仅可以更高效的完成上岸，还能够系统化学习，提升自己的后期竞争力。第一阶段：数通安全Windows系统安全1.企业资产安全规
【ShuQiHere】小白也能懂的 TensorFlow 和 PyTorch GPU 配置教程 ShuQiHere tensorflow pytorch 人工智能
【ShuQiHere】在深度学习中，GPU的使用对于加速模型训练至关重要。然而，对于许多刚刚入门的小白来说，如何在TensorFlow和PyTorch中指定使用GPU进行训练可能会感到困惑。在本文中，我将详细介绍如何在这两个主流的深度学习框架中指定使用GPU进行训练，并确保每一个步骤都简单易懂，跟着我的步骤来，你也能轻松上手！1.安装所需库首先，确保你已经安装了TensorFlow或PyTorch
我为什么参加21天零基础系统学习写作训练营醒之_da7b
1、为什么参加写作训练营？人生在世，能够一直读书，一直写字，是多么美好的事情吖。从决定报名弘丹老师写作营的年度会员开始，就是想要重新拾起我对生活无比的热爱与期待。也希望，通过在训练营的学习与交流，能和志同道合的小伙伴一起，提升自我能力，创造人生的无限可能。2、希望这21天有什么收获？坚持每天阅读，使其成为陪伴一生的良好习惯。很惭愧，虽然喜欢读书，但却真的没有做到过每天阅读。所以，希望通过本次训练营
解决ModuleNotFoundError: No module named ‘torch的方法梅菊林各种问题解决方案开发语言
ModuleNotFoundError:Nomodulenamed‘torch’错误是Python在尝试导入名为torch的模块时找不到该模块而抛出的异常。torch是PyTorch深度学习框架的核心库，如果你的Python环境中没有安装这个库，尝试导入时就会遇到这个错误。文章目录报错问题报错原因解决方法报错问题当你尝试在Python脚本或交互式环境中执行以下命令时：importtorch如果Py
周末写点东西都是很困难的焦糖大瓜子
趁周末，也没有出去玩，回了趟家。看了一下VueCLI，也看了看阮大神写的webpack教程。webpack是一直想详细掌握的工具，需要系统学。学习一门技术，系统学习之后，那些重要和概念、设计的逻辑，也未必完全掌握，掌握的东西，也未必烂熟于心。终归要用于实际项目，反反复复，也就是常说的那个三境界：1.昨夜西风凋碧树，独上高楼，望断天涯路2.衣带渐宽终不悔,为伊消得人憔悴3.众里寻他千百度，蓦然回首，
Python中item()和items()的用处 ~|Bernard| 深度学习疑点总结 python pytorch 深度学习
item()区别一:在pytorch训练时，一般用到.item()。比如loss.item()。我们可以做个简单测试代码看看它的区别:importtorchx=torch.randn(2,2)print(x)print(x[1,1])print(x[1,1].item())运行结果:tensor([[-2.0743,0.1675],[0.7016,-0.6779]])tensor(-0.6779)
GPU版pytorch安装普通攻击往后拉 python tips 神经网络基础模型关键点
由于经常重装系统，导致电脑的环境需要经常重新配置，其中尤其是cudatorch比较难以安装，因此记录一下安装GPU版本torch的过程。1）安装CUDAtoolkit这个可以看做是N卡所有cuda计算的基础，一般都会随驱动的更新自动安装，但是不全，仍然需要安装toolkit，并不需要先看已有版本是哪个，反正下载完后会自动覆盖原有的cuda。下载网站两个：国内网站：只能下载最新的toolkit，但是
轻松升级：Ollama + OpenWebUI 安装与配置【AIStarter】 ai_xiaogui AI作画 AI软件人工智能 AI写作 AIStarter
Ollama是一个开源项目，用于构建和训练大规模语言模型，而OpenWebUI则提供了一个方便的前端界面来管理和监控这些模型。本文将指导你如何更新这两个工具，并顺利完成配置。准备工作确保你的系统已安装Git和Python环境。安装必要的依赖库，如TensorFlow或PyTorch等。更新步骤克隆项目：使用Git命令行工具克隆最新的Ollama和OpenWebUI仓库到本地。更新代码：确保你正在使
conda环境管理 Johnson0722 python python conda 环境管理
Anaconda使用软件包管理系统Conda进行包管理，为用户对不同版本、不同功能的工具包的环境进行配置和管理提供便利。来看一看使用conda来进行环境管理的基本命令创建环境创建一个名为test的python环境，指定python版本是3.7.3，并在test环境中安装pytorchcondacreate--nametestpython=3.7.3pytorch查看系统中的所有环境用户安装的不同环
R-Drop pytorch实现 warpin 深度学习深度学习 pytorch
Pytorch实现了R-Drop，可以用于训练分类模型。#-*-coding:utf-8-*-"""Description:AnimplementationofR-Drop(https://arxiv.org/pdf/2106.14448.pdf).Authors:lihpCreateDate:2021/8/24"""fromtorchimportnnfromtorch.nnimportfunct
Transformer模型：WordEmbedding实现 Galaxy.404 Transformer transformer 深度学习人工智能 embedding
前言最近在学Transformer，学了理论的部分之后就开始学代码的实现，这里是跟着b站的up主的视频记的笔记，视频链接：19、Transformer模型Encoder原理精讲及其PyTorch逐行实现_哔哩哔哩_bilibili正文首先导入所需要的包：importtorchimportnumpyasnpimporttorch.nnasnnimporttorch.nn.functionalasF关
如何使用Pytorch-Metric-Learning？鱼儿也有烦恼 PyTorch pytorch
文章目录如何使用Pytorch-Metric-Learning？1.Pytorch-Metric-Learning库9个模块的功能1.1Sampler模块1.2Miner模块1.3Loss模块1.4Reducer模块1.5Distance模块1.6Regularizer模块1.7Trainer模块1.8Tester模块1.9Utils模块2.如何使用PyTorchMetricLearning库中的
每天五分钟玩转深度学习框架PyTorch：获取神经网络模型的参数幻风_huanfeng 深度学习框架pytorch 深度学习 pytorch 神经网络人工智能模型参数 python
本文重点当我们定义好神经网络之后，这个网络是由多个网络层构成的，每层都有参数，我们如何才能获取到这些参数呢？我们将再下面介绍几个方法来获取神经网络的模型参数，此文我们是为了学习第6步（优化器）。获取所有参数Parametersfromtorchimportnnnet=nn.Sequential(nn.Linear(4,2),nn.Linear(2,2))print(list(net.paramet
Java序列化进阶篇 g21121 java序列化
1.transient 类一旦实现了Serializable 接口即被声明为可序列化，然而某些情况下并不是所有的属性都需要序列化，想要人为的去阻止这些属性被序列化，就需要用到transient 关键字。
escape()、encodeURI()、encodeURIComponent()区别详解 aigo JavaScript Web
原文：http://blog.sina.com.cn/s/blog_4586764e0101khi0.html JavaScript中有三个可以对字符串编码的函数，分别是： escape,encodeURI,encodeURIComponent，相应3个解码函数：,decodeURI,decodeURIComponent 。下面简单介绍一下它们的区别 1 escape()函
ArcgisEngine实现对地图的放大、缩小和平移 Cb123456 添加矢量数据对地图的放大、缩小和平移 Engine
ArcgisEngine实现对地图的放大、缩小和平移: 个人觉得是平移，不过网上的都是漫游，通俗的说就是把一个地图对象从一边拉到另一边而已。就看人说话吧. 具体实现: 一、引入命名空间 using ESRI.ArcGIS.Geometry; using ESRI.ArcGIS.Controls; 二、代码实现.
Java集合框架概述天子之骄 Java集合框架概述
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
旗正4.0页面跳转传值问题何必如此 java jsp
跳转和成功提示 a) 成功字段非空forward 成功字段非空forward，不会弹出成功字段，为jsp转发，页面能超链接传值,传输变量时需要拼接。接拼接方式list.jsp?test="+strweightUnit+"或list.jsp?test="+weightUnit+&qu
全网唯一:移动互联网服务器端开发课程 cocos2d-x小菜 web开发移动开发移动端开发移动互联程序员
移动互联网时代来了！ App市场爆发式增长为Web开发程序员带来新一轮机遇，近两年新增创业者，几乎全部选择了移动互联网项目！传统互联网企业中超过98%的门户网站已经或者正在从单一的网站入口转向PC、手机、Pad、智能电视等多端全平台兼容体系。据统计，AppStore中超过85%的App项目都选择了PHP作为后端程
Log4J通用配置|注意问题笔记 7454103 DAO apache tomcat log4j Web
关于日志的等级那些去百度就知道了！这几天要搭个新框架配置了日志记下来！做个备忘！ #这里定义能显示到的最低级别,若定义到INFO级别,则看不到DEBUG级别的信息了~! log4j.rootLogger=INFO,allLog # DAO层 log记录到dao.log 控制台和总日志文件 log4j.logger.DAO=INFO,dao,C
SQLServer TCP/IP 连接失败问题 ---SQL Server Configuration Manager darkranger sql c windows SQL Server XP
当你安装完之后,连接数据库的时候可能会发现你的TCP/IP 没有启动.. 发现需要启动客户端协议 : TCP/IP 需要打开 SQL Server Configuration Manager... 却发现无法打开 SQL Server Configuration Manager..?? 解决方法: C:\WINDOWS\system32目录搜索framedyn.
[置顶] 做有中国特色的程序员 aijuans 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有些技术书读得可
document.domain 跨域问题 avords document
document.domain用来得到当前网页的域名。比如在地址栏里输入：javascript:alert(document.domain); //www.315ta.com我们也可以给document.domain属性赋值，不过是有限制的，你只能赋成当前的域名或者基础域名。比如：javascript:alert(document.domain = "315ta.com");
关于管理软件的一些思考 houxinyou 管理
工作好多看年了,一直在做管理软件,不知道是我最开始做的时候产生了一些惯性的思维,还是现在接触的管理软件水平有所下降.换过好多年公司,越来越感觉现在的管理软件做的越来越乱. 在我看来,管理软件不论是以前的结构化编程,还是现在的面向对象编程,不管是CS模式,还是BS模式.模块的划分是很重要的.当然,模块的划分有很多种方式.我只是以我自己的划分方式来说一下. 做为管理软件,就像现在讲究MVC这
NoSQL数据库之Redis数据库管理(String类型和hash类型) bijian1013 redis 数据库 NoSQL
一.Redis的数据类型 1.String类型及操作 String是最简单的类型，一个key对应一个value，string类型是二进制安全的。Redis的string可以包含任何数据，比如jpg图片或者序列化的对象。 Set方法：设置key对应的值为string类型的value
Tomcat 一些技巧征客丶 java tomcat dos
以下操作都是在windows 环境下一、Tomcat 启动时配置 JAVA_HOME 在 tomcat 安装目录，bin 文件夹下的 catalina.bat 或 setclasspath.bat 中添加 set JAVA_HOME=JAVA 安装目录 set JRE_HOME=JAVA 安装目录/jre 即可；二、查看Tomcat 版本在 tomcat 安装目
【Spark七十二】Spark的日志配置 bit1129 spark
在测试Spark Streaming时，大量的日志显示到控制台，影响了Spark Streaming程序代码的输出结果的查看(代码中通过println将输出打印到控制台上)，可以通过修改Spark的日志配置的方式，不让Spark Streaming把它的日志显示在console 在Spark的conf目录下，把log4j.properties.template修改为log4j.p
Haskell版冒泡排序 bookjovi 冒泡排序 haskell
面试的时候问的比较多的算法题要么是binary search，要么是冒泡排序，真的不想用写C写冒泡排序了，贴上个Haskell版的，思维简单，代码简单，下次谁要是再要我用C写冒泡排序，直接上个haskell版的，让他自己去理解吧。 sort [] = [] sort [x] = [x] sort (x:x1:xs) | x>x1 = x1:so
java 路径配置文件读取 bro_feng java
这几天做一个项目，关于路径做如下笔记，有需要供参考。取工程内的文件，一般都要用相对路径，这个自然不用多说。在src统计目录建配置文件目录res,在res中放入配置文件。读取文件使用方式： 1. MyTest.class.getResourceAsStream("/res/xx.properties") 2. properties.load(MyTest.
读《研磨设计模式》-代码笔记-简单工厂模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 个人理解：简单工厂模式就是IOC; * 客户端要用到某一对象，本来是由客户创建的，现在改成由工厂创建，客户直接取就好了 */ interface IProduct {
SVN与JIRA的关联 chenyu19891124 SVN
SVN与JIRA的关联一直都没能装成功，今天凝聚心思花了一天时间整合好了。下面是自己整理的步骤：一、搭建好SVN环境，尤其是要把SVN的服务注册成系统服务二、装好JIRA，自己用是jira-4.3.4破解版三、下载SVN与JIRA的插件并解压，然后拷贝插件包下lib包里的三个jar，放到Atlassian\JIRA 4.3.4\atlassian-jira\WEB-INF\lib下，再
JWFDv0.96 最新设计思路 comsci 数据结构算法工作企业应用公告
随着工作流技术的发展，工作流产品的应用范围也不断的在扩展，开始进入了像金融行业(我已经看到国有四大商业银行的工作流产品招标公告了)，实时生产控制和其它比较重要的工程领域，而
vi 保存复制内容格式粘贴 daizj vi 粘贴复制保存原格式不变形
vi是linux中非常好用的文本编辑工具，功能强大无比，但对于复制带有缩进格式的内容时，粘贴的时候内容错位很严重，不会按照复制时的格式排版，vi能不能在粘贴时，按复制进的格式进行粘贴呢？答案是肯定的，vi有一个很强大的命令可以实现此功能。在命令模式输入:set paste，则进入paste模式，这样再进行粘贴时
shell脚本运行时报错误：/bin/bash^M: bad interpreter 的解决办法 dongwei_6688 shell脚本
出现原因：windows上写的脚本，直接拷贝到linux系统上运行由于格式不兼容导致解决办法： 1. 比如文件名为myshell.sh，vim myshell.sh 2. 执行vim中的命令 : set ff?查看文件格式，如果显示fileformat=dos，证明文件格式有问题 3. 执行vim中的命令 :set fileformat=unix 将文件格式改过来就可以了，然后:w
高一上学期难记忆单词 dcj3sjt126com word english
honest 诚实的；正直的 argue 争论 classical 古典的 hammer 锤子 share 分享；共有 sorrow 悲哀；悲痛 adventure 冒险 error 错误；差错 closet 壁橱；储藏室 pronounce 发音；宣告 repeat 重做；重复 majority 大多数；大半 native 本国的，本地的，本国
hibernate查询返回DTO对象，DTO封装了多个pojo对象的属性 frankco POJO hibernate查询 DTO
DTO-数据传输对象；pojo-最纯粹的java对象与数据库中的表一一对应。简单讲：DTO起到业务数据的传递作用，pojo则与持久层数据库打交道。有时候我们需要查询返回DTO对象，因为DTO
Partition List hcx2013 partition
Given a linked list and a value x, partition it such that all nodes less than x come before nodes greater than or equal to x. You should preserve the original relative order of th
Spring MVC测试框架详解——客户端测试 jinnianshilongnian
上一篇《Spring MVC测试框架详解——服务端测试》已经介绍了服务端测试，接下来再看看如果测试Rest客户端，对于客户端测试以前经常使用的方法是启动一个内嵌的jetty/tomcat容器，然后发送真实的请求到相应的控制器；这种方式的缺点就是速度慢；自Spring 3.2开始提供了对RestTemplate的模拟服务器测试方式，也就是说使用RestTemplate测试时无须启动服务器，而是模拟一
关于推荐个人观点 liyonghui160com 推荐系统关于推荐个人观点
回想起来，我也做推荐了3年多了，最近公司做了调整招聘了很多算法工程师，以为需要多么高大上的算法才能搭建起来的，从实践中走过来，我只想说【不是这样的】第一次接触推荐系统是在四年前入职的时候，那时候，机器学习和大数据都是没有的概念，什么大数据处理开源软件根本不存在，我们用多台计算机web程序记录用户行为，用.net的w
不间断旋转的动画 pangyulei 动画
CABasicAnimation* rotationAnimation; rotationAnimation = [CABasicAnimation animationWithKeyPath:@"transform.rotation.z"]; rotationAnimation.toValue = [NSNumber numberWithFloat: M
自定义annotation sha1064616837 java enum annotation reflect
对象有的属性在页面上可编辑，有的属性在页面只可读，以前都是我们在页面上写死的，时间一久有时候会混乱，此处通过自定义annotation在类属性中定义。越来越发现Java的Annotation真心很强大，可以帮我们省去很多代码，让代码看上去简洁。下面这个例子主要用到了 1.自定义annotation：@interface，以及几个配合着自定义注解使用的几个注解 2.简单的反射 3.枚举
Spring 源码 up2pu spring
1.Spring源代码 https://github.com/SpringSource/spring-framework/branches/3.2.x 注：兼容svn检出 2.运行脚本 import-into-eclipse.bat 注：需要设置JAVA_HOME为jdk 1.7 build.gradle compileJava { sourceCompatibilit
利用word分词来计算文本相似度 yangshangchuan word word分词文本相似度余弦相似度简单共有词
word分词提供了多种文本相似度计算方式：方式一：余弦相似度，通过计算两个向量的夹角余弦值来评估他们的相似度实现类：org.apdplat.word.analysis.CosineTextSimilarity 用法如下： String text1 = "我爱购物"; String text2 = "我爱读书"; String text3 =