superY25

深度学习之卷积神经网络(CNN)

本文转自《零基础入门深度学习》系列文章,阅读原文请移步这里

一、RuLU激活函数

最近几年卷积神经网络中，激活函数往往不选择sigmoid或tanh函数，而是选择relu函数。Relu函数的定义是： $f (x) = m a x (0, x)$ Relu函数图像如下图所示：
Relu函数作为激活函数，有下面几大优势：

速度快：和sigmoid函数需要计算指数和倒数相比，relu函数其实就是一个 $m a x (0, x)$ ，计算代价小很多。
减轻梯度消失问题：回忆一下计算梯度的公式 $\nabla=\sigma'\delta x$ 。其中， $\sigma'$ 是sigmoid函数的导数。在使用反向传播算法进行梯度计算时，每经过一层sigmoid神经元，梯度就要乘上一个 $\sigma'$ 。从下图可以看出， $\sigma'$ 函数最大值是1/4。因此，乘一个 $\sigma'$ 会导致梯度越来越小，这对于深层网络的训练是个很大的问题。而relu函数的导数是1，不会导致梯度变小。当然，激活函数仅仅是导致梯度减小的一个因素，但无论如何在这方面relu的表现强于sigmoid。使用relu激活函数可以让你训练更深的网络。
稀疏性：通过对大脑的研究发现，大脑在工作的时候只有大约5%的神经元是激活的，而采用sigmoid激活函数的人工神经网络，其激活率大约是50%。有论文声称人工神经网络在15%-30%的激活率时是比较理想的。因为relu函数在输入小于0时是完全不激活的，因此可以获得一个更低的激活率。
更多激活函数参见这里

二、全连接网络 VS 卷积网络

全连接神经网络之所以不太适合图像识别任务，主要有以下几个方面的问题：

参数数量太多：考虑一个输入10001000像素的图片(一百万像素，现在已经不能算大图了)，输入层有10001000=100万节点。假设第一个隐藏层有100个节点(这个数量并不多)，那么仅这一层就有(1000*1000+1)*100=1亿参数，这实在是太多了！我们看到图像只扩大一点，参数数量就会多很多，因此它的扩展性很差。
没有利用像素之间的位置信息：对于图像识别任务来说，每个像素和其周围像素的联系是比较紧密的，和离得很远的像素的联系可能就很小了。如果一个神经元和上一层所有神经元相连，那么就相当于对于一个像素来说，把图像的所有像素都等同看待，这不符合前面的假设。当我们完成每个连接权重的学习之后，最终可能会发现，有大量的权重，它们的值都是很小的(也就是这些连接其实无关紧要)。努力学习大量并不重要的权重，这样的学习必将是非常低效的。
网络层数限制：我们知道网络层数越多其表达能力越强，但是通过梯度下降方法训练深度全连接神经网络很困难，因为全连接神经网络的梯度很难传递超过3层。因此，我们不可能得到一个很深的全连接神经网络，也就限制了它的能力。

那么，卷积神经网络又是怎样解决这个问题的呢？主要有三个思路：

局部连接：这个是最容易想到的，每个神经元不再和上一层的所有神经元相连，而只和一小部分神经元相连。这样就减少了很多参数。
权值共享：一组连接可以共享同一个权重，而不是每个连接有一个不同的权重，这样又减少了很多参数。
下采样：可以使用Pooling来减少每层的样本数，进一步减少参数数量，同时还可以提升模型的鲁棒性。

对于图像识别任务来说，卷积神经网络通过尽可能保留重要的参数，去掉大量不重要的参数，来达到更好的学习效果。

接下来，我们将详述卷积神经网络到底是何方神圣。

三、卷积神经网络（CNN）

首先，我们先获取一个感性认识，下图1是一个卷积神经网络的示意图：

图1 卷积神经网络

1、网络架构

如图1所示，一个卷积神经网络由若干卷积层、Pooling层、全连接层组成。你可以构建各种不同的卷积神经网络，它的常用架构模式为： $I N P U T - > [[C O N V] * N - > P O O L ?] * M - > [F C] * K$ 也就是N个卷积层叠加，然后(可选)叠加一个Pooling层，重复这个结构M次，最后叠加K个全连接层。
对于图1展示的卷积神经网络： $I N P U T - > C O N V - > P O O L - > C O N V - > P O O L - > F C - > F C$ 按照上述模式可以表示为： $I N P U T - > [[C O N V] * 1 - > P O O L] * 2 - > [F C] * 2$ 也就是： $N = 1, M = 2, K = 2$ 。

2、三维的层结构

从图1我们可以发现卷积神经网络的层结构和全连接神经网络的层结构有很大不同。全连接神经网络每层的神经元是按照一维排列的，也就是排成一条线的样子；而卷积神经网络每层的神经元是按照三维排列的，也就是排成一个长方体的样子，有宽度、高度和深度。

对于图1展示的神经网络，我们看到输入层的宽度和高度对应于输入图像的宽度和高度，而它的深度为1。接着，第一个卷积层对这幅图像进行了卷积操作(后面我们会讲如何计算卷积)，得到了三个Feature Map。这里的"3"可能是让很多初学者迷惑的地方，实际上，就是这个卷积层包含三个Filter，也就是三套参数，每个Filter都可以把原始输入图像卷积得到一个Feature Map，三个Filter就可以得到三个Feature Map。至于一个卷积层可以有多少个Filter，那是可以自由设定的。也就是说，卷积层的Filter个数也是一个超参数。我们可以把Feature Map可以看做是通过卷积变换提取到的图像特征，三个Filter就对原始图像提取出三组不同的特征，也就是得到了三个Feature Map，也称做三个通道(channel)。

继续观察图1，在第一个卷积层之后，Pooling层对三个Feature Map做了下采样(后面我们会讲如何计算下采样)，得到了三个更小的Feature Map。接着，是第二个卷积层，它有5个Filter。每个Fitler都把前面下采样之后的3个Feature Map卷积在一起，得到一个新的Feature Map。这样，5个Filter就得到了5个Feature Map。接着，是第二个Pooling，继续对5个Feature Map进行下采样，得到了5个更小的Feature Map。

图1所示网络的最后两层是全连接层。第一个全连接层的每个神经元，和上一层5个Feature Map中的每个神经元相连，第二个全连接层(也就是输出层)的每个神经元，则和第一个全连接层的每个神经元相连，这样得到了整个网络的输出。

至此，我们对卷积神经网络有了最基本的感性认识。接下来，我们将介绍卷积神经网络中各种层的计算和训练。

四、卷积神经网络输出值的计算

1、卷积层输出值的计算

我们用一个简单的例子来讲述如何计算卷积，然后，我们抽象出卷积层的一些重要概念和计算方法。
假设有一个55的图像，使用一个33的filter进行卷积，想得到一个33的Feature Map，如下所示：
为了清楚的描述卷积计算过程，我们首先对图像的每个像素进行编号，用 $x_{i,j}$ 表示图像的第行第列元素；对filter的每个权重进行编号，用表示第行第列权重，用表示filter的偏置项；对Feature Map的每个元素进行编号，用表示Feature Map的第行第列元素；用表示激活函数(这个例子选择relu函数作为激活函数)。然后，使用下列公式计算卷积： $a_{i,j}=f(\sum_{m=0}^2\sum_{n=0}^2w_{m,n}x_{i+m,j+n}+w_b) \space\space\space\space\space\space(式1)$ 例如，对于Feature Map左上角元素 $a_{0,0}$ 来说，其卷积计算方法为： $a_{0,0}=f(\sum_{m=0}^2\sum_{n=0}^2w_{m,n}x_{0+m,0+n}+w_b)\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space$ $\space\space\space\space\space\space\space\space\space\space=relu(w_{0,0}x_{0,0} + w_{0,1}x_{0,1} + w_{0,2}x_{0,2} + w_{1,0}x_{1,0} + w_{1,1}x_{1,1} + w_{1,2}x_{1,2} + w_{2,0}x_{2,0} + w_{2,1}x_{2,1} + w_{2,2}x_{2,2})$ $=relu(1+0+1+0+1+0+0+0+1+0)\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space$ $=relu(4)=4\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space$ 计算结果如下图所示：
接下来，Feature Map的元素 $a_{0,1}$ 的卷积计算方法为： $a_{0,1}=f(\sum_{m=0}^2\sum_{n=0}^2w_{m,n}x_{0+m,1+n}+w_b)\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space$ $\space\space\space\space\space\space\space\space\space\space=relu(w_{0,0}x_{0,1} + w_{0,1}x_{0,2} + w_{0,2}x_{0,3} + w_{1,0}x_{1,1} + w_{1,1}x_{1,2} + w_{1,2}x_{1,3} + w_{2,0}x_{2,1} + w_{2,1}x_{2,2} + w_{2,2}x_{2,3})$ $=relu(1+0+0+0+1+0+0+0+1+0)\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space$ $=relu(3)=3\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space$ 计算结果如下图所示：
可以依次计算出Feature Map中所有元素的值。下面的动画显示了整个Feature Map的计算过程：

上面的计算过程中，步幅(stride)为1。步幅可以设为大于1的数。例如，当步幅为2时，Feature Map计算如下：

我们注意到，当步幅设置为2的时候，Feature Map就变成22了。这说明图像大小、步幅和卷积后的Feature Map大小是有关系的。事实上，它们满足下面的关系： $W_{output}=(W_{input}-F+2P)/S+1\space\space\space\space\space\space(式2)$ $H_{output}=(H_{input}-F+2P)/S+1\space\space\space\space\space\space(式3)$ 在上面两个公式中， $W_{output}$ 是卷积后Feature Map的宽度； $W_{input}$ 是卷积前图像的宽度； $F$ 是filter的宽度； $P$ 是Zero Padding数量，Zero Padding是指在原始图像周围补几圈0，如果的值是1，那么就补1圈0； $S$ 是步幅； $H_{output}$ 是卷积后Feature Map的高度； $H_{intput}$ 是卷积前图像的宽度。式2和式3本质上是一样的。
以前面的例子来说，图像宽度 $W_{input}=5$ ，filter宽度 $F = 3$ ，Zero Padding $P = 0$ ，步幅 $S = 2$ ，则 $W_{output}=(W_{input}-F+2P)/S+1$ $\space\space\space\space\space=(5-3+2*0)/2+1$ $=2\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space$ 说明Feature Map宽度是2。同样，我们也可以计算出Feature Map高度也是2。

前面我们已经讲了深度为1的卷积层的计算方法，如果深度大于1怎么计算呢？其实也是类似的。如果卷积前的图像深度为D，那么相应的filter的深度也必须为D。我们扩展一下式1，得到了深度大于1的卷积计算公式： $a_{i,j}=f(\sum_{d=0}^{D-1}\sum_{m=0}^{F-1}\sum_{n=0}^{F-1}w_{d,m,n}x_{d,i+m,j+n}+w_b)\space\space\space\space\space\space(式4)$ 在式4中，D是深度；F是filter的大小(宽度或高度，两者相同)； $w_{d,m,n}$ 表示filter的第 $d$ 层第 $m$ 行第 $n$ 列权重； $a_{d,i,j}$ 表示图像的第 $d$ 层第 $i$ 行第 $j$ 列像素；其它的符号含义和式1是相同的，不再赘述。

我们前面还曾提到，每个卷积层可以有多个filter。每个filter和原始图像进行卷积后，都可以得到一个Feature Map。因此，卷积后Feature Map的深度(个数)和卷积层的filter个数是相同的。

下面的动画显示了包含两个filter的卷积层的计算。我们可以看到773输入，经过两个333filter的卷积(步幅为2)，得到了332的输出。另外我们也会看到下图的Zero padding是1，也就是在输入元素的周围补了一圈0。Zero padding对于图像边缘部分的特征提取是很有帮助的。
以上就是卷积层的计算方法。这里面体现了局部连接和权值共享：每层神经元只和上一层部分神经元相连(卷积计算规则)，且filter的权值对于上一层所有神经元都是一样的。对于包含两个333的fitler的卷积层来说，其参数数量仅有(333+1)*2=56个，且参数数量与上一层神经元个数无关。与全连接神经网络相比，其参数数量大大减少了。

2、用卷积公式来表达卷积层计算

不想了解太多数学细节的读者可以跳过这一节，不影响对全文的理解。
下面我们介绍二维卷积公式。
设矩阵 $A$ ， $B$ ，其行、列数分别为 $m_a$ 、 $n_a$ 、 $m_b$ 、 $n_b$ ，则二维卷积公式如下： $C_{s,t}=\sum_{0}^{m_a-1}\sum_{0}^{n_a-1}A_{m,n}B_{s-m,t-n}$ 且 $s, t$ 满足条件 $0\eqslantless s \lt m_a + m_b-1,0\eqslantless t \lt n_a + n_b-1$ 。
我们可以把上式写成 $C=A*B\space\space\space\space\space\space(式5)$ 如果我们按照式5来计算卷积，我们可以发现矩阵A实际上是filter，而矩阵B是待卷积的输入，位置关系也有所不同：
从上图可以看到，A左上角的值 $a_{0,0}$ 与B对应区块中右下角的值 $b_{1,1}$ 相乘，而不是与左上角的 $b_{0,0}$ 相乘。因此，数学中的卷积和卷积神经网络中的『卷积』还是有区别的，为了避免混淆，我们把卷积神经网络中的『卷积』操作叫做互相关(cross-correlation)操作。
卷积和互相关操作是可以转化的。首先，我们把矩阵A翻转180度，然后再交换A和B的位置（即把B放在左边而把A放在右边。卷积满足交换率，这个操作不会导致结果变化），那么卷积就变成了互相关。

如果我们不去考虑两者这么一点点的区别，我们可以把式5代入到式4： $A=f(\sum_{d=0}^{D-1}X_d*W_d+w_b)\space\space\space\space\space\space(式6)$ 其中， $A$ 是卷积层输出的feature map。同式4相比，式6就简单多了。然而，这种简洁写法只适合步长为1的情况。

3、Pooling层输出值的计算

Pooling层主要的作用是下采样，通过去掉Feature Map中不重要的样本，进一步减少参数数量。Pooling的方法很多，最常用的是Max Pooling。Max Pooling实际上就是在nn的样本中取最大值，作为采样后的样本值。下图是22 max pooling：
除了Max Pooing之外，常用的还有Mean Pooling——取各样本的平均值。

对于深度为D的Feature Map，各层独立做Pooling，因此Pooling后的深度仍然为D。

4、全连接层

全连接层输出值的计算和《深度学习之神经网络和反向传播算法》讲过的全连接神经网络是一样的，这里就不再赘述了。

五、卷积神经网络的训练

和全连接神经网络相比，卷积神经网络的训练要复杂一些。但训练的原理是一样的：利用链式求导计算损失函数对每个权重的偏导数（梯度），然后根据梯度下降公式更新权重。训练算法依然是反向传播算法。

我们先回忆一下《深度学习之神经网络和反向传播算法》介绍的反向传播算法，整个算法分为三个步骤：

前向计算每个神经元的输出值 $a_j$ （ $j$ 表示网络的第 $j$ 个神经元，以下同）；
反向计算每个神经元的误差项 $\delta_j$ ， $\delta_j$ 在有的文献中也叫做敏感度(sensitivity)。它实际上是网络的损失函数 $E_d$ 对神经元加权输入 $net_j$ 的偏导数，即 $\delta_j=\frac{\partial E_d}{\partial net_j}$ ；
计算每个神经元连接权重 $w_{ji}$ 的梯度（ $w_{ji}$ 表示从神经元 $i$ 连接到神经元 $j$ 的权重），公式为 $\frac{\partial E_d}{\partial w_{ji}}=a_i\delta_j$ ，其中， $a_i$ 表示神经元 $i$ 的输出。

最后，根据梯度下降法则更新每个权重即可。

对于卷积神经网络，由于涉及到局部连接、下采样的等操作，影响到了第二步误差项 $\delta$ 的具体计算方法，而权值共享影响了第三步权重 $w$ 的梯度的计算方法。接下来，我们分别介绍卷积层和Pooling层的训练算法。

1、卷积层的训练

对于卷积层，我们先来看看上面的第二步，即如何将误差项 $\delta$ 传递到上一层；然后再来看看第三步，即如何计算filter每个权值 $w$ 的梯度。

卷积层误差项的传递

我们先来考虑步长为1、输入的深度为1、filter个数为1的最简单的情况。
假设输入的大小为3*3，filter大小为2*2，按步长为1卷积，我们将得到2*2的feature map。如下图所示：
在上图中，为了描述方便，我们为每个元素都进行了编号。用 $\delta_{i,j}^{l-1}$ 表示第 $l - 1$ 层第 $i$ 行第 $j$ 列的误差项；用 $w_{m,n}$ 表示filter第 $m$ 行第 $n$ 列权重，用 $w_b$ 表示filter的偏置项；用 $a_{i,j}^{l-1}$ 表示第 $l - 1$ 层第 $i$ 行第 $j$ 列神经元的输出；用 $net_{i,j}^{l-1}$ 表示第 $l - 1$ 行神经元的加权输入；用 $\delta_{i,j}^{l}$ 表示第 $l$ 层第 $i$ 行第 $j$ 列的误差项；用 $f^{l-1}$ 表示第 $l - 1$ 层的激活函数。它们之间的关系如下： $net^l=conv(W^l,a^{l-1}) + w_b$ $a_{i,j}^{l-1}=f^{l-1}(net_{i,j}^{l-1})\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space$ 上式中， $net^l$ 、 $W^l$ 、 $a^{l-1}$ 都是数组， $W^l$ 是由 $w_{m,n}$ 组成的数组， $c o n v$ 表示卷积操作。
在这里，我们假设第 $l$ 中的每个 $\delta^l$ 值都已经算好，我们要做的是计算第 $l - 1$ 层每个神经元的误差项 $\delta^{l-1}$ 。
根据链式求导法则： $\delta_{i,j}^{l-1}=\frac{\partial E_d}{\partial net_{i,j}^{l-1}}$ $\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space=\frac{\partial E_d}{\partial a_{i,j}^{l-1}}\frac{\partial a_{i,j}^{l-1}}{\partial net_{i,j}^{l-1}}$ 我们先求第一项 $\frac{\partial E_d}{\partial a_{i,j}^{l-1}}$ 。我们先来看几个特例，然后从中总结出一般性的规律。
例1，计算 $\frac{\partial E_d}{\partial a_{1,1}^{l-1}}$ ， $a_{1,1}^{l-1}$ 仅与 $net_{1,1}^{l}$ 的计算有关： $net_{1,1}^j=w_{1,1}a_{1,1}^{l-1}+w_{1,2}a_{1,2}^{l-1}+w_{2,1}a_{2,1}^{l-1}+w_{2,2}a_{2,2}^{l-1}+w_b$ 因此： $\frac{\partial E_d}{\partial a_{1,1}^{l-1}}=\frac{\partial E_d}{\partial net_{1,1}^l}\frac{\partial net_{1,1}^l}{\partial a_{1,1}^{l-1}}$ $=\delta_{1,1}^lw_{1,1}\space$ 例2，计算 $\frac{\partial E_d}{\partial a_{1,2}^{l-1}}$ ， $a_{1,2}^{l-1}$ 与 $net_{1,1}^{l}$ 和 $net_{1,2}^{l}$ 的计算都有关： $net_{1,1}^j=w_{1,1}a_{1,1}^{l-1}+w_{1,2}a_{1,2}^{l-1}+w_{2,1}a_{2,1}^{l-1}+w_{2,2}a_{2,2}^{l-1}+w_b$ $net_{1,2}^j=w_{1,1}a_{1,2}^{l-1}+w_{1,2}a_{1,3}^{l-1}+w_{2,1}a_{2,2}^{l-1}+w_{2,2}a_{2,3}^{l-1}+w_b$ 因此： $\frac{\partial E_d}{\partial a_{1,2}^{l-1}}=\frac{\partial E_d}{\partial net_{1,1}^l}\frac{\partial net_{1,1}^l}{\partial a_{1,2}^{l-1}}+\frac{\partial E_d}{\partial net_{1,2}^l}\frac{\partial net_{1,2}^l}{\partial a_{1,2}^{l-1}}$ $=\delta_{1,1}^lw_{1,2}+\delta_{1,2}^lw_{1,1}\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space$ 例3，计算 $\frac{\partial E_d}{\partial a_{2,2}^{l-1}}$ ， $a_{2,2}^{l-1}$ 与 $net_{1,1}^{l}$ 、 $net_{1,2}^{l}$ 、 $net_{2,1}^{l}$ 和 $net_{2,2}^{l}$ 的计算都有关： $net_{1,1}^j=w_{1,1}a_{1,1}^{l-1}+w_{1,2}a_{1,2}^{l-1}+w_{2,1}a_{2,1}^{l-1}+w_{2,2}a_{2,2}^{l-1}+w_b$ $net_{1,2}^j=w_{1,1}a_{1,2}^{l-1}+w_{1,2}a_{1,3}^{l-1}+w_{2,1}a_{2,2}^{l-1}+w_{2,2}a_{2,3}^{l-1}+w_b$ $net_{2,1}^j=w_{1,1}a_{2,1}^{l-1}+w_{1,2}a_{2,2}^{l-1}+w_{2,1}a_{3,1}^{l-1}+w_{2,2}a_{3,2}^{l-1}+w_b$ $net_{2,2}^j=w_{1,1}a_{2,2}^{l-1}+w_{1,2}a_{2,3}^{l-1}+w_{2,1}a_{3,2}^{l-1}+w_{2,2}a_{3,3}^{l-1}+w_b$ 因此： $\frac{\partial E_d}{\partial a_{2,2}^{l-1}}=\frac{\partial E_d}{\partial net_{1,1}^l}\frac{\partial net_{1,1}^l}{\partial a_{2,2}^{l-1}}+\frac{\partial E_d}{\partial net_{1,2}^l}\frac{\partial net_{1,2}^l}{\partial a_{2,2}^{l-1}}+\frac{\partial E_d}{\partial net_{2,1}^l}\frac{\partial net_{2,1}^l}{\partial a_{2,2}^{l-1}}+\frac{\partial E_d}{\partial net_{2,2}^l}\frac{\partial net_{2,2}^l}{\partial a_{2,2}^{l-1}}$ $=\delta_{1,1}^lw_{2,2}+\delta_{1,2}^lw_{2,1}+\delta_{2,1}^lw_{1,2}+\delta_{2,2}^lw_{1,1}\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space$ 从上面三个例子，我们发挥一下想象力，不难发现，计算 $\frac{\partial E_d}{\partial a^{l-1}}$ ，相当于把第 $l$ 层的sensitive map周围补一圈0，在与180度翻转后的filter进行cross-correlation，就能得到想要结果，如下图所示：
因为卷积相当于将filter旋转180度的cross-correlation，因此上图的计算可以用卷积公式完美的表达： $\frac{\partial E_d}{\partial a^l}=\delta^l*W^l$ 上式中的 $W^l$ 表示第 $l$ 层的filter的权重数组。也可以把上式的卷积展开，写成求和的形式： $\frac{\partial E_d}{\partial a^l_{i,j}}=\sum_m\sum_nw^l_{m,n}\delta^l_{i+m,j+n}$ 现在，我们再求第二项 $\frac{\partial a_{i,j}^{l-1}}{\partial net_{i,j}^{l-1}}$ 。因为 $a_{i,j}^{l-1}=f(net_{i,j}^{l-1})$ 所以这一项极其简单，仅求激活函数 $f$ 的导数就行了。 $\frac{\partial a_{i,j}^{l-1}}{\partial net_{i,j}^{l-1}}=f'(net_{i,j}^{l-1})$ 将第一项和第二项组合起来，我们得到最终的公式： $\delta_{i,j}^{l-1}=\frac{\partial E_d}{\partial net_{i,j}^{l-1}}$ $=\frac{\partial E_d}{\partial a_{i,j}^{l-1}}\frac{\partial a_{i,j}^{l-1}}{\partial net_{i,j}^{l-1}}$ $=\sum_m\sum_nw_{m,n}^l\delta^l_{i+m,j+n}f'(net_{i,j}^{l-1})\space\space\space\space\space\space(式7)$ 也可以将式7写成卷积的形式： $\delta^{l-1}=\delta^l*W^l\circ f'(net^{l-1})\space\space\space\space\space\space(式8)$ 其中，符号 $\circ$ 表示element-wise product，即将矩阵中每个对应元素相乘。注意式8中的 $\delta^{l-1}$ 、 $\delta^{l}$ 、 $net^{l-1}$ 都是矩阵。

以上就是步长为1、输入的深度为1、filter个数为1的最简单的情况，卷积层误差项传递的算法。下面我们来推导一下步长为S的情况。

现在我们考虑步长、深度、filter不是1的情况：

当卷积步长为S时

如上图，上面是步长为1时的卷积结果，下面是步长为2时的卷积结果。我们可以看出，因为步长为2，得到的feature map跳过了步长为1时相应的部分。因此，当我们反向计算误差项时，我们可以对步长为S的sensitivity map相应的位置进行补0，将其『还原』成步长为1时的sensitivity map，再用式8进行求解。
当输入深度为D时
此时filter的深度也必须为D， $l - 1$ 层的 $d_i$ 通道只与filter的 $d_i$ 通道的权重进行计算。因此，反向计算误差项时，我们可以使用式8，用filter的第 $d_i$ 通道权重对第 $l$ 层sensitivity map进行卷积，得到第 $l - 1$ 层 $d_i$ 通道的sensitivity map。如下图所示：
当filter数量为N时
filter数量为N时，输出层的深度也为N，第 $i$ 个filter卷积产生输出层的第 $i$ 个feature map。由于第 $l - 1$ 层每个加权输入 $net_{d,i,j}^{l-1}$ 都同时影响了第 $l$ 层所有feature map的输出值，因此，反向计算误差项时，需要使用全导数公式。也就是，我们先使用第 $d$ 个filter对第 $l$ 层相应的第 $d$ 个sensitivity map进行卷积，得到一组N个 $l - 1$ 层的偏sensitivity map。依次用每个filter做这种卷积，就得到D组偏sensitivity map。最后在各组之间将N个偏sensitivity map按元素相加，得到最终的N个 $l - 1$ 层的sensitivity map： $\delta^{l-1}=\sum_{d=0}^D\delta_d^l*W_d^l\circ f'(net^{l-1})\space\space\space\space\space\space(式9)$ 以上就是卷积层误差项传递的算法，如果读者还有所困惑，可以参考后面的代码实现来理解。

卷积层filter权重梯度的计算

我们要在得到第 $l$ 层sensitivity map的情况下，计算filter的权重的梯度，由于卷积层是权重共享的，因此梯度的计算稍有不同。

如上图所示， $a_{i,j}^l$ 是第 $l - 1$ 层的输出， $w_{i,j}$ 是第 $l$ 层filter的权重， $\delta_{i,j}^l$ 是第 $l$ 层的sensitivity map。我们的任务是计算 $w_{i,j}$ 的梯度，即 $\frac{\partial E_d}{\partial w_{i,j}}$ 。
为了计算偏导数，我们需要考察权重 $w_{i,j}$ 对 $E_d$ 的影响。权重项 $w_{i,j}$ 通过影响 $net_{i,j}^l$ 的值，进而影响 $E_d$ 。我们仍然通过几个具体的例子来看权重项 $w_{i,j}$ 对 $net_{i,j}^l$ 的影响，然后再从中总结出规律。

例1，计算 $\frac{\partial E_d}{\partial w_{1,1}}$ ： $net_{1,1}^j=w_{1,1}a_{1,1}^{l-1}+w_{1,2}a_{1,2}^{l-1}+w_{2,1}a_{2,1}^{l-1}+w_{2,2}a_{2,2}^{l-1}+w_b$ $net_{1,2}^j=w_{1,1}a_{1,2}^{l-1}+w_{1,2}a_{1,3}^{l-1}+w_{2,1}a_{2,2}^{l-1}+w_{2,2}a_{2,3}^{l-1}+w_b$ $net_{2,1}^j=w_{1,1}a_{2,1}^{l-1}+w_{1,2}a_{2,2}^{l-1}+w_{2,1}a_{3,1}^{l-1}+w_{2,2}a_{3,2}^{l-1}+w_b$ $net_{2,2}^j=w_{1,1}a_{2,2}^{l-1}+w_{1,2}a_{2,3}^{l-1}+w_{2,1}a_{3,2}^{l-1}+w_{2,2}a_{3,3}^{l-1}+w_b$ 从上面的公式看出，由于权值共享，权值 $w_{i,j}$ 对所有的 $net_{i,j}^l$ 都有影响。 $E_d$ 是 $net_{1,1}^{l}$ 、 $net_{1,2}^{l}$ 、 $net_{2,1}^{l}$ …的函数，而 $net_{1,1}^{l}$ 、 $net_{1,2}^{l}$ 、 $net_{2,1}^{l}$ …又是 $w_{1,1}$ 的函数，根据全导数公式，计算 $\frac{\partial E_d}{\partial w_{1,1}}$ 就是要把每个偏导数都加起来： $\frac{\partial E_d}{\partial w_{1,1}}=\frac{\partial E_d}{\partial net_{1,1}^l}\frac{\partial net_{1,1}^l}{\partial w_{1,1}}+\frac{\partial E_d}{\partial net_{1,2}^l}\frac{\partial net_{1,2}^l}{\partial w_{1,1}}+\frac{\partial E_d}{\partial net_{2,1}^l}\frac{\partial net_{2,1}^l}{\partial w_{1,1}}+\frac{\partial E_d}{\partial net_{2,2}^l}\frac{\partial net_{2,2}^l}{\partial w_{1,1}}$ $=\delta_{1,1}^la_{1,1}^{l-1}+\delta_{1,2}^la_{1,2}^{l-1}+\delta_{2,1}^la_{2,1}^{l-1}+\delta_{2,2}^la_{2,2}^{l-1}\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space$ 例2，计算 $\frac{\partial E_d}{\partial w_{1,2}}$ ：

通过查看 $w_{1,2}$ 与 $net_{i,j}^l$ 的关系，我们很容易得到： $\frac{\partial E_d}{\partial w_{1,2}}=\delta_{1,1}^la_{1,2}^{l-1}+\delta_{1,2}^la_{1,3}^{l-1}+\delta_{2,1}^la_{2,2}^{l-1}+\delta_{2,2}^la_{2,3}^{l-1}$ 实际上，每个权重项都是类似的，我们不一一举例了。现在，是我们再次发挥想象力的时候，我们发现计算 $\frac{\partial E_d}{\partial w_{i,j}}$ 规律是： $\frac{\partial E_d}{\partial w_{i,j}}=\sum_m\sum_n\delta_{m,n}a_{i+m,j+n}^{l-1}$ 也就是用sensitivity map作为卷积核，在input上进行cross-correlation，如下图所示：
最后，我们来看一看偏置项的梯度 $\frac{\partial E_d}{\partial w_{b}}$ 。通过查看前面的公式，我们很容易发现： $\frac{\partial E_d}{\partial w_{b}}=\frac{\partial E_d}{\partial net_{1,1}^l}\frac{\partial net_{1,1}^l}{\partial w_{b}}+\frac{\partial E_d}{\partial net_{1,2}^l}\frac{\partial net_{1,2}^l}{\partial w_{b}}+\frac{\partial E_d}{\partial net_{2,1}^l}\frac{\partial net_{2,1}^l}{\partial w_{b}}+\frac{\partial E_d}{\partial net_{2,2}^l}\frac{\partial net_{2,2}^l}{\partial w_{b}}$ $=\delta_{1,1}^l+\delta_{1,2}^l+\delta_{2,1}^l+\delta_{2,2}^l\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space$ $=\sum_i\sum_j\delta_{i,j}\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space$ 也就是偏置项的梯度就是sensitivity map所有误差项之和。

对于步长为S的卷积层，处理方法与传递误差项是一样的，首先将sensitivity map『还原』成步长为1时的sensitivity map，再用上面的方法进行计算。

获得了所有的梯度之后，就是根据梯度下降算法来更新每个权重。这在前面的文章中已经反复写过，这里就不再重复了。

至此，我们已经解决了卷积层的训练问题，接下来我们看一看Pooling层的训练。

2、Pooling层的训练

无论max pooling还是mean pooling，都没有需要学习的参数。因此，在卷积神经网络的训练中，Pooling层需要做的仅仅是将误差项传递到上一层，而没有梯度的计算。

Max Pooling误差项的传递
如下图，假设第 $l - 1$ 层大小为4*4，pooling filter大小为2*2，步长为2，这样，max pooling之后，第 $l$ 层大小为2*2。假设第 $l$ 层的 $\delta$ 值都已经计算完毕，我们现在的任务是计算第 $l - 1$ 层的 $\delta$ 值。

我们用 $net_{i,j}^{l-1}$ 表示第 $l - 1$ 层的加权输入；用 $net_{i,j}^{l}$ 表示第 $l$ 层的加权输入。我们先来考察一个具体的例子，然后再总结一般性的规律。对于max pooling： $net_{1,1}^l=max(net_{1,1}^{l-1},net_{1,2}^{l-1},net_{2,1}^{l-1},net_{2,2}^{l-1})$ 也就是说，只有区块中最大的 $net_{1,1}^{l-1}$ 才会对 $net_{1,1}^{l}$ 的值产生影响。我们假设最大的值是 $net_{1,1}^{l-1}$ ，则上式相当于： $net_{1,1}^l=net_{1,1}^{l-1}$ 那么，我们不难求得下面几个偏导数： $\frac{\partial net_{1,1}^l}{\partial net_{1,1}^{l-1}}=1$ $\frac{\partial net_{1,1}^l}{\partial net_{1,2}^{l-1}}=0$ $\frac{\partial net_{1,1}^l}{\partial net_{2,1}^{l-1}}=0$ $\frac{\partial net_{1,1}^l}{\partial net_{2,2}^{l-1}}=0$ 因此： $\delta_{1,1}^{l-1}=\frac{\partial E_d}{\partial net_{1,1}^{l-1}}$ $\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space=\frac{\partial E_d}{\partial net_{1,1}^{l}}\frac{\partial net_{1,1}^{l}}{\partial net_{1,1}^{l-1}}$ $=\delta_{1,1}^l$ 而： $\delta_{1,2}^{l-1}=\frac{\partial E_d}{\partial net_{1,2}^{l-1}}$ $\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space=\frac{\partial E_d}{\partial net_{1,1}^{l}}\frac{\partial net_{1,1}^{l}}{\partial net_{1,2}^{l-1}}$ $=0\space\space\space\space\space$ $\delta_{2,1}^{l-1}=\frac{\partial E_d}{\partial net_{2,1}^{l-1}}$ $\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space=\frac{\partial E_d}{\partial net_{1,1}^{l}}\frac{\partial net_{1,1}^{l}}{\partial net_{2,1}^{l-1}}$ $=0\space\space\space$ $\delta_{2,2}^{l-1}=\frac{\partial E_d}{\partial net_{2,2}^{l-1}}$ $\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space=\frac{\partial E_d}{\partial net_{1,1}^{l}}\frac{\partial net_{1,1}^{l}}{\partial net_{2,2}^{l-1}}$ $=0\space\space\space$ 现在，我们发现了规律：对于max pooling，下一层的误差项的值会原封不动的传递到上一层对应区块中的最大值所对应的神经元，而其他神经元的误差项的值都是0。如下图所示(假设 $a_{1,1}^{l-1}、a_{1,4}^{l-1}、a_{4,1}^{l-1}、a_{4,4}^{l-1}$ 为所在区块中的最大输出值)：
Mean Pooling误差项的传递
我们还是用前面屡试不爽的套路，先研究一个特殊的情形，再扩展为一般规律。
如上图，我们先来考虑计算 $\delta_{1,1}^{l-1}$ 。我们先来看看 $net_{1,1}^{l-1}$ 如何影响 $net_{1,1}^{l}$ 。 $net_{1,1}^l=\frac{1}{4}(net_{1,1}^{l-1}+net_{1,2}^{l-1}+net_{2,1}^{l-1}+net_{2,2}^{l-1})$ 根据上式，我们一眼就能看出来： $\frac{\partial net_{1,1}^l}{\partial net_{1,1}^{l-1}}=\frac{1}{4}$ $\frac{\partial net_{1,1}^l}{\partial net_{1,2}^{l-1}}=\frac{1}{4}$ $\frac{\partial net_{1,1}^l}{\partial net_{2,1}^{l-1}}=\frac{1}{4}$ $\frac{\partial net_{1,1}^l}{\partial net_{2,2}^{l-1}}=\frac{1}{4}$ 所以，根据链式求导法则，我们不难算出： $\delta_{1,1}^{l-1}=\frac{\partial E_d}{\partial net_{1,1}^{l-1}}$ $\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space=\frac{\partial E_d}{\partial net_{1,1}^{l}}\frac{\partial net_{1,1}^{l}}{\partial net_{1,1}^{l-1}}$ $\space\space=\frac{1}{4}\delta_{1,1}^l$ 同样，我们可以算出 $\delta_{1,2}^{l-1}、\delta_{2,1}^{l-1}、\delta_{2,2}^{l-1}$ ： $\delta_{1,2}^{l-1}=\frac{\partial E_d}{\partial net_{1,2}^{l-1}}$ $\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space=\frac{\partial E_d}{\partial net_{1,1}^{l}}\frac{\partial net_{1,1}^{l}}{\partial net_{1,2}^{l-1}}$

你可能感兴趣的:(人工智能,神经网络,深度学习)

AI巨浪中的安全之舵：天空卫士助力人工智能落地远航天空卫士人工智能安全数据安全网络安全大数据
"AI时代的安全战场，不在云端在本地；数据治理的胜负手，不在防御在认知。"近期，众多企业纷纷接入DeepSeek大模型，迅速推动了大型模型应用的广泛铺开。无论是在制造业、金融业，还是在医疗、教育等领域，DeepSeek大模型的应用都如火如荼，遍地开花，展现出了其广泛的应用前景和巨大的商业价值。顺势而来的是DeepSeek一体机以"低成本、高算力、私有化部署"的优势席卷企业市场。因为DeepSeek
DeepSeek重塑软件行业：研发工程师的机遇与挑战 LiuSid7 人工智能 llama 语言模型 ai
人工智能技术的浪潮正以前所未有的速度重塑软件行业，而DeepSeek作为其中的代表性技术，已成为研发工程师日常工作中不可忽视的变革力量。从代码生成到架构优化，从效率提升到职业生态重构，DeepSeek正在重新定义工程师的工作范式。以下从技术革新、职业发展、行业趋势三个维度，分析其对研发工程师的核心影响。一、技术革新：从“重复劳动”到“创造力释放”代码生产的效率革命DeepSeek通过自然语言指令生
机器学习结合伏羲模型高精度多尺度气象分析与降尺度实现 Hardess-god WRF 算法人工智能
随着人工智能的发展，机器学习技术在气象预报领域展现出巨大潜力。本文详细探讨如何结合机器学习（ML）和伏羲模型进行高精度多尺度气象模拟分析，并提供详细的实现步骤和相关代码。1.研究目标与技术路线目标：结合机器学习模型与伏羲气象模式，实现区域和局地高精度降尺度。技术路线：伏羲模型提供大尺度气象数据和预报使用机器学习模型（如CNN、LSTM、XGBoost）进行降尺度2.数据准备与处理2.1气象数据获取
使用Python和LangChain构建检索增强生成（RAG）应用的详细指南 m0_57781768 python langchain 搜索引擎
使用Python和LangChain构建检索增强生成（RAG）应用的详细指南引言在人工智能和自然语言处理领域，利用大语言模型（LLM）构建复杂的问答（Q&A）系统是一个重要应用。检索增强生成（RetrievalAugmentedGeneration，RAG）是一种技术，通过将模型知识与额外数据结合来增强LLM的能力，使其能够回答关于特定源信息的问题。这些应用不仅限于公开数据，还可以处理私有数据和模
不用再当“技术宅“！这个AI神器让我5分钟变身人工智能达人阳光永恒736 AI工具人工智能 deepseek 一键包本地部署 AI资源
最近我在朋友圈刷到好多朋友都在玩AI画图、AI写诗，看得我心痒痒。可每次想自己试试，打开教程就被满屏的代码吓退——"Python环境配置"、"CUDA驱动安装"这些词比数学作业还让人头疼。直到我发现了一个叫DeepSeek本地部署一键包的神器，我的AI探索之旅终于变得像搭乐高一样简单！夸克网盘分享一、原来AI离我们这么近上周三放学路上，我看见隔壁班的小美用AI给自己照片生成古风造型，这让我突然意识
Umi-OCR 实践教程：离线、免费、高效的图像文字识别工具几道之旅人工智能智能体及数字员工 ocr 人工智能
一、工具简介Umi-OCR是一款开源、免费且支持离线运行的OCR（光学字符识别）工具，适用于Windows和Linux系统。它基于深度学习技术，能够高效提取图像中的文字，支持多语言识别、批量处理、截屏识别等功能，尤其适合对隐私敏感或网络受限的场景。核心亮点：离线运行：无需联网，保护隐私。多引擎支持：提供Paddle（高性能）和Rapid（低配兼容）两种引擎。批量处理：支持图片、PDF、电子书等多格
基于ChatGPT、GIS与Python机器学习的地质灾害风险评估、易发性分析、信息化建库及灾后重建高级实践 weixin_贾防洪评价风险评估滑坡泥石流地质灾害
第一章、ChatGPT、DeepSeek大语言模型提示词与地质灾害基础及平台介绍【基础实践篇】1、什么是大模型？大模型（LargeLanguageModel,LLM）是一种基于深度学习技术的大规模自然语言处理模型。代表性大模型：GPT-4、BERT、T5、ChatGPT等。特点：多任务能力：可以完成文本生成、分类、翻译、问答等任务。上下文理解：能理解复杂的上下文信息。广泛适配性：适合科研、教育、行
DeepSeek API在AutoCAD中的创新应用与挑战 CodeJourney. 数据库算法人工智能
在数字化设计领域，随着人工智能技术的飞速发展，将AI能力融入传统设计软件成为提升设计效率和质量的重要趋势。AutoCAD作为广泛应用的计算机辅助设计软件，与DeepSeekAPI的结合展现出了巨大的潜力。这种融合不仅为设计工作带来了全新的思路和方法，还在多个方面对设计流程进行了优化和创新。一、DeepSeekAPI赋能AutoCAD的多元应用场景（一）智能设计辅助：让创意快速落地在传统设计过程中，
AI 赋能应急管理：ChatGPT、DeepSeek、Grok 的应用探索一ge科研小菜菜人工智能人工智能
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注1.引言随着人工智能（AI）技术的快速发展，大语言模型（LLM）在应急管理领域的应用逐步扩大。ChatGPT、DeepSeek、Grok等AI模型凭借强大的文本处理、数据分析和推理能力，可为灾害预警、应急响应、风险评估等提供高效支持。本文将对比三大AI模型在应急管理中的优势，并探讨其在未来智能化应急管理体系中的应用前景。2.应急管理中的核心挑战应
DeepSeek的崛起：2025新春国产AI模型的全球影响力耶耶Norsea 网络杂烩人工智能百度
摘要在2025年新春之际，国产AI模型DeepSeek以现象级的姿态迅速崛起，凭借免费、易用及高性能的特点，吸引了全球科技界的广泛关注。这款大型人工智能模型不仅展现了国产技术的实力，还为用户提供了高效便捷的使用体验，成为行业内的焦点。关键词DeepSeek崛起,2025新春,国产AI模型,免费易用,高性能特点一、国产AI的崭新篇章1.1DeepSeek的诞生背景在2025年新春之际，DeepSee
一文说清楚什么是预训练（Pre-Training）、微调（Fine-Tuning），零基础小白建议收藏！！小城哇哇人工智能语言模型 AI大模型大模型微调预训练 agi LLM
前言预训练和微调是现代AI模型的核心技术，通过两者的结合，机器能够在处理复杂任务时表现得更为高效和精准。预训练为模型提供了广泛的语言能力，而微调则确保了模型能够根据特定任务进行细化和优化。近年来，人工智能（AI）在各个领域的突破性进展，尤其是在自然语言处理（NLP）方面，引起了广泛关注。两项重要的技术方法——预训练和微调，成为了AI模型发展的基石。预训练通常是指在大规模数据集上进行模型训练，以帮助
ONE Deep模型：LG AI Research的开源突破耶耶Norsea 网络杂烩自动化
摘要由LGAIResearch开发的ONEDeep系列开源AI模型，参数规模覆盖2.4亿至32亿。经评估，2.4B参数规模的ONEDeep模型在性能上优于同类其他模型，展现出显著优势。这一成果为AI技术的应用与研究提供了强有力的支持。关键词ONEDeep模型,开源AI模型,LGAIResearch,2.4B参数,性能优越一、ONEDeep模型概述1.1ONEDeep模型的开发背景在当今人工智能技术
anythingLLM 使用教程惟贤箬溪穷玩Ai AIGC 人工智能
一、anythingLLM简介anythingLLM是一款灵活且功能强大的语言模型，它基于先进的深度学习架构构建，旨在为用户提供多样化的自然语言处理服务。其设计理念注重通用性和可扩展性，能够适应多种领域和任务，无论是文本生成、智能问答，还是翻译、摘要提取等，都能展现出出色的性能。与同类模型相比，anythingLLM具有训练数据丰富、模型优化程度高的优势，能够生成更符合逻辑、更具实用性的文本内容。
深度解析大模型推理框架：原理、应用与实践百度_开发者中心人工智能大模型自然语言处理
在当今数据驱动的时代，大模型推理框架已经成为人工智能领域的重要支柱。本文将通过简明扼要、清晰易懂的方式，带领读者深入了解大模型推理框架的原理、应用领域和实践经验，帮助读者更好地掌握这一技术，并在实际工作中发挥其价值。一、大模型推理框架简介大模型推理框架是指一种基于深度学习技术的推理框架，主要用于解决大规模数据集下的复杂问题。该框架通过对海量数据进行高效的训练和推理，能够快速地对各种复杂场景进行分析
大模型推理框架：从理论到实践的全面解析百度_开发者中心人工智能大模型自然语言处理
在数据驱动的时代，深度学习技术已经渗透到各个行业，从图像识别到自然语言处理，从推荐系统到智能客服，其应用无处不在。然而，深度学习模型的训练和推理过程往往涉及大量数据和复杂计算，传统的计算框架难以满足需求。因此，大模型推理框架应运而生，成为解决这一问题的关键。一、大模型推理框架基本概念大模型推理框架是一种基于深度学习技术的推理框架，它通过对海量数据进行高效的训练和推理，能够快速地对各种复杂场景进行分
Python基础知识点总结豆芽819 tip python 开发语言
1Python简介Python特点：解释型语言：无需编译，逐行执行。动态类型：变量类型在运行时确定。简洁易读：语法接近自然语言，代码简洁。跨平台支持：Windows/Linux/macOS均可运行。应用领域：Web开发、数据分析、人工智能、自动化脚本等。开发环境：推荐使用IDLE、PyCharm、VSCode或JupyterNotebook。2Python数值运算基本运算符：算术：+,-,*,/,
回归任务训练--MNIST全连接神经网络（Mnist_NN）豆芽819 深度学习框架PyTorch pytorch 深度学习人工智能机器学习回归
importtorchimportnumpyasnpimportloggingfromtorch.utils.dataimportTensorDataset,DataLoaderfromtorch.utils.dataimportDataLoader#配置日志logging.basicConfig(level=logging.INFO,format='%(asctime)s-%(levelname
人工智能和云计算带来的技术变革：工业自动化的新趋势 AI天才研究院 LLM大模型落地实战指南大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍随着人工智能（AI）和云计算技术的发展，我们正面临着一场巨大的技术变革。这些技术正在改变我们的生活方式、工作方式和社会结构。在工业自动化领域，人工智能和云计算技术正在为我们提供新的可能性和挑战。本文将探讨这些技术如何影响工业自动化，以及未来的发展趋势和挑战。1.1人工智能的基本概念人工智能（ArtificialIntelligence，AI）是一种试图使计算机具有人类智能的技术。AI的
《南京日报》专题报道 | 耘瞳科技“工业之眼”加码“中国智造” 耘瞳科技科技
在江宁开发区，机器人已不再是科幻电影里的遥远想象，他们就像人类的“同事”，在工地上忙着贴砖、刷墙、搬运、检测；在体育训练场上帮助运动员矫正姿势；在医院里帮助医生发现帕金森早期征兆，在智慧工厂里与人类分工协作……作为南京市机器人产业“一核多翼”布局的“核”，江宁开发区当前聚集人工智能产业核心及上下游关联企业超百家。近日，《南京日报》走访了多家链条上的“明星企业”，耘瞳科技作为中国领先的智能检测与测量
2017安全之势：云、大数据、IoT、人工智能 weixin_34392906 人工智能大数据嵌入式
“新技术让信息系统变成了孙悟空，开始无所不能，但安全仍是它的‘紧箍咒’！怎样解开这个‘紧箍咒’？各路安全厂商各显其能，但似乎路漫漫兮离目标还很遥远。”三未信安董事长张岳公在ZD至顶网《百位意见领袖寄语2017》中说出了这样一句话，我觉着很有道理。安全是一个永恒的话题，如果说它与新的信息技术相生相克也不过分。即便如此，我们更要尽可能的减少安全带来的束缚。2017已经到来，不妨来看看至顶网与业界大咖总
双一流软件工程大二听闻 Java 前景堪忧，是否该转C++或人工智能或者读研？程序员yt java c++人工智能
今天给大家分享的是一位粉丝的提问，双一流软件工程大二听闻Java前景堪忧，是否该转C++或人工智能或者读研？接下来把粉丝的具体提问和我的回复分享给大家，希望也能给一些类似情况的小伙伴一些启发和帮助。同学提问：yt老师好，我是双一流软件工程的大二学生，一直在学习java方向，目前掌握了数据库，spring框架等内容，大一暑假在老家一个小公司找了段实习，有蓝桥杯java组b组国一，专业排名前2（保研名
编程行业必备！12个热门AI工具帮你写代码~ DevSecOps选型指南人工智能软件供应链安全工具代码安全开发助手 SAST 安全
到今年，AI编程工具的发展已经非常成熟了，它们可以极大地提高开发效率，帮助程序员解决复杂问题，并优化代码质量。拒绝废话，今天给大家推荐12款AI编程工具！1悬镜安全灵脉AI开发安全卫士灵脉AI开发安全卫士是基于多模智能引擎的新一代静态代码安全扫描产品，通过自动化审查流程来定位潜在缺陷、提升审计效率和代码质量，并显著减少手动审查所需的时间和精力。该平台利用人工智能技术，提供逐行的代码反馈，建议改进和
windows使用ssh-copy-id命令的解决方案爱编程的喵喵 Windows实用技巧 windows ssh ssh-copy-id 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了windows使用ssh-copy-
关于AI OS那点事大囚长科普天地大模型人工智能
AIOS（人工智能操作系统）作为面向智能时代的操作系统，其功能定位和架构设计与传统操作系统（如Linux、Windows、iOS等）存在显著差异。一、AIOS需具备的核心功能智能体全生命周期管理智能体调度与并发：需支持多智能体任务的优先级排序、资源分配及并发执行，例如通过轮询调度或动态优先级算法优化LLM资源利用率。上下文感知与切换：通过上下文管理器实现智能体交互状态的快照保存与恢复，解决LLM生
【人工智能】大模型的幻觉问题：DeepSeek 的解决策略与实践蒙娜丽宁 Python杂谈人工智能人工智能
《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界大语言模型（LLM）的“幻觉”问题，即模型生成与事实不符或脱离上下文的内容，是限制其广泛应用的关键挑战之一。本文深入探讨了幻觉问题的成因，包括训练数据的偏差、推理过程中的过度泛化以及缺乏外部验证机制。以DeepSeek系列模型为研究对象，我们分析了其在解
Yolo系列之Yolo的基本理解是十一月末 YOLO python 开发语言 yolo
YOLO的基本理解目录YOLO的基本理解1YOLO1.1概念1.2算法2单、多阶段对比2.1FLOPs和FPS2.2one-stage单阶段2.3two-stage两阶段1YOLO1.1概念YOLO(YouOnlyLookOnce)是一种基于深度学习的目标检测算法，由JosephRedmon等人于2016年提出。它的核心思想是将目标检测问题转化为一个回归问题，通过一个神经网络直接预测目标的类别和位
HCIA-AI人工智能笔记3：数据预处理噗老师华为认证人工智能笔记 wpf 数据处理 AI 华为认证
统讲解数据预处理的核心技术体系，通过Python/Pandas与华为MindSpore双视角代码演示，结合特征工程优化实验，深入解析数据清洗、标准化、增强等关键环节。一、数据预处理技术全景图graphTDA[原始数据]-->B{数据清洗}B-->B1[缺失值处理]B-->B2[异常值检测]B-->B3[重复值删除]A-->C{特征工程}C-->C1[标准化/归一化]C-->C2[离散化分箱]C--
PyTorch基础知识讲解（一）完整训练流程示例苏雨流丰机器学习 pytorch 人工智能 python 机器学习深度学习
文章目录Tutorial1.数据处理2.网络模型定义3.损失函数、模型优化、模型训练、模型评价4.模型保存、模型加载、模型推理Tutorial大多数机器学习工作流程涉及处理数据、创建模型、优化模型参数和保存训练好的模型。本教程向你介绍一个用PyTorch实现的完整的ML工作流程，并提供链接来了解这些概念中的每一个。我们将使用FashionMNIST数据集来训练一个神经网络，预测输入图像是否属于以下
AI进化论：从图灵测试到智能革命的临界点 A达峰绮人工智能数据处理经验分享 AIGC AI人工智能
智能觉醒的起源密码（1943-2010）在曼彻斯特维多利亚大学的实验室里，1948年"Baby"计算机完成人类首个存储程序运行实验时，艾伦·图灵正在构思《计算机器与智能》。这篇划时代论文提出的"模仿游戏"测试，为人工智能奠定了哲学基础。1956年达特茅斯会议上，麦卡锡正式提出"人工智能"概念，当时学界乐观预测"二十年内机器将完成人类所有工作"。神经网络的发展轨迹充满戏剧性：1958年罗森布拉特发明
AI时代个人财富增长实战指南：从零基础到精通变现的完整路径 A达峰绮人工智能
（本文基于人工智能技术发展规律，结合互联网经济底层逻辑，为普通从业者构建系统性AI应用框架）一、建立AI认知基础：技术理解与工具掌握技术分类认知人工智能工具分为四大功能模块：自然语言处理（文本生成、对话交互）、计算机视觉（图像视频处理）、数据分析（预测建模）、自动化控制（流程优化）。建议新手首先掌握语言类工具的基础操作，逐步扩展到其他领域。工具操作逻辑通用AI工具通常包含三大核心功能模块：输入界面
java类加载顺序 3213213333332132 java
package com.demo; /** * @Description 类加载顺序 * @author FuJianyong * 2015-2-6上午11:21:37 */ public class ClassLoaderSequence { String s1 = "成员属性"; static String s2 = "
Hibernate与mybitas的比较 BlueSkator sql Hibernate 框架 ibatis orm
第一章 Hibernate与MyBatis Hibernate 是当前最流行的O/R mapping框架，它出身于sf.net，现在已经成为Jboss的一部分。 Mybatis 是另外一种优秀的O/R mapping框架。目前属于apache的一个子项目。 MyBatis 参考资料官网：http:
php多维数组排序以及实际工作中的应用 dcj3sjt126com PHP usort uasort
自定义排序函数返回false或负数意味着第一个参数应该排在第二个参数的前面, 正数或true反之, 0相等usort不保存键名uasort 键名会保存下来uksort 排序是对键名进行的 <!doctype html> <html lang="en"> <head> <meta charset="utf-8&q
DOM改变字体大小周华华前端
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
c3p0的配置 g21121 c3p0
c3p0是一个开源的JDBC连接池，它实现了数据源和JNDI绑定，支持JDBC3规范和JDBC2的标准扩展。c3p0的下载地址是：http://sourceforge.net/projects/c3p0/这里可以下载到c3p0最新版本。以在spring中配置dataSource为例：  <bean name="prope
Java获取工程路径的几种方法 510888780 java
第一种： File f = new File(this.getClass().getResource("/").getPath()); System.out.println(f); 结果: C:\Documents%20and%20Settings\Administrator\workspace\projectName\bin 获取当前类的所在工程路径; 如果不加“
在类Unix系统下实现SSH免密码登录服务器 Harry642 免密 ssh
1.客户机 (1)执行ssh-keygen -t rsa -C "[email protected]"生成公钥，xxx为自定义大email地址 (2)执行scp ~/.ssh/id_rsa.pub root@xxxxxxxxx:/tmp将公钥拷贝到服务器上，xxx为服务器地址 (3)执行cat
Java新手入门的30个基本概念一 aijuans java java 入门新手
在我们学习Java的过程中,掌握其中的基本概念对我们的学习无论是J2SE,J2EE,J2ME都是很重要的,J2SE是Java的基础,所以有必要对其中的基本概念做以归纳,以便大家在以后的学习过程中更好的理解java的精髓,在此我总结了30条基本的概念。　　Java概述:　　目前Java主要应用于中间件的开发(middleware)---处理客户机于服务器之间的通信技术,早期的实践证明,Java不适合
Memcached for windows 简单介绍 antlove java Web windows cache memcached
1. 安装memcached server a. 下载memcached-1.2.6-win32-bin.zip b. 解压缩，dos 窗口切换到 memcached.exe所在目录，运行memcached.exe -d install c.启动memcached Server,直接在dos窗口键入 net start "memcached Server&quo
数据库对象的视图和索引百合不是茶索引 oeacle数据库视图
视图视图是从一个表或视图导出的表，也可以是从多个表或视图导出的表。视图是一个虚表，数据库不对视图所对应的数据进行实际存储，只存储视图的定义，对视图的数据进行操作时,只能将字段定义为视图,不能将具体的数据定义为视图为什么oracle需要视图; &
Mockito(一) --入门篇 bijian1013 持续集成 mockito 单元测试
Mockito是一个针对Java的mocking框架，它与EasyMock和jMock很相似，但是通过在执行后校验什么已经被调用，它消除了对期望行为（expectations）的需要。其它的mocking库需要你在执行前记录期望行为（expectations），而这导致了丑陋的初始化代码。 &nb
精通Oracle10编程SQL(5)SQL函数 bijian1013 oracle 数据库 plsql
/* * SQL函数 */ --数字函数 --ABS(n):返回数字n的绝对值 declare v_abs number(6,2); begin v_abs:=abs(&no); dbms_output.put_line('绝对值：'||v_abs); end; --ACOS(n):返回数字n的反余弦值，输入值的范围是-1~1，输出值的单位为弧度
【Log4j一】Log4j总体介绍 bit1129 log4j
Log4j组件：Logger、Appender、Layout Log4j核心包含三个组件：logger、appender和layout。这三个组件协作提供日志功能：日志的输出目标日志的输出格式日志的输出级别(是否抑制日志的输出) logger继承特性 A logger is said to be an ancestor of anothe
Java IO笔记白糖_ java
public static void main(String[] args) throws IOException { //输入流 InputStream in = Test.class.getResourceAsStream("/test"); InputStreamReader isr = new InputStreamReader(in); Bu
Docker 监控 ronin47 docker监控
目前项目内部署了docker，于是涉及到关于监控的事情，参考一些经典实例以及一些自己的想法，总结一下思路。 1、关于监控的内容监控宿主机本身监控宿主机本身还是比较简单的，同其他服务器监控类似，对cpu、network、io、disk等做通用的检查，这里不再细说。额外的，因为是docker的
java-顺时针打印图形 bylijinnan java
一个画图程序要求打印出： 1.int i=5; 2.1 2 3 4 5 3.16 17 18 19 6 4.15 24 25 20 7 5.14 23 22 21 8 6.13 12 11 10 9 7. 8.int i=6 9.1 2 3 4 5 6 10.20 21 22 23 24 7 11.19
关于iReport汉化版强制使用英文的配置方法 Kai_Ge iReport汉化英文版
对于那些具有强迫症的工程师来说，软件汉化固然好用，但是汉化不完整却极为头疼，本方法针对iReport汉化不完整的情况，强制使用英文版，方法如下：在 iReport 安装路径下的 etc/ireport.conf 里增加红色部分启动参数，即可变为英文版。 # ${HOME} will be replaced by user home directory accordin
[并行计算]论宇宙的可计算性 comsci 并行计算
现在我们知道,一个涡旋系统具有并行计算能力.按照自然运动理论,这个系统也同时具有存储能力,同时具备计算和存储能力的系统,在某种条件下一般都会产生意识...... 那么,这种概念让我们推论出一个结论 &nb
用OpenGL实现无限循环的coverflow dai_lm android coverflow
网上找了很久，都是用Gallery实现的，效果不是很满意，结果发现这个用OpenGL实现的，稍微修改了一下源码，实现了无限循环功能源码地址： https://github.com/jackfengji/glcoverflow public class CoverFlowOpenGL extends GLSurfaceView implements GLSurfaceV
JAVA数据计算的几个解决方案1 datamachine java Hibernate 计算
老大丢过来的软件跑了10天，摸到点门道，正好跟以前攒的私房有关联，整理存档。 -----------------------------华丽的分割线------------------------------------- 数据计算层是指介于数据存储和应用程序之间，负责计算数据存储层的数据，并将计算结果返回应用程序的层次。J &nbs
简单的用户授权系统,利用给user表添加一个字段标识管理员的方式 dcj3sjt126com yii
怎么创建一个简单的(非 RBAC)用户授权系统通过查看论坛，我发现这是一个常见的问题，所以我决定写这篇文章。本文只包括授权系统.假设你已经知道怎么创建身份验证系统(登录)。数据库首先在 user 表创建一个新的字段(integer 类型),字段名 'accessLevel',它定义了用户的访问权限扩展 CWebUser 类在配置文件(一般为 protecte
未选之路 dcj3sjt126com 诗
作者:罗伯特*费罗斯特黄色的树林里分出两条路, 可惜我不能同时去涉足, 我在那路口久久伫立, 我向着一条路极目望去, 直到它消失在丛林深处. 但我却选了另外一条路, 它荒草萋萋,十分幽寂; 显得更诱人,更美丽, 虽然在这两条小路上, 都很少留下旅人的足迹. 那天清晨落叶满地, 两条路都未见脚印痕迹. 呵,留下一条路等改日再
Java处理15位身份证变18位蕃薯耀 18位身份证变15位 15位身份证变18位身份证转换
15位身份证变18位，18位身份证变15位 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--应用上下文配置【AppConfig】 hanqunfeng springmvc4
从spring3.0开始，Spring将JavaConfig整合到核心模块，普通的POJO只需要标注@Configuration注解，就可以成为spring配置类，并通过在方法上标注@Bean注解的方式注入bean。 Xml配置和Java类配置对比如下： applicationContext-AppConfig.xml <!-- 激活自动代理功能参看：
Android中webview跟JAVASCRIPT中的交互 jackyrong JavaScript html android 脚本
在android的应用程序中,可以直接调用webview中的javascript代码,而webview中的javascript代码,也可以去调用ANDROID应用程序(也就是JAVA部分的代码).下面举例说明之: 1 JAVASCRIPT脚本调用android程序要在webview中,调用addJavascriptInterface(OBJ,int
8个最佳Web开发资源推荐 lampcy 编程 Web 程序员
Web开发对程序员来说是一项较为复杂的工作，程序员需要快速地满足用户需求。如今很多的在线资源可以给程序员提供帮助，比如指导手册、在线课程和一些参考资料，而且这些资源基本都是免费和适合初学者的。无论你是需要选择一门新的编程语言，或是了解最新的标准，还是需要从其他地方找到一些灵感，我们这里为你整理了一些很好的Web开发资源，帮助你更成功地进行Web开发。这里列出10个最佳Web开发资源，它们都是受
架构师之面试------jdk的hashMap实现 nannan408 HashMap
1.前言。如题。 2.详述。 (1)hashMap算法就是数组链表。数组存放的元素是键值对。jdk通过移位算法（其实也就是简单的加乘算法），如下代码来生成数组下标(生成后indexFor一下就成下标了）。 static int hash(int h) { h ^= (h >>> 20) ^ (h >>>
html禁止清除input文本输入缓存 Rainbow702 html 缓存 input 输入框 change
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; <input type="text" autocomplete="off" n
POJO和JavaBean的区别和联系 tjmljw POJO java beans
POJO 和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Pure Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比 POJO复杂很多， Java Bean 是可复用的组件，对 Java Bean 并没有严格的规
java中单例的五种写法 liuxiaoling java 单例
/** * 单例模式的五种写法： * 1、懒汉 * 2、恶汉 * 3、静态内部类 * 4、枚举 * 5、双重校验锁 */ /** * 五、双重校验锁，在当前的内存模型中无效 */ class LockSingleton { private volatile static LockSingleton singleton; pri