theSerein

【机器学习】深度学习

深度学习

一、何为深度学习?
- 1、深度学习、机器学习与人工智能
- 2、深度学习的内涵
- 3、神经网络结构
- 4、深度学习较机器学习的优势
二、深度学习的底层原理
- 1、以图像分类任务为例讲解深度学习的原理
- 2、权重参数的含义（单隐层）⭐⭐⭐
- 3、权重参数的含义（多隐层）⭐⭐⭐
- - （1）第一层权重矩阵（网络）
  - （2）第二层权重矩阵（网络）
  - （3）第三层权重矩阵（网络）
- 4、损失函数的引入
- 5、松弛因子的引入
- 6、将输入数据矩阵化
- 7、正则化的引入
- 8、激活函数（映射函数）的引入
三、神经网络中的反向传播
四、激活函数的选择
- 1、ReLu 函数
- 2、Softmax 函数
五、结语

一、何为深度学习?

1、深度学习、机器学习与人工智能

在学习深度学习之前，需要弄清楚深度学习、机器学习和人工智能的关系。

人工智能（artificial inteligence）是一个综合性的领域，不仅包括机器学习与深度学习，还包括更多不涉及学习的方法。例如，早期的国际象棋程序仅包含程序员精心编写的硬编码规则，并不属于机器学习。在相当长的时间内，许多专家相信，只要程序员精心编写足够多的明确规则来处理知识，就可以实现与人类水平相当的人工智能。这一方法被称为符号主义人工智能（symbolic AI）。

虽然符号主义人工智能适合用来解决定义明确的逻辑问题，比如下国际象棋，但它难以给出明确的规则来解决更加复杂、模糊的问题，比如图像分类、语音识别和语言翻译。于是出现了一种更新的方法来替代符号主义人工智能，这就是机器学习（machine learning）。

但随着大数据时代的来临，传统机器学习方法的表现不尽人意。在数据量激增和计算机性能不断提升的时代，利用更深的网络挖掘数据信息的深度学习表现出一骑绝尘的性能，这迅速受到学术界和工业界的重视。尤其在2010年之后，各种深度学习框架的开源和发布，更进一步的促进了深度学习算法的发展。但是，深度学习本身还是一种机器学习方法，它和与传统的机器学习方法一样，都是根据输入数据进行分类或者回归。

2、深度学习的内涵

深度学习是机器学习的一个重要分支，它是从数据中进行学习一种新方法，其强调的是从连续的层（layer）中进行学习。“深度学习”中的“深度”并不是指这种方法能得到更深层次的理解，而是指该方法会包含一系列连续的层。由该方法建立的模型所包含的层数，通常也被称为模型的深度（depth）。现在的深度学习过程通常包含数十个甚至上百个表示层，这些表示层全都是从训练数据中学习而得。与此相对的传统机器学习算法在实质上，相当于仅包含了一两层，因此有时也被称为浅层学习（shallow learning）。

在深度学习中，这些分层的表示几乎总是通过一种被称为神经网络（neural network）的模型学习得到。

3、神经网络结构

用图来表示神经网络的话（如下图所示），我们把最左边的一列称为输入层，最右边的一列称为输出层，中间的一列称为中间层（有也称为隐藏层）。“隐藏”一词的意思是，隐藏层的神经元（和输入层、输出层不同）是无法被看见的。

那层与层之间是如何进行数据变换的呢？权重矩阵。

如果将上一幅图像中的神经网络层次进行拓展（如设置为 2 层），则可以将该图像的完整结构用下图表示：

所以，构建（训练）神经网络的过程，实际上就是寻找 $\{w_i, i = 1,2, \dots \}$ 的过程。

在上面的网络模型中，我们直接将上一隐层中的数据作为输入与接下来的权重矩阵进行矩阵乘法，并将结果作为接下来隐层中的数据。这种不对前一层数据做任何处理，直接输入到下一层网络中的神经网络模型被称为“线性神经网络”。在这种网络模型中，由于每一层的输出都是该层输入数据的线性函数，所以无论该网络结构怎么搭，最终的输出都将是输入数据的线性组合。

因此，线性网络模型的表达能力是远远不够的。为了解决这一问题，可以在神经网络中引入激活函数。

在神经网络中引入激活函数后的结构如下图所示：

激活函数的作用主要是将前一层的输出进行非线性变换，然后再传入下一层。在引入了激活函数后，神经网络的表达能力会得到极大提升。现在我们谈到的神经网络，大多都是这一类模型，有关激活函数的内容将在后面进行更详细的阐述。

4、深度学习较机器学习的优势

性能上限
传统机器学习算法相较深度学习而言，最大的差异莫过于当数据量激增时，其构建模型的性能差异：

特征提取
机器学习的流程为：数据获取→特征工程→模型建立→评估与应用。而深度学习的流程里并却没有特征提取这一步，因为它可以通过深层的网络结构自动从原始数据中提取有用特征。因此，对于传统机器学习而言，当面对一份常规数据集时（如加州房地产数据这种已经进行了特征提取和划分的优质数据集），其总能通过一些算法（如逻辑回归、决策树等）直接进行模型构建。但是，当面对的数据集为一些较为复杂的对象时（图片、音频甚至视频），如何从这些数据里定义、划分和筛选特征就成为了一个非常困难的问题。
同时，由于数据的特征决定了模型的上限，而算法与参数决定了如何逼近这个上限，因此对数据进行预处理和特征提取也成为了机器学习中的一个核心关键。以“对图像进行分类”为例，在传统的机器学习的特征提取阶段，需要设计者具备足够的图形学相关知识，才能够找到有效的数据特征，这给建模难度和预测效果增加了不确定性。相比之下，深度学习的方法由于具有端到端的特性，可以直接从原始数据中找到有用的信息，在预测时只使用对预测目标有用的内容，增强了其预测能力，而且不需要过多的人为干预，提高了预测结果的稳定性。

二、深度学习的底层原理

通过前面若干章节的学习，可将传统机器学习算法的固有模式大致归结为以下三步：

收集数据并给定标签；
找到一个合适的函数 $f(\text{x}; w, b)$ ，使得 $f$ 能最大限度地在给定数据上达到最佳拟合效果；
对 $f$ 进行测试、评估后，输出 $f$ 。

同样地，深度学习也是基于这样一种模式。稍有不同的是，在深度神经网络中，由于其含有若干网络层，这就需要为各层单独求解一组权重（这也被称为该层的参数）。在这种语境下，学习的意思就是为神经网络的所有层找到一组权重值，使得该网络能够将每个示例的输入与其目标正确地一一对应。但重点来了：要如何找出这些 $W$ 呢？

1、以图像分类任务为例讲解深度学习的原理

下面我们以计算机视觉的核心任务——图像分类，来阐述深度神经网络是如何求解 $W$ 的。

现假设我们有一系列带标签的图像数据集：猫、狗、鸭子。

首先，我们需要让计算机理解图像数据：一种简单直观的方式是取图像的像素值以构成像素矩阵。例如，下图给出了一幅规格为 $300\times400$ （像素个数）的小狗图像，我们可以将该图像的所有像素点取出，并按序组成一条向量： $\text{x} = [12,137, … , 14]^T$ 。在图像的表示中，由于彩色图像含有 3 个颜色通道（不考虑 Alpha 通道），因此该向量的长度为 $300\times400\times3=360000$ 。

2、权重参数的含义（单隐层）⭐⭐⭐

接下来，假设我们利用神经网络构建好了一个仅含单隐层的模型 $f(\text{x};w,b)$ ，其能将输入的图像数据进行处理并反馈该图像在各个类别上的得分：

则可将计算得分的过程用下图表示（为便于理解，假设输入的图像数据为 $2\times2$ 的灰度图）：

在该过程中，首先将原始图像数据的像素值用向量进行表示，得到 $X$ 。然后再用初始权重矩阵 $W$ 和该输入向量进行矩阵乘法（ $W$ 可进行随机初始化）。因此，这就要求 $W$ 的列数要与输入向量 $X$ 的长度相等。这一过程将用 $W$ 的每行分别与输入向量 $X$ 进行向量点乘，即分别计算：

$\\ [1.5, -0.7, 0.0, 0.5]·[196, 8, 48, 97] = 1.5×196-0.7×8+0.0×48+0.5×97=336.9 \\ [-0.6, 1.3, 0.2, 0.4]·[196, 8, 48, 97] = -0.6×196+1.3×8+2.2×48+0.4×97=-58.8$

实际上，该过程正体现了 $W$ 中每一行所代表的含义。由于我们规定最终的结果分别为“预测为猫的得分”、 “预测为狗的得分”、 “预测为鸭的得分”。因此，这也就是说 $W$ 中的第一行数据主要是用于捕获输入数据中猫的特征、第二行数据是用于捕获输入数据中狗的特征、第三行数据是用于捕获输入数据中鸭的特征。它们在对输入数据进行预测时，分工明确，各司其职。

同时，观察 $W$ 中的每一行数据。如，第一行向量：

$[0.2, 0.4, 2.1, - 0.6]$

其表明，当前构建的模型认为：在通过对原始图像数据的像素进行向量化后，其中的第三个像素点（特征）对“预测当前图像属于猫这个类别”最重要，因为它的权重参数达到了 2.1 ，是所有权重系数的最高值；同理可知，其中的第四个像素点对“预测当前图像属于猫这个类别”起着负作用，因为它的权重参数为负，而这将会削减最终预测为猫的得分。其余行也是如此，分别表达着该模型在预测输入向量（特征）属于某种类别时的偏好。这便是单层神经网络中，权重矩阵 $W$ 的含义。

需要注意的是， $W$ 的规格仅在列数上受限于输入数据的特征长度，而其行数的取值是任意的。当 $W$ 的行数与数据集的标签个数不等时，对权重参数的解读将发生变化。

例如，我们有一份数据，其含有：年龄、身高、体重 3 个特征（以及对应的健康指数，作为标签值）。现要求根据这份数据构建神经网络，以对输入数据进行健康打分。

对于这种情况，我们在构建权重矩阵时，可灵活地选择参数矩阵的行数。例如，可取以下权重矩阵：

此时，对于任意输入向量 $\text{x}^*=[age, height, weight]^T$ ，当用该矩阵乘以此向量时，则会得到以下结果：

$\varphi_{\text{x}^*}= \begin{bmatrix} 1.41age + 0.32height + 0.73weight \\ 1.15age + 0.58height + 0.42weight\\ 0.81age + 0.48height + 0.97weight\\ 1.25age + 0.66height + 0.79weight \end{bmatrix}$

可以看到， $\varphi_{\text{x}^*}$ 的长度变为了 4 （取决于 $W$ 的行数），而原输入向量 $\text{x}^*$ 的长度为 3 。实际上，可将这个过程视为对原输入数据进行的一次特征提取（新得到的特征是对原输入数据的内容进行加权和）。它的用处非常广泛，例如，当样本数据规格很大时，该方法可用于降维以加快算法的执行速度；当样本数据规格很小时（可能会出现低维不可分的情形），此方法又能用于增维（这就相当于采取了核技巧）。

前面提到，深度学习较其他传统机器学习算法最大的差异就在于它并未经过专门的特征工程，而是自动挖掘数据中的特征，并对其进行拟合。从上面的例子可见一斑。

3、权重参数的含义（多隐层）⭐⭐⭐

单层神经网络的数学展开式实际上和线性回归具有异曲同工之妙。当神经网络的层次加深时，其蕴含的物理含义又是怎样的呢？我们还是以图像分类为例，试解读多层神经网络在其隐层中所保留数据的含义。为便于分析和理解，假设下面所用图像数据的规格为 $2\times2\times1$ （即 $2\times2$ 的灰度图）。

（1）第一层权重矩阵（网络）

在含双隐层的神经网络中，当第一次用权重矩阵 $W_1$ 与输入数据进行矩阵乘法时，该过程实际上是完成了对样本数据的初步特征采样。如右图所示，输入数据（向量）在与权重矩阵进行矩阵乘法后，会将原始图像中有关猫咪图像的一些表层特征进行初步提取。如：

Frame1： “猫咪图片主体部分的大致范围”；
Frame2： “猫咪脸的大致模样”；
Frame3： “猫咪图片中的大致深色位置”；
Frame4： “猫咪图片中的大致重要特征 1”；
Frame5： “猫咪图片中的大致重要特征 2”。

这些就是单层神经网络对一幅图片是否是猫咪而做出的一些简单定义，显然，这些定义并不完全正确。因此，为了能让模型取得更好的预测效果，我们尝试加深它的网络层数。

（2）第二层权重矩阵（网络）

接下来，用权重矩阵 $W_2$ 与输入数据（隐层 1 中的结果）进行矩阵乘法。该过程会将前一步得到的“定义”进行更深层次的解读（即再特征提取）。如：

针对 Frame1：“猫咪图片主体部分的大致范围可进一步细化为 F1、 F2、 F3、F4、 F5”。这就从原本宽泛的图框，进一步绘出了一只猫咪的轮廓。但实际上，有些图像中的猫咪也许是另一个姿势？

（3）第三层权重矩阵（网络）

针对 Frame2：“猫咪脸的大致模样可进一步细化为F1、 F2、 F3、 F4、 F5”。这就从原本宽泛的猫脸，进一步细化出了猫咪的双眼、鼻子以及两边的胡须。以此类推……这便是多隐层神经网络中各层存放数据的含义。从这里不难看出，只要神经网络的层次足够深，那它几乎就能将一幅图片的所有特征全部细化出，进而达到几乎完美的分类效果。

因此，深度学习模型较传统机器学习算法而言，其效果几乎是降维式打击。所以，深度学习的研究者似乎更注重防止过拟合（而隔壁机器学习却在想办法如何取得较好的拟合效果）。

4、损失函数的引入

我们继续思考最开始提出的问题：深度学习要如何求出参数矩阵 $W$ ？

回到前面的例子（下图），从该预测结果来看，其效果是相当不准确的：很明显该图是一只可爱的猫咪！不过出现这样的预测结果并不意外，毕竟一开始给的权重矩阵 W 就是随机的。

于是，接下来我们需要根据得分结果对原始权重矩阵 $W$ 进行反向调整，以使其变得更为合理（实际上，这就像我们刷题的过程：一开始你会做错很多题，但那并不重要，这本来就是练习。接下来你只需要对做错的题反复练习，然后再去练习类似的题，当你做的多了，自然就变得会了）。

调整方法很简单。由于我们拥有数据的真实标签，因此在练习的过程中，当对某个数据分类错误时，我们就可以根据这个错误来进行调整。例如，在前面的例子中，初始情况下的分类器 $f$ 对一只猫咪图片进行了预测，其结果如下图所示，但是我们根据图像数据的标签值可知，这是一只猫（猫咪：你看不出么！）。那么对于 $f$ 在其他的类别上的得分，就不能明显地高于在猫咪上的得分。所以，对于其余得分，我们需要评估它（错误的预测值）与真实的预测值之间的差异。对于这个差异，我们用 “损失” 这个名词冠以描述。例如，在下图的例子中：

$f$ 认为该图属于狗狗的得分为 339.3 ，则其相较样本真实值（猫咪）的损失为 339.3 - 86.2 = 253.1；
$f$ 认为该图属于鸭子的得分为 -59.6 ，则其相较样本真实值（猫咪）的损失为 -59.6 - 86.2 = -145.8。

对于上面的损失，我们实际仅关心第一组值（即 253.1），因为 $f$ 预测该图属于鸭子的得分（-59.6）低于真实值（猫咪），因此用该值算出的损失为负。换言之， $W$ 中的第三行向量在“预测不属于猫咪”这项任务上还挺好！（当然，它本身的任务是“预测属于鸭子”的）。因此，我们可以忽略这项损失（人家没犯错，你当然就不能让他改啦！）。故此，引入 max 函数来完成这一逻辑，即有：

$L_i=\sum_{j=1, j\neq y_i}^k\text{max}\left(0, f(\text{x}_i;W_j)-f(\text{x}_i;W_i)\right)$

其中， $L_i$ 表示该损失是在第 $i$ 个样本上的损失， $k$ 表示该分类器的预测类别数（在此例中 $k = 3$ ）。 $y_i$ 表示第 $i$ 个样本的标签（即第 $i$ 个样本的真实分类）。该损失函数被称为 hinge loss。

5、松弛因子的引入

有时候，我们会放宽某个样本在各分类上的限制，即允许出现一些误差，故引入松弛因子 $\zeta$ ：

$L_i=\sum_{j=1, j\neq y_i}^k\text{max}\left(0, f(\text{x}_i;W_j)-f(\text{x}_i;W_i)+\zeta\right)$

当加入松弛因子后，模型就能更好地去处理一些确实不太容易分辨的情形。例如，一幅图片标记为小狗的图片，看起来既有可能是一只小猫，也有可能是一只小狗，且其得分分别为 89.2 和 89.9 。此时，如果用原损失函数，则计算结果 $ma x (0, 89.2 - 89.9) = 0$ ，即忽略掉这一差异（认为分类一定正确）。但是从理性角度看，我们应该为这幅图的属类画一个问号（因为差异并不是很大，故视作证据不够充足）。而此时，若采用引入松弛因子 $\zeta = 1$ 的损失函数，则计算结果 $ma x (0, 89.2 - 89.9 + 1) = ma x (0, 0.3) = 0.3$ ，即认为需要考虑这一差异（认为该模型还需要进一步优化）。而这显然更符合常理（两个分数接近的人，要更细致地再深入考察，然后再决定去留）。

引入松弛因子后的损失函数会将原始划分边界进行放松（如下图所示），从而为输入数据的归类做更充分的考量（缓冲带）。

6、将输入数据矩阵化

前面的例子都是针对仅有一个输入数据的情况。现在，假设我们要对若干份输入数据（假设为 4 份）进行预测（如下图所示），且所有输入数据都是规格为 $32\times32$ 的彩色图片（含 RGB 三个颜色通道）。则此时，每份输入数据对应的向量长度为 $32\times32\times3= 3072$ 。又由于输入数据共有 4 份，则它们会被合在一起以组成一个规格为 $3072\times4$ 的矩阵。

由于此时每条输入数据的长度为 3072，即神经网络会认为现在面对的数据对象是一个特征数量为 3072 的对象，因此它也会调整参数矩阵 $W$ 的宽度（列数）为 3072。最后，我们依然取参数矩阵的行数为 3 （为便于理解），则此时 $W$ 矩阵的规格为 $3\times3072$ 。

当这些参数都被确定后，神经网络会随机给 $W$ 赋值，然后再用 $W$ 矩阵乘以由输入向量构成的矩阵，并由此得到各个样本数据在 3 种不同类别上的得分。因为 $Size_W = 3\times3072，Size_X =3072\times4$ ，则最终得到的是一个规格为 $3\times4$ 的矩阵（矩阵乘法的性质），其结果上图所示。

此时，可将前面得到的损失函数写为（ $n$ 为样本数据个数）：

$L=\frac1n\sum^n_{i=1}\sum^k_{j=1,j\neq i}\text{max}(0, f(\text{x}_i;w_j)-f(\text{x}_i;w_i)+\zeta)$

7、正则化的引入

前面说到，深度学习也是机器学习算法的实现之一，因此，其本质也是在寻找拟合函数（即一组权重参数 $W$ ）。现假设对于某个拟合方程 $f$ 得到以下两组 $W$ ，且由它得到的决策方程在训练集上取得的效果完全一致：

$W_1=[1,0,0,0]^T$
$W_2=[\frac14,\frac14,\frac14,\frac14]^T$

那应该选谁作为最终的权重参数呢？

答案当然是 $W_2$ ，因为由 $W_2$ 得到的拟合方程考虑了更多的特征，所以它在测试集上更有可能取得较好的预测效果。有关正则化的更多内容请参看在线性回归部分中的介绍。

引入正则化后，其会对原回归方程的权重参数进行惩罚，以让权重参数尽可能平滑。此时，得到的新损失函数为：

$L=\frac1n\sum^n_{i=1}\sum^k_{j=1,j\neq i}\text{max}(0, f(\text{x}_i;w_j)-f(\text{x}_i;w_i)+\zeta) + \lambda R(W)$

其中， $R (W)$ 即为引入的正则， $\lambda$ 为控制系数。

8、激活函数（映射函数）的引入

前面说到，我们要利用损失函数的值对参数矩阵 $W$ 进行反向调整，但在此先思考一个问题：损失函数的值有何含义？直观地看，这个值表示“属于某种类别的得分”，但“得分”这个概念有两个瑕疵：

“得分”没有上下限，因而无法对该结果做出合理评判，这主要体现在难以划分等级（如：百分制让我们觉得 90 分以上是优秀，60 分以下是不合格）；
“得分”没有把“属于某种类别的可能性”体现出来。如：有的数据集算出的结果就是很小，均值在 1-10 ，此时很难从数值上界定某个样本的具体分类。

为此，我们想到了前面在逻辑回归中的处理办法：采用某种值域为 [0, 1] 的函数进行映射。这样，就能将“得分”这个概念转变为“概率”，从而将 1 和 2 中的问题解决。另一方面（也是最根本的一点）：映射函数能够将某个输入进行非线性变换。这一变换至关重要，因为它能够将整个模型的预测能力提升至一个完全不一样的档次。基于此，引入激活函数（映射函数）。

最常规的一类激活函数是 $S i g m o i d$ 函数（如下图所示）：

其方程为：

$\sigma(z)=\frac{1}{1+e^{-z}}(-∞σ(z)=1+e−z1(−∞<z<+∞)$

它接受范围为 $(- \infty, + \infty)$ 的任意实数，并将其映射到 $[0, 1]$ 之间。这样的取值能够更直观地感受到输入数据的所属类别（如：当输入数据在某个类别上的得分为 0.8 及以上时，我们就认为该数据大概率就属于这一类别）。

注： $S i g m o i d$ 函数有一个很好的性质： $\frac{\partial\sigma(z)}{\partial x}=(1-\sigma(z))\sigma(z)$ ，这有利于反向传播的计算。

三、神经网络中的反向传播

前面做的所有工作实际上都是在寻找合适的损失函数，因为我们知道，有了损失函数，就能对权重矩阵 $W$ 进行调整（因为 $W$ 在一开始是随机的）。而这个调整过程，就是强化神经网络预测效果的过程。

下图总结了在神经网络中，数据的输入、计算得分、计算损失并反向调整的流程。对于多层神经网络，该过程依然如此。不过在计算损失时，必须从最后一层的损失开始，逐层往前迭代求解（链式法则），即：

1、求第 $m$ 层损失，调整该层 $W$ ；
2、求第 $m - 1$ 层损失，调整该层 $W$ ；
……
M、求第 $1$ 层损失，调整该层 $W$ ；

这个过程被称之为“反向传播”。

也许你会心存疑惑，为什么要这样对各 W 进行调整？

你似乎会有这样的思路：

若假设各隐层对应的参数矩阵 $W$ 分别为： $W_1, W_2, … , W_n$ ，则可以直接计算出从第一层到第 $k$ 层的得分为：

$L_k=W_k(\dots(W_2(W_1\text{x})))$

因为我们希望这个损失值越小越好（表示模型判断错误的情况越少），故对 $W_k$ 求导：

$\frac{\partial L_k}{\partial W_k}=W_{k-1}(\dots(W_2(W_1\text{x})))$

然后令 $W_{k-1}(\dots(W_2(W_1\text{x})))=0$ 即可算出 $W_k$ 的极值点。将这个方法进行推广，即能将所有的参数矩阵 $W$ 都算出来。

这听起来是一个好办法，但是这方法并没有考虑到损失函数 $L_k$ 可能非常复杂，也许你根本无法找到其关于某个变量的表达式，也就更谈不上什么求导了。另一方面，式子：

$L_k=W_k(\dots(W_2(W_1\text{x})))$

的成立是基于“神经网络中各层之间都是直接传递”这一假设（即前一层的输出作为下一层输入），但实际中，我们肯定会引入激活函数，那么 $L_k$ 的表达式就会发生一些变动。因此，要对 $W$ 进行反向调整就不能采取这样的思路。

对于这个问题的求解，我们不得不再次想起一个老朋友：梯度下降。

在机器学习中，很多算法最后都会转化为求目标损失函数（loss function）最小值的问题。这个损失函数往往很复杂，难以求出最值的解析表达式。而梯度下降法正是为了解决这类问题。有关该算法的描述和实现和请参见前面线性回归部分，在此不再赘述。

“梯度下降优化参数矩阵”的本质是这样的：在一个由待求参数 $W$ 和样本数据构成的方程中，初始时赋 $W$ 任意值，这时通过样本数据算出的 $\hat Y$ 值会与真实的 $Y$ 值产生较大偏差。此时，我们可观察 $\hat Y$ 与 $Y$ 的差距，并分析各项数据在变动时，会对 $\hat Y$ 产生何种影响，然后“因地制宜”地去改变 $W$ 的取值以缩减 $\hat Y$ 与 $Y$ 的差距。但是，怎么做到“因地制宜”呢？转换一下问题，如何得到某个值对函数的影响程度（因为影响程度大的会被用来进行调整，以缩减 $\hat Y$ 与 $Y$ 的差距）？高中生帮你回答了：导数（作为大学生，你应该想到维度也许会很高，因此你的答案应该是：梯度）。

下面用一个简单的例子来说明如何利用梯度下降的思路来对参数矩阵进行更新。为便于理解，这里假设所搭建的神经网络模型为仅含单隐层的神经网络（原始数据的特征个数为 2），激活函数为 $S i g m o i d$ 。则可得到此模型对应的函数为：

$\text{x})=\frac{1}{1+e^{-(W_0\text{x}_0+W_1\text{x}_1+W_2)}}$

现假设样本数据向量为 $\text{x}=[-1,-2]^T$ ，初始设置的随机参数矩阵为 $W=[2,-3]^T$ ，初始设置的偏置项为 $- 3$ ，则可将该神经网络的前向传播过程描述如下：

接下来需要根据计算得到的结果进行反向传播。前面提到，在反向传播的过程中，必须逐层更新（即逐层求导，以对前一层参数进行更新，遵从链式法则），因此这里先给出本模型中涉及到的所有函数的导数公式，以便计算与理解：

$\frac{\text{d}(x+a)}{\text{d} x}=1 \quad\quad \frac{\text{d}(ax)}{\text{d} x}=a \quad\quad \frac{\text{d}(e^x)}{\text{d} x}=e^x \quad\quad \frac{\text{d}(\frac{1}{x})}{\text{d} x}=-\frac{1}{x^2}$

$\begin{align} \nonumber \frac{\text{d}(\sigma(x))}{\text{d} x}&=\frac{\text{d}(\frac{1}{1+e^{-x}})}{\text{d} x} \\ \nonumber &= \frac{e^{-x}}{(1+e^{-x})^2} \\ \nonumber &=\left(\frac{1+e^{-x}-1}{1+e^{-x}}\right)\left(\frac{1}{1+e^{-x}}\right) \\ \nonumber &=\left(1-\frac{1}{1+e^{-x}}\right)\left(\frac{1}{1+e^{-x}}\right) \\ \nonumber &=\left(1-\sigma(x)\right)\sigma(x) \nonumber \end{align}$

现在看我们的参数，主要有 $W_0, W_1, W_2$ ，前向传播的计算顺序是 $W_0, W_1$ 然后再是 $W_2$ ，因此在反向传播时，需要先计算 $W_2$ 的梯度然后再计算 $W_0, W_1$ 。总结就是：在计算梯度时需要从后往前计算。

如在下图中，对于函数 $\frac1x$ ，由于 $\frac{\text{d}\frac{1}{x}}{\text{d}x}=-\frac{1}{x^{2}}$ ，因此可算出该步骤的梯度值为： $\frac{\text{d}\frac{1}{x}}{\text{d}x}\bigg|_{x = 1.37}=-\frac{1}{{1.37}^2}\approx-0.53$ ；对于函数 $x + 1$ ，由于 $\frac{\text{d}(x+1)}{\text{d}x}=1$ ，因此可算出该步骤的梯度值为： $\frac{\text{d}(x+1)}{\text{d}x}\bigg|_{x = 1.37}=1$ ，由于其前一步梯度值为 $- 0.53$ ，因此在这里得到的最终梯度值为 $1\times (−0.53) = −0.53$ ；对于函数 $e^x$ ，可算出该步骤的梯度值为： $\frac{\text{d}e^x}{\text{d}x}\bigg|_{x = -1.00}\approx-0.37$ ，由于前一步梯度值为 $- 0.53$ ，因此在这里得到的最终梯度值为 $0.37\times(−0.53) \approx−0.20$ ；对于函数 $- x$ ，可算出该步骤的梯度值为： $\frac{\text{d}-x}{\text{d}x}\bigg|_{x = 1.00}=-1$ ，则该处最终的梯度值为 $\times (−0.20) = 0.20$ 。

接下来对于 $W_0\text{x}_0+W_1\text{x}_1+W_2$ 这个整体而言，由于 $\frac{\partial(W_0\text{x}_0+W_1\text{x}_1+W_2)}{\partial W_2}=1$ ，因此该反向传播最终传递到 $W_2$ 的梯度为 $1 \times 0.20 = 0.20$ 。

在正向传播过程中，注意到蓝框部分实际上是 $S i g m o i d$ 门单元。因此，在计算梯度时可以直接对这个整体进行求解：

对 $\text{x})=\frac{1}{1+e^{-(W_0\text{x}_0+W_1\text{x}_1+W_2)}}$ ，令 $z=W_0\text{x}_0+W_1\text{x}_1+W_2$ ，则可将原方程改写为： $\text{x})=\sigma(\text{z})$ （其中 $\sigma(\text{z})=\frac{1}{1+e^{-\text{z}}}$ 为 Sigmoid 函数）。

此时再对 $W_2$ 求偏导，则有： $\frac{\partial f}{\partial W_2}=\frac{\partial \sigma}{\partial W_2} = \frac{\partial \sigma}{\partial \text{z}} \times \frac{\partial \text{z}}{\partial W_2}=\left[(1-\sigma(\text(z))\sigma(\text(z)))\right]\times1= \frac{e^{-\text{z}}}{(1+e^{-\text{z}})^2}$ 。

将 $\text{z}=W_0\text{x}_0+W_1\text{x}_1+W_2=1.00$ 带入可得到梯度为 $\frac{\partial f}{\partial W_2}\bigg|_{\text{z} = -1.00}=\frac{\partial \sigma}{\partial W_2}\bigg|_{\text{z} = -1.00}=\frac{e^{-\text{z}}}{(1+e^{-\text{z}})^2}\bigg|_{\text{z} = -1.00}=\frac{e^{-1}}{(1+e^{-1})^2}\approx0.20$ 。

可以看出，采取这种方式计算的结果与前面是相同的。

当 $W_2$ 的梯度计算完毕后，就能计算 $W_1, W_0$ 的梯度了。对于函数 $x + y$ ，可算出其梯度为： $\frac{\partial(x+y)}{\partial x}\bigg|_{x = 4.00}=1$ 。取 $x=W_0\text{x}_0+W_1\text{x}_1, y=W_2$ ，则可得到传递至 $W_0\text{x}_0+W_1\text{x}_1$ 这个整体的梯度为 $\times 0.20 = 0.20$ 。实际上，加法门单元（诸如 $x + y$ 的式子）在进行梯度传递时，它会将上一步的梯度直接分给加法门中的每个元素。所以，对于 $W_0\text{x}_0$ 和 $W_1\text{x}_1$ 而言，它们都将直接得到前面算出的梯度值：0.20。

接着，由于 $\frac{\text{d}(W_1\text{x}_1)}{\text{d}W_1}=\text{x}_1$ ，因此该反向传播最终传递到 $W_1$ 的梯度为 $\text{x}_1 × 0.20 = −2.00 × 0.20 = −0.40$ 。同理可得到最终传递到 $W_0$ 的梯度为 −0.20 。

以上便是神经网络的反向传播过程，当我们对样本数据执行这一过程后，就能得到参数矩阵中各值的梯度。接下来就能利用梯度下降算法来对参数矩阵进行更新，从而不断优化整个神经网络的预测能力。

四、激活函数的选择

前面提到，神经网络为了使模型更强而会对各层之间的数据进行非线性处理，对于这一处理所用到的函数我们称之为“激活函数”。前面我们曾介绍过 Sigmoid 函数，但是在实际使用时这个函数并不常用。因为 Sigmoid 函数在取值为 $[- 3, 3]$ 的区间时，其取值范围就已经达到 $[0, 0.95]$ 。因此，当数据的计算结果在 $[- 3, 3]$ 之外时，就基本上不会发生多大改变。说直接点就是， Sigmoid 函数的变化率（梯度）在取值较大或较小时，基本上就为 0 了（这点也能从其图像中直观地看出）。所以，当在神经网络中使用 Sigmoid 函数作为激活函数时，也许会因为样本数据总体偏大而使得反向传播过程中（每层）算出的梯度都偏小。试想， $0.9^{50} ≈ 0.0515$ 。那么在一些层次较深的神经网络中使用 Sigmoid 函数时，很有可能这个梯度值慢慢地就被“吃掉”了（变为 0），我们把这一现象称为“梯度消失” 。因此，在实际操作时，我们通常会选择一些其他的函数来作为激活函数。其中，最常用的两个是 ReLu 函数和 Softmax 函数。

1、ReLu 函数

ReLu 函数的定义如下：

$\sigma(x)=\begin{cases} \text{max}(0, x) & , x\geq0 \\ 0 & , x<0 \end{cases}$

其图像如下图所示：

ReLu 函数相较 Sigmoid 其主要有以下优点：

计算速度快。 Sigmoid 函数需要计算指数，而 ReLu 函数只需要比较大小；
ReLU 函数的非饱和性可以有效地解决梯度消失的问题，提供相对宽的激活边界。
使用 ReLU 函数可以达到更快的收敛速度。

2、Softmax 函数

Softmax 是用于多类分类问题的激活函数，在多类分类问题中，超过两个类标签就需要类成员关系。对于长度为 K 的任意实向量，Softmax 可以将其压缩为值在 $[0, 1]$ 之间，且向量中元素总和为 1 的实向量（有关 softmax 的更多内容请参见前面逻辑回归部分）。Softmax 函数的定义为：

$\hat y_i=\frac{1}{\sum^k_{j=1}e^{f(\text{x}^{(i)};W_j, b)}}\begin{bmatrix} e^{f(\text{x}^{(i)};W_1, b)}\\ e^{f(\text{x}^{(i)};W_2, b)}\\ \dots\\ e^{f(\text{x}^{(i)};W_k, b)} \end{bmatrix}$

这一操作使得所有输入数据都具有了一个相对概率，从而便于我们进行比较，并保留了概率具有不稳定性的特性（即就算某个样本在某些类别上的得分较低，但它仍有可能归类于这些类）。

在采用 Softmax 后，可将前面计算概率的过程进一步表示为：

五、结语

首先要说明一点，深度学习本身是一个非常庞大的方向，其下属的研究内容十分广泛，且颇具研究价值。而本文的内容，仅仅是一篇导论性质的文章，仅供初入机器学习和深度学习的学者们参考。

随着人工智能的兴起和计算机算力的不断提升，深度学习从机器学习的众多方向中脱颖而出，并不断迸发出强烈生机。基于此，近年来有关深度学习的研究在不断更新，不断前进，有关它的相关领域也早已形成了自己特有的一些研究范畴。所以，虽然本章“深度学习”的内容结束了，但实际上却也刚刚开始。限于本栏的类属，对于深度学习的内容将不再继续深入，感兴趣的同学可以自己去查阅一些其他优秀博主的文章自行学习。

END

你可能感兴趣的:(机器学习,机器学习,深度学习,人工智能,神经网络,损失函数,激活函数,正则化)

AI模型技术演进与行业应用图谱智能计算研究中心其他
内容概要当前AI模型技术正经历从基础架构到行业落地的系统性革新。主流深度学习框架如TensorFlow和PyTorch持续优化动态计算图与分布式训练能力，而MXNet凭借高效的异构计算支持在边缘场景崭露头角。与此同时，模型压缩技术通过量化和知识蒸馏将参数量降低60%-80%，联邦学习则通过加密梯度交换实现多机构数据协同训练。在应用层面，医疗诊断模型通过迁移学习在CT影像分类任务中达到98.2%的准
DeepSeek多语言AI高效应用实践智能计算研究中心其他
内容概要在人工智能技术快速迭代的背景下，DeepSeek系列模型凭借混合专家架构（MoE）与670亿参数规模，在多语言处理、视觉语言理解及复杂任务生成领域实现了突破性进展。本文系统性拆解其技术架构设计逻辑，聚焦论文写作、代码生成、SEO关键词拓展三大核心场景，分析模型在高生成质量、低使用成本维度的差异化优势。技术维度DeepSeekProver传统单模态模型多语言支持97种语言动态切换单一语种优化
【第1章＞第6节】CMAC小脑模型神经网络的理论学习与MATLAB仿真 fpga和matlab #第1章·神经网络学习 matlab CMAC 小脑模型神经网络人工智能
目录1.使用软件和版本2.CMAC小脑模型神经网络概述2.1CMAC网络结构2.2CMAC地址映射2.3学习过程3.CMAC网络的MATLAB编程实现4.分辨率，重叠度，学习率对CMAC网络的训练性能影响分析4.1分辨率4.2重叠度4.3学习率5.视频操作步骤演示欢迎订阅FPGA/MATLAB/Simulink系列教程《★教程1:matlab入门100例》《★教程2:fpga入门100例》《★教程
重要重要！！fisher矩阵是怎么计算和更新的，以及计算过程中参数的物理含义 ZhangJiQun&MXP 教学 2021 论文 2024大模型以及算力矩阵概率论线性代数 windows 微信机器学习
fisher矩阵是怎么计算和更新的，以及计算过程中参数的物理含义Fisher信息矩阵（FisherInformationMatrix,FIM）用于衡量模型参数估计的不确定性，其计算和更新在统计学、机器学习和优化中具有重要作用。以下是其计算和更新的关键步骤：一、Fisher矩阵的计算定义Fisher矩阵的元素表示对数似然函数关于参数的二阶导数的期望值的负数，即：Fi,j=−
AI大模型训练教程 Small踢倒coffee_氕氘氚 python自学经验分享笔记
1.引言随着人工智能技术的快速发展，大模型（如GPT-3、BERT等）在自然语言处理、计算机视觉等领域取得了显著的成果。训练一个大模型需要大量的计算资源、数据和专业知识。本教程将带你了解如何从零开始训练一个AI大模型。2.准备工作2.1硬件要求GPU：推荐使用NVIDIA的高性能GPU，如A100、V100等。内存：至少64GBRAM。存储：SSD存储，至少1TB。#2.2软件环境操作系统：Lin
使用Jupyter Notebook进行深度学习编程 - 深度学习教程 shandianfk_com ChatGPT AI jupyter 深度学习 ide
大家好，今天我们要聊聊如何使用JupyterNotebook进行深度学习编程。深度学习是人工智能领域中的一项重要技术，通过模仿人脑神经网络的方式进行学习和分析。JupyterNotebook作为一个强大的工具，可以帮助我们轻松地进行深度学习编程，尤其适合初学者和研究人员。本文将带领大家一步步了解如何在JupyterNotebook中开展深度学习项目。一、什么是JupyterNotebook？Jup
英伟达常用GPU参数速查表，含B300..... Ai17316391579 深度学习服务器人工智能机器学习服务器电脑计算机视觉深度学习神经网络
英伟达常用GPU参数速查表，收藏备用：含RTX5090、RTX4090D、L40、L20、A100、A800、H100、H800、H20、H200、B200、B300、GB300.....专注于高性能计算人工智能细分领域kyfwq001#5090##4090##英伟达“新核弹”B200发布##英伟达##英伟达B300##GPU##服务器##显卡##英伟达H800/A800芯片将禁售#
深度学习 Deep Learning 第8章深度学习优化 odoo中国 AI编程人工智能深度学习人工智能优化
深度学习第8章深度学习的优化章节概述本章深入探讨了深度学习中的优化技术，旨在解决模型训练过程中面临的各种挑战。优化是深度学习的核心环节，直接关系到模型的训练效率和最终性能。本章首先介绍了优化在深度学习中的特殊性，然后详细讨论了多种优化算法，包括随机梯度下降（SGD）、动量法、Nesterov动量法、AdaGrad、RMSProp和Adam等。此外，还探讨了参数初始化策略、自适应学习率方法以及二阶优
景联文科技提供高质量文本标注服务，驱动AI技术发展景联文科技科技人工智能
文本标注是指在原始文本数据上添加标签的过程，这些标签可以用来指示特定的实体、关系、事件等信息，以帮助计算机理解和处理这些数据。文本标注是自然语言处理（NLP）领域的一个重要环节，它通过为文本的不同部分提供具体的含义和上下文信息，增强机器学习和深度学习模型对文本内容的理解能力。标注类型情感分析情感极性：确定文本表达的情感倾向，如正面、负面或中立。强度评估：衡量情感的强烈程度，从轻微到极端不等。命名实
打造金融数据新引擎，看永洪科技助力头部农信社搭建一站式分析平台永洪科技金融数据可视化 BI 数据分析大数据
在数字化转型的浪潮中，金融行业作为经济发展的核心引擎，正加速探索数字化、智能化的新路径。永洪科技，近日成功助力某省农村信用社联合社（简称：Z企业）完成了其数字化转型的重要一步，通过部署先进的商业智能解决方案，为Z企业的业务升级与效能提升注入了强劲动力。随着智能金融时代的来临，以大数据、人工智能、移动互联等新兴技术为核心的金融科技持续赋能银行金融业务数字化、智能化、开放化的发展，为金融机构营销体系的
景联文科技：以高质量数据标注推动人工智能领域创新与发展景联文科技科技人工智能数据标注
在当今这个由数据驱动的时代，高质量的数据标注对于推动机器学习、自然语言处理（NLP）、计算机视觉等领域的发展具有不可替代的重要性。数据标注过程涉及对原始数据进行加工，通过标注特定对象的特征来生成能够被机器学习模型识别和使用的编码格式，从而使数据更具有意义和可解读性。数据标注的主要类型包括：图像标注：指在图片中标识出目标物体的位置、形状或类别等信息，如自动驾驶技术中的行人、车辆及交通标志的识别。文本
客服机器人怎么才能精准的回答用户问题？玩人工智能的辣条哥 AI面试机器人客服机器人
环境：客服机器人问题描述：客服机器人怎么才能精准的回答用户问题？解决方案：客服机器人要精准回答用户问题，需综合技术、数据和用户体验等多方面因素。以下是关键策略和步骤：1.精准理解用户意图自然语言处理（NLP）技术分词与实体识别：提取关键词（如“订单号”“退货”）和实体（如时间、地点）。意图分类：通过机器学习模型（如BERT、Transformer）将问题归类（如“售后”“支付”）。上下文理解记录对
人工智能与网络信息技术的深度融合鸭鸭鸭进京赶烤学术会议人工智能 AI编程 ai 机器人计算机视觉网络计算机网络
在当今时代，人工智能（AI）和网络信息技术正以前所未有的速度推动着社会变革。从通用人工智能（AGI）到具身智能的普及，AI不仅实现了技术上的飞跃，也在各个行业展现出巨大的应用潜力。随着技术的不断迭代，我们迎来了许多创新应用，例如AI在电子信息技术中的应用，通过算法优化与升级，显著提高了处理效率和准确性。网络信息技术同样在飞速发展。面向2030年的未来网络发展趋势表明，网络将支撑万亿级、人机物、全时
深度学习篇---对角矩阵&矩阵的秩&奇异矩阵 Ronin-Lotus 程序代码篇深度学习篇深度学习矩阵人工智能线性代数
文章目录前言一、对角矩阵（DiagonalMatrix）1.1定义1.2特性行列式运算简化1.3应用领域深度学习信号处理量子力学经济学二、矩阵的秩（RankofaMatrix）2.1定义2.2特性满秩降秩影响2.3应用领域深度学习图像压缩推荐系统控制理论三、奇异矩阵（SingularMatrix）3.1定义3.2特性秩不足行列式为零3.3应用领域深度学习正则化损失函数结构工程统计学数值计算四、跨领
DeepSeek、Grok 与 ChatGPT 三巨头：技术架构与应用场景的全方位解析云策量化 Deepseek chatgpt deepseek grok
前言在当今人工智能领域，DeepSeek、Grok和ChatGPT作为语言模型的三巨头，各自凭借独特的技术架构和广泛的应用场景，在自然语言处理领域占据着重要地位。本文将对这三款模型的技术架构和应用场景进行全方位解析，以期为读者提供深入的了解和有价值的参考。一、技术架构（一）DeepSeekDeepSeek是由DeepSeek团队开发的一款大型语言模型，其技术架构基于深度学习中的Transforme
探索AI模型的巅峰之战：ChatGPT、DeepSeek与Grok 3，谁才是最强？温暖阳光阿斌人工智能 chatgpt
近年来，人工智能领域正处于一场高速迭代的革命中。大型语言模型（LLMs）如ChatGPT、DeepSeek和Grok3纷纷亮相，各展所长，为人们带来了前所未有的体验。在这场"谁是最强"的竞争中，每一方都展现出了令人惊叹的能力和独特的优势。然而，这些模型之间的差异和特点，究竟是什么？它们各自的优势在哪里？又有哪些隐藏的短板？本文将带您深入了解这三位AI巨头的亮点与争议，共同探讨它们在AI领域的位置，
OpenCV 4.2.0与扩展模块安装与应用指南土城三富
本文还有配套的精品资源，点击获取简介：OpenCV4.2.0是一个先进的计算机视觉库，包含了图像处理、计算机视觉和机器学习算法。本压缩包包含OpenCV核心库和扩展模块（opencv_contrib），版本均为4.2.0。该版本引入了性能增强、API优化以及对深度学习框架和硬件加速技术的更新支持。扩展模块提供了额外的实验性算法和功能，有助于研究和开发新算法。指南详细介绍了如何安装和配置这些库，并提
OpenCV ML 模块使用指南 ice_junjun OpenCV opencv 人工智能计算机视觉
一、模块概述OpenCV的ML模块提供了丰富的机器学习算法，可用于解决各种计算机视觉和数据分析问题。本指南将详细介绍该模块中主要的机器学习算法，包括支持向量机（SVM）、K均值聚类（K-Means）和神经网络（ANN），并结合图像分类和聚类分析这两个典型应用场景进行代码实现与解释。二、主要函数及类详解（一）支持向量机（SVM）：cv.ml.SVM_create()功能支持向量机（SVM）是一种强大
强化学习中策略网络模型设计与优化技巧数字扫地僧计算机视觉深度学习
I.引言强化学习（ReinforcementLearning,RL）是一种通过与环境交互，学习如何采取行动以最大化累积奖励的机器学习方法。策略网络（PolicyNetwork）是强化学习中一种重要的模型，它直接输出动作的概率分布或具体的动作。本篇博客将深入探讨策略网络的设计原则、优化技巧，并结合具体实例展示其应用。II.策略网络的基本概念A.策略网络的定义策略网络是一种神经网络，它接受当前状态作为
介于YOLOv5的裂缝识别系统程序员～小强 YOLO
介于YOLOv5的裂缝识别系统在现代工业中，裂缝监测是的保障设施安全的重要环节。我们公司的新项目——基于YOLOv5的裂缝识别系统，将为您提供高效、精准的解决方案，助力各类工程项目的质量管理。系统优势我们的裂缝识别系统借助YOLOv5进行深度学习，经过精心训练，拥有强大的图像识别能力。只需简单的步骤，您就能将复杂的裂缝检测转化为轻松的操作，让分析变得更加简单、高效。核心功能图片上传与场景选择用户可
使用DeepSeek R1大模型编写迅投 QMT 的量化交易 Python 代码 wtsolutions qmt量化交易 python qmt deepseek 量化交易代码生成
随着人工智能技术的迅猛发展，利用AI工具提升工作效率已成为现代开发者的重要手段。在使用deepseek官方网页生成迅投QMT代码的时候，deepseek给出的代码是xtquant代码，也就是miniqmt代码，并不是我们传统意义上说的大QMT可用的代码。因此，我们需要自建一个知识库，让deepseek根据我的知识库里面的知识，去帮我生成大QMT可用的交易代码。一、建立迅投QMT的知识库建立迅投QM
GPU架构分类大明者省架构
一、NVIDIA的GPU架构NVIDIA是全球领先的GPU生产商，其GPU架构在图形渲染、高性能计算和人工智能等领域具有广泛应用。NVIDIA的GPU架构经历了多次迭代，以下是一些重要的架构：1.Tesla（特斯拉）架构（2006年发布）特点：NVIDIA推出的首个通用GPU计算架构，支持使用C语言进行GPU编程，标志着GPU开始从专用图形处理器转变为通用数据并行处理器。性能：具有128个流处理器
芯片的未来发展趋势 iccnewer
2024年，该行业将专注于AI/ML、RISC-V、量子、安全等发展趋势。今年年初，大多数人从未听说过生成式人工智能。现在整个世界都在竞相利用它，而这仅仅是个开始。量子计算、6G、智能基础设施等新市场领域专用处理正在加速对更快、更高效、更多数据的需求。与每隔几年等待下一个工艺节点的日子相比，未来几年的事件将与电话或汽车的引入一样重要。但可能不会只有一种创新技术，将会有很多技术一起以一种将让科技界惊
基于Python编程语言实现“机器学习”，用于车牌识别项目我的sun&shine Python python 机器学习计算机视觉
基于Python的验证码识别研究与实现1.摘要验证码的主要目的是区分人类和计算机，用来防止自动化脚本程序对网站的一些恶意行为，目前绝大部分网站都利用验证码来阻止恶意脚本程序的入侵。验证码的自动识别对于减少自动登录时长，识别难以识别的验证码图片有着重要的作用。对验证码图像进行灰度化、二值化、去离散噪声、字符分割、归一化、特征提取、训练和字符识别等过程可以实现验证码自动识别。首先将原图片进行灰度化处理
Python程序设计（入门） xyyykx python 开发语言
目录一丶Python概述二丶Python数据类型三丶常用的进制四丶字符串型五丶程序控制结构六丶组合数据类型一丶Python概述Python是一种高级编程语言，由GuidovanRossum于1991年开发并发布。它具有简洁、易读、易学的语法特点，被广泛应用于多个领域，包括软件开发、数据科学、人工智能、网络编程等。以下是Python的一些主要特点和优势：简单易学：Python的语法简洁明了，易于理解
LLM：软件测试的颠覆性力量 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
LLM：软件测试的颠覆性力量关键词：大语言模型（LLM）、软件测试、人工智能、测试自动化、测试效率、质量保证、测试革新1.背景介绍在当今快速发展的软件行业中，测试一直是确保产品质量的关键环节。随着人工智能技术的飞速进步，特别是大语言模型（LargeLanguageModels，简称LLM）的出现，软件测试领域正经历着前所未有的变革。LLM凭借其强大的自然语言处理能力和广泛的知识储备，正在重塑我们对
卷积神经网络Batch Normalization的作用 arron8899 cnn batch 人工智能
BatchNormalization的作用（通俗版）1.像“稳定器”一样校准每层输入想象你在烤多层蛋糕，每层蛋糕的烘烤温度不同（相当于神经网络的每一层数据分布不同）。没有BN时，烤箱温度忽高忽低，导致有的层烤焦（梯度爆炸），有的层不熟（梯度消失）。BN的作用相当于给每一层装了一个自动温度调节器，实时将输入数据调整到标准温度（均值为0，方差为1），保证每层都能均匀受热，训练更稳定。2.让模型训练“少
使用Dall-E生成图像：文本到图像的魔力 shuoac 计算机视觉人工智能 python
使用Dall-E生成图像：文本到图像的魔力技术背景介绍Dall-E是OpenAI开发的一个强大的文本到图像生成模型，它能够根据自然语言描述创造出全新的数字图像。这一技术基于深度学习的方法，使得创意与AI图像生成的结合更具可能性。本文将介绍如何调用Dall-EAPI来生成图像，从而使开发者能够将这一技术应用到自己的项目中。核心原理解析Dall-E利用大型语言模型（LLM）从用户提供的文本描述中提取详
DS/ML：数据科学技术之数据科学生命周期(四大层次+机器学习六大阶段+数据挖掘【5+6+6+4+4+1】步骤)的全流程最强学习路线讲解之详细攻略一个处女座的程序猿资深文章(前沿/经验/创新)DataScience ML 数据科学数据科学的生命周期机器学习
DS/ML：数据科学技术之数据科学生命周期(四大层次+机器学习六大阶段+数据挖掘【5+6+6+4+4+1】步骤)的全流程最强学习路线讲解之详细攻略导读：本文章是博主在数据科学和机器学习领域，先后实战过几百个应用案例之后的精心总结，应该是完全覆盖了数据科学的整个生命周期及其各个阶段的要点。其中机器学习领域六大阶段更是在整个数据科学生命周期中扮演着极其重要的角色。同时，因为涉及到博主出书中出版社要求在
深入了解盘古大模型：技术、应用与未来 Hardess-god Literature review 人工智能
随着人工智能技术的迅猛发展，预训练大模型已成为AI领域最前沿、最热门的研究方向之一。近年来，中国自主研发的大模型之一——盘古模型（PanGuModel）逐渐进入公众视野，凭借其强大的性能和广泛的应用前景，引发了行业内外的广泛关注。什么是盘古大模型？盘古大模型是华为公司联合多家科研机构共同研发的超大规模预训练语言模型。该模型以中文数据为主进行训练，旨在推动中文自然语言处理（NLP）以及跨模态应用的技
JAVA中的Enum 周凡杨 java enum 枚举
Enum是计算机编程语言中的一种数据类型---枚举类型。在实际问题中，有些变量的取值被限定在一个有限的范围内。例如，一个星期内只有七天我们通常这样实现上面的定义： public String monday; public String tuesday; public String wensday; public String thursday
赶集网mysql开发36条军规 Bill_chen mysql 业务架构设计 mysql调优 mysql性能优化
(一)核心军规 (1)不在数据库做运算 cpu计算务必移至业务层； (2)控制单表数据量 int型不超过1000w，含char则不超过500w；合理分表；限制单库表数量在300以内； (3)控制列数量字段少而精，字段数建议在20以内
Shell test命令 daizj shell 字符串 test 数字文件比较
Shell test命令 Shell中的 test 命令用于检查某个条件是否成立，它可以进行数值、字符和文件三个方面的测试。数值测试参数说明 -eq 等于则为真 -ne 不等于则为真 -gt 大于则为真 -ge 大于等于则为真 -lt 小于则为真 -le 小于等于则为真实例演示： num1=100 num2=100if test $[num1]
XFire框架实现WebService(二) 周凡杨 java webservice
有了XFire框架实现WebService(一)，就可以继续开发WebService的简单应用。 Webservice的服务端(WEB工程)：两个java bean类： Course.java package cn.com.bean; public class Course { private
重绘之画图板朱辉辉33 画图板
上次博客讲的五子棋重绘比较简单，因为只要在重写系统重绘方法paint（）时加入棋盘和棋子的绘制。这次我想说说画图板的重绘。画图板重绘难在需要重绘的类型很多，比如说里面有矩形，园，直线之类的，所以我们要想办法将里面的图形加入一个队列中，这样在重绘时就
Java的IO流西蜀石兰 java
刚学Java的IO流时，被各种inputStream流弄的很迷糊，看老罗视频时说想象成插在文件上的一根管道，当初听时觉得自己很明白，可到自己用时，有不知道怎么代码了。。。每当遇到这种问题时，我习惯性的从头开始理逻辑，会问自己一些很简单的问题，把这些简单的问题想明白了，再看代码时才不会迷糊。 IO流作用是什么？答：实现对文件的读写，这里的文件是广义的； Java如何实现程序到文件
No matching PlatformTransactionManager bean found for qualifier 'add' - neither 林鹤霄
java.lang.IllegalStateException: No matching PlatformTransactionManager bean found for qualifier 'add' - neither qualifier match nor bean name match! 网上找了好多的资料没能解决，后来发现：项目中使用的是xml配置的方式配置事务，但是
Row size too large (> 8126). Changing some columns to TEXT or BLOB aigo column
原文：http://stackoverflow.com/questions/15585602/change-limit-for-mysql-row-size-too-large 异常信息： Row size too large (> 8126). Changing some columns to TEXT or BLOB or using ROW_FORMAT=DYNAM
JS 格式化时间 alxw4616 JavaScript
/** * 格式化时间 2013/6/13 by 半仙 [email protected] * 需要 pad 函数 * 接收可用的时间值. * 返回替换时间占位符后的字符串 * * 时间占位符:年 Y 月 M 日 D 小时 h 分 m 秒 s 重复次数表示占位数 * 如 YYYY 4占4位 YY 占2位<p></p> * MM DD hh mm
队列中数据的移除问题百合不是茶队列移除
队列的移除一般都是使用的remov();都可以移除的,但是在昨天做线程移除的时候出现了点问题,没有将遍历出来的全部移除, 代码如下; // package com.Thread0715.com; import java.util.ArrayList; public class Threa
Runnable接口使用实例 bijian1013 java thread Runnable java多线程
Runnable接口 a. 该接口只有一个方法：public void run(); b. 实现该接口的类必须覆盖该run方法 c. 实现了Runnable接口的类并不具有任何天
oracle里的extend详解 bijian1013 oracle 数据库 extend
扩展已知的数组空间，例： DECLARE TYPE CourseList IS TABLE OF VARCHAR2(10); courses CourseList; BEGIN -- 初始化数组元素，大小为3 courses := CourseList('Biol 4412 ', 'Psyc 3112 ', 'Anth 3001 '); --
【httpclient】httpclient发送表单POST请求 bit1129 httpclient
浏览器Form Post请求浏览器可以通过提交表单的方式向服务器发起POST请求，这种形式的POST请求不同于一般的POST请求 1. 一般的POST请求，将请求数据放置于请求体中，服务器端以二进制流的方式读取数据，HttpServletRequest.getInputStream()。这种方式的请求可以处理任意数据形式的POST请求，比如请求数据是字符串或者是二进制数据 2. Form
【Hive十三】Hive读写Avro格式的数据 bit1129 hive
1. 原始数据 hive> select * from word; OK 1 MSN 10 QQ 100 Gtalk 1000 Skype 2. 创建avro格式的数据表 hive> CREATE TABLE avro_table(age INT, name STRING)STORE
nginx+lua+redis自动识别封解禁频繁访问IP ronin47
在站点遇到攻击且无明显攻击特征，造成站点访问慢，nginx不断返回502等错误时，可利用nginx+lua+redis实现在指定的时间段内，若单IP的请求量达到指定的数量后对该IP进行封禁，nginx返回403禁止访问。利用redis的expire命令设置封禁IP的过期时间达到在指定的封禁时间后实行自动解封的目的。一、安装环境： CentOS x64 release 6.4(Fin
java-二叉树的遍历-先序、中序、后序（递归和非递归）、层次遍历 bylijinnan java
import java.util.LinkedList; import java.util.List; import java.util.Stack; public class BinTreeTraverse { //private int[] array={ 1, 2, 3, 4, 5, 6, 7, 8, 9 }; private int[] array={ 10,6,
Spring源码学习-XML 配置方式的IoC容器启动过程分析 bylijinnan java spring IOC
以FileSystemXmlApplicationContext为例，把Spring IoC容器的初始化流程走一遍： ApplicationContext context = new FileSystemXmlApplicationContext ("C:/Users/ZARA/workspace/HelloSpring/src/Beans.xml&q
[科研与项目]民营企业请慎重参与军事科技工程 comsci 企业
军事科研工程和项目并非要用最先进，最时髦的技术，而是要做到“万无一失” 而民营科技企业在搞科技创新工程的时候，往往考虑的是技术的先进性，而对先进技术带来的风险考虑得不够，在今天提倡军民融合发展的大环境下，这种“万无一失”和“时髦性”的矛盾会日益凸显。。。。。。所以请大家在参与任何重大的军事和政府项目之前，对
spring 定时器-两种方式 cuityang spring quartz 定时器
方式一：间隔一定时间运行 <bean id="updateSessionIdTask" class="com.yang.iprms.common.UpdateSessionTask" autowire="byName" /> <bean id="updateSessionIdSchedule
简述一下关于BroadView站点的相关设计 damoqiongqiu view
终于弄上线了，累趴，戳这里http://www.broadview.com.cn 简述一下相关的技术点前端：jQuery+BootStrap3.2+HandleBars，全站Ajax（貌似对SEO的影响很大啊！怎么破？），用Grunt对全部JS做了压缩处理，对部分JS和CSS做了合并（模块间存在很多依赖，全部合并比较繁琐，待完善）。后端：U
运维 PHP问题汇总 dcj3sjt126com windows2003
1、Dede(织梦)发表文章时,内容自动添加关键字显示空白页解决方法：后台>系统>系统基本参数>核心设置>关键字替换（是/否），这里选择“是”。后台>系统>系统基本参数>其他选项>自动提取关键字，这里选择“是”。 2、解决PHP168超级管理员上传图片提示你的空间不足网站是用PHP168做的，反映使用管理员在后台无法
mac 下安装php扩展 - mcrypt dcj3sjt126com PHP
MCrypt是一个功能强大的加密算法扩展库，它包括有22种算法，phpMyAdmin依赖这个PHP扩展，具体如下：下载并解压libmcrypt-2.5.8.tar.gz。在终端执行如下命令： tar zxvf libmcrypt-2.5.8.tar.gz cd libmcrypt-2.5.8/ ./configure --disable-posix-threads --
MongoDB更新文档 [四] eksliang mongodb Mongodb更新文档
MongoDB更新文档转载请出自出处：http://eksliang.iteye.com/blog/2174104 MongoDB对文档的CURD，前面的博客简单介绍了，但是对文档更新篇幅比较大，所以这里单独拿出来。语法结构如下： db.collection.update( criteria, objNew, upsert, multi) 参数含义参数
Linux下的解压，移除，复制，查看tomcat命令 y806839048 tomcat
重复myeclipse生成webservice有问题删除以前的，干净 1、先切换到：cd usr/local/tomcat5/logs 2、tail -f catalina.out 3、这样运行时就可以实时查看运行日志了 Ctrl+c 是退出tail命令。有问题不明的先注掉 cp /opt/tomcat-6.0.44/webapps/g
Spring之使用事务缘由(3-XML实现) ihuning spring
用事务通知声明式地管理事务事务管理是一种横切关注点。为了在 Spring 2.x 中启用声明式事务管理，可以通过 tx Schema 中定义的 <tx:advice> 元素声明事务通知，为此必须事先将这个 Schema 定义添加到 <beans> 根元素中去。声明了事务通知后，就需要将它与切入点关联起来。由于事务通知是在 <aop:
GCD使用经验与技巧浅谈啸笑天 GC
前言 GCD(Grand Central Dispatch)可以说是Mac、iOS开发中的一大“利器”，本文就总结一些有关使用GCD的经验与技巧。 dispatch_once_t必须是全局或static变量这一条算是“老生常谈”了，但我认为还是有必要强调一次，毕竟非全局或非static的dispatch_once_t变量在使用时会导致非常不好排查的bug，正确的如下： 1
linux（Ubuntu）下常用命令备忘录1 macroli linux 工作 ubuntu
在使用下面的命令是可以通过--help来获取更多的信息1,查询当前目录文件列表：ls ls命令默认状态下将按首字母升序列出你当前文件夹下面的所有内容，但这样直接运行所得到的信息也是比较少的，通常它可以结合以下这些参数运行以查询更多的信息： ls / 显示/.下的所有文件和目录 ls -l 给出文件或者文件夹的详细信息 ls -a 显示所有文件，包括隐藏文
nodejs同步操作mysql qiaolevip 学习永无止境每天进步一点点 mysql nodejs
// db-util.js var mysql = require('mysql'); var pool = mysql.createPool({ connectionLimit : 10, host: 'localhost', user: 'root', password: '', database: 'test', port: 3306 });
一起学Hive系列文章 superlxw1234 hive Hive入门
[一起学Hive]系列文章目录贴，入门Hive，持续更新中。 [一起学Hive]之一—Hive概述，Hive是什么 [一起学Hive]之二—Hive函数大全-完整版 [一起学Hive]之三—Hive中的数据库(Database)和表(Table) [一起学Hive]之四-Hive的安装配置 [一起学Hive]之五-Hive的视图和分区 [一起学Hive
Spring开发利器：Spring Tool Suite 3.7.0 发布 wiselyman spring
Spring Tool Suite(简称STS)是基于Eclipse，专门针对Spring开发者提供大量的便捷功能的优秀开发工具。在3.7.0版本主要做了如下的更新：将eclipse版本更新至Eclipse Mars 4.5 GA Spring Boot(JavaEE开发的颠覆者集大成者，推荐大家学习)的配置语言YAML编辑器的支持(包含自动提示，