矩阵求导与神经网络反向传播

矩阵求导

关于矩阵求导，其实严格意义上来说仅仅只是一种求导的矩阵表示形式，其本质还是和普通多元函数求导过程是一致的。将矩阵的各个元素拆分开来，将矩阵运算写成各个元素之间的运算，矩阵变换可以变成多元函数，这样矩阵求导过程就可以与多元函数求导过程联系起来了。要理解矩阵求导运算，最主要的其实是理解矩阵导数的表示，将矩阵导数的拆分形式与多元函数求导联系起来。
本文主要参考《Matrix cookbook》和wiki上面的内容，下面简单介绍一下矩阵求导的相关内容，为后面介绍前馈神经网络FNN的反向传播过程做铺垫。

矩阵求导的表示形式之一：值函数对向量/矩阵变量的导数

下面表达式中， y 表示一个实值函数， x 表示一个向量变量，那么他们的矩阵求导含义为：

\partial y \partial x = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial y \partial x 1 \partial y \partial x 2 \dots \partial y \partial x n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

y y 表示一个实值函数，

X X 表示一个矩阵变量：

\partial y \partial X = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial y \partial x 11 \partial y \partial x 21 \dots \partial y \partial x p 1 \partial y \partial x 12 \partial y \partial x 22 \dots \partial y \partial x p 2 \dots \dots \dots \dots \partial y \partial x 1 q \partial y \partial x 2 q \dots \partial y \partial x p q ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

上面给出了矩阵求导的表示形式的具体含义，很容易理解。下面给出几个例子，

a a 是实数，

β β 和

x x 是向量，

A A 、

B B 和

C C 是与

x x 无关的矩阵：

\partial β T x \partial x = β

\partial x T x \partial x = x

\partial x T A x \partial x = (A + A T) x

如果你能发现这三个式子左边的分子都是一个数，分母都是一个向量，那么你应该很容易理解这几个等式。是在不能理解就自己把左右两边的矩阵运算拆分开来，然后使用多元函数求导的过程将左右两边分别表示出来就行了。以第一个为例：

β T x = \sum i = 1 n β i x i

\partial β T x \partial x = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial β T x \partial x 1 \partial β T x \partial x 2 \dots \partial β T x \partial x n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial \sum n i = 1 β i x i \partial x 1 \partial \sum n i = 1 β i x i \partial x 2 \dots \partial \sum n i = 1 β i x i \partial x n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ = ⎡ ⎣ ⎢ ⎢ ⎢ β 1 β 2 \dots β n ⎤ ⎦ ⎥ ⎥ ⎥ = β

这样就能很清楚的理解矩阵矩阵求导的表示形式的具体含义了。

矩阵求导的表示形式之二：向量函数对值/向量/矩阵变量的导数

下面表达式中， y 表示一个向量函数， x 表示一个值变量，那么他们的矩阵求导含义为：

\partial y \partial x = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial y 1 \partial x \partial y 2 \partial x \dots \partial y n \partial x ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

接下来是向量函数

y y 对向量变量

x x 的导数含义为：

\partial y \partial x = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial y 1 \partial x 1 \partial y 2 \partial x 2 \dots \partial y m \partial x n \partial y 1 \partial x 2 \partial y 2 \partial x 2 \dots \partial y m \partial x 2 \dots \dots \dots \dots \partial y 1 \partial x n \partial y 2 \partial x n \dots \partial y m \partial x n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

以一个最为简单的例子为例：

y = W x

那么：

\partial y \partial x = W

最后向量函数

y y 对矩阵变量

W W 的导数是一个张量，具体形状为：

\partial y \partial W = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial y 1 \partial W 11 \partial y 1 \partial W 21 \dots \partial y 1 \partial W m 1 \partial y 1 \partial W 12 \partial y 1 \partial W 22 \dots \partial y 1 \partial W m 2 \dots \dots \dots \dots \partial y 1 \partial W 2 n \partial y 1 \partial W 2 n \dots \partial y 1 \partial W m n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial y 2 \partial W 11 \partial y 2 \partial W 21 \dots \partial y 2 \partial W m 1 \partial y 2 \partial W 12 \partial y 2 \partial W 22 \dots \partial y 2 \partial W m 2 \dots \dots \dots \dots \partial y 2 \partial W 2 n \partial y 2 \partial W 2 n \dots \partial y 2 \partial W m n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ \dots ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial y k \partial W 11 \partial y k \partial W 21 \dots \partial y k \partial W m 1 \partial y k \partial W 12 \partial y k \partial W 22 \dots \partial y k \partial W m 2 \dots \dots \dots \dots \partial y k \partial W 2 n \partial y k \partial W 2 n \dots \partial y k \partial W m n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

同样举出一个例子说明这个形式的含义：

l=f(y) l = f ( y ) 其中，

y y 为

m m 维向量，然后

y=Wx y = W x ，

W W 为

m∗n m ∗ n 的矩阵，

x x 为

n n 维向量。然后

∂l∂y ∂ l ∂ y 为

m m 维向量，

∂y∂W ∂ y ∂ W 为

m∗m∗n m ∗ m ∗ n 维张量，最后根据链式法则有

∂l∂W=∂l∂y∂y∂W ∂ l ∂ W = ∂ l ∂ y ∂ y ∂ W ，很显然最后的结果

∂l∂W ∂ l ∂ W 应该是一个

m∗n m ∗ n 为的矩阵，而等式另外边为

m m 维向量乘上

m∗m∗n m ∗ m ∗ n 维张量，其结果为

m∗n m ∗ n 维矩阵。将这个过程拆开来看：

\partial y \partial W = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial y \partial W 11 \partial y \partial W 21 \dots \partial y \partial W m 1 \partial y \partial W 12 \partial y \partial W 22 \dots \partial y \partial W m 2 \dots \dots \dots \dots \partial y \partial W 1 n \partial y \partial W 2 n \dots \partial y \partial W m n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \sum m i = 1 \partial l \partial y 1 \partial y 1 \partial W 11 \sum m i = 1 \partial l \partial y 1 \partial y 1 \partial W 21 \dots \sum m i = 1 \partial l \partial y 1 \partial y 1 \partial W m 1 \sum m i = 1 \partial l \partial y 1 \partial y 1 \partial W 12 \sum m i = 1 \partial l \partial y 1 \partial y 1 \partial W 22 \dots \sum m i = 1 \partial l \partial y 1 \partial y 1 \partial W m 2 \dots \dots \dots \dots \sum m i = 1 \partial l \partial y 1 \partial y 1 \partial W 1 n \sum m i = 1 \partial l \partial y 1 \partial y 1 \partial W 2 n \dots \sum m i = 1 \partial l \partial y 1 \partial y 1 \partial W m n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

矩阵求导的表示形式之三：矩阵函数对值/向量/矩阵变量的导数

首先矩阵函数 Y 对值变量 x 的导数含义为：

\partial Y \partial x = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial y 11 \partial x \partial y 21 \partial x \dots \partial y p 1 \partial x \partial y 12 \partial x \partial y 22 \partial x \dots \partial y p 2 \partial x \dots \dots \dots \dots \partial y 1 q \partial x \partial y 2 q \partial x \dots \partial y p q \partial x ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

这个也很容易理解，然后矩阵函数对向量变量的导数是形式上是一个张量，矩阵函数对矩阵变量的导数是一个四阶张量。
这些导数的形式很少用到，但实际上本质还是一样的： 矩阵求导本质上是多元函数求导的矩阵表示形式，其函数由矩阵运算定义，其导数形式是为了同样满足矩阵运算而定义的。还是那句话，如果不理解矩阵求导过程，直接把矩阵运算转化成基本的多元函数运算，用多元函数求导方法写出其形式就很容易理解了。

当然，上面几个仅仅是非常简单的矩阵求导，更复杂的涉及到求迹（对角线上元素的和） tr(A) 、行列式 det(A) 等就需要去参照《Matrix Cookbook》中的内容自行理解了。了解到上面的内容已经足够让我们来理解神经网络的反向传播了。

神经网络反向传播

讲到神经网络的反向传播首先不得不提一下求导的链式法则：实际上神经网络本质上可以说是一堆向量操作加上激活函数，也可以说是一堆线性函数操作加上激活函数，整个过程最终都可以展开成一个无比大的函数。为了比较好表述神经网络的每一层的正向计算以及反向传播，才表述为矩阵计算与链式法则计算梯度，其本质还是非常简单的多元函数求导。

链式法则

链式法则是多元函数求导基本，通常意义上的链式法则表述如下：

z = f (x, y) x = g (u, v) y = h (u, v)

那么就有：

\partial z \partial u = \partial z \partial x \partial x \partial u + \partial z \partial y \partial y \partial u \partial z \partial v = \partial z \partial x \partial x \partial v + \partial z \partial y \partial y \partial v

这个看起来是不是很简单，理解偏导和梯度的含义就应该很容易理解这个过程。那么接下来，重头戏来了：上面过程中

y y 可以是

x x 的函数，甚至可以是

x x 。来我们先举一个简单的例子来看：

z = x x x = u + v

对于这样一个例子，我们先把上面式子中指数项的

x x 记做

y y ，那么上面的式子就转化为：

z = x y x = u + v y = u + v

接下来我们来根据链式法则来求导：

\partial z \partial u = \partial z \partial x \partial x \partial u + \partial z \partial y \partial y \partial u = y x y - 1 \partial x \partial u + x y l n (x) \partial y \partial u = (u + v) u + v + (u + v) u + v l n (u + v)

\partial z \partial v = \partial z \partial x \partial x \partial v + \partial z \partial y \partial y \partial v = y x y - 1 \partial x \partial v + x y l n (x) \partial y \partial v = (u + v) u + v + (u + v) u + v l n (u + v)

额，是不是很神奇：

dxxdx=xx+xxln(x) d x x d x = x x + x x l n ( x ) 这个式子也可以通过将两个

x x 看做不同的

x x 分别求偏导然后求全微分而得到其导数，当且仅当原函数可微时才能这样做。
好吧，上面这些内容其实是一些题外话，我们真正需要了解的是：在矩阵操作中，我们可以把例如

y=Wx+b y = W x + b 这样的矩阵操作看做是多元函数

全连接层的反向传播

一层全连接层的神经网络的本质是一个 output=f(input) 的多元函数，例如一般来说一层全连接以 x 表示输入向量， y 表示输出向量，那么一层全连接神经网络可数学表示为：

y = σ (W x + b)

其中

W W 和

b b 是参数，前者是映射矩阵，后者是偏置向量，

σ σ 表示激活函数，这是一个数值函数，也就是对矩阵/向量中的每一个值做这样一个函数映射，常用的激活函数有如下几种：
sigmoid激活函数：

y = 1 1 + e - x

sigmoid激活函数的导数：

y' = (1 1 + e - x)' = e - x ( 1 + e - x ) 2 = 1 + e - x - 1 ( 1 + e - x ) 2 = 1 1 + e - x (1 - 1 1 + e - x) = y (1 - y)

tanh激活函数：

y = e x - e - x e x + e - x

tanh激活函数的导数：

y' = (e x - e - x e x + e - x)' = ( e x + e - x ) 2 - ( e x - e - x ) 2 ( e x + e - x ) 2 = 1 - ( e x - e - x ) 2 ( e x + e - x ) 2 = 1 - y 2

relu激活函数：

y = {x, 0, x > 0 x < = 0

relu激活函数的导数：

y' = {1, 0, x > 0 x < = 0

从上面这三种常用激活函数的导数可以看出，激活函数反向求导都非常简单直接。然后，我们将从两种角度来给出全连接层反向传播的导数：矩阵形式和多元函数形式。

全连接层的反向传播的矩阵形式

神经网络反向传播时，我们已知的是 ∂l∂y ，也就是前面层传过来的 loss 对于当前层输出的梯度，然后一方面我们需要知道 loss 对于参数的梯度 ∂l∂W 和 ∂l∂b ，而另一方面我们也需要知道 loss 对于输入的梯度 ∂l∂x ，以便于参数向前面层传播，更新前面层的参数。假设我们以 sigmoid 函数作为激活函数：

y = σ (W x + b)

利用链式法则我们有：

\partial l \partial W = \partial l \partial y \partial y \partial ( W x + b ) \partial ( W x + b ) \partial W = \partial l \partial y \circ (y \circ (1 - y)) x T

\partial l \partial b = \partial l \partial y \partial y \partial ( W x + b ) \partial ( W x + b ) \partial b = \partial l \partial y \circ (y \circ (1 - y))

\partial l \partial x = \partial l \partial y \partial y \partial ( W x + b ) \partial ( W x + b ) \partial x = \partial l \partial y \circ (y \circ (1 - y)) W

其中

∘ ∘ 表示矩阵对应值相乘。

全连接层的反向传播的多元函数形式

接下来给出全连接层的多元函数形式：

y = σ (W x + b)

记

y = ⎡ ⎣ ⎢ ⎢ ⎢ y 1 y 2 \dots y m ⎤ ⎦ ⎥ ⎥ ⎥

则有：

y i = σ (\sum j = 1 n W i j x j + b i), i = 1, 2, . . ., m

那么有：(

Wij W i j 只影响

yi y i ，

bi b i 只影响

yi y i 。)

\partial l \partial W i j = \partial l \partial y i y i (1 - y i) x j, i = 1, 2, . . ., m, j = 1, 2, . . . n

\partial l \partial b i = \partial l \partial y i y i (1 - y i), i = 1, 2, . . ., m

(

xj x j 影响

y1,y2,...,ym y 1 , y 2 , . . . , y m )

\partial l \partial x j = \sum i = 1 m \partial l \partial y i y i (1 - y i) W i j, j = 1, 2, . . ., n

把上面的东西写进矩阵里面就有：

\partial l \partial W = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial l \partial y 1 y 1 (1 - y 1) x 1 \partial l \partial y 2 y 2 (1 - y 2) x 1 \dots \partial l \partial y m y m (1 - y m) x 1 \partial l \partial y 1 y 1 (1 - y 1) x 2 \partial l \partial y 2 y

PaperWeekly sapienst Papers PaperwithCode General ML
1.Python软件包解决DL在未见过的数据分布下性能差的问题：（1）神经网络和损失分离的模块化设计（2）强大便捷的基准测试能力（3）易于使用但难以修改（4）github:https://github.com/marrlab/domainlabTrainer和Models之间是什么关系Trainer和Models是DomainLab中的两个核心概念。Trainer是一个用于指导数据流向模型并计算S
ChatGPT技巧大揭秘：AI写代码新境界 2401_83550420 chatgpt4.0 chatgpt chatgpt 人工智能 AI写作
ChatGPT无限次数:点击直达ChatGPT技巧大揭秘：AI写代码新境界随着人工智能技术的不断进步，开发人员现在有了更多有趣的工具来提高他们的工作效率。其中，ChatGPT作为一种基于深度学习的自然语言处理模型，已经成为许多开发者的新宠。在本文中，我们将揭秘使用ChatGPT来帮助编写代码的技巧，探索AI在编程领域的新境界。ChatGPT简介ChatGPT是一种基于大型神经网络的对话生成模型，它
AI大模型学习：开启智能时代的新篇章游向大厂的咸鱼人工智能学习
随着人工智能技术的不断发展，AI大模型已经成为当今领先的技术之一，引领着智能时代的发展。这些大型神经网络模型，如OpenAI的GPT系列、Google的BERT等，在自然语言处理、图像识别、智能推荐等领域展现出了令人瞩目的能力。然而，这些模型的背后是一系列复杂的学习过程，深度学习技术的不断演进推动了AI大模型学习的发展。首先，AI大模型学习的基础是深度学习技术。深度学习是一种模仿人类大脑结构的机器
【循环神经网络rnn】一篇文章讲透 CX330的烟花 rnn 人工智能深度学习算法 python 机器学习数据结构
目录引言二、RNN的基本原理代码事例三、RNN的优化方法1长短期记忆网络（LSTM）2门控循环单元（GRU）四、更多优化方法1选择合适的RNN结构2使用并行化技术3优化超参数4使用梯度裁剪5使用混合精度训练6利用分布式训练7使用预训练模型五、RNN的应用场景1自然语言处理2语音识别3时间序列预测六、RNN的未来发展七、结论引言众所周知，CNN与循环神经网络（RNN）或生成对抗网络（GAN）等算法结
深度学习与（复杂系统）事物的属性科学禅道深度学习模型专栏深度学习人工智能
深度学习与复杂系统中事物属性的关系体现在：特征学习与表示:深度学习通过多层神经网络结构，能够自动从原始输入数据中学习和提取出丰富的特征表示。每一层神经网络都可能对应着事物属性的不同抽象层次，底层可能对应简单直观的属性，而随着网络深度的增加，顶层可以学习到更抽象、复杂的属性及其相互关系。非线性关系建模:深度学习特别擅长处理非线性关系，而在复杂系统中，事物属性间的相互作用往往表现为非线性，例如，某些属
神经网络（深度学习，计算机视觉，得分函数，损失函数，前向传播，反向传播，激活函数） MarkHD 深度学习神经网络计算机视觉
神经网络，特别是深度学习，在计算机视觉等领域有着广泛的应用。以下是关于你提到的几个关键概念的详细解释：神经网络：神经网络是一种模拟人脑神经元结构的计算模型，用于处理复杂的数据和模式识别任务。它由多个神经元（或称为节点）组成，这些神经元通过权重和偏置进行连接，并可以学习调整这些参数以优化性能。深度学习：深度学习是神经网络的一个子领域，主要关注于构建和训练深度神经网络（即具有多个隐藏层的神经网络）。通
飞桨科学计算套件PaddleScience skywalk8163 人工智能 paddlepaddle 人工智能飞桨
PaddleScience是一个基于深度学习框架PaddlePaddle开发的科学计算套件，利用深度神经网络的学习能力和PaddlePaddle框架的自动(高阶)微分机制，解决物理、化学、气象等领域的问题。支持物理机理驱动、数据驱动、数理融合三种求解方式，并提供了基础API和详尽文档供用户使用与二次开发。安装当然要先安装好飞桨PaddlePaddle，再安装PaddleSciencepipinst
训练时损失出现负数，正常吗？为什么苏苏大大机器学习深度学习人工智能
在训练神经网络时，通常期望损失函数的值是非负的，因为损失函数是用来度量模型预测与真实值之间的差异的。然而，有时候在训练过程中，损失函数可能会出现负数的情况，这可能是正常的，也可能是因为某些原因导致了不寻常的行为。出现损失函数为负数的情况可能有以下几种原因：1.数值不稳定性：如果在计算损失函数时使用了数值不稳定的操作，比如过大或过小的数值，可能会导致损失函数出现负数。这可能是由于数值计算中的舍入误差
神经网络量化小厂程序猿人工智能
神经网络量化（NeuralNetworkQuantization）是一种技术，旨在减少神经网络模型的计算和存储资源需求，同时保持其性能。在深度学习中，神经网络模型通常使用高精度的参数（例如32位浮点数）来表示权重和激活值。然而，这种表示方式可能会占用大量的内存和计算资源，特别是在部署到资源受限的设备（如移动设备或嵌入式系统）时会受到限制。神经网络量化通过将模型参数和激活值从高精度表示（例如32位浮
神奇的微积分科学的N次方人工智能人工智能 ai
微积分在人工智能（AI）领域扮演着至关重要的角色，以下是其主要作用：优化算法：•梯度下降法：微积分中的导数被用来计算损失函数相对于模型参数的梯度，这是许多机器学习和深度学习优化算法的核心。梯度指出了函数值增加最快的方向，通过沿着负梯度方向更新权重，可以最小化损失函数并优化模型。•反向传播：在神经网络训练中，微积分的链式法则用于计算整个网络中每个参数对于最终损失函数的影响（偏导数），这一过程就是反向
看见光，追逐光，成为光~ 默涵在当下
高屋建瓴的人，散发着高贵气质，周遭牛人很多，咬紧他们~杜总，从看网知网背景出发，讲到发现流量痛点，讲到站点布局，讲到下一步机会，从而又契合到自动驾驶网络。从如何构建五级驾驶，到如何结合现状落地~研究字节跳动对神经网络的改造，注入人的干预分类，优化再到聚类，让算法匹配人的干预能力~基础操作效能提升达到90%，告警防护率达到90%，两者交叉防护有效率达到多少？99%一切皆可AI~一切皆可AI~优秀自觉
线性代数在卷积神经网络（CNN）中的体现科学的N次方人工智能线性代数 cnn 人工智能
案例：深度学习中的卷积神经网络（CNN）在图像识别领域，卷积神经网络（ConvolutionalNeuralNetworks,CNN）是一个广泛应用深度学习模型，它在人脸识别、物体识别、医学图像分析等方面取得了显著成效。CNN中的核心操作——卷积，就是一个直接体现线性代数应用的例子。假设我们正在训练一个用于识别猫和狗的图像分类器，原始输入是一幅RGB彩色图片，可以将其视为一个高度、宽度和通道数（R
Pytorch nn.Module 霖大侠 pytorch 人工智能 python 深度学习 cnn 神经网络卷积神经网络
一、torch.nn简介torch.nn是PyTorch中用于构建神经网络的模块。它提供了一系列的类和函数，用于定义神经网络的各种层、损失函数、优化器等。torch.nn提供的类：Module:所有神经网络模型的基类，用于定义自定义神经网络模型。Linear:线性层，进行线性变换。Conv2d:二维卷积层。RNN,LSTM,GRU:循环神经网络层，分别对应简单RNN、长短时记忆网络（LSTM）、门
计算机设计大赛题目：基于卷积神经网络的手写字符识别 - 深度学习 iuerfee python
文章目录0前言1简介2LeNet-5模型的介绍2.1结构解析2.2C1层2.3S2层S2层和C3层连接2.4F6与C5层3写数字识别算法模型的构建3.1输入层设计3.2激活函数的选取3.3卷积层设计3.4降采样层3.5输出层设计4网络模型的总体结构5部分实现代码6在线手写识别7最后0前言优质竞赛项目系列，今天要分享的是基于卷积神经网络的手写字符识别该项目较为新颖，适合作为竞赛课题方向，学长非常推荐
神经网络模型的保存和读取 tiny_PIkid 基于pytorch的深度学习 pytorch 神经网络深度学习
保存神经网络的两种方法:(还是以我之前自建的神经网络模型Gu为例，保存这个神经网络)gu=Gu()1.torch.save(gu,"gu_module.pth")2.torch.save(gu.state_dict(),"gu_module.pth")importtorchfromtorchimportnnfromtorch.nnimportSequential,Conv2d,MaxPool2d,
基于Python和OpenCV的产品码识别与验证案例 GT开发算法工程师 python opencv 开发语言人工智能计算机视觉
引言：本案例展示了如何使用Python结合OpenCV库来实现产品码的识别与验证。首先，通过图像预处理技术（如灰度化、二值化、降噪等）优化产品码图像，然后利用OpenCV中的模板匹配或机器学习算法（如SVM、神经网络等）来定位并识别产品码。目录原理：代码部分：注意：原理：产品码识别与验证的核心在于图像处理与模式识别技术。首先，通过图像处理技术提取出产品码区域，去除背景干扰，增强产品码的可识别性。然
图像算法实习生--面经1 小豆包的小朋友0217 算法
系列文章目录文章目录系列文章目录前言一、为什么torch里面要用optimizer.zero_grad()进行梯度置0二、Unet神经网络为什么会在医学图像分割表现好？三、transformer相关问题四、介绍一下胶囊网络的动态路由五、yolo系列出到v9了，介绍一下你最熟悉的yolo算法六、一阶段目标检测算法和二阶段目标检测算法有什么区别？七、讲一下剪枝八、讲一下PTQandQAT量化的区别九、
深度学习——梯度消失、梯度爆炸小羊头发长深度学习机器学习人工智能
本文参考：深度学习之3——梯度爆炸与梯度消失梯度消失和梯度爆炸的根源：深度神经网络结构、反向传播算法目前优化神经网络的方法都是基于反向传播的思想，即根据损失函数计算的误差通过反向传播的方式，指导深度网络权值的更新。为什么神经网络优化用到梯度下降的优化方法？深度网络是由许多非线性层(带有激活函数)堆叠而成，每一层非线性层可以视为一个非线性函数f(x)，因此整个深度网络可以视为一个复合的非线性多元函数
深度学习如何入门？ nanshaws yolov5 深度学习
深度学习是机器学习的一个子领域，它基于人工神经网络的研究。入门深度学习可以分为以下几个步骤：基础知识准备：（1）掌握基础数学知识，特别是线性代数、概率论和统计学、微积分。（2）学习编程语言，Python是目前最流行的深度学习语言，因其简洁易学且有大量的库支持。（3）了解机器学习基础，包括监督学习和非监督学习的概念、模型评估与选择等。学习深度学习理论：（1）理解神经网络的基本组成，如神经元、激活函数
从零使用Python 实现对抗神经网络GAN 算法channel 神经网络 python 生成对抗网络开发语言人工智能
你好，我是郭震这篇从零使用Python，实现生成对抗网络（GAN）的基本版本。GAN使用两套网络，分别是判别器（D)网络和生成器（G)网络，最重要的是弄清楚每套网络的输入和输出分别是什么，两套网络如何结合在一起，及优化的目标即costfunction如何定义。通俗来讲，两套网络结合的方法，就是G会从D的判分中不断提升生成能力，要知道G最开始的输入全部是噪点，这个思想也是文生图，文生视频的基石。下面
PyTorch 实现图像卷积和反卷积操作及代码算法channel pytorch 人工智能 python 深度学习机器学习
你好，我是郭震在深度学习中，尤其是在处理图像相关任务时，卷积和反卷积（转置卷积）都是非常核心的概念。它们在神经网络中扮演着重要的角色，但用途和工作原理有所不同。以下是对传统卷积和反卷积的介绍，以及它们在PyTorch中的应用示例。传统卷积(nn.Conv2d)用途传统卷积通常用于特征提取。在处理图像时，通过应用卷积核（也称为滤波器）来扫描输入图像或特征映射，可以有效地识别图像中的局部特征（如边缘、
【深度学习模型】6_3 语言模型数据集 RIKI_1 深度学习深度学习语言模型人工智能
注：本文为《动手学深度学习》开源内容，部分标注了个人理解，仅为个人学习记录，无抄袭搬运意图6.3语言模型数据集（周杰伦专辑歌词）本节将介绍如何预处理一个语言模型数据集，并将其转换成字符级循环神经网络所需要的输入格式。为此，我们收集了周杰伦从第一张专辑《Jay》到第十张专辑《跨时代》中的歌词，并在后面几节里应用循环神经网络来训练一个语言模型。当模型训练好后，我们就可以用这个模型来创作歌词。6.3.1
机器学习、深度学习、神经网络之间的关系你好，工程师 AI 机器学习
机器学习（MachineLearning）、深度学习（DeepLearning）和神经网络（NeuralNetworks）之间存在密切的关系，它们可以被看作是一种逐层递进的关系。下面简要介绍它们之间的关系：机器学习（MachineLearning）：机器学习是一种人工智能的分支，关注如何通过数据让计算机系统从经验中学习，提高性能。机器学习算法可以分为监督学习、无监督学习、半监督学习和强化学习等不同
【深度学习笔记】6_4 循环神经网络的从零开始实现 RIKI_1 深度学习深度学习笔记 rnn
注：本文为《动手学深度学习》开源内容，部分标注了个人理解，仅为个人学习记录，无抄袭搬运意图6.4循环神经网络的从零开始实现在本节中，我们将从零开始实现一个基于字符级循环神经网络的语言模型，并在周杰伦专辑歌词数据集上训练一个模型来进行歌词创作。首先，我们读取周杰伦专辑歌词数据集：importtimeimportmathimportnumpyasnpimporttorchfromtorchimport
ENAS：首个权值共享的神经网络搜索方法，千倍加速 | ICML 2018 VincentTeddy
NAS是自动设计网络结构的重要方法，但需要耗费巨大的资源，导致不能广泛地应用，而论文提出的EfficientNeuralArchitectureSearch(ENAS)，在搜索时对子网的参数进行共享，相对于NAS有超过1000x倍加速，单卡搜索不到半天，而且性能并没有降低，十分值得参考来源：【晓飞的算法工程笔记】公众号论文:EfficientNeuralArchitectureSearchvia
深度学习，人工智能总结 qq_14827935 人工智能深度学习
1，入门建议少看书，多看csdn上帖子总结（主要就是BP神经网络，CNN，rnn），建立宏观的概念和主要框架，书可以作为进阶补充作为工具书查阅。2,目前的神经网络还处于前牛顿时代，就是实践中图像识别效果很好，但是原理不太清楚3，现在的人工智能有点像通信行业2g时代，从2012年alexnet到openai的chatgpt，未来还有很长的发展潜力。丰田不是汽车的发明者，但现在销量最高。oepnai在
【深度学习笔记】6_10 双向循环神经网络bi-rnn RIKI_1 深度学习深度学习笔记 rnn
注：本文为《动手学深度学习》开源内容，部分标注了个人理解，仅为个人学习记录，无抄袭搬运意图6.10双向循环神经网络之前介绍的循环神经网络模型都是假设当前时间步是由前面的较早时间步的序列决定的，因此它们都将信息通过隐藏状态从前往后传递。有时候，当前时间步也可能由后面时间步决定。例如，当我们写下一个句子时，可能会根据句子后面的词来修改句子前面的用词。双向循环神经网络通过增加从后往前传递信息的隐藏层来更
Python图像处理【21】基于卷积神经网络增强微光图像 AI technophile Python图像处理实战 python 图像处理 cnn
基于卷积神经网络增强微光图像0.前言1.MBLLEN网络架构2.增强微光图像小结系列链接0.前言在本节中，我们将学习如何基于预训练的深度学习模型执行微光/夜间图像增强。由于难以同时处理包括亮度、对比度、伪影和噪声在内的所有因素，因此微光图像增强一直是一项具有挑战性的问题。为了解决这一问题，提出了多分支微光增强网络(multi-branchlow-lightenhancementnetwork,MB
精读《深度学习 - 函数式之美》可口可乐Vip 前端深度学习人工智能
1引言函数式语言在深度学习领域应用很广泛，因为函数式与深度学习模型的契合度很高，TheBeautyofFunctionalLanguagesinDeepLearning — ClojureandHaskell就很好的诠释了这个道理。通过这篇文章可以加深我们对深度学习与函数式编程的理解。2概述与精读深度学习是机器学习中基于人工神经网络模型的一个分支，通过模拟多层神经元的自编码神经网络，将特征逐步抽象
Transformer、BERT和GPT 自然语言处理领域的重要模型 Jiang_Immortals 人工智能自然语言处理 transformer bert
Transformer、BERT和GPT都是自然语言处理领域的重要模型，它们之间有一些区别和联系。区别：架构：Transformer是一种基于自注意力机制的神经网络架构，用于编码输入序列和解码输出序列。BERT（BidirectionalEncoderRepresentationsfromTransformers）是基于Transformer架构的双向编码模型，用于学习上下文无关的词向量表示。GP
Js函数返回值 _wy_ js return
一、返回控制与函数结果，语法为：return 表达式;作用: 结束函数执行，返回调用函数，而且把表达式的值作为函数的结果二、返回控制语法为：return;作用: 结束函数执行，返回调用函数，而且把undefined作为函数的结果在大多数情况下,为事件处理函数返回false,可以防止默认的事件行为.例如,默认情况下点击一个<a>元素,页面会跳转到该元素href属性
MySQL 的 char 与 varchar bylijinnan mysql
今天发现，create table 时，MySQL 4.1有时会把 char 自动转换成 varchar 测试举例： CREATE TABLE `varcharLessThan4` ( `lastName` varchar(3) ) ; mysql> desc varcharLessThan4; +----------+---------+------+-
Quartz——TriggerListener和JobListener eksliang TriggerListener JobListener quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208624 一.概述 listener是一个监听器对象，用于监听scheduler中发生的事件，然后执行相应的操作；你可能已经猜到了，TriggerListeners接受与trigger相关的事件，JobListeners接受与jobs相关的事件。二.JobListener监听器 j
oracle层次查询 18289753290 oracle；层次查询；树查询
.oracle层次查询(connect by) oracle的emp表中包含了一列mgr指出谁是雇员的经理，由于经理也是雇员，所以经理的信息也存储在emp表中。这样emp表就是一个自引用表，表中的mgr列是一个自引用列，它指向emp表中的empno列，mgr表示一个员工的管理者， select empno,mgr,ename,sal from e
通过反射把map中的属性赋值到实体类bean对象中酷的飞上天空 javaee 泛型类型转换
使用过struts2后感觉最方便的就是这个框架能自动把表单的参数赋值到action里面的对象中但现在主要使用Spring框架的MVC，虽然也有@ModelAttribute可以使用但是明显感觉不方便。好吧，那就自己再造一个轮子吧。原理都知道，就是利用反射进行字段的赋值，下面贴代码主要类如下： import java.lang.reflect.Field; imp
SAP HANA数据存储：传统硬盘的瓶颈问题蓝儿唯美 HANA
SAPHANA平台有各种各样的应用场景，这也意味着客户的实施方法有许多种选择，关键是如何挑选最适合他们需求的实施方案。在《Implementing SAP HANA》这本书中，介绍了SAP平台在现实场景中的运作原理，并给出了实施建议和成功案例供参考。本系列文章节选自《Implementing SAP HANA》，介绍了行存储和列存储的各自特点，以及SAP HANA的数据存储方式如何提升空间压
Java Socket 多线程实现文件传输随便小屋 java socket
高级操作系统作业，让用Socket实现文件传输，有些代码也是在网上找的，写的不好，如果大家能用就用上。客户端类： package edu.logic.client; import java.io.BufferedInputStream; import java.io.Buffered
java初学者路径 aijuans java
学习Java有没有什么捷径?要想学好Java，首先要知道Java的大致分类。自从Sun推出Java以来，就力图使之无所不包，所以Java发展到现在，按应用来分主要分为三大块：J2SE,J2ME和J2EE,这也就是Sun ONE(Open Net Environment)体系。J2SE就是Java2的标准版，主要用于桌面应用软件的编程；J2ME主要应用于嵌入是系统开发，如手机和PDA的编程；J2EE
APP推广 aoyouzi APP 推广
一，免费篇 1，APP推荐类网站自主推荐最美应用、酷安网、DEMO8、木蚂蚁发现频道等,如果产品独特新颖，还能获取最美应用的评测推荐。PS：推荐简单。只要产品有趣好玩，用户会自主分享传播。例如足迹APP在最美应用推荐一次，几天用户暴增将服务器击垮。 2，各大应用商店首发合作老实盯着排期，多给应用市场官方负责人献殷勤。 3，论坛贴吧推广百度知道，百度贴吧，猫扑论坛，天涯社区，豆瓣（
JSP转发与重定向百合不是茶 jsp servlet Java Web jsp转发
在servlet和jsp中我们经常需要请求,这时就需要用到转发和重定向; 转发包括;forward和include 例子;forwrad转发; 将请求装法给reg.html页面关键代码; req.getRequestDispatcher("reg.html
web.xml之jsp-config bijian1013 java web.xml servlet jsp-config
1.作用：主要用于设定JSP页面的相关配置。 2.常见定义： <jsp-config> <taglib> <taglib-uri>URI(定义TLD文件的URI,JSP页面的tablib命令可以经由此URI获取到TLD文件)</tablib-uri> <taglib-location> TLD文件所在的位置
JSF2.2 ViewScoped Using CDI sunjing CDI JSF 2.2 ViewScoped
JSF 2.0 introduced annotation @ViewScoped; A bean annotated with this scope maintained its state as long as the user stays on the same view(reloads or navigation - no intervening views). One problem w
【分布式数据一致性二】Zookeeper数据读写一致性 bit1129 zookeeper
很多文档说Zookeeper是强一致性保证，事实不然。关于一致性模型请参考http://bit1129.iteye.com/blog/2155336 Zookeeper的数据同步协议 Zookeeper采用称为Quorum Based Protocol的数据同步协议。假如Zookeeper集群有N台Zookeeper服务器(N通常取奇数，3台能够满足数据可靠性同时
Java开发笔记白糖_ java开发
1、Map<key,value>的remove方法只能识别相同类型的key值 Map<Integer,String> map = new HashMap<Integer,String>(); map.put(1,"a"); map.put(2,"b"); map.put(3,"c"
图片黑色阴影 bozch 图片
.event{ padding:0; width:460px; min-width: 460px; border:0px solid #e4e4e4; height: 350px; min-heig
编程之美-饮料供货-动态规划 bylijinnan 动态规划
import java.util.Arrays; import java.util.Random; public class BeverageSupply { /** * 编程之美饮料供货 * 设Opt（V’，i）表示从i到n-1种饮料中，总容量为V’的方案中，满意度之和的最大值。 * 那么递归式就应该是：Opt（V’，i）=max{ k * Hi+Op
ajax大参数（大数据）提交性能分析 chenbowen00 Web Ajax 框架浏览器 prototype
近期在项目中发现如下一个问题项目中有个提交现场事件的功能，该功能主要是在web客户端保存现场数据（主要有截屏，终端日志等信息）然后提交到服务器上方便我们分析定位问题。客户在使用该功能的过程中反应点击提交后反应很慢，大概要等10到20秒的时间浏览器才能操作，期间页面不响应事件。根据客户描述分析了下的代码流程，很简单，主要通过OCX控件截屏，在将前端的日志等文件使用OCX控件打包，在将之转换为
[宇宙与天文]在太空采矿,在太空建造 comsci
我们在太空进行工业活动...但是不太可能把太空工业产品又运回到地面上进行加工,而一般是在哪里开采,就在哪里加工,太空的微重力环境,可能会使我们的工业产品的制造尺度非常巨大.... 地球上制造的最大工业机器是超级油轮和航空母舰,再大些就会遇到困难了,但是在空间船坞中,制造的最大工业机器,可能就没
ORACLE中CONSTRAINT的四对属性 daizj oracle CONSTRAINT
ORACLE中CONSTRAINT的四对属性 summary:在data migrate时,某些表的约束总是困扰着我们,让我们的migratet举步维艰,如何利用约束本身的属性来处理这些问题呢?本文详细介绍了约束的四对属性: Deferrable/not deferrable, Deferred/immediate, enalbe/disable, validate/novalidate,以及如
Gradle入门教程 dengkane gradle
一、寻找gradle的历程一开始的时候，我们只有一个工程，所有要用到的jar包都放到工程目录下面，时间长了，工程越来越大，使用到的jar包也越来越多，难以理解jar之间的依赖关系。再后来我们把旧的工程拆分到不同的工程里，靠ide来管理工程之间的依赖关系，各工程下的jar包依赖是杂乱的。一段时间后，我们发现用ide来管理项程很不方便，比如不方便脱离ide自动构建，于是我们写自己的ant脚本。再后
C语言简单循环示例 dcj3sjt126com c
# include <stdio.h> int main(void) { int i; int count = 0; int sum = 0; float avg; for (i=1; i<=100; i++) { if (i%2==0) { count++; sum += i; } } avg
presentModalViewController 的动画效果 dcj3sjt126com controller
系统自带(四种效果)： presentModalViewController模态的动画效果设置： [cpp] view plain copy UIViewController *detailViewController = [[UIViewController al
java 二分查找 shuizhaosi888 二分查找 java二分查找
需求：在排好顺序的一串数字中，找到数字T 一般解法：从左到右扫描数据，其运行花费线性时间O(N)。然而这个算法并没有用到该表已经排序的事实。 /** * * @param array * 顺序数组 * @param t * 要查找对象 * @return */ public stati
Spring Security（07）——缓存UserDetails 234390216 ehcache 缓存 Spring Security
Spring Security提供了一个实现了可以缓存UserDetails的UserDetailsService实现类，CachingUserDetailsService。该类的构造接收一个用于真正加载UserDetails的UserDetailsService实现类。当需要加载UserDetails时，其首先会从缓存中获取，如果缓存中没
Dozer 深层次复制 jayluns VO maven po
最近在做项目上遇到了一些小问题，因为架构在做设计的时候web前段展示用到了vo层，而在后台进行与数据库层操作的时候用到的是Po层。这样在业务层返回vo到控制层，每一次都需要从po-->转化到vo层，用到BeanUtils.copyProperties(source, target)只能复制简单的属性，因为实体类都配置了hibernate那些关联关系，所以它满足不了现在的需求，但后发现还有个很
CSS规范整理（摘自懒人图库） a409435341 html UI css 浏览器
刚没事闲着在网上瞎逛，找了一篇CSS规范整理，粗略看了一下后还蛮有一定的道理，并自问是否有这样的规范，这也是初入前端开发的人一个很好的规范吧。一、文件规范 1、文件均归档至约定的目录中。具体要求通过豆瓣的CSS规范进行讲解：所有的CSS分为两大类：通用类和业务类。通用的CSS文件，放在如下目录中：基本样式库 /css/core
C++动态链接库创建与使用你不认识的休道人 C++dll
一、创建动态链接库 1.新建工程test中选择”MFC [dll]”dll类型选择第二项"Regular DLL With MFC shared linked"，完成 2.在test.h中添加 extern “C” 返回类型 _declspec(dllexport)函数名(参数列表); 3.在test.cpp中最后写 extern “C” 返回类型 _decls
Android代码混淆之ProGuard rensanning ProGuard
Android应用的Java代码，通过反编译apk文件（dex2jar、apktool）很容易得到源代码，所以在release版本的apk中一定要混淆一下一些关键的Java源码。 ProGuard是一个开源的Java代码混淆器（obfuscation）。ADT r8开始它被默认集成到了Android SDK中。官网： http://proguard.sourceforge.net/
程序员在编程中遇到的奇葩弱智问题 tomcat_oracle jquery 编程 ide
　　现在收集一下：　　排名不分先后，按照发言顺序来的。 1、Jquery插件一个通用函数一直报错，尤其是很明显是存在的函数，很有可能就是你没有引入jquery。。。或者版本不对 2、调试半天没变化：不在同一个文件中调试。这个很可怕，我们很多时候会备份好几个项目，改完发现改错了。有个群友说的好：在汤匙
解决maven-dependency-plugin (goals "copy-dependencies","unpack") is not supported xp9802 dependency
解决办法：在plugins之前添加如下pluginManagement，二者前后顺序如下： [html] view plain copy <build> <pluginManagement