一只懒猪猪

第五章：深度生成模型

➢Part One.深度生成模型概述

➢Part Two.Hopfield神经网络

➢一、神经网络的分类

➢二、Hopfiled神经网络

➢1.Hopfield神经网络优点

➢2.Hopfield神经网络计算

➢3.基于Hebb学习的参数训练

➢Part Three.玻尔兹曼机和受限的波尔兹曼机

➢一、玻尔兹曼机

➢1.玻尔兹曼机概述

➢ 2.玻尔兹曼机中的模拟退火算法

➢ 3.玻尔兹曼机的训练过程

➢二、受限玻尔兹曼机

➢1.受限玻尔兹曼机概述

➢2.受限玻尔兹曼机中的对比散度算法

➢ Part Four.深度玻尔兹曼机和深度信念网络

➢ 一、深度波尔兹曼机

➢ 二、深度信念网络

➢ Part Five.自编码器及其变种

➢ 一、自编码器

➢ 1.自编码器的概述

➢ 2.自编码器的训练

➢ 二、降噪自编码器

➢ 1.降噪自编码器的概述

➢ 三、稀疏自编码器

➢ 1.稀疏自编码器的概述

➢ 2.稀疏自编码器的训练

➢ 四、栈式自编码器

➢ 1.栈式自编码器的概述

➢ 2.栈式自编码器的训练

➢ 3.栈式自编码器在训练中的应用

➢ Part Six.中英文术语对照

➢Part One.深度生成模型概述

深度生成模型从整体上来说，是以某种方式寻找某种数据的概率分布，深度生成模型可以基于有向图或者无向图的形式来生成深层次的概率分布

常见的深度生成模型的结构图如下：深度玻尔兹曼机和深度信念网络都是以受限的玻尔兹曼机为基本单元，区别就是深度信念网络的最高层的两层是无向图的连接，下面的两层是采用有向图的连接；深度自编码网络可以看做由深度信念网络来进一步构成，它可以被认为和栈式自编码器是一种东西，他们都是通过信念网络的结构和形式(自编码器和自解码器这样的两个信念网络的连接)连接

如果自编码器的输入是带有噪声的，那么自编码器会提取出这些输入的数据中比较稳定的特征(这部分生成的特征我们是不需要带有标签的)，并通过解码器重构出没有噪声的原始的信号，这个就可以看做是去躁的自编码器网络

下面这个是我们最常见的GAN网络，GAN网络是过去的十年中最有趣的发明，GAN引入了博弈论的思想，由生成网络和判别网络组成，生成网络不断的生成符合某种概率的数据，判别网络进行判别，直到判别网络判别不出生成网络中的是真实的数据还是生成的数据的时候，整个GAN就达到一种稳定的状态，生成网络是一个无监督的过程，不需要提供带有标签的训练数据，生成网络可以帮助我们生成很多特征

➢Part Two.Hopfield神经网络

➢一、神经网络的分类

多层神经网络：模式识别

相互连接型网络：通过联想记忆去除数据中的噪声

例如左图前馈型的多层神经网络，可以用于模式识别和回归等任务；例如中间的图，每个神经元节点与其他的神经元节点之间都是相互连接的，这样看不出来连接的层次，中间的图还可以展开成右图的形式，节点A既是其他节点的输入，也是当前节点的输出，其他节点也是相同的，这就是一种相互连接的神经网络

➢二、Hopfiled神经网络

Hopfield神经网络是最典型的相互连接型网络

➢1.Hopfield神经网络优点

单元之间的连接权重对称（ $w_{ij}$ = $w_{ji}$ ），因为采用的是无向图的连接方式

每个单元没有到自身的连接（ $w_{ii}=0$ ）

Hopfiled神经网络在 t 时刻的状态间接的和他 t-1 时刻的状态是有关的，因为不同单元都有连接

单元的状态采用随机异步更新方式，每次只有一个单元改变/更新状态

个二值单元做成的二值神经网络，每个单元的输出只能是0或1的两个值

Hopfiled的网络是把训练数据的信息存储到权重上，这个可以看做是联想记忆的形式，这个就跟人类大脑记忆信息的形式是一样的。例如我们看到香蕉就会想到黄色，看到苹果就会想到红色，这就是联想记忆的形式

联想记忆就是当输入模式为某种状态时，输出端要给出与之相应的输出模式。如果输入模式与输出模式一致，称为自联想记忆，否则称为异联想记忆

➢2.Hopfield神经网络计算

假设有个单元组成的Hopfield神经网络，第个单元在时刻的输入记作 $u_{i}(t)$ ，输出记作 $x_{i}(t)$ ，神经单元和之间的连接权重为 $w_{ij}$ ，阈值为 $b_{i}(t)$ ，则时刻单元的输出 $x_{i}(t+1)$ 可表示为:

如果输入 $u_{i}(t)> 0$ ，则表示其他神经元加权之后是超过这个阈值 $b_{i}(t)$ 的，则该神经元被激活，所以下一时刻的输出状态值为1；

如果输入 $u_{i}(t)< 0$ ，则表示其他神经元加权之后是没超过这个阈值 $b_{i}(t)$ 的，则该神经元没被激活，所以下一时刻的输出状态值为0；

如果输入 $u_{i}(t)=0$ ，则表示其他神经元加权之后是等于这个阈值 $b_{i}(t)$ 的，则该神经元状态不变，所以下一时刻的输出状态值 $x_{i}(t+1)=x_{i}(t)$ ；

注意我们阈值一般是用减号，而偏置才是加号

在Hopfield神经网络中，每个时刻都只有一个随机选择的单元会发生状态变化

对于一个由n个单元组成的网络，如果要完成全部单元的状态变化，至少需要n个时刻

单元的状态变化会一直进行下去，直到网络达到稳定状态。各单元的最终状态就是输出模式

那么怎么才算是网络达到稳定的状态呢？

这个我们就可以看做是应用Hopfiled神经网络或者说是进行测试的时候，比如，我们有一个测试样本，我们想看一下Hopfiled神经网络把它识别成什么了或者记住他是什么了没有，那这个时候和其他的网络一样，我们都需要先确定连接权重，因为连接权重确定了以后这个网络才是一个有意义的网络

根据输入模式联想输出模式时，需要事先确定连接权重，而连接权重要对输入模式的训练样本进行训练后才能确定

和多层神经网络一样，一次训练并不能确定连接权重，而是要不断重复这个过程，直到满足终止判断条件，而这个指标就是Hopfield神经网络的能量函数 ( 公式如下)，当输入模式与输出模式一致时，能量函数的结果是0

Hopfield神经网络的能量函数的特点

根据前面定义的状态变化规则( 即：Hopfield神经网络的计算 )改变网络状态时，上式中定义的能量函数总是非递增的，即随时间的不断增加而逐渐减小，直到网络达到稳定状态为止。为什么是非递增的呢？我们可以进行简单的推导。能量函数是所有神经元构成的能量函数，所以，我们可以把能量函数分解成两部分：单元的能量函数和以外的单元的能量函数

第一步：首先把最外层的最为index，根据把神经元分为神经元和以外的神经元的能量函数。把能量函数中的第一项： $- \frac{1}{2} \sum_{i=1}^{n} \sum_{j=1}^{n} w_{ij}x_{i}x_{j}$ 分解成两项和 $i\neq k$ ；第二项： $\sum_{i=1}^{n} b_{i}x_{i}$ 也分解成两项和 $i\neq k$

第二步：下一步我们把index 所处的神经元也是分成和 $j\neq k$ 两部分

第三步：去掉括号

第四步：我们根据Hopfiled网络发现，神经元是与自身没有连接的， $w_{kk}=0$ ，即： $w_{kk}x_{k}^{2}=0$

这些神经元每一次都是随机有一个神经元的状态更新，其他的神经元的状态都是保持不变的，我们要更新的神经元是第个神经元，那么这个时候能量的变化就是从时刻到时刻，只有这个神经元在发生变化，其他的是不变的。

$\sum_{j\neq k}^{n}w_{kj}x_{j}$ 和 $\sum_{i\neq k}^{n}w_{ik}x_{i}$ 其实表达的是一个意思， $\sum_{j\neq k}^{n}w_{kj}x_{j}$ 表示其他所有神经元到这个神经元上连接的一个关系， $\sum_{i\neq k}^{n}w_{ik}x_{i}$ 也表示其他所有神经元到这个神经元上连接的一个关系，也就是说把 $\sum_{i\neq k}^{n}w_{ik}x_{i}$ 中的 $i\neq k$ 中的下标换成即可，再利用单元之间的连接权重对称性，知道 $\sum_{j\neq k}^{n}w_{kj}x_{j}$ $= \sum_{i\neq k}^{n}w_{ik}x_{i}$ 。所以当第个神经元发生状态改变的时候，能量函数的变化就是 $-u_{k}$ 乘以这个第个神经元状态改变量。

下面我们对第个神经元状态的变化量进行分类讨论：

当∆ $x_{k}$ > 0时， $x_{k}$ 从  到  由0变成1，前提是保证 $u_{k}(t)> 0$ ，神经元被激活，此时 $\Delta E_{k}< 0$ ，也就是能量在减小

当∆ $x_{k}$ < 0时， $x_{k}$ 从到  由1变成0，前提是保证 $u_{k}(t)< 0$ ，神经元被抑制，此时 $\Delta E_{k}< 0$ ，也就是能量在减小

当∆ $x_{k}$ = 0时， $x_{k}$ 从  到状态不变

综上：是非递增的！

注意不同的教材上的区别

➢3.基于Hebb学习的参数训练

Hebb学习规则是Donald Hebb在1949年提出的一种学习规则，用来描述神经元的行为是如何影响神经元之间的连接的，通俗的说，就是如果相连接的两个神经元同时被激活，显然我们可以认为这两个神经元之间的关系应该比较近，因此将这两个神经元之间连接的权值增加，而一个被激活一个被抑制，显然两者间的权值应该减小。我们把权重写成这样的形式： $w_{ij}=x_{i}x_{j}$ 。此时网络如果要记忆P个模式，那么 $w_{ij}=\frac{1}{p}\sum_{s=1}^{p}x_{i}^{s}x_{j}^{s}$ ，是训练样本的index， $s_{1}$ 表示样本1， $s_{p}$ 表示样本，和相当于模式，例如我们的输入样本有好几个维度，比如说输入是 $5\times 5$ 的图像块 $x_{1}^{5}x_{2}^{5}$ ，这样就相当于有25个神经元，这样的话，我们的权重 $w_{ij}$ 就会记住要训练的模式，由于每次只更新一个神经元的状态，所以我们需要好多步才能使得这个网络达到稳定的状态，所以这里的权重 $w_{ij}$ 也是在不断的变化，以此达到稳定。

达到稳定就是训练好了，训练好了以后，权重 $w_{ij}$ 就会把的训练样本的模式记住，这个时候我们就可以进行测试。使用训练样本(a)进行训练，这个时候网络记住了我们训练样本(a)的模式，当我们使用测试样本(b)进行测试时，我们发现，网络能够正确的输出，虽然测试样本中的4和训练样本中的4差异较大，但是网络的拟合能力也是很不错的。这个过程实际上是对测试样本具有一定程度的识别和去躁。

当需要记忆的模式之间的较为相似，或者需要记忆的模式太多时，Hopfield神经网络就不能正确地辨别模式。这种相互干扰、不能准确记忆的情况称为串扰(crosstalk)

Hopfield神经网络能够记忆的模式数量有限，大约是网络单元数的15%左右，为了防止串扰，可以采用先把模式正交化再进行记忆等方法。正交化可以避免模式之间的相似性，例如神经网络有个单元的话，他应该可以包含 $2^{n}$ 种模式，也就是记住 $2^{n}$ 种模式，但是这么多的模式他记不住，只能够记住15%。但是正交化方法并不能完全解决问题，而接下来讲到的玻尔兹曼机可以解决这一问题。

➢Part Three.玻尔兹曼机和受限的波尔兹曼机

➢一、玻尔兹曼机

➢1.玻尔兹曼机概述

❑玻尔兹曼机也是相互连接型网络。玻尔兹曼机和Hopfield神经网络很相似，但是Hopfield神经网络如果发生串扰或陷入局部最优解的话，Hopfield神经网络就不能正确的辨别模式。而玻尔兹曼机则可以通过让每个单元按照一定的概率分布发生状态变化，来避免陷入局部最优解

❑玻尔兹曼机保持了Hopfield神经网络的假设：权重对称；自身无连接；二值输出

❑玻尔兹曼机的输出是按照某种概率分布决定的

(>0)表示温度系数，当趋近于无穷时，无论 $u_{i}$ 取值如何，下一时刻的状态 $x_{i}$ 等于1 或 0 的概率都是1/2，这种状态称为稳定状态。k是玻尔兹曼常数，是一个能量变化的函数，和 $x_{i}$ 没有关系。

下面是概率曲线随着温度的变化情况：当T越来越大的时候，基本上趋于均匀分布，概率为 $\frac{1}{2}$ ；当T越来越小的时候，曲线在0附近变得越来越陡。

➢ 2.玻尔兹曼机中的模拟退火算法

玻尔兹曼机选择模拟退火算法进行求解，可以先采用较大的温度系数及进行粗调，然后逐渐减小温度系数进行微调。温度系数越大，跳出局部最优解的概率越高，因为他的概率就在 $\frac{1}{2}$ 附近，相当于输出是1或者输出是0的随机性比较大，所以跳出局部最优解的概率就会大一些。但是温度系数增大时，获得能量函数极小值的概率就会降低；反之，温度系数减小时，虽然获得能量函数极小值的概率增加了，但是玻尔兹曼机需要经历较长时间才能达到稳定状态。（疑问：能量函数极小值的概率增加怎么就增加了？？？？？）

模拟退火是一种贪心算法，但是它的搜索过程引入了随机因素,以一定的概率来接受一个比当前解要差的解，因此有可能会跳出这个局部的最优解，达到全局的最优解, 而且这个概率随着时间推移逐渐降低(逐渐降低才能趋向稳定)

例如我们要求一条曲线的最大值。求最小值的时候，我们是沿着梯度的负方向进行求解，求最大值的时候我们就是沿着梯度的正方向找这个最大值，也就是爬山算法。首先我们达到了C这个点，然后我们到达了A这个局部最优解，这个时候，他就跳不出这个局部最优解(因为A附近周围的任何一个值，都没有A大)，他觉得在这就是稳定了，此时我们希望A能够以一定的概率接受一个当前情况下，比A自身次的点，使得其能够跳出这样的局部最优解A。比如我们当前找的是D，我们就有可能跳出这个局部最优解，因为我们在D附近再找的时候，就会慢慢的接近B这个点，所以说模拟退火算法不一定百分之百能够保证你得到一个全局最优解，他是说具有一定的概率跳出这个局部最优解从而找到一个更好的解，降低陷入局部最优解得可能性。

➢ 3.玻尔兹曼机的训练过程

玻尔兹曼机的训练过程

– 1. 训练准备：初始化连接权重 $w_{ij}$ 和偏置 $b_{i}$ (输入输出的连接关系就是 $\sum_{j=1} w_{ij}x_{j}+b_{i}$ )

– 2. 调整参数

– 2.1 选取一个单元 ,求输入 $u_{i}$ (和Hopfield类似，玻尔兹曼机也是每次随机选择一个单元进行更新，其他的单元不变)

– 2.2 根据 $u_{i}$ 的值，计算输出 $x_{i}$ (和Hopfield不类似，玻尔兹曼机引入了概率，按照某种概率分布来决定它输出是0还是1)

– 2.3 根据输出 $x_{i}$ 和 $x_{j}$ 的值，调整连接权重 $w_{ij}$ 和偏置 $b_{i}$

– 重复步骤 2 ，直到满足终止判断条件

具体而言，当初始化连接权重后，选取一个单元

– 2.1计算单元激活值 $u_{i}$ （这一步和Hopfiled一样）

– 2.2计算 $x_{i}$ 等于 1 或 0 的概率，这个概率还要和随机数进行比较

根据概率 $x_{i}$ 等于1或0的概率，调整 $x_{i}$ 的取值。一般是随机产生一个(0,1)之间的随机数λ，如果p>λ, 确认状态改变，否则不改变。不能将计算所得概率直接作为 $x_{i}$ 的值，而是作为概率来决定 $x_{i}$ 的值

– 2.3调整连接权重 $w_{ij}$ 和偏置 $b_{i}$ , 这里用似然函数(θ)导出调整值，θ 表示所有的连接权重和偏置

$s_{k}$ 代表训练样本，给定参数θ 的情况下，以最大概率出现这个训练样本的情况，就是让(θ )最大。有很多训练样本，所有的样本都要以最大概率出现自身训练样本的情况，所以这些所有训练样本的出现的概率要相乘。训练样本就是我们网络要记住的这个模式

其中，概率分布的定义如下，训练样本S={ $s_{1}$ , $s_{2}$ ,…, $s_{k}$ ,…, $s_{K}$ } ，表示能量函数，(θ)是归一化常数，是对所有的样本的能量函数的求和。能量越小，出现的概率就会越大一些,如果能量是0的话，概率就是 $\frac{1}{Z(\theta )}$

前面连乘的形式不太方便计算，所以我们在似然函数求解的时候把连乘的形式变成求和的形式，求和的形式就是取对数。所以通常，使用对数似然函数求解

当对数似然函数的梯度为0时，就可以得到最大似然估计量，即通过求连接权重 $w_{ij}$ 和偏置 $b_{i}$ 的相关梯度，可以求出调整值。也就是说，求极值点，极值点是梯度等于0的时候（极大值极小值都是），如果求极大值的话，修正的方向是沿着梯度的正方向；求极小值的时候我们就是沿着梯度的负方向，所以我们是可以进行求导调整权重 $w_{ij}$ 和偏置 $b_{i}$ 的

求解困难：似然函数是基于所有单元组合来计算的，所以单元数过多将导致组合数异常庞大，无法进行实时计算。为了解决这个问题，人们提出了一种近似算法，对比散度算法（稍后介绍）

➢二、受限玻尔兹曼机

➢1.受限玻尔兹曼机概述

前面介绍的玻尔兹曼机默认了所有单元都为可见单元，各单元之间是等同地位的，在实际应用上，玻尔兹曼机还可以由可见单元和隐藏单元共同构成，例如下图中h是隐藏单元，v是可见单元。隐藏单元与输入数据没有直接联系，但输入数据会影响可见单元的概率。假设可见单元为可见变量，隐藏单元为隐藏变量 ℎ 。玻尔兹曼机含有隐藏变量时，概率分布仍然与前面计算的结果相同。对玻尔兹曼机的训练困难没有起到任何的作用。

含有隐藏变量的波尔兹曼机训练非常困难，为了让训练变得可行，有人提出了受限玻尔兹曼机

– 由可见层和隐藏层构成，可见层只有可见单元，隐藏层只有隐藏单元

– 层内单元之间无连接，层层之间有连接

– 信息可双向流动，权重对称，自身没有到自己的权重

前面我们定义的玻尔兹曼机的能量函数是：神经元的偏置 $\times$ 该神经元，而我们定义受限玻尔兹曼机的能量函数为:

利用能量函数，可以给出状态(v,h)的联合概率分布，这个和前面的玻尔兹曼机就非常相似了，这里面他是一个联合概率分布，因为它分为隐藏层和可见层，而玻尔兹曼机呢仅表示为神经元，没有区分什么隐藏层和可见层，表示为 $p(u_{i}|\theta )$ 。 $Z_{}\theta$ 是一个归一化向量，这个归一化向量是所有神经元的能量函数的求和

观测数据 $S=\left \{ v^{1}, v^{2}, ...,v^{n_{s}} \right \}$ 的概率分布, 也就是可见层状态变量的概率分布。有 $n_{s}$ 个观测数据， $v^{1}$ 是一个观测数据的样本，其中例如 $v^{1}$ 是 $v^1=\left \{ v_{1}^1,v_{2}^1,v_{3}^1,... \right \}$ 对应的是可见层的神经元。我们在实际中，更关心的是，参数 $\theta$ 取什么值的时候，训练样本的概率最大，所以后面我们会更多的用到 $p(\overrightarrow{v}|\theta )$ 。

类似地，有关于隐藏层状态变量的概率分布

在我们后面推导受限玻尔兹曼机参数更新的时候，我们会用到下面这两个概率分布：

给定可见层上所有神经元的状态时，隐藏层上的第个神经元被激活(即取值为1)的概率

给定隐藏层上所有神经元的状态时，可见层上的第个神经元被激活(即取值为1)的概率

我们把隐藏层神经元的状态分成两部分：第一部分是包含第个神经元；第二部分是不包含第个神经元。不包含第个神经元的其他的所有神经元记为向量的形式 $\overrightarrow{h}_{-k}$ ，这样划分以后，相应的能量也是可以被划分为两部分：第一部分是第个神经元所包含的能量；第二部分是不包含第个神经元的其他的所有神经元所拥有的能量。

能量函数可以表达为：

以推导 $p(h_{k}=1|\overrightarrow{v})$ 为例，紫色圈加入等号仍然相等的原因是受限的玻尔兹曼机规定了同一层内是没有连接的，所以他们是不相关的，所以不加上第个神经元也是没有关系的；下一步的绿色部分是去掉第个隐藏层神经元单元和可见层所有的神经元单元的联合概率分布；绿色部分的概率可以进一步拆分成两部分（相当于全概率公式的拆分）：红色部分和青色部分，在第个神经元上做累加，第个神经元的取值有两种情况0和1，

给定训练样本 $S=\left \{ v^{1}, v^{2}, ...,v^{n_{s}} \right \}$ ，调整参数 θ 训练RBM， $\overrightarrow{v_i}=(v_{1}^i , v_{2}^i ,...,v_{n_{v}}^i)^T$ ， $n_{v}$ 个可见层的神经元单元， $i=1,2,...,n_{s}$ ，这些训练样本是独立同分布的，训练RBM是最大化似然函数

和玻尔兹曼机一样，计算时通常使用对数似然函数：

最大化时就沿着梯度的正方向更新：我们会更新三个参数：w,a,b

梯度求解：由于是求和形式，所以仅以一个样本为例

以上的推导很繁琐复杂，所以改良后的受限玻尔兹曼机依然在计算上存在着问题： $\sum$ ()是所有输入模式的总和，不可避免会产生庞大的算量，要想解决这个问题，可以使用常规蒙特卡罗MCMC采样估计，但算法进行迭代计算求近似解，但即使这样处理，迭代次数也仍然非常多。于是，人们提出了对比散度算法，前面玻尔兹曼机里面，我们也提到了这个算法，我们现在正式介绍。

➢2.受限玻尔兹曼机中的对比散度算法

2002年Hinton提出, MCMC的状态以训练样本为起点，这样只需很少的状态转移就可以得到RBM的分布

对比散度算法的训练过程(和玻尔兹曼机的训练过程是一样的)

– 1. 训练准备：初始化连接权重和偏置

– 2. 调整参数

• 2.1 在可见层 $v^{(0)}$ 设置输入模式（训练样本输入的时候设置训练样本的初值）

• 2.2 调整隐藏层中单元 $h^{(0)}$ 的值（根据 $h^{(0)}$ 的值，再进一步得到可见层的状态的值）

• 2.3根据输出 $x_{i}$ 和 $x_{j}$ 的值，调整连接权重 $w_{ij}$ 、偏置 $a_{i}$ 、偏置 $b_{j}$

– 重复步骤 2 ，直到满足终止判断条件

具体来看：

初始化连接权重和偏置：随机数初始化

调整参数：在可见层设初值 $v^{(0)}$ （根据训练样本设置），根据参数初始值计算隐藏层为状态1的概率：

根据这个概率计算符合二项分布的隐藏层中单元 $h^{(0)} _{j}$ 的状态,其中 $\sigma$ 表示sigmoid函数

图解神经网络教材中例子：我现在有训练样本｛1，0，1，1｝，我们可以把它作为可见层的初值，然后给 $w_{ij}$ 一个随机初始化的值，那么我就可以得到隐藏层神经单元状态的值，也就是可以根据上面的这个公式得到隐藏层神经元状态的概率，根据前面讲的玻尔兹曼机的知识，我们知道这个概率值并不是隐藏层神经元状态的值，而是需要和一个随机的值Random进行比较，大于这个概率值的时候，就把这个神经元的状态置为1，反之置为0。

进一步，根据隐藏层的状态，计算在可见层各单元状态为1的概率。因为我们得到 $h^{(0)}$ 之后，我们还可以计算可见层的状态，更新一下可见层的状态。

根据这个概率计算各可见单元 $v^{(1)}_{i}$ 的状态，下图中绿色的圆圈表示可见层神经元的概率，由概率我们在根据一个随机数Random进行比较，从而得到可见层神经元状态｛1，1，....，0，....，1｝这样我就得到这次迭代过程中，可见层神经元更新的状态

再次根据可见层神经元的值 $\overrightarrow{v}^{1}$ 计算隐层单元 $h^{(1)}_{j}$ 状态为1的概率，计算完之后，在更新参数即可

以此，由隐藏层神经元的状态在计算出可见层神经元状态 $\overrightarrow{v}^{2}$ ，不断迭代下去进行参数更新，当然上述过程还可以继续进行k次(k步的Gibbs采样)，称为k步对比散度法，记做CD-k

连接权重 $w_{ij}$ 、偏置 $a_{i}$ 、偏置 $b_{j}$ 的调整值分别为下图中所示。粉色表示经过一步迭代后，神经元新的状态的概率，紫色表示根据样本可以计算的得到。这样就相当于对每一个训练样本计算更新的状态，就不用在所有的样本上计算概率和。

原来的方法的复杂度高在于：需要对所有的样本求概率（蓝色部分），而且每次我们需要在所有的样本上求和。现在只需要计算神经元状态的概率，不需要计算在对所有训练样本计算概率再求和。

玻尔兹曼机中调整参数时也可以Mini-Batch为单位进行计算时效果更佳

– Stochastic GD (SGD)

• 每次一个样本，更新参数（这样会导致参数有偏，因为单独的样本具有个体性）

– Batch GD

• 每次迭代的梯度方向计算由所有训练样本共同决定（最准，但是复杂度很高，效率很低）

– Mini-batch GD（折中的方案，更常用）

• 每个mini-batch(训练集的一个子集)更新参数，Batch size（一个Batch里面有多少个训练样本）

– Epoch, iteration

Epoch：当一个完整的数据集通过了神经网络称为一个epoch

Iteration：处理一个Batch称为一次迭代（一个epoch里面有多少次迭代，就有多少个Batch）

➢ Part Four.深度玻尔兹曼机和深度信念网络

深度玻尔兹曼机（左：DBM）和深度信念网络（右：DBN）的结构很相似。他们都是由受限玻尔兹曼机堆叠构成。

➢ 一、深度波尔兹曼机

以深度波尔兹曼机为主介绍：

深度玻尔兹曼机采用与多层神经网络不同的训练方法，在训练时采用对比散度算法，逐层来调整连接权重和偏置

具体做法：

– 首先训练输入层和隐藏层之间的参数，把训练后得到的参数作为下一层的输入

– 再调整该层与下一个隐藏层之间的参数

– 然后逐次迭代，完成多层网络的训练

深度玻尔兹曼机既可以当作生成模型，也可以当作判别模型：

– 作为生成模型使用时：

网络会按照某种概率分布生成训练数据。例如前面我们有很多带躁的样本，它会根据自己的记忆，生成出新的不带躁的样本。概率分布可根据训练样本导出，但是覆盖全部数据模式的概率分布很难导出，所以通常选择最大似然估计法训练参数，得到最能覆盖训练样本的概率分布

这种生成模型能够：去除输入数据中含有的噪声，得到新的数据，对输入数据压缩和特征表达，因为通过这样的训练找到了训练数据中稳定的部分

– 作为判别模型使用时：

需要在模型顶层添加一层Softmax实现分类。进行分类时，需要同时提供训练样本和期望输出，在最顶层级联一个层

❑ 训练方法

– 除最顶层外，其他各层都可以使用无监督学习进行训练

– 把训练得到的参数作为初始值，使用误差反向传播算法对包含最顶层的神经网络进行训练

– 最顶层的参数使用随机数进行初始化

➢ 二、深度信念网络

深度信念网络和深度玻尔兹曼机很相似。

深度信念网络的结构：

深度信念网络的训练过程：（和玻尔兹曼机的训练过程相似）

➢ Part Five.自编码器及其变种

➢ 一、自编码器

➢ 1.自编码器的概述

自编码器现在还是应用非常广泛的。

自编码器(Autoencoder)：是一种有效的数据维度压缩降维算法，主要应用在以下两个方面：

– 构建一种能够重构输入样本并进行特征表达的神经网络。特征表达：是指对于分类会发生变动的不稳定模式，例如手写字体识别中由于不同人的书写习惯和风格的不同造成字符模式不稳定，或者输入样本中包含噪声等情况，神经网络也能将其转换成可以准确识别的特征，也就是在不同中找出共性。

– 训练多层神经网络时，通过自编码器训练样本得到参数初始值

自编码器的基本形式如下图所示：和RBM类似，由输入层和输出层组成。输入数据向量与对应的连接权重矩阵相乘，再加上偏置向量，并经过激活函数(∙)变换后，就可以得到输出。自编码器是前馈的神经网络，它是由输入到输出的方向。这里面的偏置也是向量的形式，因为每一个神经元都有一个偏置。这里的输出的方法和玻尔兹曼机有所不同。玻尔兹曼机的输出先是一个概率值，这个概率值还要和一个随机数Random比较，最后才能确定这个输出的值是0还是1。自编码器的训练过程就是使用BP算法，不需要使用对比散度算法。

➢ 2.自编码器的训练

自编码器是一种基于无监督学习的神经网络，目的在于通过不断调整参数，重构经过维度压缩的输入样本。一种能够重构输入样本的三层神经网络如下图。让输入输出尽可能的接近，中间层尽可能的小。这里，(∙)表示编码器的激活函数, $\widetilde{f}(\cdot )$ 表示解码器的激活函数。中间层和重构层之间的连接权重及偏置分别记为 $\widetilde{W}$ 和 $\widetilde{b}$ ,重构值记作 $\widetilde{x}$ 。

自编码器的训练就是确定编码器和解码器的参数W, $\widetilde{W}$ , , $\widetilde{b}$ 的过程。其中和 $\widetilde{W}$ 可以相同，这称为权值(参数)共享。好处是参数减少了，训练的时候简单一些，但是训练以后得到的性能不一定是最好的。训练的目的是尽可能重构其原始输入。重构和输入的误差尽可能小。参数的训练使用误差反向传播算法，误差函数可以使用最小二乘误差函数或交叉熵代价函数

比较有代表性的自编码器：当样本中包含噪声时，如果神经网络能够消除噪声，则被称为降噪自编码器。还有一种称为稀疏自编码器的网络，它在自编码器中引入了正则化项，约束神经元的激活程度，以去除冗余信息。

➢ 二、降噪自编码器

➢ 1.降噪自编码器的概述

降噪自编码器的网络结构和自编码器一样，只是对训练方法进行了改进。自编码器是把训练样本直接输入给输入层，而降噪自编码器则是把通过向训练样本中加入随机噪声得到的带躁的样本 $\widetilde{x}$ 输入给输入层。 $\widetilde{x}=x+\epsilon$

因为我们的输入是带躁的，而我们期望的输出是不带躁的，所以假设随机噪声服从均值为0，方差为 $\sigma^{2｝$ 的正态分布，我们需要训练神经网络，使得输出的重构结果和不含噪声的样本之间的误差收敛于极小值。（这一点和前面的自编码器不同，自编码器是让输入和输出尽可能的逼近）误差函数会对不含噪声的输入样本进行计算，故降噪自编码器可以完成以下两项训练：

保持输入样本不变的条件下，能够更好地反映样本属性的特征

消除输入样本中包含的噪声

➢ 三、稀疏自编码器

➢ 1.稀疏自编码器的概述

在多层自编码器中，由于我们要做压缩，中间层的单元数太少会导致维度压缩的太厉害，使得神经网络很难重构输入样本，而单元数太多，会感觉没有怎么压缩，使得又会产生单元冗余，降低压缩效率。那我们怎么选择设置多少个神经元比较合适呢？

为了解决这个问题，人们将稀疏正则化引入到自编码器中，提出了稀疏自编码器：通过增加正则化项，大部分单元的输出都变成了0，只有少数单元是被激活的，这样就能利用少数单元完成压缩或重构。也就是我们不用去设置具体应该有多少个神经元数目，但是我们要约束神经元的激活程度。

加入正则化后的误差函数如下所示：有N个训练样本，每一个训练样本在激活后都会产生一个激活值。

➢ 2.稀疏自编码器的训练

KL距离反映了平均激活度和目标值的差异。我们一般设置的比较小，例如0.05，这就意味着平均激活度是5%。值越接近于0，中间层的平均激活度 $\hat \rho_{j}$ 就越小。也就是说，虽然你中间可以设置很多个神经元，但实际平均激活度很小的话，那么实际上中间很多的神经元都是0。这样就避免了多个神经元导致压缩效率降低的问题。稀疏自编码器的训练也需要用到误差反向传播算法，对误差函数求导时须考虑 $KL(\rho ||\hat \rho_{j} )$ 的导数

平均激活度是根据所有样本计算出来的，所以在计算任何单元的反向传播之前，需要对所有样本计算一遍正向传播，从而获取平均激活度（也就是我们在每次训练的时候，要把所有的样本都计算一遍，得到误差，然后再反向传播，这样相当于Batch，计算复杂度高），所以使用小批量梯度下降法进行训练时的效率很低。为了解决此问题，可以只计算Mini-Batch中包含的样本的平均激活度，然后在Mini-Batch之间计算加权平均并求近似值。

假设时刻(−1)的Mini-Batch的平均激活度为 $\hat \rho ^{(t-1)}_{j}$ ,当前t时刻Mini-Batch的平均激活度如下。这里的是权重，越大，则时刻( − 1)的Mini-Batch所占的比重也越高。

➢ 四、栈式自编码器

➢ 1.栈式自编码器的概述

自编码器、降噪自编码器、稀疏自编码器都是包括编码器和解码器的三层结构，中间只有一个隐藏层。但是在进行维度压缩时，可以只包括输入层和中间层。这样的网络比较浅，参数有限，所以网络的表达能力并不是很高的。这个时候我们可以借鉴前面的深度玻尔兹曼机或者深度信念网络等，输入层和中间层多层堆叠后，然后就可以得到栈式(深度)自编码器。

➢ 2.栈式自编码器的训练

栈式自编码器和深度信念网络一样，都是逐层训练。但两种网络的训练方法不同，深度信念网络是一种概率型的网络。它是利用对比散度算法逐层训练两层之间参数。而栈式自编码器的训练过程采用的是误差的后向传递的方式，训练如下：

首先训练第一个自编码器（有输入层和中间层），然后保留第一个自编码器的编码器部分

把第一个自编码器的中间层作为第二个自编码器的输入层进行训练

反复地把前一个自编码器的中间层作为后一个编码器的输入层，进行迭代训练

这个流程上和深度玻尔兹曼机很相似的，仅是训练方法不一样而已。

➢ 3.栈式自编码器在训练中的应用

栈式自编码器每层都能得到有效的参数，所以我们可以把训练后的参数作为神经网络或卷积神经网络的参数初始值,这种方法叫作预训练。预训练属于无监督学习，接下来需要使用有监督学习来调整整个网络的参数，这也叫作微调( fine tuning )

➢ Part Six.中英文术语对照

❑ 串扰：Crosstalk

❑ 能量函数： Energy function

❑ 模拟退火算法：Simulated Anneal

❑ 对数似然函数： Log-likelihood function

❑ 小批量：Mini-batch

❑ 可见变量：Visible variables

❑ 隐藏变量：Hidden variables

❑ 玻尔兹曼机：Boltzmann Machine

❑ 受限玻尔兹曼机： Restricted Boltzmann Machine

❑ 深度信念网络：Deep Belief Network

❑ 对比散度算法：Contrastive Divergence

❑ 稀疏自编码器：Sparse Autoencoder

❑ 栈式自编码器：Stacked Autoencoder

❑ 降噪自编码器：Denoising Autoencoder

你可能感兴趣的:(深度学习)

简述Caffe、TensorFlow、TensorFlow Lite、ONNX、DarkNet、PyTorch 等模型科学的发展-只不过是读大自然写的代码断纱检测 caffe tensorflow pytorch
以下是对Caffe、TensorFlow、TensorFlowLite、ONNX、DarkNet和PyTorch等模型的简述：Caffe：Caffe（ConvolutionArchitectureForFeatureExtraction）是一个用于特征抽取的卷积框架，它是一个清晰、可读性高且快速的深度学习框架。Caffe由加州伯克利大学的贾扬清开发，起初是一个用于深度卷积网络的Python框架（无
超实用的Python深度学习教程 - 基于TensorFlow和Keras框架（含实例及完整代码） AI_DL_CODE 人工智能 python 深度学习 tensorflow
一、深度学习概述（一）深度学习的定义与发展历程深度学习在当今的科技领域占据着极为重要的地位。它是人工智能的一个重要分支，其定义为通过构建具有很多层的神经网络模型，让计算机自动从大量数据中学习复杂模式的一种技术。深度学习的发展历程可谓波澜壮阔，早期它源于对人工神经网络的研究，从简单的感知机模型开始。在发展初期，由于计算资源的限制以及数据量的不足等因素，发展较为缓慢。然而，随着计算机技术的飞速发展，尤
2025年美赛数学建模2025 MCM Problem A: Testing Time: The Constant Wear On Stairs A题测试时间：楼梯上的持续磨损代码解析 2025年数学建模美赛 2025年美赛MCM/ICM 数学建模 2025年数学建模美赛 2025数学建模美赛 A题 2025 楼梯上的持续磨损 matlab代码
目录Python1.数据预处理与特征工程数据标准化与特征构建2.行进方向偏好分析深度神经网络（DNN）用于方向性分析3.多人同时使用分析卷积神经网络（CNN）用于磨损模式识别4.时间序列分析LSTM模型用于时间序列预测matlab代码Python我们将采用更多的机器学习和深度学习技术，例如图像处理、深度神经网络（DNN）、卷积神经网络（CNN）等，并结合不同的算法进行更深入的分析。1.数据预处理与
Llama大型语言模型原理详解摆烂大大王 llama llama 语言模型人工智能
Llama大型语言模型是一种基于深度学习的自然语言处理模型，它在文本生成、问答、摘要等多种NLP任务中展现出强大的性能。本文将详细解析Llama模型的原理，包括其结构、训练过程以及工作机制，帮助读者深入理解这一先进的模型。一、模型结构Llama模型采用了一种基于Transformer的架构，这是一种由多个自注意力机制和前馈神经网络组成的深度神经网络结构。Transformer架构通过自注意力机制捕
利用ChatGPT阅读文献：指南与技巧摆烂大大王 chatgpt MathorCup数学建模 chatgpt 论文阅读人工智能学习
阅读文献对于学术研究和深度学习至关重要。ChatGPT作为一款高级人工智能聊天机器人，可以帮助用户更高效地阅读和理解文献。以下是如何利用ChatGPT阅读文献的一些指南和技巧。1.文献检索在你阅读文献之前，首先需要找到相关文献。可以使用如下命令让ChatGPT帮助你进行文献检索：/findpapers关键词或主题例如，如果你需要寻找关于人工智能在医疗领域应用的文献，可以输入：/findpapers
目标检测入门教程：使用Python实现目标检测算法晨曦之光，优美芝麻目标检测 python 算法机器学习-深度学习
目标检测是计算机视觉领域中的重要任务，它旨在识别和定位图像或视频中的特定对象。本教程将介绍如何使用Python编程语言实现目标检测算法。我们将使用一种广泛应用的目标检测算法——基于深度学习的单阶段检测器YOLO（YouOnlyLookOnce）的最新版本YOLOv4作为示例。在开始之前，请确保您已经安装了Python和以下必要的库：NumPy、OpenCV和PyTorch。您可以使用pip命令来安
【Java】已解决：`java.lang.NoClassDefFoundError` 屿小夏 java 开发语言
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
【Java】已解决java.lang.NoSuchMethodException异常屿小夏 java python 开发语言
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
五类推理（逻辑推理、概率推理、图推理、基于深度学习的推理）的开源库（一）由数入道深度学习开源人工智能
在开发中，有一些开源库可以实现不同类型的推理，包括逻辑推理、概率推理、图推理、基于深度学习的推理等。以下是五类推理（逻辑推理、概率推理、图推理、基于深度学习的推理）的现成开源库，它们各自的功能、特点和适用场景的详细介绍，并进行对比分析。1.逻辑推理推理：PyDatalog库介绍：PyDatalog是一个Python的逻辑编程库，它将逻辑编程的功能引入到Python中，提供了在Python中进行规则
杨立昆退休？中国Deepseek超Llama 4触发Meta 极道Jdon javascript reactjs
[昨天，人工智能领域发生了一些事情：杨立昆领导的Meta生成式人工智能部门（Metagenaiorg）陷入了恐慌模式。杨立昆是Meta（原Facebook）的首席人工智能科学家，同时也是纽约大学的教授。杨立昆因其在深度学习领域的开创性工作而获得了图灵奖（TuringAward），这是计算机科学领域的最高荣誉之一。恐慌模式始于DeepseekV3，它在性能测试中已经超过了Llama4。更让人尴尬的是
书生浦语第五期晴斋1216 语言模型
基础作业完成以下任务，并将实现过程记录截图：配置lmdeploy运行环境下载internlm-chat-1.8b模型以命令行方式与模型对话视频链接文档链接基础知识学习模型部署在软件工程中，部署通常指的是将开发完毕的软件投入使用的过程。在人工智能领域，模型部署是实现深度学习算法落地应用的关键步骤。简单来说，模型部署就是将训练好的深度学习模型在特定环境中运行的过程。目前大模型部署面临的挑战计算量巨大内
斯坦福吴恩达-深度学习和机器学习全套视频+课件！ Alexquyun 人工智能机器学习深度学习 python
这些课程专为已有一定基础（基本的编程知识，熟悉Python、对机器学习有基本了解），想要尝试进入人工智能领域的计算机专业人士准备。介绍显示：“深度学习是科技业最热门的技能之一，本课程将帮你掌握深度学习。”学生将可以学习到深度学习的基础，学会构建神经网络，并用在包括吴恩达本人在内的多位业界顶尖专家指导下创建自己的机器学习项目。DeepLearningSpecialization对卷积神经网络(CNN
校招154W！DeepSeek待遇和核心成员曝光！ AI生成曾小健人工智能
校招154W！DeepSeek待遇和核心成员曝光！DeepSeek的薪酬模式极为慷慨，提供员工一年14薪的福利。其高薪职位如深度学习研究员，年薪最高可达税前154万元。同时，该公司也注重给予其他职位合理薪酬，如客户端研发工程师年薪30万，实习生日薪500元，并提供转正机会及房补。更有平台显示，DeepAGI大模型实习生日薪高达500-1000元。尽管这些待遇与硅谷相比仍有差距，但已相当优厚。Dee
深度学习过程是什么小松要进步李哥深度学习深度学习
问：深度学习是：一组原始数据，经过线性变换、非线性变换、偏差加和等操作后得到一组预测数据，再根据损失函数计算预测数据和原始数据的差值，用差值数据对权重和偏差求偏导，这里的偏导数的值也就是使得损失减小的最佳方向，然后根据偏导数的方向和步长更新权重和偏差，对吗答：您的描述大致正确，但有一些细节需要澄清和修正，以更准确地反映深度学习中模型训练的过程。以下是详细的解释：1.原始数据处理：一组原始数据首先通
TensorBoard可视化工具支持哪些类型的图表？ alankuo 人工智能
TensorBoard支持多种类型的图表，以下是详细介绍：标量图（Scalars）定义与用途：用于展示单个数值随时间（通常是训练步骤或迭代次数）的变化情况。在深度学习模型训练中，最常见的是损失函数值和评估指标（如准确率、精确率、召回率等）的变化曲线。示例：例如，在训练一个图像分类模型时，记录训练集和测试集上的损失函数值。通过标量图，可以直观地看到随着训练轮次（epochs）的增加，损失函数值是如何
学习python你必须弄懂的 Python、Pycharm、Anaconda 三者之间的关系经纬数智 python python pycharm 开发语言 conda
Python作为深度学习和人工智能学习的热门语言，学习一门语言，除了学会其简单的语法之外还需要对其进行运行和实现，才能实现和发挥其功能和作用。下面来介绍运行Python代码常用到的工具总结。一.Python、Pycharm、Anaconda关系介绍1.PythonPython是一种跨平台的计算机程序语言。是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。最初被设计用于编写自动化脚本(
CUDA编程（一）：GPU计算与CUDA编程简介 AI Player CUDA 人工智能 CUDA NVIDIA
CUDA编程（一）：GPU计算与CUDA编程简介GPU计算GPU硬件资源GPU软件资源GPU存储资源CUDA编程GPU计算NVIDIA公司发布的CUDA是建立在GPU上的一个通用并行计算平台和编程模型，CUDA编程可以利用GPU的并行计算引擎来更加高效地解决比较复杂的计算难题。GPU的并行计算最成功的一个应用就是深度学习领域。GPU通常不作为一个独立运行的计算平台，而需要与CPU协同工作，它可以看
AI 大模型创业：如何利用商业优势？ AI天才研究院大数据AI人工智能 ChatGPT java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
第1章：AI大模型概述1.1AI大模型的概念与演进AI大模型（Large-scaleArtificialIntelligenceModels）是指通过大规模数据训练得到的复杂神经网络模型。这些模型通常具有数十亿甚至千亿个参数，能够实现从自然语言处理到计算机视觉、语音识别等广泛领域的任务。AI大模型的概念起源于20世纪80年代，当时研究人员提出了深度学习（DeepLearning）这一概念。深度学习
语言模型与向量模型：深入解析与实例剖析 ♢.＊语言模型人工智能自然语言处理
亲爱的小伙伴们，在求知的漫漫旅途中，若你对深度学习的奥秘、Java与Python的奇妙世界，亦或是读研论文的撰写攻略有所探寻，那不妨给我一个小小的关注吧。我会精心筹备，在未来的日子里不定期地为大家呈上这些领域的知识宝藏与实用经验分享。每一个点赞，都如同春日里的一缕阳光，给予我满满的动力与温暖，让我们在学习成长的道路上相伴而行，共同进步✨。期待你的关注与点赞哟！在自然语言处理领域，语言模型和向量模型
Python 调用常见大模型 API 全解析 ♢.＊ python 开发语言语言模型 nlp
亲爱的小伙伴们，在求知的漫漫旅途中，若你对深度学习的奥秘、JAVA、PYTHON与SAP的奇妙世界，亦或是读研论文的撰写攻略有所探寻，那不妨给我一个小小的关注吧。我会精心筹备，在未来的日子里不定期地为大家呈上这些领域的知识宝藏与实用经验分享。每一个点赞，都如同春日里的一缕阳光，给予我满满的动力与温暖，让我们在学习成长的道路上相伴而行，共同进步✨。期待你的关注与点赞哟！调用通义千问接口获取APIKe
AI编译器之——为什么大模型需要Relax？ FF-Studio 人工智能深度学习自然语言处理机器学习语言模型
放在最前：Relax的关键创新深度学习模型（比如ChatGPT这种大模型）在运行时经常遇到“输入尺寸不固定”的情况。比如你问它一个问题，这次输入是10个字，下次可能是100个字。传统编译器处理这种“变来变去”的尺寸很笨——要么只能按固定尺寸优化（导致变尺寸时性能暴跌），要么每次都要重新编译（慢到没法用）。Relax的创新：符号形状：让编译器学会“代数”Relax允许编译器用“符号变量”（比如n）表
Apache TVM：开源深度学习编译器栈的领跑者计攀建Eliza
ApacheTVM：开源深度学习编译器栈的领跑者tvmOpendeeplearningcompilerstackforcpu,gpuandspecializedaccelerators项目地址:https://gitcode.com/gh_mirrors/tv/tvm项目介绍ApacheTVM是一个专为深度学习系统设计的编译器栈。它旨在弥合生产力导向的深度学习框架与性能和效率导向的硬件后端之间的差
Deepseek 对种猪市场会带来哪些影响？百态老人笔记大数据人工智能
DeepSeek对种猪市场的影响可以从以下几个方面进行分析：1.提高生产效率与降低成本根据，DeepSeek已经被用于养猪场中分析饲料配比，从而将猪的育肥周期从6个月缩短至5个月，并降低了15%的成本。这表明DeepSeek在优化养殖流程和提高生产效率方面具有显著作用，能够帮助养猪场降低运营成本，提升经济效益。2.推动智能化养殖技术的应用和提到，深度学习技术（如YOLOv5模型）已经被应用于生猪的
获取PPT中的MSO格式图片报错 ♢.＊ ppt python
亲爱的小伙伴们，在求知的漫漫旅途中，若你对深度学习的奥秘、Java与Python的奇妙世界，亦或是读研论文的撰写攻略有所探寻，那不妨给我一个小小的关注吧。我会精心筹备，在未来的日子里不定期地为大家呈上这些领域的知识宝藏与实用经验分享。每一个点赞，都如同春日里的一缕阳光，给予我满满的动力与温暖，让我们在学习成长的道路上相伴而行，共同进步✨。期待你的关注与点赞哟！image.ext的报错ValueEr
知识图谱技术剖析 ♢.＊人工智能知识图谱大数据
亲爱的小伙伴们，在求知的漫漫旅途中，若你对深度学习的奥秘、Java与Python的奇妙世界，亦或是读研论文的撰写攻略有所探寻，那不妨给我一个小小的关注吧。我会精心筹备，在未来的日子里不定期地为大家呈上这些领域的知识宝藏与实用经验分享。每一个点赞，都如同春日里的一缕阳光，给予我满满的动力与温暖，让我们在学习成长的道路上相伴而行，共同进步✨。期待你的关注与点赞哟！一、引言在当今数字化信息爆炸的时代，如
python神经网络框架有哪些,python调用神经网络模型小明技术分享 python 神经网络深度学习
人工智能Python深度学习库有哪些由于Python的易用性和可扩展性，众多深度学习框架提供了Python接口，其中较为流行的深度学习库如下：第一：CaffeCaffe是一个以表达式、速度和模块化为核心的深度学习框架，具备清晰、可读性高和快速的特性，在视频、图像处理方面应用较多。Caffe中的网络结构与优化都以配置文件形式定义，容易上手，无须通过代码构建网络;网络训练速度快，能够训练大型数据集与S
Python实现复原毫米波雷达呼吸波形的示例 go5463158465 python 算法机器学习 python 开发语言
以下是一个使用Python实现复原毫米波雷达呼吸波形的示例，该示例将涉及模型算法在重建损失和KL（Kullback-Leibler）损失之间的平衡问题。我们将使用深度学习中的变分自编码器（VAE）作为模型来进行呼吸波形的复原，因为VAE可以很好地处理重建和潜在空间分布的问题。步骤概述数据准备：生成或加载毫米波雷达的呼吸波形数据。定义VAE模型：包括编码器和解码器。定义损失函数：结合重建损失和KL损
对话系统(Chatbots) 原理与代码实例讲解 AI天才研究院 AI大模型企业级应用开发实战大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1对话系统的发展历程对话系统，又称聊天机器人(Chatbots)，是模拟人类对话的计算机程序。从早期的基于规则的系统到如今基于深度学习的智能体，对话系统经历了漫长的发展历程。第一阶段：基于规则的系统(1960s-1990s)早期的对话系统主要基于预先定义的规则和模板。例如，ELIZA(1966)是一个模拟心理治疗师的程序，通过模式匹配和关键词识别来生成回复。这些系统只能处理有限的对
如何使用深度学习中的 Transformer 算法进行视频目标检测 go5463158465 python 算法深度学习 python 开发语言
以下将介绍如何使用深度学习中的Transformer算法进行视频目标检测，并给出一个复现相关论文思路及示例代码。这里以DETR（End-to-EndObjectDetectionwithTransformers）为基础进行说明，它是将Transformer引入目标检测领域的经典论文。步骤概述环境准备：安装必要的库，如PyTorch、torchvision等。数据准备：使用公开的视频目标检测数据集，
大模型问答机器人的智能化程度 AI大模型应用之禅 AI大模型与大数据 java python javascript kotlin golang 架构人工智能
大模型、问答机器人、智能化程度、自然语言处理、深度学习、Transformer模型、知识图谱、推理能力、对话系统1.背景介绍近年来，人工智能技术取得了飞速发展，特别是深度学习的兴起，为自然语言处理（NLP）领域带来了革命性的变革。其中，大模型问答机器人作为一种新型的智能交互系统，凭借其强大的语言理解和生成能力，在客服、教育、娱乐等领域展现出广阔的应用前景。问答机器人是指能够理解用户自然语言问题并给
C/C++Win32编程基础详解视频下载择善Zach 编程 C++Win32
课题视频：C/C++Win32编程基础详解视频知识：win32窗口的创建 windows事件机制主讲：择善Uncle老师学习交流群：386620625 验证码：625 --
Guava Cache使用笔记 bylijinnan java guava cache
1.Guava Cache的get/getIfPresent方法当参数为null时会抛空指针异常我刚开始使用时还以为Guava Cache跟HashMap一样，get(null)返回null。实际上Guava整体设计思想就是拒绝null的，很多地方都会执行com.google.common.base.Preconditions.checkNotNull的检查。 2.Guava
解决ora-01652无法通过128（在temp表空间中） 0624chenhong oracle
解决ora-01652无法通过128（在temp表空间中）扩展temp段的过程一个sql语句后，大约花了10分钟，好不容易有一个结果，但是报了一个ora-01652错误，查阅了oracle的错误代码说明：意思是指temp表空间无法自动扩展temp段。这种问题一般有两种原因：一是临时表空间空间太小，二是不能自动扩展。分析过程：既然是temp表空间有问题，那当
Struct在jsp标签不懂事的小屁孩 struct
非UI标签介绍：控制类标签： 1：程序流程控制标签 if elseif else <s:if test="isUsed"> <span class="label label-success">True</span> </
按对象属性排序换个号韩国红果果 JavaScript 对象排序
利用JavaScript进行对象排序，根据用户的年龄排序展示 <script> var bob={ name;bob, age:30 } var peter={ name;peter, age:30 } var amy={ name;amy, age:24 } var mike={ name;mike, age:29 } var john={
大数据分析让个性化的客户体验不再遥远蓝儿唯美数据分析
顾客通过多种渠道制造大量数据，企业则热衷于利用这些信息来实现更为个性化的体验。分析公司Gartner表示，高级分析会成为客户服务的关键，但是大数据分析的采用目前仅局限于不到一成的企业。挑战在于企业还在努力适应结构化数据，疲于根据自身的客户关系管理（CRM）系统部署有效的分析框架，以及集成不同的内外部信息源。然而，面对顾客通过数字技术参与而产生的快速变化的信息，企业需要及时作出反应。要想实
java笔记4 a-john java
操作符 1，使用java操作符操作符接受一个或多个参数，并生成一个新值。参数的形式与普通的方法调用不用，但是效果是相同的。加号和一元的正号（+）、减号和一元的负号（-）、乘号（*）、除号（/）以及赋值号（=）的用法与其他编程语言类似。操作符作用于操作数，生成一个新值。另外，有些操作符可能会改变操作数自身的
从裸机编程到嵌入式Linux编程思想的转变------分而治之：驱动和应用程序 aijuans 嵌入式学习
笔者学习嵌入式Linux也有一段时间了，很奇怪的是很多书讲驱动编程方面的知识，也有很多书将ARM9方面的知识，但是从以前51形式的（对寄存器直接操作，初始化芯片的功能模块）编程方法，和思维模式，变换为基于Linux操作系统编程，讲这个思想转变的书几乎没有，让初学者走了很多弯路，撞了很多难墙。笔者因此写上自己的学习心得，希望能给和我一样转变
在springmvc中解决FastJson循环引用的问题 asialee 循环引用 fastjson
我们先来看一个例子： package com.elong.bms; import java.io.OutputStream; import java.util.HashMap; import java.util.Map; import co
ArrayAdapter和SimpleAdapter技术总结百合不是茶 android SimpleAdapter ArrayAdapter 高级组件基础
ArrayAdapter比较简单，但它只能用于显示文字。而SimpleAdapter则有很强的扩展性，可以自定义出各种效果 ArrayAdapter;的数据可以是数组或者是队列 // 获得下拉框对象 AutoCompleteTextView textview = (AutoCompleteTextView) this
九封信 bijian1013 人生励志
有时候，莫名的心情不好，不想和任何人说话，只想一个人静静的发呆。有时候，想一个人躲起来脆弱，不愿别人看到自己的伤口。有时候，走过熟悉的街角，看到熟悉的背影，突然想起一个人的脸。有时候，发现自己一夜之间就长大了。 2014，写给人
Linux下安装MySQL Web 管理工具phpMyAdmin sunjing PHP Install phpMyAdmin
PHP http://php.net/ phpMyAdmin http://www.phpmyadmin.net Error compiling PHP on CentOS x64 一、安装Apache 请参阅http://billben.iteye.com/admin/blogs/1985244 二、安装依赖包 sudo yum install gd
分布式系统理论 bit1129 分布式
FLP One famous theory in distributed computing, known as FLP after the authors Fischer, Lynch, and Patterson, proved that in a distributed system with asynchronous communication and process crashes,
ssh2整合(spring+struts2+hibernate)-附源码白糖_ eclipse spring Hibernate mysql 项目管理
最近抽空又整理了一套ssh2框架，主要使用的技术如下： spring做容器，管理了三层(dao,service,actioin)的对象 struts2实现与页面交互(MVC)，自己做了一个异常拦截器，能拦截Action层抛出的异常 hibernate与数据库交互 BoneCp数据库连接池，据说比其它数据库连接池快20倍，仅仅是据说 MySql数据库项目用eclipse
treetable bug记录 braveCS table
// 插入子节点删除再插入时不能正常显示。修改： //不知改后有没有错，先做个备忘 Tree.prototype.removeNode = function(node) { // Recursively remove all descendants of +node+ this.unloadBranch(node); // Remove
编程之美-电话号码对应英语单词 bylijinnan java 算法编程之美
import java.util.Arrays; public class NumberToWord { /** * 编程之美电话号码对应英语单词 * 题目： * 手机上的拨号盘，每个数字都对应一些字母，比如2对应ABC，3对应DEF.........，8对应TUV，9对应WXYZ， * 要求对一段数字，输出其代表的所有可能的字母组合
jquery ajax读书笔记 chengxuyuancsdn jQuery ajax
1、jsp页面 <%@ page language="java" import="java.util.*" pageEncoding="GBK"%> <% String path = request.getContextPath(); String basePath = request.getScheme()
JWFD工作流拓扑结构解析伪码描述算法 comsci 数据结构算法工作活动 J#
对工作流拓扑结构解析感兴趣的朋友可以下载附件，或者下载JWFD的全部代码进行分析 /* 流程图拓扑结构解析伪码描述算法 public java.util.ArrayList DFS(String graphid, String stepid, int j)
oracle I/O 从属进程 daizj oracle
I/O 从属进程　　I/O从属进程用于为不支持异步I/O的系统或设备模拟异步I/O.例如，磁带设备(相当慢)就不支持异步I/O.通过使用I/O 从属进程，可以让磁带机模仿通常只为磁盘驱动器提供的功能。就好像支持真正的异步I/O 一样，写设备的进程(调用者)会收集大量数据，并交由写入器写出。数据成功地写出时，写入器(此时写入器是I/O 从属进程，而不是操作系统)会通知原来的调用者，调用者则会
高级排序:希尔排序 dieslrae 希尔排序
public void shellSort(int[] array){ int limit = 1; int temp; int index; while(limit <= array.length/3){ limit = limit * 3 + 1;
初二下学期难记忆单词 dcj3sjt126com english word
kitchen 厨房 cupboard 厨柜 salt 盐 sugar 糖 oil 油 fork 叉；餐叉 spoon 匙；调羹 chopsticks 筷子 cabbage 卷心菜；洋白菜 soup 汤 Italian 意大利的 Indian 印度的 workplace 工作场所 even 甚至；更 Italy 意大利 laugh 笑 m
Go语言使用MySQL数据库进行增删改查 dcj3sjt126com mysql
目前Internet上流行的网站构架方式是LAMP，其中的M即MySQL, 作为数据库，MySQL以免费、开源、使用方便为优势成为了很多Web开发的后端数据库存储引擎。MySQL驱动Go中支持MySQL的驱动目前比较多，有如下几种，有些是支持database/sql标准，而有些是采用了自己的实现接口,常用的有如下几种: http://code.google.c...o-mysql-dri
git命令 shuizhaosi888 git
---------------设置全局用户名： git config --global user.name "HanShuliang" //设置用户名 git config --global user.email "[email protected]" //设置邮箱 ---------------查看环境配置 git config --li
qemu-kvm 网络 nat模式 (四) haoningabc kvm qemu
qemu-ifup-NAT #!/bin/bash BRIDGE=virbr0 NETWORK=192.168.122.0 GATEWAY=192.168.122.1 NETMASK=255.255.255.0 DHCPRANGE=192.168.122.2,192.168.122.254 TFTPROOT= BOOTP= function check_bridge()
不要让未来的你，讨厌现在的自己 jingjing0907 生活奋斗工作梦想
故事one 　23岁，他大学毕业，放弃了父母安排的稳定工作，独闯京城，在家小公司混个小职位，工作还算顺手，月薪三千，混了混，混走了一年的光阴。　　　　24岁，有了女朋友，从二环12人的集体宿舍搬到香山民居，一间平房，二人世界，爱爱爱。偶然约三朋四友，打扑克搓麻将，日子快乐似神仙；　　　　25岁，出了几次差，调了两次岗，薪水涨了不过百，生猛狂飙的物价让现实血淋淋，无力为心爱银儿购件大牌
枚举类型详解一路欢笑一路走 enum 枚举详解 enumset enumMap
枚举类型详解一.Enum详解 1.1枚举类型的介绍 JDK1.5加入了一个全新的类型的”类”—枚举类型，为此JDK1.5引入了一个新的关键字enum,我们可以这样定义一个枚举类型。 Demo:一个最简单的枚举类 public enum ColorType { RED
第11章动画效果（上） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Eclipse中jsp、js文件编辑时，卡死现象解决汇总 ljf_home eclipse jsp卡死 js卡死
使用Eclipse编辑jsp、js文件时，经常出现卡死现象，在网上百度了N次，经过N次优化调整后，卡死现象逐步好转，具体那个方法起到作用，不太好讲。将所有用过的方法罗列如下： 1、取消验证 windows–>perferences–>validation 把除了manual 下面的全部点掉，build下只留 classpath dependency Valida
MySQL编程中的6个重要的实用技巧 tomcat_oracle mysql
每一行命令都是用分号(;)作为结束对于MySQL，第一件你必须牢记的是它的每一行命令都是用分号(;)作为结束的，但当一行MySQL被插入在PHP代码中时，最好把后面的分号省略掉，例如： mysql_query("INSERT INTO tablename(first_name,last_name)VALUES('$first_name',$last_name')");
zoj 3820 Building Fire Stations(二分+bfs) 阿尔萨斯 Build
题目链接：zoj 3820 Building Fire Stations 题目大意：给定一棵树，选取两个建立加油站，问说所有点距离加油站距离的最大值的最小值是多少，并且任意输出一种建立加油站的方式。解题思路：二分距离判断，判断函数的复杂度是o(n)，这样的复杂度应该是o(nlogn)，即使常数系数偏大，但是居然跑了4.5s，也是醉了。判断函数里面做了3次bfs，但是每次bfs节点最多