你电吴彦祖

《神经网络与深度学习》-深度信念网络

深度信念网络

- 1. 玻尔兹曼机
- - 1.1 生成模型
  - 1.2 能量最小化与模拟退火
  - 1.3 参数学习
- 2. 受限玻尔兹曼机
- - 2.1 生成模型
  - 2.2 参数学习
  - - 2.2.1 对比散度学习算法
  - 2.3 受限玻尔兹曼机的类型
- 3. 深度信念网络
- - 3.1 生成模型
  - 3.2 参数学习
  - - 3.2.1 逐层预训练
    - 3.2.1 精调

对于复杂的数据分布，通常只能观测到有限的局部特征，且含有噪声，如要对这个数据分布进行建模，要挖掘可观测变量之间的依赖关系，以及可观测变量背后隐藏的内部表示
本文介绍可有效学习变量之间复杂依赖关系的概率图模型（ 深度信念网络）以及两基础模型（ 玻尔兹曼机、 受限玻尔兹曼机）。深度信念网络含很多隐变量，可有效学习数据的内部特征表示，也可以作为一种非线性降维方法，学到的特征包含了数据的更高级、有价值的信息，故十分有助于后续的分类和回归任务。
玻尔兹曼机、深度信念网络都是生成模型，借助隐变量来描述复杂的数据分布，共同问题都是推断和学习问题，常通过MCMC方法来近似估计。

1. 玻尔兹曼机

玻尔兹曼机（Boltzmann Machine）可看做一个随机动力系统（Stochastic Dynamical System）。每个变量转态以一定概率收到其他变量影响，可用概率无向图模型来描述，一个具有K个节点（变量）的玻尔兹曼机满足三个性质：

每个随便变量是二值的，所有随机变量可用 $X\in\{0,1\}^K$ 表示，其中可观测变量表示为 $\pmb{V}$ ,隐变量表示为 $\pmb{H}$
所有节点之间是全连接的，每个变量 $X_i$ 的取值依赖于所有其他变量 $\pmb{X}_{\\i}$
每两个变量之间的相互影响是 $(X_i \to X_j ，X_j \to X_i)$ 对称的

包含3个可观测变量和3个隐变量的玻尔兹曼机图示：

随机向量 $\pmb{X}$ 的联合概率密度由玻尔兹曼分布得到，即：

其中 Z 为配分函数，T表示温度，能量函数 $E(\pmb{x})$ 的定义为：

其中 $w_{ij}$ 是两个变量 $x_i$ 和 $x_j$ 之间的连接权重， $x_i \in \{0,1\}$ 表示状态， $b_i$ 是变量 $x_i$ 的偏置。
如果 $X_i$ 和 $X_j$ 的取值都为1时，一个正的权重 $w_{ij}>0$ 会使得玻尔兹曼机的能量下降，发生的概率变大；相反，一负的权重会使得玻尔兹曼机的能量上升，发生的概率变小。故如果令玻尔兹曼机中每个变量 $X_i$ 代表一个基本假设，取值为1或0分别表示模型接受或拒绝该假设，那么变量之间连接的权重代表了两个假设之间的弱约束关系。连接权重可正可负的实数：正的权重表示两个假设可以相互支持，或一个假设被接受另一个也很可能被接受，相反，负的权重表示两个假设不能同时被接受。

玻尔兹曼机可用来解决两类问题：

搜索问题：当给定变量之间的连接权重时，需找到一组二值向量，使得整个网络的能量最低
学习问题：当给定变量的多组观测时，学习网络的最优权重

1.1 生成模型

在玻尔兹曼机中，配分函数Z通常难以计算，因此，联合概率分布 $p(\pmb{x})$ 一般通过MCMC方法来近似，生成一组服从 $p(\pmb{x})$ 分布的样本。下面介绍基于吉布斯采样的样本生成方法

全条件概率 吉布斯采样需要计算每个变量 $X_i$ 的全条件概率 $p(x_i|\pmb{x}_{\\i})$ ，其中 $\pmb{x}_{\\i}$ 表示除变量 $X_i$ 外其他变量的取值

吉布斯采样 玻尔兹曼机的吉布斯采样过程为：随机选择一个变量 $X_i$ ，然后根据其全条件概率 $p(x_i|\pmb{x}_{\\i})$ 来设置其状态，即以 $p(x_i=1|\pmb{x}_{\\i})$ 的概率将变量 $X_i$ 设为1，否则设为0.在固定温度T的情况下，在运行足够时间之后，玻尔兹曼机会达到热平衡。此时，二和全局状态的概率服从玻尔兹曼机 $p(\pmb{x})$ ，只与系统的能量有关，与初始状态无关。
要使得玻尔兹曼机到达热平衡，其收敛速度和温度T相关。
当系统温度非常高 $\to \infty$ 时， $p(x_i=1|\pmb{x}_{\\i}) \to 0.5$ ，即每个变量状态的改变十分容易，每一种系统状态都是一样的，从而很快可达到热平衡。
当系统温度非常低 $\to 0$ ，如果 $\Delta E_i(\pmb{x}_{\\i})>0$ ,则 $p(x_i=1|\pmb{x}_{\\i}) \to 1$ ；如果 $\Delta E_i(\pmb{x}_{\\i})<0$ ,则 $p(x_i=1|\pmb{x}_{\\i}) \to 0$ ,即：

因此，当 $T\to0$ 时，随机性方法变成了确定性方法，这时，玻尔兹曼机退化成一个Hopfield网络。
Hopfield网络是一确定性的动力系统，而玻尔兹曼机是一种随机性的动力系统，Hopfield网络的每次状态更新都会使得系统的能量降低，而玻尔兹曼机则以一定概率事系统能量上升，下图是Hopfield网络和玻尔兹曼机运行时系统能量变化对比：

1.2 能量最小化与模拟退火

在一个动力系统中，找到一个状态使系统能量最小是一个十分重要的优化问题。如动力系统是确定性的，如Hopfield网络，一个简单（但低效）的能量最小化是随机选择一个变量，其他变量保持不变，将这个能量设为使网络能量更低的状态。当每个变量 $X_i$ 取值为 ${0,1}$ 时，如果能量差异 $\Delta E_i(\pmb{x}_{\\i})>0$ ,则设 $X_i=1$ ，否则 $X_i=0$ 。
这种方法的解是局部最优的，为跳出局部最优，必须允许偶尔可以将一个变量设为使得能量变高的状态。故引入一定的随机性，以 $\sigma(\frac{\Delta E_i (\pmb{x}_{\\i})}{T})$ 的概率将变量 $X_i=1$ ，否则 $X_i=0$ 。类似吉布斯采样过程。
要使动力系统达到热平衡，温度T选择十分关键，一个这种方法是让系统刚开始在一个比较高的温度下运行达到热平衡，然后逐渐降低，直到系统在一个比较低的温度下运行到达热平衡。这样就可以得到一个能量最小的分布。这个过程是模拟退火（Simulated Annealing）。
模拟退火是一种寻找全局最优的近似方法，名字来源于冶金学“退火”，即将材料加热后再以一定的速度退火冷却，减少晶格中的缺陷。可证明模拟退火算法所得到解依概率收敛到全局最优解。

1.3 参数学习

不失一般性，假设一个玻尔兹曼机有K个变量，包括 $K_v$ 个可观测变量 $\pmb{v}\in\{0,1\}^{K_v}$ 和 $K_h$ 个隐变量 $\pmb{h}\in\{0,1\}^{K_h}$ 。
给定一组可观测的向量 $D\in\{\hat{\pmb{v}}^{(1)},\hat{\pmb{v}}^{(2)},\cdots,\hat{\pmb{v}}^{(N)}\}$ 作为训练集，要学习玻尔兹曼机的参数 $\pmb{W}$ 和 $\pmb{b}$ 使得训练集中所有样本的对数似然函数最大，训练集的对数似然函数定义为：

对数似然函数对参数 $\theta$ 的偏导数为：

其中 $\hat{p}(\pmb{v})$ 表示可观测向量在训练集上的实际经验分布， $p(\pmb{h}|\pmb{v})$ 和 $p(\pmb{v}，\pmb{h})$ 为在当前参数 $\pmb{W}$ ， $\pmb{b}$ 条件下玻尔兹曼机的条件概率和联合概率。
根据公式：

$E(\pmb{v},\pmb{h})=E(\pmb{x})=-(\sum_{iE(vvv,hhh)=E(xxx)=−(∑i<jwijxixj+∑ibixi)$

当采用梯度上升法，权重 $w_{ij}$ 可用下面公式近似地更新：

其中 $\alpha>0$ 为学习率，此更新方法一特点是仅仅使用了局部信息。即虽然优化目标是整个网络的能量最低，但每个权重的更新只依赖于它连接的相关变量的状态，这种学习方式和人脑神经网络的学习方式赫布规则（Hebbian Rule）十分类似
玻尔兹曼机可用于监督学习和无监督学习。监督学习中，可观测变量 $\pmb{v}$ 又可进一步分为输入和输出变量，隐变量则隐式地描述了输入和输出变量之间复杂的约束关系。无监督学习中，隐变量可看做可观测变量的内部特征表示。玻尔兹曼机也可以看做一种随机性的神经网络，是Hopfield神经网络的拓展，并且可以生成对应的Hopfield网络。没有时间限制时，玻尔兹曼机还可以用来解决复杂的组合优化问题。

2. 受限玻尔兹曼机

全连接的玻尔兹曼机太复杂，难广泛应用，虽然基于采样的方法很大程度上提高了学习效率，但每更新一次权重，就需要网络重新达到热平衡状态，过程低效。实际中，广泛应用的是一种带限制的版本，就是受限玻尔兹曼机。
受限玻尔兹曼机（Restricted Boltzmann Machine，RBM）是一个二分图结构的无向图模型。受限玻尔兹曼机中的变量也分为隐变量和可观测变量。用可观测层和隐藏层来表示这两组变量，同一层中的节点之间没有连接，而不同层一个层中的节点与另一层中的所有节点连接，这和两层的全连接神经网络相同：

一个受限玻尔兹曼机由 $K_p$ 个可观测变量和 $K_h$ 个隐变量组成，定义如下：

可观测的随机向量 $\pmb{v} \in \R^{K_v}$
隐藏的随机向量 $\pmb{h} \in \R^{K_h}$
权重矩阵 $\pmb{W}\in \R^{K_v \times K_h}$ ,其中每个元素 $w_{ij}$ 为可观测变量 $v_i$ 和隐变量 $h_j$ 之间边的权重
偏置 $\pmb{a} \in \R^{K_v}$ 和 $\pmb{b} \in \R^{K_h}$ ,其中 $a_i$ 为每个可观测的变量 $v_i$ 的偏置， $b_i$ 为每个可观测的变量 $h_j$ 的偏置

受限玻尔兹曼机的能量函数定义为：

受限玻尔兹曼机的联合概率分布 $p(\pmb{v},\pmb{h})$ 定义为：

其中 $\sum_{v,h}exp(-E(\pmb{v},\pmb{h}))$ 为分配函数

2.1 生成模型

在给定受限玻尔兹曼机的联合概率分布 $p(\pmb{h},\pmb{v})$ 后，可以通过吉布斯采样方法生成一组服从 $p(\pmb{h},\pmb{v})$ 分布的样本

全条件概率 吉布斯采样需要计算每个变量 $V_i$ 和 $H_j$ 的全条件概率。受限玻尔兹曼机中同层变量之间无连接，从无向图性质可知，给定可观测变量时，隐变量之间相互条件独立。同样，给定隐变量，可观测变量之间也相互条件独立，因此有：

其中 $\pmb{v}_{\\i}$ 为除变量 $V_i$ 外其他可观测变量的取值， $\pmb{h}_{\\i}$ 为除变量 $H_i$ 外其他隐变量的取值。因此， $V_i$ 的全条件概率只需计算 $p(v_i|\pmb{h})$ , $H_j$ 的全条件概率只需计算 $p(h_j|\pmb{v})$

受限玻尔兹曼机的全条件概率中，可观测变量之间相互条件独立，隐变量之间也相互条件独立。因此，首先玻尔兹曼机可以并行地对所有的可观测变量（或隐变量）同时进行采样，从而更快到达热平衡。

吉布斯采样 受限玻尔兹曼机的采样过程如下：

给定或随机初始化一个可观测的向量 $\pmb{v}_0$ ，计算隐变量的概率，并从中采样一个隐变量 $\pmb{h}_0$
基于隐变量 $\pmb{h}_0$ ，计算可观测变量的概率，并从中采样一个可观测的向量 $\pmb{v}_1$
重复 t 次后，获得 $(\pmb{v}_t,\pmb{h}_t)$
当 $\to \infty$ , $(\pmb{v}_t,\pmb{h}_t)$ 的采样服从 $p(\pmb{v},\pmb{h})$ 分布

2.2 参数学习

和玻尔兹曼机一样，受限玻尔兹曼机通过最大化似然函数来找到最优的参数 $\pmb{W},\pmb{a},\pmb{b}$ 。给定一组训练样本 $D=\{\hat{\pmb{v}}^{(1)}, \cdots, \hat{\pmb{v}}^{(N)}\}$ ,其对数似然函数为：

和玻尔兹曼机类似，受限玻尔兹曼机的对数似然函数 $L(D;\pmb{W},\pmb{b})$ 对参数的偏导数为：

其中 $\hat{p}(\pmb{v})$ 为训练数据集上 $\pmb{v}$ 的实际分布。
上述公式，都需要计算配分函数Z以及两个期望 $E_{p(h|v)}$ 和 $E_{p(h,v)}$ ，因此很难计算，故用MCMC方法近似。
首先，将可观测向量 $\pmb{v}$ 设为训练样本中的值并固定，然后根据条件概率对隐向量 $\pmb{h}$ 进行采样，受限玻尔兹曼机的值记为 $(\cdot)_{data}$ 。然后再不固定可观测向量 $\pmb{v}$ ，通过吉布斯采样来轮流更新 $\pmb{v}$ 和 $\pmb{h}$ ，当达到热平衡状态时，采集 $\pmb{v}$ 和 $\pmb{h}$ 的值，记为 $(\cdot)_{model}$
采用梯度上升方法，参数 $\pmb{W},\pmb{a},\pmb{b}$ 可利用下面公式近似更新：

其中 $\alpha > 0$ 为学习率
根据受限玻尔兹曼机的条件独立性，可以对可观测变量和隐变量进行分组轮流采样，这样受限玻尔兹曼机的采样效率会有很大提高，但仍需经过很多步采样才可以采集到的符合真实分布的样本。

2.2.1 对比散度学习算法

由于受限玻尔兹曼机的特殊结构，因此可以使用一种吉布斯采样更有效的学习算法，即对比散度（Contrastive Divergence）。对比散度算法仅需k步吉布斯采样。
为提高效率，对比散度算法用一个训练样本作为可观测向量的初始值，然后交替对可观测向量和隐向量进行吉布斯采样，不需等到收敛，只需k步就足够。这就是CD-k算法,通常k=1就可以学得很好。对比散度的流程：

2.3 受限玻尔兹曼机的类型

实际中，处理的数据不一定是二值的，也可能是连续值，为能够处理这些数据，就需要根据输入或输出的数据类型来设计新的能量函数。
常见的受限玻尔兹曼机有三种：

“伯努利-伯努利”受限玻尔兹曼机（Bernoulli-Bernoulli RBM, BB-RBM）：上面介绍的可观测变量和隐变量都为二值类型的受限玻尔兹曼机
“高斯-伯努利”尔兹曼机（Bernoulli-Bernoulli RBM, BB-RBM）：可观测变量为高斯分布，隐变量为伯努利分布，其能量函数定义为：

其中每个可观测变量 $v_i$ 服从 $(\mu_i,\sigma_i)$ 的高斯分布
“伯努利-高斯”受限玻尔兹曼机（Bernoulli-Gaussian RBM, BG-RBM）：可观测变量为伯努利分布，隐变量为高斯分布，其能量函数定义为

其中每个隐变量 $h_j$ 服从 $(\mu_i,\sigma_i)$ 的高斯分布。

3. 深度信念网络

深度信念网络（Deep Belief Network，DBN）是一种深层的概率有向图模型，其图结构由多层的节点构成。每层节点的内部没有连接，相邻两层节点之间为全连接。网络的最底层为可观测变量，其它层节点为隐变量。最顶层的两层间的连接时无向的，其它层之间的连接时有向的：

对一个有L层隐变量的深度信念网络，令 $\pmb{v}=\pmb{h}^{(0)}$ 表示最底层（0）为可观测变量， $\pmb{h}^{(1)}，\cdots， \pmb{h}^{(L)}$ 表示其余每层的变量，顶部的两层是一个无向图，可以看做是一个受限玻尔兹曼机，用来产生 $p(\pmb{h}^{(L-1)})$ 的先验分布。除了最顶上两层外，每一层变量 $\pmb{h}^{(l)}$ 依赖于其上一层 $\pmb{h}^{(l+1)}$ ，即：

其中 $l=\{0,\cdots,L-2\}$
深度信念网络中所有变量的联合概率可以分解为：

其中 $p(\pmb{h}^{(l)}|\pmb{h}^{(l+1)})$ 为Sigmoid型条件概率分布：

其中 $\sigma(\cdot)$ 为按位计算的logistic sigmoid函数， $\pmb{a}^{(l)}$ 为偏置参数， $\pmb{W}^{(l+1)}$ 为权重参数。每一个层可看做一个Sigmoid信念网络

3.1 生成模型

深度信念网络是一个生成模型，可用来生成符合特定分布的样本，隐变量用来描述在可观测变量之间的高阶相关性，加入训练数据服从分布 $p(\pmb{v})$ ，通过训练得到一个深度信念网络。
生成样本时，首先在最顶两层进行足够多的吉布斯采样，生成 $\pmb{h}^{(l+1)}$ ，然后依次计算下一层隐变量的分布。因在给定上一层变量取值时，下一层的变量是条件独立的，故可独立采样。这样，从第 $L - 1$ 层开始，自顶向下进行逐层采样，最终得到可观测层的样本。

3.2 参数学习

深度信念网络最直接的训练方式是最大化可观测变量的边际分布 $p(\pmb{v})$ 在训练集上的似然 。但是在深度信念网络中，隐变量 $\pmb{h}$ 之间的关系十分复杂，由于“贡献度分配问题”，很难直接学习。即使对于简单的单层Sigmoid信念网络：

在已知可观测变量时，其隐变量的联合后验概率 $p(\pmb{h}|v)$ 不再相互独立，因此很难估计所有隐变量的后验概率，早期深度信念网络的后验概率一般通过蒙特卡洛方法或变分方法来近似估计，但效率低，从而导致其参数学习比较困难。
为了有效训练深度信念网络，我们将每一层的Sigmoid信念网络转换为受限玻尔兹曼机，这样做的好处是隐变量的后验概率事相互独立的，从而可容易进行采样。这样，深度信念网络可看做多个受限玻尔兹曼机从下到上进行堆叠，第 $l$ 层受限玻尔兹曼机的隐层作为第 $l + 1$ 受限玻尔兹曼机的可观测层。进一步，深度信念网络课采用逐层训练的方式来快速训练，即从最底层开始，每次只训练一层，直到最后一层。
深度信念网络的训练过程可分为逐层预训练和精调两个阶段，先通过逐层预训练将模型的参数初始化为较优的值，然后通过传统机器学习方法对参数进行精调。

3.2.1 逐层预训练

采用逐层训练的方式，将深度信念网络的训练简化为对多个受限玻尔兹曼机的训练。
具体的逐层训练过程为自下而上依次训练每一层的首先玻尔兹曼机。假设已训练好前 $l - 1$ 层的受限玻尔兹曼机，可计算隐变量自下而上的条件概率：

这样可按照 $\pmb{v} = \pmb{h}^{(0)} \to \cdots \to\pmb{h}^{(l-1)}$ 的顺序生成一组 $\pmb{h}^{(l-1)}$ 的样本，记为 $\pmb{\hat{H}}^{(l-1)}=\{\pmb{\hat{h}}^{(l,1)},\cdots,\pmb{\hat{h}}^{(l,M)} \}$ 。然后将 $\pmb{h}^{(l-1)}$ 和 $\pmb{h}^{(l)}$ 组成一个受限玻尔兹曼机，用 $\pmb{\hat{H}}^{(l-1)}$ 作为训练集充分训练第 $l$ 层的受限玻尔兹曼机

大量时间表明，逐层预训练可以产生非常好的参数初始值，从而极大地降低了模型的学习难度。

3.2.1 精调

经过预训练，再结合具体的任务（监督或无监督学习），通过传统的全局学习算法对网络进行精调（fine-tuning），使模型收敛到更好的局部最优点。

作为生成模型的精调 除了顶层的受限玻尔兹曼机，其它层之间的权重可以被分为向上的认知权重（Recognition Weight） $\pmb{W}^{'}$ 和向下的生成权重（Generative Weight） $\pmb{W}$ 。认知权重用来计算后验概率，生成权重用来定义模型，认知权重初始值 $\pmb{W}^{'^{(l)}}=\pmb{W}^{ {(l)}^T}$
深度信念网络一般采用 Contrastive Wake-Sleep算法进行精调：

Wake阶段：认知过程，通过外界输入（可观测变量）和向上的认知权重，计算每一层隐变量的后验概率并采样。修改下行的生成权重使得下一层的变量的后验概率最大。
Sleep阶段：生成过程，通过顶层的采样和向下的生成权重，逐层计算每一层的后验概率并采样。然后，修改向上的认知权重使得上一层变量的后验概率最大。
交替进行Wake和Sleep过程，直到收敛

作为判别模型的精调 深度信念网络的一个应用是作为深度神经网络的预训练模型，提供神经网络的初始权重，这时只需要向上的认知权重，作为判别模型使用：

具体的精调过程为：在深度信念网络的最顶层增加一层输出层，然后使用反向传播算法对这些权重进行调优。在训练数据少时，预训练的作用非常大，因不恰当的初始化权重会显著影响最终模型的性能，而预训练获得的权重在权重空间中比随机权重更接近最优的权重，避免了反向传播算法因随机初始化权值参数而容易陷入局部最优和训练时间长的缺点。

【Elasticsearch】分词器概述 risc123456 Elasticsearch elasticsearch
Elasticsearch分词与神经网络分词的区别Elasticsearch的分词过程产生的是优化用于搜索和检索的语言学分词。这与机器学习和自然语言处理中的神经分词不同。神经分词器将字符串转换为更小的子词分词，这些分词被编码为向量，供神经网络使用。Elasticsearch没有内置的神经分词器。分词器接收一个字符流，将其分解为单独的分词（通常是单个单词），并输出一个分词流。例如，`whitespa
DeepSeek R1：开启AI推理新时代，强在哪里？人工智能
DeepSeekR1：开启AI推理新时代阅读时长：19分钟发布时间：2025-02-13近日热文：全网最全的神经网络数学原理（代码和公式）直观解释欢迎关注知乎和公众号的专栏内容LLM架构专栏知乎LLM专栏知乎【柏企】公众号【柏企科技说】【柏企阅文】你是否曾好奇，AI模型是如何学会拆解数学问题，或是一步步解释代码的呢？在过去几年，许多公司开发出了大型语言模型（LLM），它们能创作文章、翻译语言、编写
R-CNN架构人工智能
R-CNN架构架构RCCN由三个模块组成：第一个模块生成与类别无关的区域提议。这些提议定义了我们的检测器可用的候选检测集。第二个模块是一个大型卷积神经网络，它从每个区域中提取固定长度的特征向量。第三个模块是一组特定类别的线性支持向量机（SVM）。虽然R-CNN对特定的区域提议方法不挑剔，但选择性搜索（Selectivesearch）是最常用的方法，以便与之前的检测工作进行有对照的比较。实现在测试时
如何训练LLMs进行“思考”（如o1和DeepSeek-R1）人工智能
如何训练LLMs进行“思考”（如o1和DeepSeek-R1）阅读时长：19分钟发布时间：2025-02-13近日热文：全网最全的神经网络数学原理（代码和公式）直观解释欢迎关注知乎和公众号的专栏内容LLM架构专栏知乎LLM专栏知乎【柏企】公众号【柏企科技说】【柏企阅文】一台会思考的笔记本电脑OpenAI的o1模型为大型语言模型（LLM）的训练开创了全新范式。它引入了所谓的“思考”令牌（tokens
机器翻译技术的演进与未来趋势：从规则到神经网络的革新 Echo_Wish 人工智能前沿技术机器翻译神经网络人工智能
随着全球化的不断推进和多语言交流的日益频繁，机器翻译（MachineTranslation,MT）技术的需求日益增长。机器翻译技术经历了从基于规则的方法到统计方法，再到如今的神经网络方法的发展历程。本文将探讨机器翻译技术的演进过程及其未来趋势，并结合Python代码示例，展示现代机器翻译技术的应用。一、机器翻译技术的发展历程1.基于规则的机器翻译（RBMT）早期的机器翻译技术主要基于规则（Rule
神经网络常见激活函数 9-CELU函数亲持红叶神经网络常见激活函数深度学习机器学习人工智能数学建模神经网络 python
文章目录CELU函数+导函数函数和导函数图像优缺点pytorch中的CELU函数tensorflow中的CELU函数CELU连续可微指数线性单元：CELU（ContinuouslyDifferentiableExponentialLinearUnit）,是一种连续可导的激活函数，结合了ELU和ReLU的特点，旨在解决ELU在某些情况下的梯度问题。函数+导函数CELU函数CELU(x)={xx≥0α
深度学习视频教程推荐 yunTrans Deep Learning 深度学习视频神经网络
推荐一个深度学习视频教程，中文，推导详细。老先生娓娓道来，将神经网络、深度学习讲的非常透彻。由复旦大学吴立德老师教授的课程：http://www.youku.com/playlist_show/id_21508721.html
常见的深度学习模型总结编码时空的诗意行者深度学习人工智能
1.深度前馈神经网络(DeepFeedforwardNetworks)发明时间：2006年左右，随着计算能力的提升和大数据集的可用性增加，深度学习开始兴起。发明动机：解决传统机器学习模型在复杂数据上的局限性，如线性模型无法处理非线性关系的数据。模型特点：由多个隐藏层组成的神经网络，每一层的节点与下一层的节点完全连接。应用场景：分类、回归、语音识别、图像识别等。2.卷积神经网络(Convolutio
深度学习视频推荐小赖同学啊人工智能深度学习音视频人工智能
以下为你呈现一个基于深度学习实现视频推荐的简化代码示例。这里我们使用的是协同过滤思想结合神经网络的方式，借助TensorFlow和Keras库来构建模型。在这个示例中，假设已有用户对视频的评分数据，目标是预测用户对未评分视频的评分，进而为用户推荐可能感兴趣的视频。1.环境准备要确保你已经安装了必要的库，如numpy、pandas、tensorflow等，可以使用以下命令进行安装：pipinstal
基于深度学习的半导体检测与预测算法研究(二) 埃菲尔铁塔_CV算法深度学习人工智能神经网络 opencv 计算机视觉 python
摘要随着半导体行业的飞速发展，对生产过程中的检测和性能预测提出了更高要求。深度学习凭借其强大的数据处理和特征提取能力，在半导体领域展现出巨大的应用潜力。本文详细探讨了深度学习在半导体缺陷检测、工艺参数预测等方面的应用原理和方法，介绍了常见的深度学习模型如卷积神经网络（CNN）、循环神经网络（RNN）及其变体在半导体数据处理中的应用，分析了模型训练与优化的关键技术，并通过实际案例验证了深度学习算法在
基于深度学习的半导体算法原理及应用埃菲尔铁塔_CV算法算法机器学习人工智能计算机视觉深度学习 python
摘要随着半导体产业的持续发展，深度学习技术在该领域的应用日益广泛且深入。本文全面阐述了基于深度学习的半导体算法原理，涵盖卷积神经网络（CNN）、循环神经网络（RNN）及其变体长短时记忆网络（LSTM）和门控循环单元（GRU）等在半导体制造过程监测、缺陷检测、性能预测等方面的应用。详细分析了这些算法处理半导体相关数据的机制，探讨了算法实现中的关键技术，如数据预处理、模型训练与优化等。通过实际案例展示
【图像重建】基于matlab BP神经网络双基地SAR成像图像重建【含Matlab源码 1950期】海神之光 matlab
欢迎来到海神之光博客之家✅博主简介：热爱科研的Matlab仿真开发者，修心和技术同步精进；个人主页：海神之光代码获取方式：海神之光Matlab王者学习之路—代码获取方式（1）完整代码，已上传资源；需要的，在博主主页搜期号直接付费下载或者订阅本专栏赠送此代
大模型笔记：pytorch实现MOE UQI-LIUWJ pytorch学习笔记 pytorch 人工智能
0导入库importtorchimporttorch.nnasnnimporttorch.nn.functionalasF1专家模型#一个简单的专家模型，可以是任何神经网络架构classExpert(nn.Module):def__init__(self,input_size,output_size):super(Expert,self).__init__()self.fc=nn.Linear(i
基于泰勒展开改进的物理信息神经网络天天酷科研物理信息网络PINN 神经网络人工智能深度学习
基于泰勒展开改进的物理信息神经网络一、引言1.1、研究背景和意义物理信息神经网络（PINN）作为一种结合物理模型和数据驱动的新型神经网络模型，近年来在科学计算和工程应用中展示了广泛的应用前景。PINN通过将物理定律嵌入到神经网络的损失函数中，能够在缺乏大量数据的情况下，有效地解决复杂的物理问题。这种方法不仅提高了模型的预测准确性，还增强了模型的泛化能力和解释性，因此在流体力学、材料科学、地球科学等
BP神经网络学习内容分享：学习激活函数和损失函数强哥带你学BP神经网络 BP神经网络神经网络学习人工智能
一、激活函数1.激活函数的作用激活函数（ActivationFunction）在神经网络中扮演着至关重要的角色。它们的主要作用是将神经元的输入（加权和）转化为一个输出信号，这个输出信号可以进一步作为后续神经元或层的输入。具体来说，激活函数的作用包括以下几个方面：（1）引入非线性：激活函数的核心功能之一是引入非线性因素。由于神经网络的线性组合本身仍然是线性的，如果不使用激活函数，那么无论网络有多少层
神经网络常见激活函数 7-ELU函数亲持红叶神经网络常见激活函数深度学习机器学习人工智能数学建模神经网络
文章目录ELU函数+导函数函数和导函数图像优缺点pytorch中的ELU函数tensorflow中的ELU函数ELU指数线性单元：ELU（ExponentialLinearUnit）函数+导函数ELU函数ELU={xx>=0α(ex−1)x=0\\\alpha(e^x-1)\quad&x=0x=0αexx=0\\\alphae^x\quad&x=0x0,x,alpha*(np.exp(x)-1))
AI应用完整加载数据集配置神经网络配置训练信息训练模型与保存模型到本地------AI 旧约Alatus AI 软件架构设计人工智能 stable diffusion chatgpt AIGC DALL·E 2 AI-native bard
packagecom.alatus.djl.web;importai.djl.Application;importai.djl.MalformedModelException;importai.djl.Model;importai.djl.basicdataset.cv.classification.ImageFolder;importai.djl.basicdataset.cv.classifi
深入解析ReLU激活函数的优缺点及其平衡策略 weixin_40941102 深度学习人工智能
ReLU（RectifiedLinearUnit）是一种常用的激活函数，广泛应用于深度神经网络中。它有其优缺点，在不同场景下需要权衡使用。以下是对ReLU优缺点的详细解析及其平衡方式的建议：优点减少负向因素的影响：解释：ReLU通过设置所有负值为0，只保留正值，这样可以减少负值对模型的影响。影响：这有助于模型更快地收敛，因为梯度不会因为负值而减小，从而避免负向因素对模型训练的不良影响。结论：这使得
TAG，一种用于复杂问题解答的统一模型人工智能
TAG，一种用于复杂问题解答的统一模型阅读时长：19分钟发布时间：2025-02-12近日热文：全网最全的神经网络数学原理（代码和公式）直观解释欢迎关注知乎和公众号的专栏内容LLM架构专栏知乎LLM专栏知乎【柏企】公众号【柏企科技说】【柏企阅文】弥合AI和数据库之间的差距承诺与瓶颈人工智能（AI）正在迅速改变我们与数据交互的方式。强大的语言模型（LM）的出现为以更自然、更直观的方式查询和分析信息开
【2025版】最新AI大模型NLP全面解析，零基础入门到精通，收藏这篇就够了程序员二飞人工智能自然语言处理服务器学习知识图谱
近年来，随着深度学习技术的飞速发展，AI大模型作为人工智能领域的重要研究对象，正逐步成为学术界和产业界广泛关注的热点议题。AI大模型，作为一类具备庞大参数规模与卓越学习能力的神经网络模型，如BERT、GPT等，已在自然语言处理、计算机视觉等多个领域展现出卓越成效，极大地推动了相关领域的技术进步。前排提示，文末有大模型AGI-CSDN独家资料包哦！AI大模型的价值不仅体现于其庞大的参数规模与强大的学
常见目录和文件被放养的研究生计算机视觉计算机视觉 python
常见目录data——存放数据集models——存放模型utils——通常会包含一些用于数据预处理的函数，这些函数的目的是将原始数据转换为适合神经网络输入的格式。激活函数、损失函数常见文件detec.py——传入参数，调用modelstrain.py——传入参数，调用models，学习率test.py——复现最佳结果main.py——定义一些参数。比如模型参数，epoch，patchsize，数据集
【野生动物识别系统】Python+深度学习+人工智能+卷积神经网络算法+TensorFlow+ResNet+图像识别图像识别深度学习
一、介绍动物识别系统，使用Python作为主要开发语言，基于深度学习TensorFlow框架，搭建卷积神经网络算法。并通过对18种动物数据集进行训练，最后得到一个识别精度较高的模型。并基于Django框架，开发网页端操作平台，实现用户上传一张动物图片识别其名称。目前可识别的动物有：'乌龟','云豹','变色龙','壁虎','狞猫','狮子','猎豹','美洲狮','美洲虎','老虎','蜥蜴','
让 LLM 来评判 | 选择 LLM 评估模型人工智能llm
基础概念这是让LLM来评判系列文章的第一篇，敬请关注系列文章:基础概念选择LLM评估模型设计你自己的评估prompt评估你的评估结果奖励模型相关内容技巧与提示什么是评估模型？评估模型(Judgemodels)是一种用于评估其他神经网络的神经网络。大多数情况下它们用来评估生成文本的质量。评估模型涵盖的范围很广，从小型的特定分类器(例如“垃圾邮件分类器”)到大型的LLM，或大而广、或小而专。使用LLM
Pointnet++改进即插即用系列：全网首发ACConv2d|即插即用，提升特征提取模块性能 AICurator Pointnet++改进专栏 python 深度学习 pytorch 点云 pointnet++
简介：1.该教程提供大量的首发改进的方式，降低上手难度，多种结构改进，助力寻找创新点！2.本篇文章对Pointnet++特征提取模块进行改进，加入ACConv2d，提升性能。3.专栏持续更新，紧随最新的研究内容。目录1.理论介绍2.修改步骤2.1步骤一2.2步骤二2.3步骤三1.理论介绍由于在给定的应用环境中设计合适的卷积神经网络(CNN)架构通常需要大量的人工工作或大量的GPU时间，研究社区正在
神经网络的基本构成和功能西洲啊 AI 人工智能深度学习计算机视觉
神经网络是一种人工神经系统模拟的算法，它通过层次结构处理信息，类似于生物神经系统中的神经元之间的连接。以下是神经网络的基本构成及其功能的详细解释：1.神经元定义：神经元是神经网络的基本单元，通常由一个或多个细胞体、树突和轴突组成。功能：接收输入信号。处理输入信号，通过电化学信号传递给下一层神经元。2.感知机（Perceptron）定义：感知机是最基本的神经网络模型，用于线性分类任务。结构：输入层：
Transformer细节（九）——Transformer位置编码多学学多写写 transformer 深度学习人工智能
一、总述Transformer模型中的位置编码（PositionalEncoding）是用于向模型提供序列中各个元素位置信息的机制。由于Transformer没有卷积神经网络或循环神经网络中固有的序列顺序信息，它必须通过位置编码显式地引入这些信息。二、为什么需要位置编码Transformer模型依赖于自注意力机制（self-attentionmechanism），该机制在计算时对序列中的所有位置一
让 LLM 来评判 | 基础概念 llm人工智能
基础概念这是让LLM来评判系列文章的第一篇，敬请关注系列文章:基础概念选择LLM评估模型设计你自己的评估prompt评估你的评估结果奖励模型相关内容技巧与提示什么是评估模型？评估模型(Judgemodels)是一种用于评估其他神经网络的神经网络。大多数情况下它们用来评估生成文本的质量。评估模型涵盖的范围很广，从小型的特定分类器(例如“垃圾邮件分类器”)到大型的LLM，或大而广、或小而专。使用LLM
【蔬菜识别】Python+深度学习+CNN卷积神经网络算法+TensorFlow+人工智能+模型训练图像识别深度学习人工智能
一、介绍蔬菜识别系统，本系统使用Python作为主要编程语言，通过收集了8种常见的蔬菜图像数据集（'土豆','大白菜','大葱','莲藕','菠菜','西红柿','韭菜','黄瓜'），然后基于TensorFlow搭建卷积神经网络算法模型，通过多轮迭代训练最后得到一个识别精度较高的模型文件。在使用Django开发web网页端操作界面，实现用户上传一张蔬菜图片识别其名称。二、系统效果图片展示三、演示视
【蝴蝶识别】Python+卷积神经网络算法+人工智能+深度学习+计算机课设项目+图像识别+算法模型图像识别人工智能深度学习
一、介绍蝴蝶识别系统，本系统使用Python作为主要开发语言，通过收集了20种蝴蝶图片数据集（'001.黑三线凤蝶','002.褐脉三线凤蝶','003.黄斑翠凤蝶','004.暗脉翠凤蝶','005.密斑翠凤蝶','006.青凤蝶','007.绿带青凤蝶','008.玉带青凤蝶','009.柑橘凤蝶','010.长尾翠凤蝶','011.绿尾翠凤蝶','012.红纹凤蝶','013.黄凤蝶','0
基于Python深度学习的【蘑菇识别】系统~卷积神经网络+TensorFlow+图像识别+人工智能
一、介绍蘑菇识别系统，本系统使用Python作为主要开发语言，基于TensorFlow搭建卷积神经网络算法，并收集了9种常见的蘑菇种类数据集【"香菇（Agaricus）","毒鹅膏菌（Amanita）","牛肝菌（Boletus）","网状菌（Cortinarius）","毒镰孢（Entoloma）","湿孢菌（Hygrocybe）","乳菇（Lactarius）","红菇（Russula）","
springmvc 下 freemarker页面枚举的遍历输出杨白白 enum freemarker
spring mvc freemarker 中遍历枚举 1枚举类型有一个本地方法叫values（），这个方法可以直接返回枚举数组。所以可以利用这个遍历。 enum public enum BooleanEnum { TRUE(Boolean.TRUE, "是"), FALSE(Boolean.FALSE, "否");
实习简要总结 byalias 工作
来白虹不知不觉中已经一个多月了，因为项目还在需求分析及项目架构阶段，自己在这段时间都是在学习相关技术知识，现在对这段时间的工作及学习情况做一个总结：（1）工作技能方面大体分为两个阶段，Java Web 基础阶段和Java EE阶段 1）Java Web阶段在这个阶段，自己主要着重学习了 JSP, Servlet, JDBC, MySQL，这些知识的核心点都过了一遍，也
Quartz——DateIntervalTrigger触发器 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208559 一.概述 simpleTrigger 内部实现机制是通过计算间隔时间来计算下次的执行时间，这就导致他有不适合调度的定时任务。例如我们想每天的 1：00AM 执行任务，如果使用 SimpleTrigger，间隔时间就是一天。注意这里就会有一个问题，即当有 misfired 的任务并且恢复执行时，该执行时间
Unix快捷键 18289753290 unix Unix；快捷键;
复制，删除，粘贴： dd:删除光标所在的行 &nbs
获取Android设备屏幕的相关参数酷的飞上天空 android
包含屏幕的分辨率以及屏幕宽度的最大dp 高度最大dp TextView text = (TextView)findViewById(R.id.text); DisplayMetrics dm = new DisplayMetrics(); text.append("getResources().ge
要做物联网？先保护好你的数据蓝儿唯美数据
根据Beecham Research的说法，那些在行业中希望利用物联网的关键领域需要提供更好的安全性。在Beecham的物联网安全威胁图谱上，展示了那些可能产生内外部攻击并且需要通过快速发展的物联网行业加以解决的关键领域。 Beecham Research的技术主管Jon Howes说：“之所以我们目前还没有看到与物联网相关的严重安全事件，是因为目前还没有在大型客户和企业应用中进行部署，也就
Java取模（求余）运算随便小屋 java
整数之间的取模求余运算很好求，但几乎没有遇到过对负数进行取模求余，直接看下面代码： /** * * @author Logic * */ public class Test { public static void main(String[] args) { // TODO A
SQL注入介绍 aijuans sql注入
二、SQL注入范例这里我们根据用户登录页面 <form action="" > 用户名：<input type="text" name="username"><br/> 密码：<input type="password" name="passwor
优雅代码风格 aoyouzi 代码
总结了几点关于优雅代码风格的描述：代码简单：不隐藏设计者的意图，抽象干净利落，控制语句直截了当。接口清晰：类型接口表现力直白，字面表达含义，API 相互呼应以增强可测试性。依赖项少：依赖关系越少越好，依赖少证明内聚程度高，低耦合利于自动测试，便于重构。没有重复：重复代码意味着某些概念或想法没有在代码中良好的体现，及时重构消除重复。战术分层：代码分层清晰，隔离明确，
布尔数组百合不是茶 java 布尔数组
androi中提到了布尔数组; 布尔数组默认的是false, 并且只会打印false或者是true 布尔数组的例子; 根据字符数组创建布尔数组 char[] c = {'p','u','b','l','i','c'}; //根据字符数组的长度创建布尔数组的个数 boolean[] b = new bool
web.xml之welcome-file-list、error-page bijian1013 java web.xml servlet error-page
welcome-file-list 1.定义： <welcome-file-list> <welcome-file>login.jsp</welcome> </welcome-file-list> 2.作用：用来指定WEB应用首页名称。 error-page1.定义： <error-page&g
richfaces 4 fileUpload组件删除上传的文件 sunjing clear Richfaces 4 fileupload
页面代码 <h:form id="fileForm"> <rich:
技术文章备忘 bit1129 技术文章
Zookeeper http://wenku.baidu.com/view/bab171ffaef8941ea76e05b8.html http://wenku.baidu.com/link?url=8thAIwFTnPh2KL2b0p1V7XSgmF9ZEFgw4V_MkIpA9j8BX2rDQMPgK5l3wcs9oBTxeekOnm5P3BK8c6K2DWynq9nfUCkRlTt9uV
org.hibernate.hql.ast.QuerySyntaxException: unexpected token: on near line 1解决方案白糖_ Hibernate
文章摘自：http://blog.csdn.net/yangwawa19870921/article/details/7553181 在编写HQL时，可能会出现这种代码： select a.name,b.age from TableA a left join TableB b on a.id=b.id 如果这是HQL，那么这段代码就是错误的，因为HQL不支持
sqlserver按照字段内容进行排序 bozch 按照内容排序
在做项目的时候，遇到了这样的一个需求：从数据库中取出的数据集，首先要将某个数据或者多个数据按照地段内容放到前面显示，例如:从学生表中取出姓李的放到数据集的前面； select * fro
编程珠玑-第一章-位图排序 bylijinnan java 编程珠玑
import java.io.BufferedWriter; import java.io.File; import java.io.FileWriter; import java.io.IOException; import java.io.Writer; import java.util.Random; public class BitMapSearch {
Java关于==和equals chenbowen00 java
关于==和equals概念其实很简单，一个是比较内存地址是否相同，一个比较的是值内容是否相同。虽然理解上不难，但是有时存在一些理解误区，如下情况： 1、 String a = "aaa"; a=="aaa"; ==> true 2、 new String("aaa")==new String("aaa
[IT与资本]软件行业需对外界投资热情保持警惕 comsci it
我还是那个看法,软件行业需要增强内生动力,尽量依靠自有资金和营业收入来进行经营,避免在资本市场上经受各种不同类型的风险,为企业自主研发核心技术和产品提供稳定,温和的外部环境... 如果我们在自己尚未掌握核心技术之前,企图依靠上市来筹集资金,然后使劲往某个领域砸钱,然
oracle 数据块结构 daizj oracle 块数据块块结构行目录
oracle 数据块是数据库存储的最小单位，一般为操作系统块的N倍。其结构为：块头－－〉空行－－〉数据，其实际为纵行结构。块的标准大小由初始化参数DB_BLOCK_SIZE指定。具有标准大小的块称为标准块（Standard Block）。块的大小和标准块的大小不同的块叫非标准块（Nonstandard Block）。同一数据库中，Oracle9i及以上版本支持同一数据库中同时使用标
github上一些觉得对自己工作有用的项目收集 dengkane github
github上一些觉得对自己工作有用的项目收集技能类 markdown语法中文说明回到顶部全文检索 elasticsearch bigdesk elasticsearch管理插件回到顶部 nosql mapdb 支持亿级别map, list, 支持事务. 可考虑做为缓存使用 C
初二上学期难记单词二 dcj3sjt126com english word
dangerous 危险的 panda 熊猫 lion 狮子 elephant 象 monkey 猴子 tiger 老虎 deer 鹿 snake 蛇 rabbit 兔子 duck 鸭 horse 马 forest 森林 fall 跌倒；落下 climb 爬；攀登 finish 完成；结束 cinema 电影院；电影 seafood 海鲜；海产食品 bank 银行
8、mysql外键(FOREIGN KEY)的简单使用 dcj3sjt126com mysql
一、基本概念 1、MySQL中“键”和“索引”的定义相同，所以外键和主键一样也是索引的一种。不同的是MySQL会自动为所有表的主键进行索引，但是外键字段必须由用户进行明确的索引。用于外键关系的字段必须在所有的参照表中进行明确地索引，InnoDB不能自动地创建索引。 2、外键可以是一对一的，一个表的记录只能与另一个表的一条记录连接，或者是一对多的，一个表的记录与另一个表的多条记录连接。 3、如
java循环标签 Foreach shuizhaosi888 标签 java循环 foreach
1. 简单的for循环 public static void main(String[] args) { for (int i = 1, y = i + 10; i < 5 && y < 12; i++, y = i * 2) { System.err.println("i=" + i + " y="
Spring Security（05）——异常信息本地化 234390216 exception Spring Security 异常信息本地化
异常信息本地化 Spring Security支持将展现给终端用户看的异常信息本地化，这些信息包括认证失败、访问被拒绝等。而对于展现给开发者看的异常信息和日志信息（如配置错误）则是不能够进行本地化的，它们是以英文硬编码在Spring Security的代码中的。在Spring-Security-core-x
DUBBO架构服务端告警Failed to send message Response javamingtingzhao 架构 DUBBO
废话不多说，警告日志如下，不知道有哪位遇到过，此异常在服务端抛出(服务器启动第一次运行会有这个警告)，后续运行没问题，找了好久真心不知道哪里错了。 WARN 2015-07-18 22:31:15,272 com.alibaba.dubbo.remoting.transport.dispatcher.ChannelEventRunnable.run(84)
JS中Date对象中几个用法 leeqq JavaScript Date 最后一天
近来工作中遇到这样的两个需求 1. 给个Date对象，找出该时间所在月的第一天和最后一天 2. 给个Date对象，找出该时间所在周的第一天和最后一天需求1中的找月第一天很简单，我记得api中有setDate方法可以使用使用setDate方法前，先看看getDate var date = new Date(); console.log(date); // Sat J
MFC中使用ado技术操作数据库你不认识的休道人 sql mfc
1.在stdafx.h中导入ado动态链接库 #import"C:\Program Files\Common Files\System\ado\msado15.dll" no_namespace rename("EOF","end")2.在CTestApp文件的InitInstance()函数中domodal之前写::CoIniti
Android Studio加速 rensanning android studio
Android Studio慢、吃内存！启动时后会立即通过Gradle来sync & build工程。（1）设置Android Studio a) 禁用插件 File -> Settings... Plugins 去掉一些没有用的插件。比如：Git Integration、GitHub、Google Cloud Testing、Google Cloud
各数据库的批量Update操作 tomcat_oracle java oracle sql mysql sqlite
MyBatis的update元素的用法与insert元素基本相同，因此本篇不打算重复了。本篇仅记录批量update操作的 sql语句，懂得SQL语句，那么MyBatis部分的操作就简单了。　　注意：下列批量更新语句都是作为一个事务整体执行，要不全部成功，要不全部回滚。 MSSQL的SQL语句　WITH R AS（　　SELECT 'John' as name, 18 as
html禁止清除input文本输入缓存 xp9802 input
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; eg: <input type="text" autocomplete="off" name