Le0v1n

深度学习中常用激活函数分析

0. 引言

0.1 什么是激活函数，有什么作用

激活函数是向神经网络中引入非线性因素，通过激活函数神经网络就可以拟合各种曲线。激活函数主要分为：

饱和激活函数（Saturated Neurons）
非饱和函数（One-sided Saturations）

经典的Sigmoid和Tanh就是典型的饱和激活函数，而ReLU以及其变体为非饱和激活函数。

非饱和激活函数对比饱和激活函数主要有如下优势：

可以解决/抑制梯度消失问题
可以加速收敛

1. 典型的饱和激活函数 —— Sigmoid & Tanh

1.1 Sigmoid激活函数

Sigmoid激活函数及其导函数定义如下：

$\frac{1}{1 + e^{-x}}$
$\frac{e^{-x}}{(1+e^{-x})^2} = S(x)(1-S(x))$

Sigmoid的函数图像和Sigmoid的梯度函数图像分别为下图所示。

从图像可以看出，函数两个边缘的梯度约为 $0$ ，梯度的取值范围为 $(0, 0.25)$ 。这就导致：

Sigmoid极容易导致梯度消失问题。饱和神经元会使得梯度消失问题雪上加霜，假设神经元输入Sigmoid的值特别大或特别小，对应的梯度约等于0，即使从上一步传导来的梯度较大，该神经元权重(w)和偏置(bias)的梯度也会趋近于0，导致参数无法得到有效更新。
计算费时。在神经网络训练中，常常要计算Sigmid的值进行幂计算会导致耗时增加。
Sigmoid函数不是关于原点中心对称的（zero-centered)。

1.1 Tanh激活函数

Tanh激活函数及其导函数定义如下：

$\begin{aligned} \tanh(x) & = \frac{\sinh (x)}{\cosh (x)} \\ & = \frac{e^x - e^{-x}}{e^x + e^{-x}} \end{aligned}$
$tanh '(x) = 1 - \tanh ^2(x)$

Tanh的函数图像和Tanh的梯度函数图像分别为下图所示。

优点：

解决了sigmoid函数收敛变慢的问题，相对于Sigmoid提高了收敛速度。
因为Tanh和Sigmoid的导函数有上下界，所以完全不用担心因为使用激活函数而产生梯度爆炸的问题
Tanh激活函数解决了原点中心对称问题。

缺点：
4. 指数的计算复杂。
5. 梯度消失的问题依旧保留，因为两边的饱和性使得梯度消失，进而难以训练。

2. 单侧饱和的激活函数 —— ReLU

ReLU激活函数及其导函数定义如下：

$\mathrm{ReLU} (x) = \begin{cases} x, & x\ge 0 \\ 0, & \mathrm{otherwise} \end{cases}$
$\mathrm{ReLU}' (x) = \begin{cases} 1, & x\ge 0 \\ 0, & \mathrm{otherwise} \end{cases}$

ReLU的函数图像和ReLU的梯度函数图像分别为下图所示。

根据函数图像我们首先就可以看到，即便输入很大，ReLU也可以让梯度正常的回传，因此ReLU解决梯度消失问题。

2.1 ReLU的优势

ReLU激活函数的提出就是为了解决梯度消失问题。ReLU的梯度只可以取两个值：0或1。

当输入小于0时，梯度为0
当输入大于0时，梯度为1

这样的好处就是：ReLU的梯度的连乘不会收敛到0，连乘的结果也只可以取两个值：0或1 。

如果值为1，梯度保持值不变进行前向传播
如果值为0 ,梯度从该位置停止前向传播

Sigmoid函数是双侧饱和的，即朝着正负两个方向函数值都会饱和；但ReLU函数是单侧饱和的，即只有朝着负方向，函数值才会饱和。严格意义上来说，将ReLU函数值为0的部分称作饱和是不正确的(饱和应该是取值趋近于0)，但效果和饱和是一样的。

假设神经元为检测某种特定特征的开关，高层神经元负责检测高级的/抽象的特征(有着更丰富的语义信息)，例如眼睛或者轮胎；低层神经元负责检测低级的/具象的特征(曲线或者边缘)。

当开关处于开启状态，说明在输入范围内检测到了对应的特征，且正值越大代表特征越明显。加入某个神经元负责检测边缘，则正值越大代表边缘区分越明显(sharp)。

假设一个负责检测边缘的神经元，激活值为1相对于激活值为0.5来说，检测到的边缘区分地更明显；但激活值-1相对于-0.5来说就没有意义了，因为低于0的激活值都代表没有检测到边缘。所以用一个常量值0来表示检测不到特征是更为合理的，像ReLU这样单侧饱和的神经元就满足要求。

单侧饱和还能使得神经元对于噪声干扰更具鲁棒性。假设一个双侧都不饱和的神经元，正侧的不饱和导致神经元正值的取值各不相同，这是所希望的，因为正值的大小代表了检测特征信号的强弱。但负值的大小引入了背景噪声或者其他特征信息，这会给后续的神经元带来无用的干扰且可能导致神经元之间的相关性，相关性是容易造成模型病态的。

例如检测直线的神经元和检测曲线的神经元可能有负相关性。在负值区域单侧饱和的神经元则不会有上述问题，噪声的程度大小被饱和区域都截断为0，避免了无用信息的干扰。

使用ReLU激活函数在计算上也是高效的。相对于Sigmoid函数梯度的计算，ReLU函数梯度取值只有0或1。且ReLU将负值截断为0 ，为网络引入了稀疏性，进一步提升了计算高效性。

2.2 ReLU的缺点 —— 神经元死亡

ReLU最大的缺点便是会导致部分神经元死亡。ReLU带来的稀疏性尽管可以提升计算高效性，但同样也可能阻碍训练过程。

通常，激活函数的输入值有一偏置项(bias)，假设bias变得太小，以至于输入激活函数的值总是负的，那么反向传播过程经过该处的梯度恒为0,对应的权重和偏置参数此次无法得到更新。如果对于所有的样本输入，该激活函数的输入都是负的，那么该神经元再也无法学习，称为神经元死亡问题。

2.3 ReLU总结

优点：—— 与 Sigmoid和Tanh激活函数相比

解决梯度消失问题
作为单侧饱和的激活函数，其特性非常符合神经元的工作原理
将神经元负值置0（负值截断特性），增强神经元对噪声的鲁棒性
为网络带来稀疏性 —— 相当于正则项，将模型部分简化
计算简单，计算高效，可以提升网络的推理速度

缺点：

因为负值阶段特性，会导致部分神经元死亡，无法反向传播

3. ReLU变体 — Leaky ReLU

为解决ReLU带来的神经元死亡问题，引入Leaky ReLU。

3.1 函数及其导函数

$\mathrm{Leaky ReLU} = \begin{cases} x, & x > 0 \\ \alpha x, & x \le 0 \end{cases}$
$\mathrm{Leaky ReLU}' = \begin{cases} 1, & x > 0 \\ -\alpha, & x \le 0 \end{cases}$

$\alpha$ 默认为 $0.01$ ，Leaky ReLU及其导函数图像：

3.2 Leaky ReLU的优点

Leaky ReLU的提出就是为了解决神经元”死亡“问题，Leaky ReLU与ReLU很相似，仅在输入小于0的部分有差别，ReLU输入小于0的部分值都为0，而LeakyReLU输入小于0的部分，值为负，且有微小的梯度。

使用Leaky ReLU的好处就是：在反向传播过程中，对于Leaky ReLU激活函数输入小于零的部分，也可以计算得到梯度(而不是像ReLU一样值为0)，这样就避免了梯度方向锯齿问题。

3.3 不同 $\alpha$ 的Leaky ReLU激活函数图像

3.4 随机Leaky ReLU

$\alpha$ 的分布满足均值为0，标准差为1的正态分布，该方法叫做随机Leaky ReLU(Randomized Leaky ReLU)。

原论文指出随机Leaky ReLU相比Leaky ReLU能得更好的结果，且给出了参数 $\alpha$ 的经验值 —— $\frac{1}{5.5}$ (好于0.01)。

至于为什么随机Leaky ReLU能取得更好的结果，解释之一就是：随机Leaky ReLU小于0部分的随机梯度，为优化方法引入了随机性，这些随机噪声可以帮助参数取值跳出局部最优和鞍点。

4. ReLU变体 — PReLU

函数及其导数定义如下：

$\mathrm{PReLU} = \begin{cases} x, & x > 0 \\ \alpha x, & x \le 0 \end{cases}$
$\mathrm{PReLU}' = \begin{cases} 1, & x > 0 \\ -\alpha, & x \le 0 \end{cases}$

PReLU (Parametrized ReLU)和Leaky ReLU比较相似，唯一不同是： $\alpha$ 并非人为设计，而是一个可学习参数。

5. ReLU变体 — ELU(Exponential Linear Unit)

5.1 理想激活函数的条件

理想的激活函数应满足两个条件：

输出的分布是零均值的，可以加快训练速度。
激活函数是单侧饱和的，可以更好的收敛。

ReLU满足第2个条件，不满足第1个条件
LeakyReLU和PReLU满足第1个条件，但不满足第2个条件

5.2 ELU及其导函数定义

两个条件都满足的激活函数为ELU(Exponential Linear Unit)，其导函数定义如下：

$\mathrm{ELU} = \begin{cases} x, & x > 0 \\ \alpha(e^x - 1), & x \le 0 \end{cases}$
$\mathrm{ELU}' = \begin{cases} 1, & x > 0 \\ -\alpha e^x, & x \le 0 \end{cases}$

其中， $\alpha$ 一般取 $1$ 。其函数及其导函数图像如下：

可以看到：

当 $\ge 0$ 时，ELU=ReLU；
当 $x < 0$ 时，ELU的下限为 $-\alpha$ ，无限趋近于 $-\alpha$

5.4 ELU激活函数的优点

当激活值的均值非0时，就会对下一层造成一个bias，如果激活值之间不会相互抵消（即均值非0），会导致下一层的激活单元有bias shift。如此叠加，单元越多时，bias shift就会越大。

除了ReLU，其它激活函数都将输出的平均值接近0，从而加快模型收敛，类似于Batch Normalization的效果，但是计算复杂度更低。

虽然LeakReLU和PReLU都也有负值，但是它们不保证在不激活状态下（就是在输入为负的状态下）对噪声鲁棒。

反观ELU在输入取较小值时具有软饱和的特性，提升了对噪声的鲁棒性。

5.3 ELU激活函数的缺点

使用ELU的神经网络训练和推理都会更慢一些，因为需要更复杂的指数运算得到函数激活值。

一般涉及到 $e^x$ 的激活函数计算量都比较大。

6. ReLU变体 — SELU激活函数

6.1 函数及其导函数定义

SELU(Scaled Exponential Linear Units，缩放指数线性单元)其函数及其导函数定义如下：
$\mathrm{SELU} = \lambda \begin{cases} x, & x > 0 \\ \alpha e^x - \alpha, & x \le 0 \end{cases}$
$\mathrm{SELU}'= \lambda \begin{cases} 1, & x > 0 \\ -\alpha e^x, & x \le 0 \end{cases}$

其中：

$\approx 1.6732632423543772848170429916717$
$\lambda \approx 1.0507009873554804934193349852946$

可以看到，它们的小数点后还有很多位，这是为了绝对精度。而且它们是预先确定的，也就是说我们不必担心如何为这个激活函数选取合适的 $\alpha$ 值。说实话，这个公式看起来和其它公式或多或少有些类似。所有新的激活函数看起来就像是其它已有的激活函数的组合。

其函数及其导函数图像如下所示：

6.2 SELU的注意事项

当实际应用这个激活函数时，必须使用 lecun_normal 进行权重初始化
如果希望应用 dropout，则应当使用 AlphaDropout

6.3 SELU激活函数的优点

内部归一化的速度比外部归一化快，这意味着网络能更快收敛
不可能出现梯度消失或爆炸问题

6.4 SELU激活函数的缺点

这个激活函数相对较新——需要更多论文比较性地探索其在 CNN 和 RNN 等架构中应用。

使用19年使用 SELU 的 CNN 论文：Effectiveness of Self Normalizing Neural Networks for Text Classification
[该论文的摘要] 在前馈神经网络（FNN）上提出的自归一化神经网络（SNN）在各种机器学习任务中的表现优于常规FNN架构。特别是在计算机视觉领域，为SNNs提出的激活函数Scaled Exponential Linear Units（SELU）比其他非线性激活（如ReLU）表现得更好。SNN的目标是为正常化的输入产生一个正常化的输出。已有的神经网络架构，如前馈网络和卷积神经网络（CNN），缺乏规范化输出的内在性质。因此，需要额外的层，如批量归一化。尽管SNNs取得了成功，但它们在CNN等其他网络架构上的特征还没有被探索出来，尤其是在自然语言处理领域。在本文中，我们旨在展示拟议的自归一化卷积神经网络（SCNN）在文本分类中的有效性。我们分析了它们与标准CNN架构在几个文本分类数据集上的表现。我们的实验表明，SCNN以明显较少的参数取得了与标准CNN模型相当的结果。此外，在参数数量相同的情况下，它的性能也优于CNN。

7. ReLU变体 — GELU

高斯误差线性单元（Gaussian Error Linear Units, GELUs）激活函数在最近的 Transformer 模型（谷歌的 BERT 和 OpenAI 的 GPT-2）中得到了应用。GELU 的论文来自 2016 年，但直到最近才引起关注。

7.1 函数及其导函数定义

$\begin{aligned} \mathrm{GELU} & = x \times \Phi(x) \\ & = 0.5x \left(1 + \tanh(\sqrt{\frac{2}{\pi}}(x + 0.044715x^3))\right) \end{aligned}$

其中 $P h i (x)$ 表示高斯分布的累积概率分布，即在 $(-\infty, x]$ 区间对高斯分布的定积分。一般 $P h i (x)$ 常见的是均值为0，方差为1的版本。

$\begin{aligned} \mathrm{GELU}' & = 0.5 \tanh(0.0356774x^3 + 0.797885x) \\ & + (0.0535161x^3 + 0.398942x)\text{sech}^2(0.0356774x^3 + 0.797885x) + 0.5 \end{aligned}$
$\begin{aligned} \text{sech}(x) & = \frac{1}{\text{ch}(x)}\\ & = \frac{2}{e^x + e^{-x}} \end{aligned}$

当方差为无穷大，均值为0的时候，GeLU就等价于ReLU了。GELU可以当作为RELU的一种平滑策略。

其函数及其导函数图像如下：

可以看出：

当 x 大于 0 时，输出为 x
但 x=0 到 x=1 的区间除外，这时曲线更偏向于 y 轴 (y > x)
当 x > 1，可以近似看成是ReLU（但是GELU的实现比ReLU要复杂得多）

7.2 GELU激活函数的优点

似乎是 NLP 领域的当前最佳
在 Transformer 模型中表现最好
能避免梯度消失问题。

7.3 GELU激活函数的缺点

尽管是 2016 年提出的，但在实际应用中还是一个相当新颖的激活函数，因此工程经验没有像ReLU那么丰富
计算量大，影响模型推理速度

7.4 GELU在使用中的建议

当训练过程中使用GELU作为激活函数进行训练的时候，建议使用一个带有动量(momentum)的优化器。

8. ReLU变体 — Mish激活函数

8.1 函数及其导函数定义

Mish: A Self Regularized Non-Monotonic Neural Activation Function，其函数及其导函数定义如下：

$\begin{aligned} & \mathrm{Mish} = x \times \tanh(\ln(1+e^x))\\ & \ln(1 + e^x) = \mathrm{softplus} \end{aligned}$
$\begin{aligned} & \mathrm{Mish}' = \frac{e^x \omega}{\delta^2} \\ & \omega = 4(x + 1) + 4e^{2x} + e^{3x} + e^x(4x+6) \\ & \delta = 2e^x + e^{2x} + 2 \end{aligned}$

其图像为：

8.2 Mish激活函数的优点

上无界，下有界，上无界避免了由于封顶导致的饱和，理论上对负值的轻微允许可以有更好的梯度流，而不是像ReLU中的硬零边界，下有界能带来正则效果，减少过拟合
平滑的激活函数允许更好的信息深入神经网络，从而得到更好的准确性和泛化，Mish主要是在光滑性上优于其他的激活函数
非单调性

8.3 Mish激活函数的缺点

看函数和其导函数就知道，计算量爆炸

8. ReLU变体 — Swish激活函数

8.1 函数及其导函数定义

$\begin{aligned} \mathrm{Swish} & = x \times \sigma(\beta x) \\ & = \frac{x}{1 + e^{-\beta x}} \end{aligned}$
$\mathrm{Swish}' = \sigma(\beta x) + x \beta [\sigma(\beta x)(1 - \sigma(\beta x))]$

$\beta$ 可以是常数也可以是可学习的参数。当 $\beta = 0$ 时，Swish就变成了一个线性函数，当 $\beta$ 趋于 $\infty$ 时，Swish就变成了ReLU。

函数图像如下：

8.2 Swish激活函数的优点

上无界，下有界
平滑的，非单调的，大部分常见的激活函数都是单调的
非单调
处处连续且可导，更容易训练

8.3 Swish激活函数的缺点

计算量大 —— 影响模型前向推理速度
不稳定 —— 在不同的任务中可能产生不同的效果，不一定优于ReLU

8. ReLU变体 — SiLU激活函数

SiLU激活函数和Swish激活函数是一样的，不知道谁抄了抄谁。

9. 如何选择合适的激活函数？

除非在二分类问题中，否则请小心使用Sigmoid函数
可以试试Tanh，不过大多数情况下它的效果会比不上 ReLU 和 Maxout
如果你不知道应该使用哪个激活函数，那么请优先选择ReLU —— 如无必要，勿增实体，优先选择最简单的
ReLU相较于其他激活函数，有着最低的计算代价和最简单的代码实现
如果你使用了ReLU，需要注意一下Dead ReLU问题，此时你需要仔细选择 Learning rate，避免出现大的梯度从而导致过多的神经元 “Dead” 。
如果发生了Dead ReLU问题，可以尝试一下Leaky ReLU，ELU等ReLU变体，说不定会有很好效果。
有能力生成零均值分布的激活函数，相较于其他激活函数更优，注意：
1. 这些变体通过会花费更多的计算资源，会影响网络推理速度；
2. 当网络表现出过拟合时，随机ReLU可能会有帮助；
3. 对PReLU来说，因为增加了需要学习的参数，当且仅当有很多训练数据时才可以试试PReLU的效果

10. 梯度爆炸

梯度误差是在神经网络训练期间计算的方向和梯度，神经网络以正确的方向和数值更新网络权重。在深度网络或递归神经网络中，梯度误差可能在更新过程中累积，造成非常大的梯度。这反过来会导致网络权重的大量更新，进而导致网络不稳定。在极端情况下，权重值可能变得太大，以至于溢出并导致NaN值现成梯度爆炸现象。

梯度爆炸是通过指数增长发生的，通过在网络层（其值大于1.0）中重复乘以梯度。

10.1 梯度爆炸现象

10.1.1 比较明显的现象

模型无法“加入”训练数据，比如损失函数很差
模型不稳定，每次更新的损失变化很大
模型损失在训练过程中变为NaN

10.1.2 不太明显的现象

模型权重在训练期间很快变化很大
模型权重在训练过程中变为NaN
训练期间每个节点和层的梯度误差始终高于1.0

10.2 如何解决梯度爆炸

重现设计神经网络
减少网络层数、减小batch szie、截断梯度
使用LSTM
使用梯度裁剪 (clipnorm=1.0 clipvalue=0.5)
使用权重正则 —— L1 & L2

11. 常见相关面试题

Q1：什么是激活函数，为什么需要激活函数？

激活函数是在神经网络层间输入与输出之间的一种函数变换，目的是为了加入非线性因素，增强模型的表达能力。

Q2：了解那些激活函数以及应用？

回答主要分两类（饱和/非饱和），以及应用场景等。有时候可能特定到具体经典模型，比如:

LSTM用到Tanh
Transfromer中用到ReLU
Bert中用到GeLU
YOLO用到Leaky ReLU
…

Q3：梯度消失与梯度爆炸现象与原因以及解决办法？

参看梯度消失与梯度爆炸部分。

Q4：ReLU激活函数为什么会出现死神经元，解决办法？

除上文提到输入为负值时，ReLU的梯度为0造成神经元死亡。还有Learning rate太高导致在训练过程中参数更新太大。

解决办法主要有：

优化参数
避免将learning rate设置太大，或者使用Adam等自动调节learning rate的方法
更换激活函数

Q5：如何选择激活函数？

参看激活函数选择部分，亦可加入特定模型的使用分析。

参考

https://zhuanlan.zhihu.com/p/427541517
https://zhuanlan.zhihu.com/p/172254089
https://zhuanlan.zhihu.com/p/98863801
https://blog.csdn.net/Roaddd/article/details/114794071

2025前端面试题全攻略：高频考点解析与实战指南
助力金三银四跳槽季，覆盖90%大厂核心考点，技术进阶+面试技巧双提升一、HTML/CSS核心篇1.语义化与布局实战问题1：如何用HTML5语义化标签优化新闻详情页？答案要点：使用包裹主体内容，划分章节标记发布时间，+处理图文SEO优势：提升关键内容权重，增强可访问性问题2：实现等间距三栏布局（中间自适应）.container{display:flex;gap:20px;/*关键：替代margin方
基于YOLOv8的火灾智能检测系统设计与实现斟的是酒中桃深度学习人工智能 pyqt yolo
在各类安全事故中，火灾因其突发性强、破坏力大，一直是威胁人们生命财产安全的重大隐患。传统的火灾检测方式多依赖烟雾传感器、温度传感器等，存在响应滞后、易受环境干扰等问题。随着深度学习技术的飞速发展，基于计算机视觉的火灾检测方法凭借其实时性强、检测范围广等优势，逐渐成为研究热点。本文将简单介绍一款基于深度学习的火灾智能检测系统的设计与实现过程。一、系统整体设计本火灾智能检测系统旨在通过深度学习技术实现
人工智能入门指南：从基础概念到实际应用
前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站。https://www.captainbed.cn/north文章目录1.**人工智能的基本概念**1.1什么是人工智能？1.2人工智能的分类2.**人工智能的核心技术**2.1机器学习（MachineLearning）2.1.1机器学习的类型2.1.2机器学习流程2.2深度学习（DeepLearni
Java与机器学习的邂逅：Weka框架入门指南墨夶 Java学习资料1 java 机器学习数据挖掘
在这个数据驱动的时代，机器学习已经成为各行业创新和优化的关键技术。而Java，作为一门成熟且广泛应用的编程语言，在企业级应用开发中占据着重要地位。将二者结合起来，利用Java实现机器学习算法，不仅可以充分发挥其强大的生态系统优势，还能为开发者提供一个高效、稳定的开发环境。今天，我们将带您走进Java与机器学习的世界，探索如何使用Weka这一著名的机器学习库来开启您的智能之旅。Weka简介及其优势什
机器学习基础：从数据到智能的入门指南
一、何谓机器学习在我们的日常生活中，机器学习的身影无处不在。当你打开购物软件，它总能精准推荐你可能喜欢的商品；当你解锁手机，人脸识别瞬间完成；当你使用语音助手，它能准确理解你的指令。这些背后，都离不开机器学习的支撑。机器学习是一门让计算机能够从数据中学习并改进的学科。随着传感器技术的飞速发展，我们身边充满了各种传感器，如手机中的摄像头、麦克风，交通监控中的传感器等，它们收集了海量的数据。这些数据就
Datawhale X 魔塔 Ai夏令营 --深度学习基础
一、局部极小值与全局极小值全局极小值：在损失函数的整个定义域内，损失值最小的点。这是我们在训练深度学习模型时希望找到的点，因为它代表着模型的最佳性能。局部极小值：在损失函数的一个局部区域内，损失值达到最小，但在整个函数定义域内可能不是最小的。当优化算法陷入局部极小值时，它可能会误以为已经找到了全局最优解，从而停止搜索。局部极小值的检测两种直观的方法来检测局部极小值：可视化方法：对于低维问题，我们可
Unet源码实现（pytorch） wyn20001128 pytorch 人工智能 python
U-Net是一种用于生物医学图像分割的卷积神经网络架构。它通过引入一种新颖的网络结构和训练策略解决了传统方法在数据量不足时面临的挑战。U-Net的主要思想是利用数据增强技术来高效利用有限的标注样本，并通过独特的网络设计来提高分割精度。主要贡献U-Net的主要贡献包括：1、数据增强策略：使用随机弹性变形和其他形式的数据增强来增加训练数据的多样性，从而在有限的数据集上训练出更强大的模型。2、U形网络结
深度学习模块实践手册（第十二期）加油吧zkf 目标检测目标检测模块解析与实践深度学习人工智能计算机视觉目标检测 python
56、Ghost模块论文《GhostNet:MoreFeaturesfromCheapOperations》1、作用：Ghost模块是一种轻量级的特征提取模块，旨在通过廉价操作生成更多特征图，减少计算量的同时保持模型性能。传统卷积神经网络在生成特征图时存在大量冗余计算，Ghost模块通过将特征图生成过程分解为两个步骤，有效减少了计算复杂度，特别适合移动端和嵌入式设备部署。2、机制Ghost模块的机
DETR革命：目标检测的Transformer时代加油吧zkf 目标检测 YOLO python 开发语言人工智能图像处理
《DETR从0到1：目标检测Transformer的崛起》为什么会有DETR？在深度学习目标检测发展史上，2014~2019年几乎被基于卷积神经网络（CNN）的检测器统治：两阶段：FasterR-CNN、MaskR-CNN单阶段：YOLO、SSD、RetinaNet这些检测器虽然效果强大，但背后依赖：✅Anchor（先验框）✅NMS（非极大值抑制）✅特征金字塔、手工设计问题：结构复杂、调参困难、不
基于探路者算法优化的正则化极限学习机(RELM)的分类问题求解
基于探路者算法优化的正则化极限学习机(RELM)的分类问题求解文章目录基于探路者算法优化的正则化极限学习机(RELM)的分类问题求解1.RELM原理2.分类问题求解3.基于探路者算法优化的RELM4.实验结果5.Matlab代码1.RELM原理极限学习机(ELM)具有训练速度快、泛化性能好的优点。极限学习机的结构是一种典型的单隐层前馈神经网络(SLFN)。极限学习机的结构见图RELM算法：若NNN
深度学习模块实践手册（第十一期）加油吧zkf 目标检测目标检测模块解析与实践深度学习人工智能计算机视觉目标检测 python
46、缩放点积注意力模块论文《AttentionIsAllYouNeed》1、作用：缩放点积注意力（ScaledDot-ProductAttention）是Transformer模型的核心组件，旨在解决序列建模中长距离依赖关系捕捉的问题。传统的循环神经网络（RNN）在处理长序列时存在梯度消失或爆炸的问题，且并行性较差。该模块通过计算查询（Query）、键（Key）和值（Value）之间的相似度，实
python学生成绩管理系统【完整版】，Python开发基础面试题
name=self.username.get()password=self.password.get()ifname==‘hacker707’andpassword==‘admin’:self.page.destroy()MenuPage(self.root)else:showinfo(title=‘错误’,message=‘账号或密码错误！’)db.pyimportjsonclassStuden
【DL经典回顾】激活函数大汇总（四）（Softmax & Softplus附代码和详细公式）夺命猪头 python 机器学习人工智能神经网络 numpy
激活函数大汇总（四）（Softmax&Softplus附代码和详细公式）更多激活函数见激活函数大汇总列表一、引言欢迎来到我们深入探索神经网络核心组成部分——激活函数的系列博客。在人工智能的世界里，激活函数扮演着不可或缺的角色，它们决定着神经元的输出，并且影响着网络的学习能力与表现力。鉴于激活函数的重要性和多样性，我们将通过几篇文章的形式，本篇详细介绍两种激活函数，旨在帮助读者深入了解各种激活函数的
神经网络项目--基于FPGA的AI简易项目（1-9图片数字识别）霖12 深度学习 pytorch 神经网络 fpga开发人工智能机器学习
1.训练MNIST模型importtorch#导入pytorch核心库importtorch.nnasnn#神经网络模块，如卷积层importtorch.optimasoptim#优化器fromtorchvisionimportdatasets,transforms#数据集与图像预处理工具#定义CNN模型classSimpleCNN(nn.Module):#PyTorch库中所有神经网络的“基础模
基于NanoDet的健身姿势纠正系统开发 YOLO实战营人工智能 NanoDet 深度学习计算机视觉 ui
1.引言在现代健身行业中，正确的运动姿势至关重要，不仅能提升训练效果，还能预防运动损伤。尤其是在进行一些高强度的力量训练时，如深蹲、俯卧撑等，错误的姿势可能导致肌肉不平衡或关节损伤。传统的健身姿势纠正方式依赖教练的人工指导，但随着人工智能技术的发展，使用计算机视觉和深度学习技术来进行姿势纠正，逐渐成为一种高效且可扩展的解决方案。本文将详细介绍如何基于NanoDet（一个轻量化目标检测模型）开发一个
大模型算法工程师技术路线全解析：从基础到资深的能力跃迁 Mr.小海大模型算法数据挖掘人工智能机器学习深度学习机器翻译 web3
文章目录大模型算法工程师技术路线全解析：从基础到资深的能力跃迁一、基础阶段（0-2年经验）：构建核心知识体系与工程入门数学与机器学习基础编程与深度学习框架NLP与Transformer入门二、进阶阶段（2-4年经验）：深化模型技术与工程落地能力大模型预训练与微调技术预训练原理：数据与任务的协同设计微调工具：参数高效适配与工程优化对齐实践：价值观优化与实证效果分布式训练与框架工具并行策略：多维度协同
Go与Python在数据管道与分析项目中的抉择：性能与灵活性的较量真智AI 人工智能 python go
你正在设计一个全新数据管道或启动一个分析项目，此时你或许正在思考该选择Python还是Go。五年前，这甚至不是个值得讨论的问题——你会毫不犹豫地选择Python，故事到此为止。然而，近年来Go在数据领域，尤其是在数据基础设施和实时处理方面，正逐渐被更多人采用。实际上，这两种语言都已在现代数据技术栈中找到了各自的定位。Python依然非常适合机器学习和数据分析，而Go则逐步成为高性能数据基础设施的首
Python爬虫实战：从新浪财经爬取股票新闻的完整实现 Python爬虫项目 python 爬虫开发语言数据分析 php
第一部分：爬虫概述1.1什么是爬虫？爬虫是指通过程序模拟浏览器的行为，自动化地抓取网络上的数据。通过爬虫技术，能够从各种网站上提取信息，广泛应用于数据采集、数据分析、机器学习等领域。1.2新浪财经简介新浪财经是中国最大的财经信息平台之一，提供股票、基金、债券、外汇等多方面的财经新闻和数据。在股票领域，新浪财经提供了大量的股票行情、实时数据、新闻报道等信息，因此爬取新浪财经的股票新闻对于投资分析和决
神经网络常见激活函数 13-Softplus函数亲持红叶神经网络常见激活函数神经网络人工智能深度学习
文章目录Softplus函数+导函数函数和导函数图像优缺点PyTorch中的Softplus函数TensorFlow中的Softplus函数Softplus函数+导函数Softplus函数Softplus⁡(x)=ln⁡(1+e x)\begin{aligned}\operatorname{Softplus}(x)&=\ln\bigl(1+e^{\,x}\bigr)\end{aligned}Sof
AI 智能运维，重塑大型企业软件运维：从自动化到智能化的进阶实践 AI、少年郎人工智能运维自动化
一、引言：企业软件运维的智能化转型浪潮在数字化转型加速的背景下，大型企业软件架构日益复杂，微服务、多云环境、分布式系统的普及导致传统运维模式面临效率瓶颈。AI技术的渗透催生了智能运维（AIOps）的落地，通过机器学习、大模型、智能Agent等技术，实现从"人工救火"到"智能预防"的范式转变。本文结合头部企业实践，解析AI在运维领域的核心应用场景、技术架构及未来趋势，特别针对基础运维中流程重构、技术
Spring AI 概述与功能简介 drebander AI 编程 spring 人工智能 java
SpringAI是一个由Spring团队开发的开源框架，旨在为人工智能（AI）和机器学习（ML）提供一个成熟且高效的开发平台。它将Spring生态系统的设计理念应用于AI开发，尤其强调模块化、可移植性以及简洁的集成。SpringAI提供了丰富的功能，涵盖从AI模型的调用到与数据库的集成等多个方面，帮助开发者构建和管理AI驱动的应用程序。1.SpringAI背景SpringAI的背景源于Spring
在二分类任务中如何处理包含中文的类别特征 Dush32 分类数据挖掘人工智能机器学习数据分析
在机器学习中，处理类别特征（CategoricalFeatures）是常见的任务，特别是在中文数据中，很多类别特征如省份、城市等都是字符串类型。如何将这些类别变量转换为模型可以理解的数值格式，是每个数据科学家都必须面对的挑战。在这篇文章中，我们将探讨两种常见的类别特征编码方法：astype('category')和LabelEncoder，并比较它们在二分类任务中的效果。我们以“省份”这一类别特征
基于用户画像的商品推荐系统 Dush32 机器学习人工智能 python 推荐算法
随着人工智能和大数据技术的进步，产品推荐系统成为了现代广告与电商平台中不可或缺的部分。通过深度挖掘用户的行为数据，能够为广告主提供精准的用户画像，从而更高效地推荐相关产品，提升购买转化率。本项目基于科大讯飞AI营销云大赛的赛题，目的是利用用户画像进行产品推荐，预测用户是否会购买相应商品。我们使用了机器学习的二分类模型，通过分析用户的性别、年龄、常驻地、机型等信息，来判断用户的付费行为。项目目标：本
【深度学习-Day 36】CNN的开山鼻祖：从LeNet-5到AlexNet的架构演进之路吴师兄大模型深度学习入门到精通 python pytorch 开发语言人工智能 CNN 深度学习大模型
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
Vite 项目构建优化详解 aiguangyuan Vite 前端开发 Vite
1.相关面试题1.1.Vite相比Webpack有哪些优势？Vite相较于Webpack的主要优势包括：极速启动：Vite使用原生ES模块进行开发时的依赖加载，无需像Webpack一样对整个项目进行预打包。因此，Vite的冷启动速度非常快，尤其是在大型项目中尤为明显。即时热更新（HMR）：Vite的HMR速度更快更灵敏，因为它基于ES模块，仅更新受影响的模块，而不需要重新构建整个包。更少的配置：V
AI原生应用领域多租户的技术架构剖析 AI天才研究院 AI-native 架构人工智能 ai
AI原生应用领域多租户技术架构深度剖析元数据框架标题：AI原生应用多租户技术架构：从隔离性到智能化的分层设计与实践关键词：AI原生应用、多租户架构、数据隔离、模型共享、云原生租户管理摘要：本文系统解析AI原生应用场景下多租户技术架构的核心设计逻辑，覆盖从数据层到模型层的全栈隔离与共享机制。通过第一性原理推导，结合云原生、机器学习生命周期管理（MLOps）等技术范式，提出包含租户上下文管理、动态资源
Python爬虫实战：批量下载小红书笔记图片的全流程技术解析 Python爬虫项目 2025年爬虫实战项目 python 爬虫笔记开发语言音视频 github
1.引言：为什么要爬取小红书笔记图片小红书作为新兴的生活方式分享平台，聚集了大量高质量原创笔记内容，涵盖时尚、美妆、旅游、美食等多领域。笔记中的图片往往是内容的核心，批量下载小红书笔记图片，有助于：内容归档与备份数据分析与用户行为研究图像识别与机器学习训练电商推广及内容再加工但小红书对内容保护做得较好，爬取难度较高，需要结合多技术手段突破。2.小红书平台特点与爬取难点动态加载与API接口多变：页面
人脸识别实战：使用Python OpenCV 和深度学习进行人脸识别(2)
先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！因此收集整理了一份《2024年最新Python全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课
【机器学习】必会降维算法之：独立成分分析（ICA） Carl_奕然机器学习算法人工智能
独立成分分析（ICA）1、引言2、独立成分分析（ICA）2.0引言2.1定义2.2应用场景2.3核心原理2.4实现方式2.5算法公式2.6代码示例3、总结1、引言小屌丝：鱼哥，最近胡塞武装很哇塞啊。小鱼：你什么时候开始关注军事了？小屌丝：这…还用关注吗？都上新闻了。小鱼：嗯，那你知道胡塞武装为什么这么厉害吗？小屌丝：额…当然是光脚不怕穿鞋的。小鱼：…你可真是…小屌丝：真是啥？小鱼：一个字，自己体会
神经网络：从模式组合到多层神经网络的进化 MoonlitHan 人工智能
这两张图展示了神经网络如何从“简单判断”进化到“复杂识别”：1.模式组合：让神经网络“拆分任务”第一张图的核心是“模式组合”：比如识别数字3时，网络会把任务拆成“识别左半部分”和“识别右半部分”；中间的神经元专门负责提取局部特征（比如左半部分的曲线、右半部分的直线）；最终输出层的y₃和y₈会综合这些局部特征，判断图片是不是数字3或8。2.多层神经网络：让AI学会“分层思考”第二张图展示了多层神经网
关于旗正规则引擎中的MD5加密问题何必如此 jsp MD5 规则加密
一般情况下，为了防止个人隐私的泄露，我们都会对用户登录密码进行加密，使数据库相应字段保存的是加密后的字符串，而非原始密码。在旗正规则引擎中，通过外部调用，可以实现MD5的加密，具体步骤如下： 1.在对象库中选择外部调用，选择“com.flagleader.util.MD5”，在子选项中选择“com.flagleader.util.MD5.getMD5ofStr({arg1})”； 2.在规
【Spark101】Scala Promise/Future在Spark中的应用 bit1129 Promise
Promise和Future是Scala用于异步调用并实现结果汇集的并发原语，Scala的Future同JUC里面的Future接口含义相同，Promise理解起来就有些绕。等有时间了再仔细的研究下Promise和Future的语义以及应用场景，具体参见Scala在线文档：http://docs.scala-lang.org/sips/completed/futures-promises.html
spark sql 访问hive数据的配置详解 daizj spark sql hive thriftserver
spark sql 能够通过thriftserver 访问hive数据，默认spark编译的版本是不支持访问hive，因为hive依赖比较多，因此打的包中不包含hive和thriftserver,因此需要自己下载源码进行编译，将hive，thriftserver打包进去才能够访问，详细配置步骤如下： 1、下载源码 2、下载Maven,并配置此配置简单，就略过
HTTP 协议通信周凡杨 java httpclient http 通信
一：简介 HTTPCLIENT，通过JAVA基于HTTP协议进行点与点间的通信！二：代码举例测试类： import java
java unix时间戳转换 g21121 java
把java时间戳转换成unix时间戳： Timestamp appointTime=Timestamp.valueOf(new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").format(new Date())) SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd hh:m
web报表工具FineReport常用函数的用法总结（报表函数）老A不折腾 web报表 finereport 总结
说明：本次总结中，凡是以tableName或viewName作为参数因子的。函数在调用的时候均按照先从私有数据源中查找，然后再从公有数据源中查找的顺序。 CLASS CLASS(object):返回object对象的所属的类。 CNMONEY CNMONEY(number,unit)返回人民币大写。 number:需要转换的数值型的数。 unit:单位，
java jni调用c++ 代码报错墙头上一根草 java C++jni
# # A fatal error has been detected by the Java Runtime Environment: # # EXCEPTION_ACCESS_VIOLATION (0xc0000005) at pc=0x00000000777c3290, pid=5632, tid=6656 # # JRE version: Java(TM) SE Ru
Spring中事件处理de小技巧 aijuans spring Spring 教程 Spring 实例 Spring 入门 Spring3
Spring 中提供一些Aware相关de接口，BeanFactoryAware、 ApplicationContextAware、ResourceLoaderAware、ServletContextAware等等，其中最常用到de匙ApplicationContextAware.实现ApplicationContextAwaredeBean，在Bean被初始后，将会被注入 Applicati
linux shell ls脚本样例 annan211 linux linux ls源码 linux 源码
#! /bin/sh - #查找输入文件的路径 #在查找路径下寻找一个或多个原始文件或文件模式 # 查找路径由特定的环境变量所定义 #标准输出所产生的结果通常是查找路径下找到的每个文件的第一个实体的完整路径 # 或是filename :not found 的标准错误输出。 #如果文件没有找到则退出码为0 #否则即为找不到的文件个数 #语法 pathfind [--
List,Set,Map遍历方式 (收集的资源,值得看一下) 百合不是茶 list set Map遍历方式
List特点：元素有放入顺序，元素可重复 Map特点：元素按键值对存储，无放入顺序 Set特点：元素无放入顺序，元素不可重复（注意：元素虽然无放入顺序，但是元素在set中的位置是有该元素的HashCode决定的，其位置其实是固定的） List接口有三个实现类：LinkedList，ArrayList，Vector LinkedList：底层基于链表实现，链表内存是散乱的，每一个元素存储本身
解决SimpleDateFormat的线程不安全问题的方法 bijian1013 java thread 线程安全
在Java项目中，我们通常会自己写一个DateUtil类，处理日期和字符串的转换，如下所示： public class DateUtil01 { private SimpleDateFormat dateformat = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); public void format(Date d
http请求测试实例（采用fastjson解析） bijian1013 http 测试
在实际开发中，我们经常会去做http请求的开发，下面则是如何请求的单元测试小实例，仅供参考。 import java.util.HashMap; import java.util.Map; import org.apache.commons.httpclient.HttpClient; import
【RPC框架Hessian三】Hessian 异常处理 bit1129 hessian
RPC异常处理概述 RPC异常处理指是，当客户端调用远端的服务，如果服务执行过程中发生异常，这个异常能否序列到客户端？如果服务在执行过程中可能发生异常，那么在服务接口的声明中，就该声明该接口可能抛出的异常。在Hessian中，服务器端发生异常，可以将异常信息从服务器端序列化到客户端，因为Exception本身是实现了Serializable的
【日志分析】日志分析工具 bit1129 日志分析
1. 网站日志实时分析工具 GoAccess http://www.vpsee.com/2014/02/a-real-time-web-log-analyzer-goaccess/ 2. 通过日志监控并收集 Java 应用程序性能数据(Perf4J) http://www.ibm.com/developerworks/cn/java/j-lo-logforperf/ 3.log.io 和
nginx优化加强战斗力及遇到的坑解决 ronin47 nginx 优化
　　　先说遇到个坑，第一个是负载问题，这个问题与架构有关，由于我设计架构多了两层，结果导致会话负载只转向一个。解决这样的问题思路有两个：一是改变负载策略，二是更改架构设计。　　　由于采用动静分离部署，而nginx又设计了静态，结果客户端去读nginx静态，访问量上来，页面加载很慢。解决：二者留其一。最好是保留apache服务器。　　　来以下优化：　　　
java-50-输入两棵二叉树A和B，判断树B是不是A的子结构 bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/25411174201011445550396/ import ljn.help.*; public class HasSubtree { /**Q50. * 输入两棵二叉树A和B，判断树B是不是A的子结构。例如，下图中的两棵树A和B，由于A中有一部分子树的结构和B是一
mongoDB 备份与恢复开窍的石头 mongDB备份与恢复
Mongodb导出与导入 1: 导入/导出可以操作的是本地的mongodb服务器,也可以是远程的. 所以,都有如下通用选项: -h host 主机 --port port 端口 -u username 用户名 -p passwd 密码 2: mongoexport 导出json格式的文件
[网络与通讯]椭圆轨道计算的一些问题 comsci 网络
如果按照中国古代农历的历法，现在应该是某个季节的开始，但是由于农历历法是3000年前的天文观测数据，如果按照现在的天文学记录来进行修正的话，这个季节已经过去一段时间了。。。。。也就是说，还要再等3000年。才有机会了，太阳系的行星的椭圆轨道受到外来天体的干扰，轨道次序发生了变
软件专利如何申请 cuiyadll 软件专利申请
软件技术可以申请软件著作权以保护软件源代码，也可以申请发明专利以保护软件流程中的步骤执行方式。专利保护的是软件解决问题的思想，而软件著作权保护的是软件代码（即软件思想的表达形式）。例如，离线传送文件，那发明专利保护是如何实现离线传送文件。基于相同的软件思想，但实现离线传送的程序代码有千千万万种，每种代码都可以享有各自的软件著作权。申请一个软件发明专利的代理费大概需要5000-8000申请发明专利可
Android学习笔记 darrenzhu android
1.启动一个AVD 2.命令行运行adb shell可连接到AVD,这也就是命令行客户端 3.如何启动一个程序 am start -n package name/.activityName am start -n com.example.helloworld/.MainActivity 启动Android设置工具的命令如下所示： # am start -
apache虚拟机配置，本地多域名访问本地网站 dcj3sjt126com apache
现在假定你有两个目录，一个存在于 /htdocs/a，另一个存在于 /htdocs/b 。现在你想要在本地测试的时候访问 www.freeman.com 对应的目录是 /xampp/htdocs/freeman ,访问 www.duchengjiu.com 对应的目录是 /htdocs/duchengjiu。 1、首先修改C盘WINDOWS\system32\drivers\etc目录下的
yii2 restful web服务[速率限制] dcj3sjt126com PHP yii2
速率限制为防止滥用，你应该考虑增加速率限制到您的API。例如，您可以限制每个用户的API的使用是在10分钟内最多100次的API调用。如果一个用户同一个时间段内太多的请求被接收，将返回响应状态代码 429 (这意味着过多的请求)。要启用速率限制, [[yii\web\User::identityClass|user identity class]] 应该实现 [[yii\filter
Hadoop2.5.2安装——单机模式 eksliang hadoop hadoop单机部署
转载请出自出处：http://eksliang.iteye.com/blog/2185414 一、概述 Hadoop有三种模式单机模式、伪分布模式和完全分布模式，这里先简单介绍单机模式，默认情况下，Hadoop被配置成一个非分布式模式，独立运行JAVA进程，适合开始做调试工作。二、下载地址 Hadoop 网址http:
LoadMoreListView+SwipeRefreshLayout（分页下拉）基本结构 gundumw100 android
一切为了快速迭代 import java.util.ArrayList; import org.json.JSONObject; import android.animation.ObjectAnimator; import android.os.Bundle; import android.support.v4.widget.SwipeRefreshLayo
三道简单的前端HTML/CSS题目 ini html Web 前端 css 题目
使用CSS为多个网页进行相同风格的布局和外观设置时，为了方便对这些网页进行修改，最好使用（）。http://hovertree.com/shortanswer/bjae/7bd72acca3206862.htm 在HTML中加入<table style=”color:red; font-size:10pt”>，此为（）。http://hovertree.com/s
overrided方法编译错误 kane_xie override
问题描述：在实现类中的某一或某几个Override方法发生编译错误如下： Name clash: The method put(String) of type XXXServiceImpl has the same erasure as put(String) of type XXXService but does not override it 当去掉@Over
Java中使用代理IP获取网址内容（防IP被封，做数据爬虫） mcj8089 免费代理IP 代理IP 数据爬虫 JAVA设置代理IP 爬虫封IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ Java语言有两种方式使用代理IP访问网址并获取内容，方式一，设置System系统属性 // 设置代理IP System.getProper
Nodejs Express 报错之 listen EADDRINUSE qiaolevip 每天进步一点点学习永无止境 nodejs 纵观千象
当你启动 nodejs服务报错： >node app Express server listening on port 80 events.js:85 throw er; // Unhandled 'error' event ^ Error: listen EADDRINUSE at exports._errnoException (
C++中三种new的用法 _荆棘鸟_ C++new
转载自：http://news.ccidnet.com/art/32855/20100713/2114025_1.html 作者: mt 其一是new operator，也叫new表达式；其二是operator new，也叫new操作符。这两个英文名称起的也太绝了，很容易搞混，那就记中文名称吧。new表达式比较常见，也最常用，例如： string* ps = new string("
Ruby深入研究笔记1 wudixiaotie Ruby
module是可以定义private方法的 module MTest def aaa puts "aaa" private_method end private def private_method puts "this is private_method" end end

深度学习中常用激活函数分析

0. 引言

0.1 什么是激活函数，有什么作用

1. 典型的饱和激活函数 —— Sigmoid & Tanh

1.1 Sigmoid激活函数

1.1 Tanh激活函数

2. 单侧饱和的激活函数 —— ReLU

2.1 ReLU的优势

2.2 ReLU的缺点 —— 神经元死亡

2.3 ReLU总结

3. ReLU变体 — Leaky ReLU

3.1 函数及其导函数

3.2 Leaky ReLU的优点

3.3 不同 α \alpha α的Leaky ReLU激活函数图像

3.4 随机Leaky ReLU

4. ReLU变体 — PReLU

5. ReLU变体 — ELU(Exponential Linear Unit)

5.1 理想激活函数的条件

5.2 ELU及其导函数定义

5.4 ELU激活函数的优点

5.3 ELU激活函数的缺点

6. ReLU变体 — SELU激活函数

6.1 函数及其导函数定义

6.2 SELU的注意事项

6.3 SELU激活函数的优点

6.4 SELU激活函数的缺点

7. ReLU变体 — GELU

7.1 函数及其导函数定义

7.2 GELU激活函数的优点

7.3 GELU激活函数的缺点

7.4 GELU在使用中的建议

8. ReLU变体 — Mish激活函数

8.1 函数及其导函数定义

8.2 Mish激活函数的优点

8.3 Mish激活函数的缺点

8. ReLU变体 — Swish激活函数

8.1 函数及其导函数定义

8.2 Swish激活函数的优点

8.3 Swish激活函数的缺点

8. ReLU变体 — SiLU激活函数

9. 如何选择合适的激活函数？

10. 梯度爆炸

10.1 梯度爆炸现象

10.1.1 比较明显的现象

10.1.2 不太明显的现象

10.2 如何解决梯度爆炸

11. 常见相关面试题

参考

你可能感兴趣的:(深度学习,面试题,机器学习,深度学习,神经网络,机器学习)

3.3 不同 $\alpha$ 的Leaky ReLU激活函数图像