激活函数总结(二十九):激活函数补充(CoLU、ShiftedSoftPlus)

激活函数总结(二十九):激活函数补充

  • 1 引言
  • 2 激活函数
    • 2.1 Collapsing Linear Unit (CoLU)激活函数
    • 2.2 ShiftedSoftPlus激活函数
  • 3. 总结

1 引言

在前面的文章中已经介绍了介绍了一系列激活函数 (SigmoidTanhReLULeaky ReLUPReLUSwishELUSELUGELUSoftmaxSoftplusMishMaxoutHardSigmoidHardTanhHardswishHardShrinkSoftShrinkTanhShrinkRReLUCELUReLU6GLUSwiGLUGTUBilinearReGLUGEGLUSoftminSoftmax2dLogsoftmaxIdentityLogSigmoidBent IdentityAbsoluteBipolarBipolar SigmoidSinusoidCosineArcsinhArccoshArctanhLeCun TanhTanhExpGaussianGCUASUSQUNCUDSUSSUSReLUBReLUPELUPhishRBFSQ-RBFISRUISRLUSQNLPLUAPLInverse CubicSoft ExponentialParametricLinearPiecewise Linear UnitCLLSquaredReLUModReLUCosReLUSinReLUProbitSmishMultiquadraticInvMultiquadraticPSmishESwish)。在这篇文章中,会接着上文提到的众多激活函数继续进行介绍,给大家带来更多不常见的激活函数的介绍。这里放一张激活函数的机理图:
在这里插入图片描述

2 激活函数

2.1 Collapsing Linear Unit (CoLU)激活函数

论文链接:Vagerwal, Advait. “Deeper Learning with CoLU Activation.” arXiv preprint arXiv:2112.12078 (2021).

CoLU激活函数是2021年提出的一种激活函数。CoLU 是一种与 SwishMish 性质类似的激活函数。它是平滑连续可微上无界下有界非饱和非单调的。根据使用不同激活函数对 CoLU 所做的实验,我们发现 CoLU 在深度神经网络中的表现通常优于其他函数。其数学表达式和数学图像分别如下所示:
f ( x ) = x 1 − x e − ( x + e x ) f(x)=\frac{x}{1-xe^{-(x+e^x)}} f(x)=1xe(x+ex)x激活函数总结(二十九):激活函数补充(CoLU、ShiftedSoftPlus)_第1张图片
优点:

  • 一个更大的负区间:与SwishMish 相比,CoLU激活函数有个更大的负值区间。其中,CoLU激活函数的区间为:[≈-0.3762, ∞);Swish的区间为:[≈-0.2784, ∞); Mish 的区间为:[≈-0.3087, ∞)。
  • 上无界:由于该函数在上面是无界的,因此可以避免饱和。输出饱和会对训练产生负面影响,并可能因梯度接近零而减慢训练过程。
  • 下有界:下方有界则有助于对输出进行正则化
  • 平滑和非单调:激活函数的平滑性是可取的,因为可以计算函数的连续导数非单调性有助于保留一些负值,这有助于神经网络的反向传播

缺点:

  • 计算复杂度:计算复杂度更高可能会消耗更长时间。
  • 解释性: 给定的激活函数的物理意义行为可能不如 Mish 激活函数直观,这可能会影响对模型行为的解释和理解。
  • 尚未经过广泛验证:该激活函数尚未经过广泛的实验进行验证效果,其实际效果仍待进一步观察。。。

当前函数在函数表现上与SwishMish 相似,但是其具体效果有待进一步的验证。。。。

2.2 ShiftedSoftPlus激活函数

论文链接: Schütt, Kristof, Pieter-Jan Kindermans, Huziel Enoc Sauceda Felix, Stefan Chmiela, Alexandre Tkatchenko, and Klaus-Robert Müller. “Schnet: A continuous-filter convolutional neural network for modeling quantum interactions.” Advances in neural information processing systems 30 (2017)

背景:原子间作用力与分子能量有关,因此我们可以通过对原子位置进行微分来得到一个能量守恒的作用力模型。Chmiela 等人指出,这样就可以构造出能量守恒力场。由于 SchNet 产生了旋转不变的能量预测,因此力预测在构造上也是旋转等变的。该模型必须至少有两次可微分,以允许力损失的梯度下降

因此,选择了一个ShiftedSoftPlus作为整个网络的非线性,以获得一个平滑的势能面。移位确保了 ssp(0) = 0,并提高了网络的收敛性。该激活函数与 ELUs 相似,但具有无限阶连续性。其数学表达式和数学图像分别如下所示:
f ( x ) = l n ( 0.5 + 0.5 e x ) f(x)=ln(0.5+0.5e^{x}) f(x)=ln(0.5+0.5ex)激活函数总结(二十九):激活函数补充(CoLU、ShiftedSoftPlus)_第2张图片

优点:

  • 平滑:使用ShiftedSoftPlus作为激活函数,可以得到一个平滑的势能面
  • 无限阶连续性:ShiftedSoftPlus具有连续可微性,有助于训练的稳定性。

缺点:

  • 计算成本: 计算指数对数等操作可能会增加计算成本,特别是在大规模数据和深层网络中。
  • 局限性:ShiftedSoftPlus的特性决定了不会再深度学习中得到广泛应用。

当前函数很少应用。。。。

3. 总结

到此,使用 激活函数总结(二十九) 已经介绍完毕了!!! 如果有什么疑问欢迎在评论区提出,对于共性问题可能会后续添加到文章介绍中。如果存在没有提及的激活函数也可以在评论区提出,后续会对其进行添加!!!!

如果觉得这篇文章对你有用,记得点赞、收藏并分享给你的小伙伴们哦。

你可能感兴趣的:(深度学习,深度学习,人工智能,机器学习,python,激活函数)