在前面的文章中已经介绍了介绍了一系列激活函数 (Sigmoid
、Tanh
、ReLU
、Leaky ReLU
、PReLU
、Swish
、ELU
、SELU
、GELU
、Softmax
、Softplus
、Mish
、Maxout
、HardSigmoid
、HardTanh
、Hardswish
、HardShrink
、SoftShrink
、TanhShrink
、RReLU
、CELU
、ReLU6
、GLU
、SwiGLU
、GTU
、Bilinear
、ReGLU
、GEGLU
、Softmin
、Softmax2d
、Logsoftmax
、Identity
、LogSigmoid
、Bent Identity
、Absolute
、Bipolar
、Bipolar Sigmoid
、Sinusoid
、Cosine
、Arcsinh
、Arccosh
、Arctanh
、LeCun Tanh
、TanhExp
、Gaussian
、GCU
、ASU
、SQU
、NCU
、DSU
、SSU
、SReLU
、BReLU
、PELU
、Phish
、RBF
、SQ-RBF
、ISRU
、ISRLU
、SQNL
、PLU
、APL
、Inverse Cubic
、Soft Exponential
、ParametricLinear
、Piecewise Linear Unit
、CLL
、SquaredReLU
、ModReLU
、CosReLU
、SinReLU
、Probit
、Smish
、Multiquadratic
、InvMultiquadratic
、PSmish
、ESwish
)。在这篇文章中,会接着上文提到的众多激活函数继续进行介绍,给大家带来更多不常见的激活函数的介绍。这里放一张激活函数的机理图:
论文链接:Vagerwal, Advait. “Deeper Learning with CoLU Activation.” arXiv preprint arXiv:2112.12078 (2021).
CoLU激活函数是2021
年提出的一种激活函数。CoLU 是一种与 Swish
和 Mish
性质类似
的激活函数。它是平滑
、连续可微
、上无界
、下有界
、非饱和
和非单调
的。根据使用不同激活函数对 CoLU 所做的实验,我们发现 CoLU 在深度神经网络中的表现通常优于其他函数。其数学表达式和数学图像分别如下所示:
f ( x ) = x 1 − x e − ( x + e x ) f(x)=\frac{x}{1-xe^{-(x+e^x)}} f(x)=1−xe−(x+ex)x
优点:
Swish
和 Mish
相比,CoLU激活函数有个更大
的负值区间。其中,CoLU激活函数的区间为:[≈-0.3762, ∞);Swish
的区间为:[≈-0.2784, ∞); Mish
的区间为:[≈-0.3087, ∞)。无界
的,因此可以避免饱和
。输出饱和会对训练产生负面影响,并可能因梯度接近零而减慢训练过程。有界
则有助于对输出进行正则化
。平滑性
是可取的,因为可以计算函数的连续导数
。非单调性
有助于保留
一些负值,这有助于神经网络的反向传播
。缺点:
更高
,可能
会消耗更长时间。物理意义
和行为
可能不如 Mish 激活函数直观
,这可能会影响对模型行为的解释和理解。广泛
的实验进行验证效果,其实际效果
仍待进一步观察。。。当前函数在函数表现上与Swish
和 Mish
相似,但是其具体效果有待进一步的验证。。。。
论文链接: Schütt, Kristof, Pieter-Jan Kindermans, Huziel Enoc Sauceda Felix, Stefan Chmiela, Alexandre Tkatchenko, and Klaus-Robert Müller. “Schnet: A continuous-filter convolutional neural network for modeling quantum interactions.” Advances in neural information processing systems 30 (2017)
背景:原子间作用力与分子能量有关,因此我们可以通过对原子位置进行微分来得到一个能量守恒的作用力模型。Chmiela 等人指出,这样就可以构造出能量守恒力场。由于 SchNet
产生了旋转不变的能量预测,因此力预测在构造上也是旋转等变
的。该模型必须至少有两次可微分
,以允许力损失的梯度下降
。
因此,选择了一个ShiftedSoftPlus
作为整个网络的非线性,以获得一个平滑的势能面
。移位确保了 ssp(0) = 0,并提高了网络的收敛性
。该激活函数与 ELUs 相似,但具有无限阶连续性
。其数学表达式和数学图像分别如下所示:
f ( x ) = l n ( 0.5 + 0.5 e x ) f(x)=ln(0.5+0.5e^{x}) f(x)=ln(0.5+0.5ex)
优点:
平滑的势能面
。连续可微
性,有助于训练的稳定
性。缺点:
指数
和对数
等操作可能会增加计算成本,特别是在大规模数据和深层网络中。广泛
应用。当前函数很少应用。。。。
到此,使用 激活函数总结(二十九) 已经介绍完毕了!!! 如果有什么疑问欢迎在评论区提出,对于共性问题可能会后续添加到文章介绍中。如果存在没有提及的激活函数
也可以在评论区提出,后续会对其进行添加!!!!
如果觉得这篇文章对你有用,记得点赞、收藏并分享给你的小伙伴们哦。