GELU激活函数

GELU是一种常见的激活函数,全称为“Gaussian Error Linear Unit”,其图像与ReLU、ELU对比如下:
GELU激活函数_第1张图片
文章链接:https://arxiv.org/pdf/1606.08415.pdf
https://pytorch.org/docs/master/generated/torch.nn.GELU.html

GELU激活函数_第2张图片
公式为: G E L U ( x ) = x ∗ Φ ( x ) GELU(x) = x*\Phi(x) GELU(x)=xΦ(x)
其中 Φ ( x ) \Phi(x) Φ(x)表示高斯分布的累积概率分布,即在(-∞,x]区间对高斯分布的定积分。
我们可以看一下 Φ ( x ) \Phi(x) Φ(x)的函数图像:
GELU激活函数_第3张图片
一般常见的是均值为0,方差为1的版本。如红色曲线所示。

当方差为无穷大,均值为0的时候,GeLU就等价于ReLU了。GELU可以当作为RELU的一种平滑策略。

你可能感兴趣的:(机器学习,AI数学,深度学习,pytorch,神经网络)