介绍一种新的激活函数族ACON

1 引言

该论文是旷视科技收录于CVPR2021的一篇理论性的文章,作者提出了一个简单、有效的激活函数 ,该激活函数可以决定是否要激活神经元,在此基础上作者进一步提出了 激活函数,它通过引入开关因子去学习非线性(激活)和线性(非激活)之间的参数切换。实验结果表明,在图像分类,目标检测以及语义分割的任务上,该激活函数都可以使得深度模型有显著的提升效果。

介绍一种新的激活函数族ACON_第1张图片

论文链接:https://arxiv.org/abs/2009.04759
代码链接:https://github.com/nmaac/acon

2 ACON

2.1 光滑最大值函数

考虑标准最大函数 的 个值,它的光滑性的和可微的性近似为:

其中 表示连接系数。当 时,则有 最大值 ;当 时,则有 。在神经网络中,许多常见的激活函数是 函数的形式,其中 和 表示线性函数。作者的目标是用这个公式来近似激活函数。考虑 时的情况,将 表示为Sigmoid函数,近似值为:

介绍一种新的激活函数族ACON_第2张图片

2.2 ACON-A

当 , 时,则有:

以上公式即是 激活函数,也是 激活函数。 函数是最近被提出的一个新的激活函数。尽管它最近被广泛使用,但对于它为什么提高性能缺乏合理的解释。作者给我们提供了一个新的解释即 是 的平滑近似。

2.3 ACON-B

作者将 族中的最大值的激活 , 转换为 族中。作者展示了 的近似,它的原始形式为:

其中 是一个可学习的参数,初始化的数值为 。在大多数情况下 ,作者将其改写为如下形式:

考虑 , ,则可获得新的激活函数 :

2.4 ACON-C

遵循 的原理,采用了相同的双自变量函数,带有一个额外的超参数,只是在功能上使用超参数缩放。设

则有:

与 一样,令 , 。如下图所示作者对 的定义是一个非常简单和普遍的情况。

2.5 一阶导数的上下界

的一阶导数计算公式如下所示:

介绍一种新的激活函数族ACON_第3张图片

令 ,则可以得到:

其中 ,解以上的方程可知 ,可以得到最小和最大值

介绍一种新的激活函数族ACON_第4张图片

这与一阶导数中有固定上界和下界 的 激活函数不同。在 中,超参数 仅决定一阶导数渐近上界和下界的速度,并且这些界是可学习的,并且由 中的 和 决定。可学习的边界对于简化优化是必不可少的,这些可学习的上界和下届是改善结果的关键。

2.6  Meta-ACON

当切换因子 控制激活为非线性或线性时, 将激活切换为激活或不激活。当 时,;当 ,。

因此,不同于传统的激活如 , 允许每个神经元自适应地激活或不激活。这种激活行为有助于提高泛化和传输性能。

介绍一种新的激活函数族ACON_第5张图片

学习开关因子 明确地以输入样本 为条件。目的不是提出一个具体的结构,而是在生成函数 中提供一个设计空间。作者使用一个路由函数来计算以输入特征为条件的 ,其结构可以是分层的,这意味着一层中的元素共享相同的开关因子 ,计算公式为:

通道中的元素共享相同的开关因子

其中 , ,且像素级的开关因子为 。

3 实验结果

如下图和下表可以发现:

1) 、 和 与它们的最大基函数相比,精度都有显著提高,这显示了可微和平滑转换的好处;

2) 的表现优于 和 ,受益于 一阶导数的自适应的上限和下限;

3) 随着模型网络深度的越来越深, 获得了持续的精度提高。

介绍一种新的激活函数族ACON_第6张图片

介绍一种新的激活函数族ACON_第7张图片

如下表的结果表明,本文提出的方法在所有网络结构中都获得了显著的性能提升。 在 模型中提高了 。对于更深的玩网络模型中, 仍然显示出显著的改进,如在 和 上分别在精度上分别提高了 和 。

介绍一种新的激活函数族ACON_第8张图片

下表显示了本论文提出激活函数与 , , , 和 这些激活函数的比较。与之前的激活相比, 和 准确率分别提高了 和 。

介绍一种新的激活函数族ACON_第9张图片

作者在 中,由于开关因子 决定了激活过程中的非线性,在不同级别上为每个样本生成 值,这些级别可以是像素级、通道级和层级。如下表结果表明,三个水平都能显著提高准确率。

介绍一种新的激活函数族ACON_第10张图片

如下表显示,在所有的网络结构中, 的性能明显优于SENet。即使在极深的 中, 仍然提高了 的精度,与 相比提高了 。

介绍一种新的激活函数族ACON_第11张图片

END

备注:CV

介绍一种新的激活函数族ACON_第12张图片

计算机视觉交流群

图像分割、姿态估计、智能驾驶、超分辨率、自监督、无监督、等最新资讯,若已为CV君其他账号好友请直接私信。

在看,让更多人看到  介绍一种新的激活函数族ACON_第13张图片

你可能感兴趣的:(计算机视觉,深度学习,人工智能,机器学习,神经网络)