maxout论文阅读

简介

Maxout来自ICML2013,作者大名鼎鼎的GAN模型发明人Ian J,Goodfellow,这篇文章作者主要提出了maxout的激活函数,结合dropout在cifar10,100等数据集上取得了state of art 的效果。

Review Dropout

dropout是指在深度学习网络的训练中,对于神经使网络单元,按照一定的概率将其暂时从网络中丢弃。对于随机梯度下降来说,由于是随机丢弃,每一个mini-batch都在训练不同的网络,以实现网络融合的效果。
maxout论文阅读_第1张图片

Maxout怎么来的?

仿照dropout的思想,dropout使每个输入神经元以一定的概率不工作,而maxout更极端的则是对上一层的多个feature map跨通道取最大值作为输出。
结构如图所示:
maxout论文阅读_第2张图片

Maxout结构

Maxout在网络中,可以看成是网络的激活函数。具体的假设网络某一层的输入特征向量为:这里写图片描述,Maxout每个的输出计算如下:
这里写图片描述
表示输出为输入取最大操作。回忆一下CNN的卷积原理,CNN是每一个kernel扩展为channel个kernel对输入的feature map的同一位置进行卷积再相加,如图所示:

而maxout则是相当于在卷积后的feature map上,跨通道取对应像素的最大值,这就是maxout计算原理,如图所示:

Maxout作用

maxout论文阅读_第3张图片
Maxout在网络中充当激活函数的作用,激活函数的一个特点是非线性,这样可以使网络逼近任意的函数,而Maxout是一个分段函数,如图所示,每个激活函数都可以通过Maxout在局部空间内取最大值得到。

实验

三个卷积的maxout层,一个全链接maxout层,一个全链接层。

maxout对比relu

maxout论文阅读_第4张图片
既然maxout作为一种激活函数,作者也做了实验对比relu,结果如图所示,maxout效果好于relu,但如果卷积核达到maxout一样的卷积核数目,效果一样,但将导致输出的feature map是之前的k倍传递给下一层。

maxout结合dropout

  1. 模型平均
    maxout论文阅读_第5张图片
    作者还做过将maxout和dropout结合的实验,可以看出将dropout结合maxout的效果好于未结合的,原因是dropout是一种模型平均的近似,drop使得maxout每次输入不同,则影响到学习到激活函数,最终模型更加多样化。
  2. 结合dropout更加容易优化
    maxout论文阅读_第6张图片
    当使用dropout,SGD常常使用较大的学习率快速探索不同的优化方向,寻找一种较优的优化路径。而SGD需要较小的学习率,稳定下降。当学习率较大时,relu激活函数的值大多在负数部分,很难再使得神经元再次被激活。如上图所示,maxout处于一种平衡,而relu则从正变为0的多余0变为正的。

你可能感兴趣的:(深度学习论文阅读)