maxout实现-TensorFlow

1.原理

maxout作为一种独特的激活函数,来源于paper Goodfellow, I. J., Warde-Farley, D., Mirza, M., Courville, A., & Bengio, Y. (2013). Maxout networks. arXiv preprint arXiv:1302.4389。这种激活函数提出来,是为了解决dropout方法优化不方便,和准确率不高的问题(见论文摘要部分)。那么为了理解maxout的原理话,首先需要了解dropout方法。dropout的方法其实描述起来很简单,就是在训练过程中,某一层的节点,有一定的概率被舍弃,因此,对于每一个批次的训练,可能都是对应的不同的网络,这样的操作,来防止在神经网络的训练过程中出现的过拟合现象。一张图很容易就理解dropout的结构:

maxout实现-TensorFlow_第1张图片

上图中左边的是没有dropout情况下的输出,而右边则是有dropout的输出。其实现起来也很简单,对于某个节点的输出有如下公式:

maxout实现-TensorFlow_第2张图片

而这里pi就是这个节点被保留的概率,而当一个节点输出为0的话,自然这个节点在本次的梯度下降的更新中不会被更新权重,这样本次训练中就放弃了该节点。训练完成后,所有节点的保留概率被设置为1来使用。因而对于某个节点而言,某些样本并没有参与到其训练过程中,从而避免过拟合的发生。

 

maxout是位于dropout输出层之前的,一个由多层隐藏层构成的输出结构。在maxout的论文中,给出了maxout网络的定义式如下:

maxout实现-TensorFlow_第3张图片

其中x是一个d维(或者最后一维维度为d)的输入,zij=XTW…ij+bij,而W是一个d*m*k维的矩阵,b是一个m*k维的矩阵,Wb都是可学习的参数,通过这个公式,我们大致可以知道maxout网络的输出,是一组最大值,但是这个理解仍然不是很直观,而下面的一张图(来源于http://www.slideshare.net/stjunya/maxout-networks ),给出了maxout网络的直观的理解:

maxout实现-TensorFlow_第4张图片

从这张图中可以看出,其实maxout网络本质上是几个隐藏节点,由W来表示,从图中并不是那么直观,但是从W的权重的维度可以知道,其实际上是x输入给了几个由多个隐藏节点组成的网络,然后得到输出后,每个维度上找最大的输出。

更简单的举个例子,将W分解成W1W2W3……Wk,显然每个Wi都表示一层隐藏层,这里就有k个隐藏层,所以O1O2Oi……Ok对应的输出就是Oi=X*Wi,需要注意,这个时候的Oi的维度是d*m维度,同时,其实最终的输出也是d*m维度的,而这个时候我们有kd*m的向量,那么最终输出中的某一维,就是这k个中对应的那个维度上最大值。

2.TensorFlow中的maxout的实现

在最新的TensorFlow1.4版本中,有maxout的实现,其函数为tf.contrib.layers.maxout,但是我并没有怎么看懂这个实现,如果有看懂的可以交流下。在之前版本中(我使用的是1.1),并没有maxout的实现,上述讲了那么多,可能依旧不是很清晰,但是写成代码确实很简单,代码实现如下,其中x为输入,z为输出,其他参数都按照上述解释的命名一致:

def maxout(x, k, m):

       d = x.get_shape().as_list()[-1]

       W = tf.Variable(tf.random_normal(shape=[d, m, k]))

       b = tf.Variable(tf.random_normal(shape = [m, k]))

       z = tf.tensordot(x, W, axes=1) + b

       z = tf.reduce_max(z, axis=2)

       return z

 参考资料:

http://blog.csdn.net/hjimce/article/details/50414467

 

http://www.cnblogs.com/tornadomeet/p/3428843.html

你可能感兴趣的:(CNN)