ladder network不完全汇总

《From Neural PCA to Deep Unsupervised Learning》和《Semi-Supervised Learning with Ladder Network》中的部分观点:

1. 为了实现无监督学习和有监督学习的结合,无监督学习不能保存所有信息而是能够放弃与任务无关的信息。但是这与无监督学习的初衷有出入,无监督学习为了重建输入,需要保存所有的信息。比如图像处理中的物品的方位和一些变换是与分类任务无关的,不需要保存,而无监督学习为了重建图片则需要保存这些细节信息。

2. 在和有监督学习结合时,无监督学习需要做的是能够找到那些与有监督学习学到的特征相关的新特征,以提高泛化性能。比如识别一张脸的时候,有监督学习已经学习到眼睛是重要的分类特征,此时,无监督学习需要做的是学习与眼睛有关的特征,比如眼睑等。这些特征能够在眼睛被遮挡的时候帮助识别。

3. 横向连接能够减轻无监督学习模型中高层表示细节的压力,并且不影响计算效率。通过横向连接,解码器能够重构那些被编码器丢弃的细节。

4. latent variable models 是实现半监督学习的好方法,尤其是 hierarchical latent variable models。hierarchical latent variable models能够实现高层学习具有内在不变性的(invariant)、与任务相关的特征而底层保存那些细节。

5. latent variable models的训练过程能够被分为两个过程:推理和学习。推理是学习隐变量的后验概率而学习是更新概率模型以更好的拟合结果。比如EM模型中,E步是后验概率固定,学习因变量的期望(分类概率固定,学习产生该结果的最可能的因变量的值),M步则是利用E步的学习结果,学习能够最大化概率模型的后验概率。

6. DAE(去躁自编码器)是重构加了噪声的输入,DSS(Denoising Source Separation)则是重构隐变量。阶梯网络则是结合这两个,重构加了噪声的隐变量,并且是每一层的隐变量都进行该操作。需要注意的是DSS模型在解构前需要先正则化。

下面着重讲一下《Semi-Supervised Learning with Ladder Network》的相关内容

对模型结构,我有两个疑问:

第一个是为啥用降噪自编码器以及为啥在模型的损失函数中用加了噪声的编码器得到的预测结果进行训练而不是用未加噪声的自编码器的分类结果(仅仅是训练阶段,训练后的模型预测应该是使用未加噪声的预测结果)

ladder network不完全汇总_第1张图片

关于这个问题,作者的解释是防止短路,促使解码器学到有意义的特征。

但是这个解答其实说服力有点不够。知乎上这个回答解决了部分疑惑:三顾 Semi-supervised Learning with Ladder Network - 糯米稻谷的文章 - 知乎 https://zhuanlan.zhihu.com/p/34516078

大意就是把与分类无关的信息看做噪声,即分类器的学习也可以看做是一种降噪,这就与降噪自编码器的学习目的类似。因此,利用降噪自编码器,能够强化分类器的降噪能力,提升鲁棒性和泛化能力。至于为什么在训练时使用加了噪声的分类结果应该也是强化降噪的能力。因为分类结果其实也可以看做是编码的一部分,终极步骤,只是预测结果与分类结果的拟合度的度量和自编码器的度量可能不同。

第二个是关于解码器的损失函数中对于batch normalization的一个说法:

ladder network不完全汇总_第2张图片

我觉得这里的噪声很有歧义,不是很懂这里想表达的意思,而且这样的损失函数和前面的算法也不一致。我能理解把无噪声的中间结果正则化,不是很懂为什么解码器的正则化(标绿部分)。我大致(不保证对)的理解是,在正则化的过程中可能把去噪自编码器的结果中包含的噪声自动消除,这样就会允许去噪自编码器的去噪结果可以包含噪声项。所以采用上面的正则化公式,迫使去噪自编码器学习到有意义的数据。

除此之外,还有一些有趣的细节:

解码器的目标是激活函数之前的中间输出,因为激活函数通常会导致损失信息,而对于阶梯网络来说,有横向连接,因此无需这种损失。

ladder network不完全汇总_第3张图片

其实,阶梯网络相关的论文看起来还是很吃力的,而且大部分看不懂┓( ´∀` )┏。这只是我目前的理解,记录一下,期待以后有更深的理解。

PS. 我做了《Semi-Supervised Learning with Ladder Network》这篇论文的实验,效果确实很好。在自己的毕业论文里面借鉴了这个结构(不完全)。前几天做实验发现时间效率也很惊人,横向连接的加入并没有拉长训练时间,反而缩短了训练时间。想到《Denoising autoencoder with modulated lateral connections learns invariant representations of natural images》里面这句话:

附上和阶梯网络相关的三篇论文:

《From Neural PCA to Deep Unsupervised Learning》://download.csdn.net/download/hola_f/12203514

《Denoising autoencoder with modulated lateral connections learns invariant representations of natural images》://download.csdn.net/download/hola_f/12203519

《Semi-Supervised Learning with Ladder Network》://download.csdn.net/download/hola_f/12203522

你可能感兴趣的:(不起波澜,深度学习,机器学习)