VAE变分自动编码

很感谢李宏毅老师的教程视频,讲得实在是简单通透,视频地址如下: 【深度学习】李宏毅Machine Learning (2017,秋,台湾大学) 国语_哔哩哔哩_bilibili

依据李宏毅老师的讲解,我整理了一番VAE的笔记。先简单介绍一下VAE,VAE作为一个生成模型,其基本思路是很容易理解的:把一堆真实样本通过编码器网络变换成一个理想的数据分布,然后这个数据分布再传递给一个解码器网络,得到一堆生成样本,生成样本与真实样本足够接近的话,就训练出了一个自编码器模型。那VAE(变分自编码器)就是在自编码器模型上做进一步变分处理,使得编码器的输出结果能对应到目标分布的均值和方差,如下图所示,具体的方法和思想在后文会介绍:

VAE变分自动编码_第1张图片

1.VAE的设计思路

VAE最想解决的问题是什么?当然是如何构造编码器和解码器,使得图片能够编码成易于表示的形态,并且这一形态能够尽可能无损地解码回原真实图像。

这似乎听起来与PCA(主成分分析)有些相似,而PCA本身是用来做矩阵降维的:

VAE变分自动编码_第2张图片

如图,X本身是一个矩阵,通过一个变换W变成了一个低维矩阵c,因为这一过程是线性的,所以再通过一个

变换就能还原出一个,现在我们要找到一种变换W,使得矩阵X与能够尽可能地一致,这就是PCA做的事情。在PCA中找这个变换W用到的方法是SVD(奇异值分解)算法,这是一个纯数学方法,不再细述,因为在VAE中不再需要使用SVD,直接用神经网络代替。

       回顾上述介绍,我们会发现PCA与我们想要构造的自编码器的相似之处是在于,如果把矩阵X视作输入图像,W视作一个编码器,低维矩阵c视作图像的编码,然后

和分别视作解码器和生成图像,PCA就变成了一个自编码器网络模型的雏形。

VAE变分自动编码_第3张图片

 

现在我们需要对这一雏形进行改进。首先一个最明显能改进的地方是用神经网络代替W变换和

变换,就得到了如下Deep Auto-Encoder模型: 

VAE变分自动编码_第4张图片

 

 

这一替换的明显好处是,引入了神经网络强大的拟合能力,使得编码(Code)的维度能够比原始图像(X)的维度低非常多。在一个手写数字图像的生成模型中,Deep Auto-Encoder能够把一个784维的向量(28*28图像)压缩到只有30维,并且解码回的图像具备清楚的辨认度(如下图)。 

 

VAE变分自动编码_第5张图片

 

至此我们构造出了一个重构图像比较清晰的自编码模型,但是这并没有达到我们真正想要构造的生成模型的标准,因为,对于一个生成模型而言,解码器部分应该是单独能够提取出来的,并且对于在规定维度下任意采样的一个编码,都应该能通过解码器产生一张清晰且真实的图片。

       我们先来分析一下现有模型无法达到这一标准的原因。

VAE变分自动编码_第6张图片

 

VAE变分自动编码_第7张图片 

由此我们发现,给编码器增添一些噪音,可以有效覆盖失真区域。不过这还并不充分,因为在上图的距离训练区域很远的黄色点处,它依然不会被覆盖到,仍是个失真点。为了解决这个问题,我们可以试图把噪音无限拉长,使得对于每一个样本,它的编码会覆盖整个编码空间,不过我们得保证,在原编码附近编码的概率最高,离原编码点越远,编码概率越低。在这种情况下,图像的编码就由原先离散的编码点变成了一条连续的编码分布曲线,如下图所示。

VAE变分自动编码_第8张图片

 

2.VAE的模型架构 

 

那么上述的这种将图像编码由离散变为连续的方法,就是变分自编码的核心思想。下面就会介绍VAE的模型架构,以及解释VAE是如何实现上述构思的。 

VAE变分自动编码_第9张图片

 

上面这张图就是VAE的模型架构,我们先粗略地领会一下这个模型的设计思想。

在auto-encoder中,编码器是直接产生一个编码的,但是在VAE中,为了给编码添加合适的噪音,编码器会输出两个编码,一个是原有编码(

),另外一个是控制噪音干扰程度的编码(),第二个编码其实很好理解,就是为随机噪音码()分配权重,然后加上exp()的目的是为了保证这个分配的权重是个正值,最后将原编码与噪音编码相加,就得到了VAE在code层的输出结果()。其它网络架构都与Deep Auto-encoder无异。

损失函数方面,除了必要的重构损失外,VAE还增添了一个损失函数(见上图Minimize2内容),这同样是必要的部分,因为如果不加的话,整个模型就会出现问题:为了保证生成图片的质量越高,编码器肯定希望噪音对自身生成图片的干扰越小,于是分配给噪音的权重越小,这样只需要将(

)赋为接近负无穷大的值就好了。所以,第二个损失函数就有限制编码器走这样极端路径的作用,这也从直观上就能看出来,exp()-(1+)在=0处取得最小值,于是()就会避免被赋值为负无穷大。

上述我们只是粗略地理解了VAE的构造机理,但是还有一些更深的原理需要挖掘,例如第二个损失函数为何选用这样的表达式,以及VAE是否真的能实现我们的预期设想,即“图片能够编码成易于表示的形态,并且这一形态能够尽可能无损地解码回原真实图像”,是否有相应的理论依据。

下面我们会从理论上深入地分析一下VAE的构造依据以及作用原理。

 

3.VAE的作用原理

       我们知道,对于生成模型而言,主流的理论模型可以分为隐马尔可夫模型HMM、朴素贝叶斯模型NB和高斯混合模型GMM,而VAE的理论基础就是高斯混合模型。

       什么是高斯混合模型呢?就是说,任何一个数据的分布,都可以看作是若干高斯分布的叠加。

VAE变分自动编码_第10张图片

 

如图所示,如果P(X)代表一种分布的话,存在一种拆分方法能让它表示成图中若干浅蓝色曲线对应的高斯分布的叠加。有意思的是,这种拆分方法已经证明出,当拆分的数量达到512时,其叠加的分布相对于原始分布而言,误差是非常非常小的了。

       于是我们可以利用这一理论模型去考虑如何给数据进行编码。一种最直接的思路是,直接用每一组高斯分布的参数作为一个编码值实现编码。

VAE变分自动编码_第11张图片

VAE变分自动编码_第12张图片 

上述的这种编码方式是非常简单粗暴的,它对应的是我们之前提到的离散的、有大量失真区域的编码方式。于是我们需要对目前的编码方式进行改进,使得它成为连续有效的编码。 

VAE变分自动编码_第13张图片

 

 

VAE变分自动编码_第14张图片 

VAE变分自动编码_第15张图片 

VAE变分自动编码_第16张图片 

VAE变分自动编码_第17张图片 

VAE变分自动编码_第18张图片 

VAE变分自动编码_第19张图片 

 

【学习笔记】生成模型——变分自编码器 

你可能感兴趣的:(自然语言处理NLP,自然语言处理,生成对抗网络,nlp)