Generative Adversarial Nets 论文笔记

  • 论文地址 Generative Adversarial Nets

Generative Adversarial Nets 论文笔记_第1张图片

摘要

首先,在论文中提出了一个新的框架:生成对抗网络框架,这个框架是为了通过对抗的过程实现评估生成模型。

处理过程中,我们同时训练两个模型,

  • 通过多层感知机定义
  • 在整个训练过程中使用反向传播算法。
  • 整个训练和样本生成阶段不需要马尔可夫链和展开的近似推理网络。

1.生成模型 G

   设计目的:捕获数据分布;

   训练过程:最大化判别模型错误的可能性,换言之,D没有识别出本数据来自生成器,说明更加接近真实的数据分布。

2.判别模型 D

   设计目的:评估来自训练数据的样本的可能性(注意不是来自生成器),如果完全一样,就是1/2.表示本数据1/2的概率来自真实的训练数据。

介绍

深度学习的目的是发现可以表示在人工智能应用过程中遭遇的各种数据的概率分布。(数据举例:自然图像、包含语音的音频波形和自然语料库中的符号)

判别模型发展较好,将高维和多感官的数据映射到类标签(基于反向传播算法和dropout算法 (详细可了解最清晰的讲解各种梯度下降法原理与Dropout),使用有良好梯度性能的分段线性单元)

生成模型发展不足,原因再于  1. 在最大似然估计和相关策略中难以逼近许多棘手的概率计算;2. 生成环境中难以利用分段线性单元的优势。

因此,在本篇论文中提出新的生成模型。

生成模型可以被认为类似于一组伪造者,试图生产假币并在未经检测的情况下使用它,而判别模型类似于警察,试图发现伪钞。在游戏中的比赛趋势双方改进自己的方法直到真假产品无法区别。

本框架可以为多种模型和优化算法生成训练算法。

在本篇论文中,我们探讨了特殊情况,即生成模型通过使用随机噪声通过多层感知器来生成样本,而判别模型也是多层感知器。在这种情况下,我们可以仅使用非常成功的反向传播和丢弃算法来训练两个模型,并且仅使用正向传播来从生成模型中采样。而不需要引入马尔可夫链和近似推理。

相关工作

  1. 具有潜在变量的有向图模型的另一个选择是无向图模型。(RBMs、DBMs)
  2. Deep belief networ(DBNs)包含单个无向层和一些有向层的混合模型。计算上存在困难
  3. 推导出一个可以处理的非归一化概率密度是不可能的。生成模型本身不是拟合一个单独的判别模型,而是用于从具有固定噪声分布的样本中判别生成的数据。
  4. GSNs 生成随机网络框架。不明确定义概率分布、训练生成机器抽取期望分布的样本。
  5. 对抗性网络框架不需要马尔可夫链进行抽样。因为对抗网络在生成过程中不需要反馈环,所以它们能够更好地利用分段线性单元,这提高了反向传播的性能,但在反馈环中使用时会出现无限激活的问题。

对抗网络

当模型都是多层感知器时,对抗建模框架最容易应用。

1.在输入的噪声变量上定义一个先验,然后将数据空间的映射表示为G(zθg),G是一个可微函数,由有多层感知机表示,定义第二个多层感知机输出单个标量。    

最小化第二项:G生成的数据分布D认为是正确的,可以保证G的完美。第一项同理。 

2.在优化D的k个步骤和优化G的一个步骤之间交替进行,用来解决D优化的过度拟合和计算障碍。

3.学习初期,当G很差的时候,D可以以很高的置信度拒绝样本,因为它们与训练数据明显不同。

模型解释如下:

通过同时更新判别分布(D,蓝色,虚线)来训练生成对抗网络,以便区分生成数据的分布(黑色,虚线)px的样本与生成分布pg(G)的样本之间的区别(绿色,实线)。下方的水平线是从中采样z的域,在这种情况下是均匀的。上面的水平线是x的域的一部分。向上的箭头显示映射x = G(z)如何将非均匀分布pg施加到转换后的样本上。

G在高密度区域收缩,在pg低密度区域膨胀。

    Generative Adversarial Nets 论文笔记_第2张图片

 理论结果

生成器G隐含地定义概率分布pg作为当z〜pz时获得的样本G(z)的分布

  1.  这个最大最小化游戏具有 pg = pdata 的全局最佳。
  2. 算法 1 优化 Eq 1,从而获得所需的结果.

附加知识

1.KL散度介绍

2.JS散度介绍

3.直观理解梯度

你可能感兴趣的:(论文学习,深度学习,神经网络,算法)