翻译论文一

关键词

Generative Adversarial Network 对抗生成网络

论文翻译

  • title:博弈论:对抗生成网络的博弈论模型

  • 摘要:生成性对抗网络作为人工智能领域的研究方向,由于其生成高质量真实数据的能力,近年来受到了广泛关注。GANs是两个以对抗方式训练的神经网络之间的竞争博弈,以达到纳什均衡。尽管在过去几年中,GANs取得了一些进步,但仍有一些问题需要解决。因此,如何解决这些问题并取得进展,引起了越来越多的研究兴趣。本文回顾了博弈论在GAN中的应用,讨论了博弈模型如何缓解特定生成模型的挑战,提高GAN的性能。特别地,我们首先回顾了一些预备工作,包括基本的GAN模型和一些博弈论背景。然后,我们提出了我们的分类法,将最新的解决方案归纳为三大类:改进的博弈模型、改进的体系结构和改进的学习方法。从博弈论的角度,分类是基于对基本模型的修正。我们进一步将每个类别分为几个子类别。在建议的分类法之后,我们探索每个类的主要目标,并回顾每个组中最近的工作。最后,我们讨论了在这一领域仍然存在的挑战,并提出了未来可能的研究课题。

  • 索引项:生成性对抗网络(GAN),博弈论(GT),多agent系统(MAS), 深层生成模型,深度学习GAN变异

  • 一 引言:

  1. 生成性对抗网络(Generative敌对网络,GAN)是Goodfellow等人于2014年首次提出的一类生成模型[1]。GAN因其对高维复杂现实数据建模的潜力,近年来受到广泛关注,并迅速成为一个很有前途的研究方向[2]。作为一种生成模型,GANs不最小化单一的训练准则。它们用于估计实际数据的概率分布。GAN通常由两个神经网络、一个鉴别器和一个发生器组成,它们通过对抗学习概念同时训练。总之,GAN在特征学习和表征两方面都具有更强的能力[3]。鉴别器试图区分生成器生成的真实数据样本和虚假样本,而生成器试图创建鉴别器无法区分的真实样本[4]。
  2. 特别地,GAN模型不依赖于关于分布的任何假设,并且可以从潜在空间生成无限真实的新样本[2]。这一特性使GANs能够成功地应用于各种应用,从图像合成、计算机视觉、视频和动画生成,到语音和语言处理,以及网络安全[5]。
  3. GANs的核心思想来源于鉴别器和生成器之间的两人零和极小极大博弈,其中两个参与者的总效用为零,每个参与者的得失完全由另一个参与者的得失平衡。GANs被设计成一个纳什均衡,在这个均衡中,每个玩家不能在不减少另一个玩家的收益的情况下增加他们的收益[1],[6]。尽管GANs在许多领域取得了巨大的成功,但将这些生成模型应用于现实世界的问题却受到了一些挑战的阻碍。GANs最重要的问题是训练困难,存在模式崩溃、不收敛、梯度消失等不稳定问题。在训练过程中,GAN需要收敛到Nash均衡,但是证明了这种收敛是有挑战性的[7],[8]。
  4. 自2014年以来,人们对GAN进行了广泛的研究,并提出了许多方法来应对其挑战。然而,为了产生高质量的生成样品,有必要改进GAN理论,因为这一部分的不足是发展更好的GAN的最重要障碍之一[9]。由于GANs的基本原理是基于博弈论的,数据分布是通过产生器和鉴别器之间的博弈来学习的,因此利用博弈论技术成为近年来研究的热点之一。
    A. 动机和贡献
  5. 这项调查背后最大的动机是没有任何其他的审查文件,特别集中在博弈论的进展,在GANs。然而,许多关于政府间组织的综合调查都以不同的侧重点(如[2]、[6]、[10]-[22])对政府间组织进行了详细的调查,但据我们所知,这项工作是第一次从博弈论的角度探讨政府间组织的发展。因此,在本文中,我们试图通过对最近提出的著作进行分类和调查,为读者提供博弈论在GANs方面的最新进展。
  6. 我们的调查首先介绍了这个领域的一些背景和关键概念。然后将最近提出的game-of-GANs模型分为三大类:改进的game模型、基于agent数量的改进的体系结构和改进的学习方法。每一组进一步分为若干子类别。我们回顾了每个子类别中每项工作的主要贡献。同时指出了本文研究中存在的一些问题,并对未来的研究方向进行了展望。
    B. 论文结构与组织
    本文的其余部分组织如下。第二节介绍了博弈论的一些背景知识,包括博弈论的基本思想、学习方法和挑战。在第三节中,我们看到了在GANs领域进行的其他调查。我们在第四节中提供了我们建议的分类法,并在本节中回顾了每个类别中的研究模型。最后一节是讨论和结论。
  • 二 背景和准备工作
  1. 在介绍我们的分类法和讨论博弈论方法在GANs中的应用之前,需要先介绍博弈论和GANs领域的一些初步概念。在这里,我们首先介绍博弈论的概述,然后转向GANs。表一列出了本文使用的缩略语及其定义。
    A. 博弈论
  2. 博弈论旨在模拟一些决策者相互作用的情况。这些决策者之间的互动被称为“博弈”,决策者被称为“参与者”。在游戏的每一轮中,玩家都有一系列动作,这些动作的集合称为策略集。通常假设参与者是理性的,这意味着每个代理都试图使其效用最大化,并通过选择使其收益最大化的行为来实现。玩家的行为是相对于其他玩家的行为来选择的,因此,每个代理都应该对其他玩家有一个信念体系[23]。
  3. 在博弈分析中引入了几种解的概念,纳什均衡就是其中之一“纳什均衡”是一种状态,每个参与者都不能通过改变策略来增加收益。换言之,纳什均衡是一种状态,在这种状态下,考虑到他人的策略和自身的收益,没有人会对自己的选择感到遗憾[24]。在参与者分配一个概率分布给策略集而不是选择一个策略的情况下,纳什均衡称为“混合纳什均衡”[24]。常和对策是两人对策,其中两个参与者的效用之和等于所有其他状态下的这个量。当这个量等于零时,称为零和博弈[24]。
  4. 另一个求解概念是极大极小策略和极大极小策略方法。在maximin策略方法中,当所有其他参与者对决策者造成尽可能多的伤害时,决策者将其最坏情况收益最大化。在minimax策略中,决策者希望对他人造成伤害。换言之,决策者希望最小化其他参与者的最大回报[24]。玩家在极小极大或极大极小策略方法中得到的值分别称为极小极大值(minimax)或极大极小值(maximin)。在[25]中,Neumann证明了在任何有限的两个参与者零和对策中,所有Nash均衡都与参与者的最小-最大策略和最大-最小策略相一致。同时,最小最大值和最大最小值等于纳什均衡效用。
    B. Generative Adversarial Networks
    我们提供了一些关于GANs的预备知识,以便于理解这个生成模型的基本和关键概念。特别是,首先,我们简要回顾了生成模型。然后,我们通过回顾赣的基本思想、学习方法和面临的挑战,对赣作了简要的描述。
    1)生成模型:生成模型是用来模拟训练集分布的模型。生成模式可分为三种类型。在第一种类型中,模型得到一个具有分布pdata(模型未知)的训练集,并尝试建立分布pmodel,它是pdata的一个近似值。第二种方法是完全能够从pmodel生成样本的方法,最后是可以同时从pmodel和模型生成样本的方法。GANs作为一种生成模型,主要集中于生成样本[10]。
    2)GAN基础:2014年,Goodfellow等人[26]将GANs作为一个框架引入,在这个框架中,两个玩家正在和另一个玩家玩一个游戏。游戏的结果是有一个生成模型,可以产生类似于训练集的样本。在游戏介绍中,玩家被命名为生成器G和鉴别器D。生成器是最终产生样本的生成器,鉴别器的目的是区分训练集样本和生成器的样本。产生的不可区分样本越多,生成模型越好[26]。任何可微函数如多层神经网络都可以表示发生器和鉴别器。生成器G(z)输入先验噪声分布pz并将其映射到训练数据分布pg的近似值。鉴别器D(x)将输入数据分布pdata映射到间隔为[0,1]的实数中,这是真实样本而不是假样本(生成器生成的样本)的概率[13]
    3)GAN学习模型:可以使用优化目标函数的迭代过程来训练生成器和鉴别器。(1)中所述的目标函数,由Goodfellow等人[26]引入,其中f0和f1可根据散度度量从表2中替换。第一个提出的GAN使用Jensen Shannon度量。
    为了训练图1所示的简单模型,我们首先固定G并优化D以进行最佳判别。接下来,我们修正D并尝试最小化目标函数。当鉴别器不能区分真假数据时,鉴别器工作最佳。例如,在Jensen-Shannon度量中,当pr(x)/(pr(x)+pr(z))等于1/2时,会发生这种情况。如果鉴别器和生成器都是最优的,则博弈达到纳什均衡,并且最小最大值和最大最小值的值将相等。如表II所示,Jensen Shannon度量等于−日志4。
  • 三、相关调研
  1. 随着甘越来越受欢迎,在这个领域的作品数量,因此评论文章,也越来越多。到目前为止,已经提出了许多关于政府机关的调查(约40项),这些调查可分为三类。第一类的工作[2]、[6]、[10]–[22]探索了GANs中相对广泛的范围,包括关键概念、算法、应用、不同变体和体系结构。相比之下,第二组的调查[5]、[8]、[28]–[30]只关注GANs中的特定部分或问题(例如正则化方法或lass函数),并回顾研究人员如何处理该问题。在第三类中,大量的调查研究[7]、[9]、[19]、[31]–[43]总结了GAN在特定领域的应用,从计算机视觉和图像合成,到网络安全和异常检测。下面,我们将简要回顾每一类的调查,并说明我们的论文与其他论文的不同之处
    A. GAN普查
  2. 古德费罗在他的教程[10]中回答了最常见的关于GAN的问题。Wang等人[6]综述了GAN的理论模型和实现模型及其应用,以及这种生成模型的优缺点。Creswell等人[11]通过描述训练和构建GANs的不同方法以及理论和应用中的挑战,对GANs进行了概述,特别是对信号处理界。在[19]中,Ghosh等人对GANs的进展和性能及其各种应用进行了全面总结。Saxena等人在[20]中对GANs设计和优化解决方案的进展进行了调查,以应对GANs的挑战。Kumar等人[17]介绍了GAN中最新的相关工作、其应用、评估指标、挑战和基准数据集。在[18]中,比较了两种新的深度生成模型,包括遗传算法,Salehi等人对最显著的GAN结构进行了分类和讨论。
  3. Gui等人在[21]中回顾了各种GANs方法.从算法、理论和应用的角度[22]调查不同的GAN变体、应用和几种训练解决方案。Hitawala在[12]中介绍了不同版本的GANs,并从学习、体系结构、梯度更新、对象和性能度量等方面对它们进行了比较。以类似的方式,Gonog等人在[13]中回顾了GAN的延伸变体,并就如何优化原始GAN或改变基本结构以及学习方法对其进行了分类。在[2]中,Hong等人从各种对象功能和体系结构的角度讨论了GAN的细节,以及训练GAN的理论和实践问题。作者还列举了应用于不同领域的GAN变体。Bissoto等人在[14]中回顾了GAN在六个方面的进展,包括架构贡献、条件技术、规范化和约束贡献、损失函数、图像到图像转换和验证度量。Zhang等人在他们的综述论文[15]中调查了12个扩展的GAN模型,并根据游戏玩家的数量对它们进行了分类。Pan等人在[16]中分析了不同生成模型之间的差异,并从体系结构和目标函数优化的角度对其进行了分类,讨论了训练技巧、评价指标,表达了GANs的应用和挑战。
    B. GAN Challenges
    以另一种方式,Lucic在[28]中对GAN模型进行了实证比较,重点是无条件变量。Alqahtani等人[5]作为第二类的另一项研究,主要关注GANs在不同领域的潜在应用。本文试图找出GAN在不同应用领域成功实施的优势、劣势和主要挑战。作为另一篇具体的综述论文,Wiatrak等人在[8]中综述了目前稳定GAN训练程序的方法,并对各种技术和关键概念进行了分类。更具体地说,在[29]中,Lee等人回顾了用于稳定训练的正则化方法,并根据其操作原理将其分为若干组。相比之下,[30]对GANs中使用的损失函数进行了调查,并分析了这些函数的优缺点。由于差异私有GAN模型为生成私有合成数据提供了一个有希望的方向,Fan等人在[44]中调查了为此目的提出的现有方法。
    C. GAN 应用
  4. 正如我们前面提到的,GANs已经成功地应用到了巨大的应用中。就这样,一些综述文章综述了这些进展。作者在[7]、[9]、[31]~[38]中对GAN在计算机视觉和图像合成领域的不同进展进行了综述。Cao等人[9]综述了最近提出的GAN模型及其在计算机视觉中的应用。Cao等人在[9]中从机制、生成样本的视觉效果等方面比较了经典和stare-of-art-GAN算法。
    15.Wang等人对解决与计算机视觉相关的实际挑战进行了综述[7]。他们讨论了解决这些挑战的最流行的体系结构变体和丢失变体。Wu等人在[31]中介绍了图像合成和编辑以及GANs视频生成的概况。他们涵盖了最近的论文,这些论文利用了图像应用中的GANs,包括纹理合成、图像修复、图像到图像的转换、图像编辑以及视频生成。同样地,[32]介绍了图像处理领域中对GANs的最新研究,并将其分为图像合成、图像到图像的翻译、图像编辑和动画生成四个领域。
  5. 文献[35]和[36]等研究侧重于回顾近年来的研究成果在文本图像合成问题中加入GANs的技术。在[35]中,Agnese等人提出了一种分类法,将基于GAN的文本图像合成论文归纳为四大类:语义增强GAN、分辨率增强GAN、多样性增强GAN和运动增强GAN。与该领域的其他调查不同,Sampath等人[37]研究了用于解决图像数据不平衡问题的GANs技术的最新发展。本文介绍了基于GANs的合成图像生成的现实挑战和实现。在[33],[34],[38]中,作者讨论了GANs图像合成的医学应用。Yi等人在[38]中描述了GANs在医学成像中的应用前景,并指出了一些有待解决的挑战。作为本课题的另一篇论文,[33]回顾了GANs在放射医学图像去噪和重建中的应用。Tschucnig等人在[34]中总结了组织学图像分析领域中现有的GAN结构。
  6. 作为GANs的另一个应用,[39]和[19]对GANs在网络安全中的结构进行了评述。Yinka等人[39]调查研究了GAN在安全系统或对抗系统设计中起关键作用的地方。Ghosh等人[19]关注GANs被用来提供安全改进和攻击场景以绕过检测系统的各种方式。Di Mattia等人[40]综述了基于GAN的主要异常检测方法。Geogres等人[41]回顾了已发表的关于观察健康数据的文献,以揭示在这个问题上缓慢采用GANs的原因。Gao等人在[42]中阐述了与时空应用相关的实际应用和挑战,如轨迹预测、事件生成和时间序列数据插补。文献[43]总结了最近提出的基于GANs的用户移动性综合方案。
  7. 根据评论论文的分类,我们的调查属于第二类。我们特别关注应用博弈论方法应对GAN挑战的最新进展。虽然到目前为止已经提出了几项针对政府机关的调查,但据我们所知,我们的调查是第一次涉及这一主题。尽管[8]中的作者提出了一些博弈模型,但他们还没有对这一领域做过全面的调查,也没有涉及到许多新的研究。我们希望我们的调查能为对此课题感兴趣的研究者提供参考。
  • 四、GAME OF GANS: A TAXONOMY
    在本节中,我们将介绍我们的分类法,通过重点介绍这些工作是如何从原始GAN扩展而来,将已审阅的论文归纳为三类。分类是按照1.修改的游戏模式,2.架构修改,和3.修改的学习算法来完成的,如图2所示。基于这些主要类,我们进一步将每个类别划分为一些子集(图2)。在下面的部分中,我们将介绍每一类,并讨论每一组的最新进展。
    A. Modified Game Model
  1. 所有GANs的核心是生成器和鉴别器之间的竞争,这是一个博弈模型。因此,博弈论在这一背景下发挥着关键作用。然而,大多数GANs依赖于基本模型,将其描述为一个两人零和(minimax)博弈,但也有一些研究利用其他博弈变量来应对这一领域的挑战。在本节中,我们将对这些文献进行综述。我们把这一类的作品分为三个子类。第IV-A1节介绍了将训练过程视为随机博弈的研究。第IV-A2节中的研究工作应用了GANs中Stackelberg博弈的主从思想。最后,第四节A3提出了一个双仿射博弈的GANs模型。表三总结了改进博弈模型类别的研究。
    1)随机博弈:遗传算法的一个主要问题是,由于收敛性问题,这些神经网络很难训练。Franci等人在[45]中通过将训练过程转化为随机纳什均衡问题(SNEP)来解决这个问题。SNEP将被改写为一个随机变分不等式(SVI),并以SNE的解为目标。这种方法的优点是有许多算法可以用来求解奇异值问题,如前向-后向算法,也称为梯度下降法。Franci等人提出了一种随机松弛前向-后向(SRFB)算法和一种附加决策变量平均步骤的变量(aSRFB)算法。为了证明解的收敛性,我们需要伪梯度映射的单调性,伪梯度映射由方程(2)定义,其中Jg和Jd是生成器和鉴别器的支付函数。
    如果博弈的伪梯度映射是单调的,且样本数是递增的,则该算法收敛到精确解,但只有有限的、固定的小批量样本,并且通过平均技术,它将收敛到解的一个邻域。
  1. Stackelberg博弈:GAN的主要问题之一是算法的收敛性。Farnia等人在[47]中通过给出标准GAN问题的一些理论和数值例子,证明了“GAN零和博弈可能没有任何局部纳什均衡”。因此,基于生成元先移动后跟随鉴别器(领导者)的自然序列型,该问题可以看作是一个Stackelberg博弈,并集中于子博弈完美均衡(SPE)。为了解决收敛问题,作者试图找到一种称为近端均衡的均衡,这种均衡能够遍历Stackelberg均衡和Nash均衡之间的谱。在近似平衡中,如等式(3)所示,允许鉴别器在主鉴别器附近的范数球中局部优化。为了保持˜D接近于D时,它们惩罚两个函数之间的距离λ, 作为λ 从零到无穷大,平衡点从Stackelberg变为Nash。
    Farnia等人还提出了近端训练,优化了近端目标Vλ prox(G,D)而不是原来的目标V(G,D),它可以适用于任何两人游戏。Zhang等人在[46]中也使用了GAN模型,并提出了Stackelberg GAN来解决GAN训练过程中的不稳定性问题。Stackelberg-GAN采用多生成器结构,生成器(跟随者)和鉴别器(领导者)之间存在竞争。我们在第IV-B1节中讨论了架构细节。
  2. 双仿射博弈:Hssieh等人在[48]中通过从混合NE的角度重新考虑问题公式来检验GANs的训练。在没有凸性的情况下,该理论只关注局部收敛性,这意味着如果从凸优化中盲目地应用直觉,即使局部理论也会崩溃。在[48]中提出了GANs的混合Nash均衡,即它们实际上是无限维双仿射对策的全局最优解。有限维双仿射对策也被用于寻找混合的单位根。研究还表明,我们可以将当前所有的GAN目标放宽为混合策略形式。最后,在本文中,实验表明,他们的方法比流行的基线(如SGD、Adam和RMSProp)取得了更好或相当的性能。
    B. Modified Architecture
  1. 正如我们在第二节中提到的,GANs是一个通过两人minimax博弈产生生成模型的框架;然而,在最近的工作中,通过将使用一对生成器和鉴别器的思想扩展到多智能体环境中,两人博弈转化为多个博弈或多智能体博弈。
    20.在这一部分,我们回顾了文献中提出的甘变体以这样一种方式修改了体系结构:我们有一个混合生成器和/或鉴别器的GANs,并展示了应用这种方法如何提供更好的收敛性和防止模式崩溃。然而,这一类的大多数工作集中于引入大量的生成器和/或鉴别器,但是在一些论文中,生成器和鉴别器的数量没有改变,而是添加了另一个代理,将问题转化为多代理问题。在第IV-B1节中,我们将讨论将基本结构从单个发电机扩展到多个发电机的GAN变体。在第IV-B2节中,我们将回顾通过增加鉴别器的数量来处理模式崩溃问题的文章,以迫使生成器产生不同的模式。第IV-B3节专门讨论开发具有多个生成器和多个鉴别器的GANs的工作。文章将在第IV-B4节和第IV-B5节中回顾,通过添加另一个代理(分类器(第IV-B4节)或RL代理(第IV-B5节))来扩展体系结构,以显示将这些代理添加到GANs的好处。表四概述了所审查论文的方法、贡献以及优缺点。
  1. 多个生成器,一个鉴别器:在具有多生成器结构的GANs中,minimax差距更小,并且在这些GANs中体验到更稳定的训练性能[46]。正如我们在第IV-A2节中所提到的,Zhang等人在[46]中解决了由于极小极大值和极大极小值之间的差距而导致的训练过程中的不稳定性问题。为了缓解这个问题,他们设计了一个多生成器架构,并将代理之间的竞争建模为Stackelberg博弈。结果表明,极小极大对偶间隙随着发生器数目的增加而减小。
  1. 本文还对模式崩溃问题进行了研究,结果表明该体系结构有效地缓解了模式崩溃问题。这种结构的一个显著优点是,它可以应用于所有的GAN变体,如Wasserstein GAN、vanilla GAN等。此外,在对生成器的表达能力有额外条件的情况下,Stackelberg GAN可以达到ǫ -近似平衡˜O(1)/ǫ) 发电机[46]。
    此外,Ghosh等人在[64]中提出了一种多发生器和单鉴别器的GANs体系结构,称为多智能体多样化生成对抗网络(MAD-GAN)。在本文中,不同的生成器捕获不同的高概率模式,并且设计了鉴别器,以便在找到真样本和假样本的同时,识别生成给定假样本的生成器[64]。结果表明,在收敛时,系统的全局最优值−(k+1)log(k+1)+k logk,其中k是发电机的数量。
  2. 比较[64]和[46]中提出的模型,在MADGAN[64]中,多个发电机与发电机和鉴别器具有无限容量的假设相结合,但在Stackelberg GAN[46]中,没有关于模型容量的假设。此外,在MAD-GAN[64]中,发生器共享公共网络参数,但在Stackelberg GAN[46]中,允许使用混合模型以外的各种采样方案,并且每个发生器都有自由参数。
  3. 增加生成器将覆盖整个数据空间的假设在实践中是无效的。与[64]相比,So Hoang等人在[65]中通过强制生成器独立于其他模式捕获数据模式的子集来近似数据分布,而不是通过分离样本来强制生成器。因此,他们在分类器、鉴别器和一组生成器之间建立了极大极小公式。分类器通过执行多类分类来确定哪个生成器生成样本。
  4. 由于生成器和分类器之间的交互作用,鼓励每个生成器生成可与其他生成器生成的数据分离的数据。在这个模型中,多个生成器创建样本。然后随机选取其中一个作为最终输出,类似于概率混合模型的机制。因此,他们从理论上证明,在平衡点,最终输出和数据分布之间的Jensen-Shannon散度(JSD)是最小的。相比之下,发电机分布之间的JSD最大,因此有效地避免了模式崩溃问题。此外,在所建议的模型中,通过参数共享,增加到标准GAN的计算成本是最小的。该模型能有效地扩展到大规模数据集。
  5. 此外,在消息传递多代理生成对抗网络[67]中,建议使用两个生成器和一个鉴别器,通过消息传递进行通信,可以实现更好的图像生成。在本文中,有两个目标,如竞争和让步。引入竞争机制是基于两个产生者为了从判别器中得到更好的分数而相互竞争的事实。然而,让步的引入是基于两个生成器试图互相引导,以便从鉴别器中为其后代获得更好的分数,并确保消息共享机制引导另一个生成器生成比自己更好的结果。一般来说,本文提出了旨在训练多智能体gan的创新体系结构和目标。
  1. 一个生成器,多个鉴别器:多个鉴别器采用同质网络结构构造,并从相同的训练数据中为相同的任务进行训练。除了引入多鉴别器模式外,Durugkar等人在[68]中从博弈论的角度表明,由于这些相似性,鉴别器的行为彼此相似;因此,它们将收敛到相似的决策边界。在最坏的情况下,它们甚至可能收敛到一个鉴别器。因此,Jin等人在[69]中通过鉴别器差异损失(DDL),将DDL和GAN损失的优化结合起来,在多鉴别器的精度和多样性之间寻求一个最佳的折衷。与[68]相比,Hardy等人在[70]中提出了多个服务器上的分布式鉴别器。因此,它们可以在分布在众多服务器上的数据集上进行训练。
  1. 在[60]提出的FakeGAN中,Aghakhani等人使用了两个鉴别器和一个发生器。鉴别器使用蒙特卡罗搜索算法来评估中间动作值,并将其作为强化学习(RL)奖励传递给发生器。在RL[60]中,生成器被建模为一个随机策略代理。Mordido等人在[71]中将生成的样品分成多个微批次,而不是[69]中的一个批次。然后更新每个鉴别器的任务来区分不同的样本。来自其指定的假微批次的样本和来自微批次的样本与真实样本一起分配给另一个鉴别器。
  2. 与[68]不同的是,Nguyen等人在[72]中将KullbackLeibler(KL)和反向KL散度(一个概率分布与另一个概率分布不同的度量)合并为一个统一的目标函数。将这两种方法结合起来,可以利用散度的互补统计特性,使估计密度多样化,从而有效地捕获多模信号。从[72]中博弈论的角度来看,有两个判别器和一个发生器,类似于一个三人极小极大博弈。在这种情况下,有两对玩家同时在玩两个极大极小对策。
  3. 在其中一个游戏中,鉴别器奖励来自数据分布的样本的高分(反向KL发散)(4),而另一个反过来奖励来自生成器的样本的高分,并且生成器生成数据来欺骗两个鉴别器(KL发散)(5)。
  4. 超参数α, β 用于控制和稳定学习方法。
  5. 最小化数据分布和模型分布之间的Kullback-Leibler(KL)散度包括多个mod,但可能会产生完全看不见的和潜在不需要的样本。在反向KL散度中,可以观察到反向KL散度准则的优化模拟了模型寻找过程,其中Pmodel集中于Pdata的一个模式,而忽略了其他模式。
  1. 多个发生器,多个鉴别器:均衡的存在性一直被认为是产生器与鉴别器博弈中的开放性理论问题之一。Arora等人在[73]中转向了生成器深网的无限混合,以研究平衡的存在性。毫不奇怪,平衡存在于无限的混合物中。因此,在[73]中表明,有限个生成器和鉴别器的混合可以逼近GANs中的minmax解。这意味着一个近似的平衡,可以实现一个混合(不是太多)的发电机和鉴别器。在本文[73]中,提出了混合思想的启发式近似,以引入一种称为MIX+GAN的新的训练框架:使用T分量的混合,其中T是GPU内存大小允许的最大值(通常是T)≤5) 事实上,T个生成器和T个鉴别器的混合体是训练的,它们共享相同的网络结构,但有自己的可训练参数。维持混合表示维持与选择Gui的输出的概率相对应的生成器Gui的权重wui。这些重量通过反向传播更新生成器。实验表明,MIX+GAN协议改进了现有的几种GAN训练方法的训练质量,使训练更加稳定。
  1. 如前所述,GAN算法的一个重要挑战是其收敛性。参考本文[51],这种挑战是由于在鉴别器和生成器之间的minimax博弈中,使用梯度下降法,代价函数可能不会收敛。在联合学习中,趋同也是一个相当大的挑战。当不同来源的数据不独立且分布不一致时,这个问题变得更具挑战性。为此,[51]提出了一种多发生器多鉴别器结构的算法,用于训练具有非独立同分布数据源的分布式GAN,称为联邦生成对抗网络(FedGAN)。该算法采用了局部生成器和鉴别器。这些生成器和鉴别器通过平均并广播生成器和鉴别器参数的中介周期性地同步。事实上,随机逼近的GAN收敛和通信有效的SGD的联合学习的结果是由Rasouli等人在本文中连接到解决FedGAN收敛的。[51]中一个值得注意的结果是,FedGAN在收敛的同时具有与一般分布GAN相似的性能,并降低了通信复杂度。
  2. 在[66]中,基于社会群体智慧和网络结构对agent的影响,提出了多agent分布式GAN(MADGAN)框架,其中鉴别器和生成器分别作为领导者和追随者。在MADGAN中研究了大规模分布式网络中多agent的认知一致性问题。事实上,本文[66]通过分析多智能体状态马尔可夫链平稳分布的存在性,给出了多发生器多鉴别器分布GAN的一致性条件。实验结果表明,MADGAN训练的发电机的发电效果与GAN训练的发电机相当。更重要的是,MADGAN可以同时训练多台发电机,并且所有发电机的训练结果是一致的。
  1. 一个发生器,一个鉴别器,一个分类器:在判别神经网络中,GANs面临的一个问题是灾难性遗忘。自监督任务是计划处理这个问题的,但是,这些方法使严重模式崩溃的发电机能够超越SS任务。在[74]中,Tran等人提出了一种新的SS任务,称为基于多类极小极大博弈的自监督任务(MS),它基于一个多类极小极大博弈,包括一个判别器、一个生成器和一个分类器。SS任务是一个4路分类任务,用于识别四个图像旋转(0、90、180、270度)中的一个。判别器SS任务是训练预测实际样本旋转的分类器C,而生成器SS任务是训练G发生器产生假样本,以最大限度地提高分类性能。SS任务通过缩小有监督和无监督图像分类之间的差距,帮助生成者学习数据分布,生成不同的样本。理论和实验分析表明,该方法的收敛性有所提高。在[4]中,Li等人还使用了一个分类器生成分类文本。提出了一种新的框架循环合成GAN(CS-GAN),它利用GAN、RNN和RL生成更好的句子。分类器的位置是保证生成的文本包含标签信息,RNN是字符预测器,因为模型是在字符级建立的,以限制较大的搜索空间。将生成过程分为两个步骤,首先将类别信息添加到模型中,然后分别生成类别句,然后结合GAN中的类别信息生成标记句。CS-GAN在监督学习中起着很强的作用,尤其是在多类别数据集中。
  2. 一个发生器,一个鉴别器,一个RL代理:有了AL代理,我们可以对GAN的输出或输入进行快速而鲁棒的控制。该体系结构还可以通过向模型中添加任意(不一定是可微的)目标函数来优化生成过程。在[58]中,Cao等人将这种结构用于产生分子和药物发现。作者将这些分子编码为原始的基于图形的表示,与类似的方法(如SMILES[77])相比没有开销,后者从原始图形生成文本序列。对于培训部分,作者不仅对生成化学上有效的化合物感兴趣,而且还尝试使用RL试剂优化生成过程,以获得一些不可微的指标(例如,新分子水溶性或脂溶性的可能性)。在MolGAN(MolGAN)中,外部软件将计算每个分子的RL损耗,发生器利用RL损耗和WGAN损耗的线性组合。
  1. Weininger等人在[77]中也解决了同样的问题。与文献[58]相比,他们使用SMILES(分子的字符串表示)将分子编码为文本序列,而不是原始的基于图形的序列。他们提出了基于SeqGAN[55]的目标增强生成对抗网络(Organg),他们的RL代理使用了基于梯度的方法Enhanced[78],而不是Cao等人在[58]中使用的非策略参与者-评论家算法deep deterministic policy gradient(DDPG)[79]。与器官相比,MolGAN获得了更好的化学性质分数,但由于GAN和RL目标都不鼓励产生不同的输出,该模型出现了模式崩溃;或者,器官RL代理依赖于加强,唯一分数是优化惩罚非唯一输出。
  2. 为了控制发电机,我们还可以使用RL代理。Sarmad等人在[75]中提出了RL-GAN-Net,一种用于点云形状的实时完成框架。他们建议的体系结构是自动编码器(AE)、强化学习(RL)代理和潜在空间生成对抗网络(l-GAN)的组合。基于预训练的AE,RL代理为生成器选择合适的种子。这种控制GAN输出的思想为克服当前深部结构的基本不稳定性开辟了新的可能性。
    C. 改进的学习算法
  3. 这一类包括建议的改进涉及修改学习方法的方法。在这一节中,我们将注意力转向将虚拟游戏和强化学习等其他学习方法与GANs相结合的文献。
  4. 在IV-C1中考察了GAN的不同变化,并将GAN训练过程作为一个遗憾最小化问题来研究,而不是将实际分布和生成分布之间的差异最小化的流行观点。作为另一种学习方法,第IV-C2小节利用虚拟游戏来模拟GAN上的训练算法。IV-C3提供了一个关于所提出的GAN模型的综述,该模型使用了一个联邦学习框架,该框架跨分布式源进行训练,以克服GAN的数据限制。对IV-C4的研究试图在GAN和RL之间建立联系。表五总结了这类文献的贡献、优点和局限性。
  1. 无遗憾学习:GAN的最佳响应算法通常难以计算,即使在简单的游戏中也不会导致收敛和循环行为。然而,在这种情况下,简单的解决方案是平均迭代次数。遗憾最小化是考虑GAN训练动力学的更合适的方法。在[49]中,Kodali等人提出将GAN训练动力学作为一个重复博弈来研究,即两个参与者都使用无遗憾算法。此外,作者还证明了GAN对策的凸凹情形具有唯一解。如果G和D在非参数极限下有足够的容量,并且在函数空间中进行更新,则GAN对策是凸凹的。它也可以保证收敛(平均迭代)使用无遗憾算法。利用博弈论文献中的标准论据,作者证明了鉴别器不必在每一步都是最优的.
  1. 与[49]相比,最近的许多发展[10]基于不切实际的假设,即鉴别器是最优的;这对应于至少一个使用最佳响应算法的玩家。但在神经网络的实际情况下,由于博弈目标函数是非凸的,这些收敛结果并不成立。在非凸对策中,全局遗憾最小化和均衡计算是一个计算困难的问题。此外,Kodali等人在[49]中也从这个角度分析了GAN训练的收敛性,以理解模式崩溃。结果表明,在这种非凸博弈中,模式崩溃是由于不希望的局部均衡(伴随着一些真实数据点周围的鉴别函数的急剧梯度)而发生的。此外,作者还证明了梯度惩罚方案可以通过正则化鉴别器来约束环境数据空间中的梯度,从而避免模式崩溃。
  2. 与[49]相比,在[50]中,尽管Grnarova等人使用了后悔最小化,但他们提供了一种可证明收敛到MN平衡的方法。因为纯策略的极小极大值总是高于混合均衡策略的极小极大值;因此,发电机更合适。这种收敛发生在半浅GAN结构中,每个参与者都使用遗憾最小化过程。半浅层GAN结构是一种发生器为任意网络,鉴别器为单层网络的结构。即使这样的结构所导致的博弈不是凸凹的,这种方法也可以实现。进一步证明了发电机均衡策略的minimax目标对于minimax目标是最优的。
  1. 虚拟游戏:干是一个两人零和游戏与重复游戏的训练过程。如果零和博弈在两个理性的参与者之间反复进行,他们会试图增加他们的收益。让sni∈ 显示玩家i在时间n和{s0i时所采取的动作,s1i,…,序号−1i}是玩家i选择的先前动作。所以玩家j可以选择最佳的反应,假设玩家i是根据{s0i,Si1,…,sn的经验分布来选择策略的−1我}。因此,期望效用是不同纯策略下效用的线性组合。所以我们可以假设每一个玩家在每一轮都能做出最好的纯回应。在博弈论中,这种学习规则被称为虚拟博弈,可以帮助我们找到纳什均衡。在两人零和博弈中,如果博弈的均衡唯一,则虚拟博弈达到纳什均衡。然而,如果存在多个纳什均衡,其他初始化可能会产生其他的解决方案。
  1. 通过将GAN与两人零和博弈联系起来,Ge等人在[27]中设计了一个训练算法来模拟GAN上的虚拟博弈,并提供了理论上的收敛性保证。他们还表明,通过假设在虚拟GAN中每次更新时的最佳响应,生成器的混合输出分布收敛到数据分布。鉴别器输出收敛到最佳鉴别器函数。[27]中的作者使用了两个队列D和G来存储鉴别器和生成器的历史训练模型。他们还表明,虚拟GAN可以有效地解决一些标准训练方法无法解决的收敛问题,并且可以应用于现有GAN变体之上。
  1. 联合学习:数据限制是GANs等深度学习模型中常见的问题。我们可以通过使用来自多个来源的分布式数据来解决这个问题,但由于用户隐私、通信效率和统计异质性等原因,这很难解决。这就产生了在GANs中使用联邦学习来解决这些问题的想法[51],[52]。
  1. Rasouli等人在[51]中提出了一种联邦方法到GANs,它使用非独立和相同分布的数据源在分布式数据源上进行训练。在该模型中,每K个时间步长的局部梯度,代理将其局部鉴别器和生成器参数发送给中介并接收回同步参数。由于每个代理每轮的平均通信量,FedGAN比一般的分布式GAN更有效。实验还证明了FedGAN通过增加K值具有鲁棒性。为了证明该模型的收敛性,作者将GAN的收敛性与参数更新的常微分方程(ODE)表示的收敛性联系起来,在发生器和鉴别器的等时标更新或两次时标更新的情况下[80]。Rasouli等人证明了参数更新的FedGAN ODE表示渐近地跟随集中GAN的参数更新的ODE。因此,利用已有的集中式GAN的结果,FedGAN也收敛了。
  2. Fan等人在[52]中还提出了一种使用联邦学习框架的生成性学习模型。其目的是训练一个统一的中央GAN模型和每个客户机的组合生成模型。Fan等人研究了4种同步策略,将D和G的每个中心模型同步到每个客户机(Sync D&G),或者简单地同步生成器或鉴别器(Sync G或Sync D),或者不同步(Sync none)。在通信成本很高的情况下,他们建议同步G,同时失去一些生成潜力,否则同步D和G[52]结果表明,联邦成员学习通常对具有独立同分布(IID)和相当非IID训练数据的代理数具有鲁棒性。然而,对于高度偏斜的数据分布,他们的模型由于权重差异而表现出异常。
  1. 强化学习:跨模态哈希算法试图将不同的多媒体数据映射到一个公共的Hamming空间,实现跨模态的快速灵活检索。跨模态散列有两个缺点:(1)依赖于大规模标记跨模态训练数据(2) 忽略不同模式下大量未标记数据中包含的丰富信息。因此,Zhang等人在[53]中提出了半监督交叉模态哈希算法(SCH-GAN),它利用大量的未标记数据来改进哈希学习。生成器将鉴别器预测的相关分数作为奖励,并在给出另一个模态查询时尝试从未标记的数据中选取一个模态的边缘示例。鉴别器尝试使用强化学习来预测查询与所选生成器示例之间的相关性。
  1. 使用RL训练的agent只能完成通过其奖励函数指定的单个任务。因此Florensa等人在[54]中提出了目标生成对抗网络(Goal-Generative anterparial Network,Goal-GAN)。这种方法允许代理在其环境中自动发现具有适当复杂度的任务范围,而无需事先了解环境或正在执行的任务,并允许代理生成自己的奖励函数。训练目标鉴别器来评估目标是否处于当前策略的适当难度水平。目标生成器准备生成满足这些条件的目标。
  2. 当目标是生成离散令牌序列时,GAN具有局限性。首先,当输出是离散的时,很难提供从鉴别器到发生器的梯度更新。第二,鉴别器只能在生成后奖励整个序列;对于一个部分生成的序列,作为整个序列,平衡它现在的状态和将来的状态是非常重要的。Yu等人在[55]中提出了序列GAN(SeqGAN),并将数据生成器建模为强化学习(RL)中的随机策略。RL奖赏信号来自在一个完整序列上决定的鉴别器,并且使用montecarlo搜索,被传递回中间状态动作步骤。所以在这种方法中,他们每一步都关心长期回报。作者不仅考虑了以前代币的适用性,还考虑了由此产生的未来结果。”这类似于围棋或国际象棋这样的游戏,玩家有时为了长期的胜利而放弃眼前的利益“[81]。
  3. [55]中的主要问题是,分类器的奖励不能准确反映文本的新颖性。因此,与[55]相比,在[56]中,Yu等人对重复生成的文本给予较低的奖励,对“新颖”和流畅的文本给予较高的奖励,鼓励生成者生成多样化和信息丰富的文本,并提出了一种新颖的基于语言模型的鉴别器,它可以更好地区分小说文本和重复文本,而不存在饱和问题。生成者奖励由两部分组成,句子级奖励和词级奖励。作者通过最大化真实文本的奖励和最小化虚假文本的奖励来训练鉴别器。最小化生成文本的奖励的原因是,由生成器重复生成的文本可以被鉴别器识别并获得较低的奖励。真实数据报酬最大化的动机在于,不仅生成的数据中不常见的文本可以获得较高的报酬,而且鉴别器可以在一定程度上惩罚低质量的文本。
  4. 同样的SeqGAN概念也可以应用于图像字幕等领域。图像字幕的目的是用文字来描述图像。以前的图像字幕方法,如最大似然法,都存在所谓的曝光偏差问题,当模型试图基于先前的标记生成一系列标记时,就会出现这种问题。在这种情况下,模型可能会生成训练数据中从未见过的令牌[82]。Yan等人在[57]中使用了SeqGAN的思想来解决暴露偏差的问题。在该方案中,图像字幕生成器被认为是GAN框架中的生成器,其目的是描述图像。鉴别器有两个任务,第一个任务是区分真实的描述和生成的描述,第二个任务是判断描述是否与图像相关。为了处理生成文本的离散性,鉴别器被认为是一个为生成者提供奖励的代理。然而,中间报酬的缺乏是另一个与SeqGAN相同的montecarlo推出策略所解决的问题。
  5. 在离散的环境中,发现新的化合物和生成分子也是一项具有挑战性的任务[59]和[58]解决了这个问题,并提出了两个依赖SeqGAN的模型。主要的区别是在GAN的基本架构中添加了RL组件,我们在第IV-B5小节中讨论了这一点。
  6. SeqGAN背后的想法也被应用于生成带有特定标签的句子。Li等人在[4]中介绍了CS-GAN,它由一个生成器和一个描述符(鉴别器和分类器)组成。在这个模型中,生成器执行一个动作,描述符任务是通过返回奖励来识别句子类别。该模型的详细说明见第IV-B4小节。
  7. Aghakhani等人在[60]中介绍了一个系统,该系统首次扩展了用于文本分类任务的GANs,特别是检测欺骗性评论(FakeGAN)。以前的文本分类模型有局限性:(1)像递归神经网络这样的偏颇问题,即文本中的后置词比先前的词有更多的权重(2) 与窗口大小的相关性,如CNN。不像标准GAN只有一个发生器和鉴别器,FakeGAN使用两个鉴别器和一个发生器。作者将生成器建模为强化学习(RL)中的随机策略代理,并使用montecarlo搜索算法对鉴别器进行估计,并将中间动作值作为RL奖励传递给生成器。其中一个鉴别器试图区分真实的和欺骗性的评论,而另一个则试图区分虚假的和真实的评论。
  8. Ghosh等人在[61]中使用GANs学习实体的笔迹,并将其与强化学习技术相结合以实现更快的学习。该生成器可以生成与参考词相似的词,并且鉴别器网络可以用作OCR(光学字符识别)系统。当字母需要连接形成单词时,例如从一个音符到另一个音符的字符和笔划之间的间距,强化学习的概念就开始发挥作用,并为生成器提供适当的奖励或惩罚,以便更准确地学习笔迹.
  9. 在序列生成任务中,具有特定目标的序列的优化生成是一个具有挑战性的问题。目前的大多数工作主要是学习产生接近真实分布的输出。然而,在许多应用程序中,我们需要生成与真实数据相似的数据并具有特定的属性或属性。Hossam等人在[62]中介绍了第一个GAN控制的序列生成模型,该模型以原则性的方法解决了多样性问题。作者结合了GAN和RL策略学习的优点,同时避免了模式崩溃和高方差的缺点。作者指出,如果仅将纯RL应用于GAN基目标,可能会牺牲输出的实际质量,以获得更高的回报。例如,在文本生成的情况下,通过生成几个单词一直重复的句子,模型可以获得相似的质量分数。因此,将基于GAN的目标与RL相结合,可以使RL的优化过程更接近实际的数据分布。该模型可用于任何GAN模型,使其直接根据给定的任务优化目标。
  10. Tian等人在[63]中提出了一种新的基于RL的神经结构搜索(NAS)方法,并应用马尔可夫决策过程公式重新定义了神经结构搜索的问题,从而实现了一种更有效的基于RL的全局优化搜索算法。此外,由于该公式更好地促进了非策略RL训练,因此可以提高数据效率[63]。在基于RL的GAN体系结构中,目前提出的大多数搜索方法都采用了基于策略的RL,由于数据效率有限,这种方法的训练时间很长。非策略RL算法中的代理能够更准确地学习,因为这些算法使用过去的经验。然而,使用非策略数据可能会导致不稳定的策略网络训练,因为这些训练样本系统地不同于策略上的样本[63]。文献[63]中的一个新提法更好地支持了非政策性战略,减少了不稳定问题。
  • 五、存在的问题和未来方向
  1. 虽然GANs在各种生成性任务上取得了最先进的表现和令人信服的结果,但是,这些结果也带来了一些挑战,尤其是在GANs的训练上。训练过程存在不稳定性问题。在达到纳什均衡的同时,发生器和鉴别器都试图最小化各自的成本函数,而不考虑另一个。这会导致不收敛和不稳定的问题,因为最小化一个代价会导致另一个代价最大化。GANs需要解决的另一个主要问题是模式崩溃。对于不平衡的数据集或类的数量很高的情况,这个问题变得更为严重。另一方面,当鉴别器在区分样本时正常工作时,发生器梯度消失。这个问题也被称为消失梯度。与其他生成模型相比,GANs的评价更为困难。这部分是由于缺乏适当的衡量标准。大多数评估指标是定性的,而不是定量的。定性指标,如人体检查样本,是一项艰巨的任务,并取决于主题。
  2. 更具体地说,正如作者在[9]中所表达的,未来一个最重要的方向就是改进理论。解决了模型崩溃、不收敛、训练困难等问题。虽然在理论方面有很多工作,但目前的训练策略大多是基于最优化理论的,由于其非凸性,训练范围局限于局部收敛,博弈论技术的应用还处于起步阶段。目前,博弈论中的变量GANs是有限的,且大多限制性很强,很少直接适用。因此,基于博弈的GANs在涉及其他博弈模型的情况下有很大的研究空间。
  3. 从收敛性的角度来看,现有的训练方法大多收敛于局部纳什均衡,这与实际的、全局的纳什均衡相差甚远。虽然关于GANs训练的研究文献很多,但只有[48]从混合NE的角度制定训练程序,对GANs混合NE的调查等研究需要更深入的研究。另一方面,平衡点的存在并不意味着它可以很容易地通过一个简单的算法找到。特别地,训练GANs需要在非凸博弈中找到Nash均衡,并且在这些博弈中计算均衡是很困难的。在未来,我们将看到更多的解决方案试图使GAN训练更加稳定并收敛到实际的NE。
  4. 多智能体模型,如[46]、[51]、[60]、[64]–[73],在计算上比两人模型更复杂,成本更高,在开发此类变体时应考虑到这一因素。此外,在多生成器结构中,应考虑生成器之间的散度,以便所有生成器不生成相同的样本。
  5. 我们希望看到未来创新的另一个方向是将GANs与其他学习方法相结合。在多智能体学习的文献中有很多方法,当它们应用于多智能体系统时,应该加以探索。此外,关于GANs与目前的应用学习方法如RL的关系和结合的研究还有待进一步深入,这也是未来几年一个很有前途的研究方向。此外,GAN被认为是无监督学习,但是添加一定数量的标签,特别是在实际应用中,可以大大提高其生成能力。因此,如何将GAN与半监督学习相结合,也是未来可能的研究课题之一。
  6. 最后指出,GAN是一种相对新颖的新模型,具有显著的最新进展,因此可能的应用前景仍有待探索。在解决上述挑战方面取得的进展对GAN在实际场景中的应用具有决定性意义。
    B. 总结
    本文运用博弈论的方法对GANs的最新研究进展进行了综述,为以后的研究提供参考。将本研究与文献中的其他综述进行比较,并考虑到许多已发表的关于甘的挑战的著作,我们将重点放在理论方面。这一切都是通过在我们提出的分类法的基础上采取博弈论的观点来完成的。在这项调查中,我们首先提供了详细的背景资料,博弈论和甘。为了呈现一个清晰的路线图,我们介绍了我们的分类法,它有三个主要的分类,包括游戏模型、体系结构和学习方法。在提出的分类法之后,我们分别详细讨论了每个分类法,并在每个子类别中给出了基于GANs的解决方案。希望本文能对这一领域的研究者有所裨益。

你可能感兴趣的:(paper)