深度学习综述(译)

   本文参考了Recent Advances in Deep Learning: An Overview,并简单的翻译了一下,供自己学习使用,该论文列举了最近几年深度学习的重要研究成果,从方法、架构、正则化以及技术方面进行了概述,是值得学习的一篇文章,码字不易,且行且珍惜,欢迎交流讨论。
   

目录

  • 摘要
  • 引言
  • 相关研究
  • 近期进展
  • 深度学习的方法
  • 深度神经网络
  • 深度生成模型
  • 训练和优化技术
  • 深度学习的框架
  • 深度学习的应用

一、摘要

   深度学习是机器学习和人工智能研究的最新趋势之一。它也是当今最流行的科学研究趋势之一。深度学习方法带来了计算机视觉和机器学习方面的革命性进步。时不时地,新的深度学习技术应运而生,其性能超过了最先进的机器学习,甚至现有的深度学习技术。近年来,世界在该领域取得了许多重大突破。由于深度学习的发展速度非常快,因此很难跟踪常规的进展,特别是对于新的研究人员而言。在本文中,我们将简要讨论一下深度学习在过去几年中的最新进展。

二、引言

      “深度学习”(DL)一词于1986年首次引入机器学习(ML),随后于2000年用于人工神经网络(ANN)(Schmidhuber,2015年)。深度学习方法由多层组成,以多层抽象的方式学习数据特征(LeCun et al.,2015)。 DL方法允许计算机通过从相对简单的概念来学习复杂的概念(Goodfellow等人,2016)。对于人工神经网络(ANN),深度学习(DL)(又称分层学习(Deng and Yu,2014))是关于在多个计算阶段准确分配信用,以转换网络中的聚合激活(Schmidhuber,2014)。为了学习复杂的功能,将深度架构与多个抽象级别(即非线性操作)结合使用。例如具有许多隐藏层的人工神经网络(Bengio,2009)。准确地说,深度学习是机器学习的一个子领域,它使用许多层次的非线性信息处理和抽象,来进行有监督或无监督的特征学习、表示、分类和模式识别(Deng和Yu,2014年) )。
      深度学习,即表示学习是机器学习的分支或子领域。大多数人认为最近的深度学习方法是2006年以来开发的(Deng,2011年)。本文概述了最新的深度学习技术,主要推荐给即将涉足该领域的研究人员。本文包括DL的基本概念,主要方法,最新进展和应用。
      综述论文是非常有益的,特别是对于某一特定领域的新研究人员而言。只要该领域如果在不久的将来和相关应用中具有重大价值的话,通常很难跟踪研究领域的最新进展。如今,科学研究是一种有吸引力的职业,因为知识和教育比以往任何时候都更加容易获得和分享。对于一种技术的研究趋势而言,唯一正常的假设是将它会以各种方式取得许多进步和改进。几年前对某个特定领域的概述,而现在可能已过时了。
      考虑到近年来深度学习的普及和推广,我们简要概述了深度学习和神经网络(NN),以及它在过去几年中的主要进展和重大突破。我们希望本文能为该领域的许多新手研究人员提供帮助,全面了解最新的深度学习研究和技术,并指导他们以正确的方式开始。我们也希望通过这项工作向这个时代的DL和ANN顶级研究人员致敬,例如:Geoffrey Hinton(Hinton),Juergen Schmidhuber(Schmidhuber),Yann LeCun(LeCun),Yoshua Bengio(Bengio)和许多其他研究学者。他们精心打造了现代人工智能(AI)。跟进他们的工作,以保持DL和ML研究的最新水平,对我们来说也很重要。
      在本文中,首先,我们将对过去有关深度学习模型和方法的综述文章进行简短描述。然后,我们将开始描述该领域的最新进展。我们将讨论深度学习(DL)方法,深度架构(即深度神经网络(DNN)和深度生成模型(DGM)),以及重要的正则化和优化方法。另外,有两个简短的部分,对于开源DL框架和重要的DL应用程序进行总结。最后,我们将在最后两个章节(即讨论和结论)中讨论深度学习的现状和未来。

三、相关研究

      在过去几年中,有许多关于深度学习(DL)的综述文章。他们以很好的方式描述了DL方法和方法论,以及它们的应用和未来研究的方向。在这里,我们将简要介绍一些深度学习方面的优秀的综述论文。
      Young等人(2017)讨论了主要用于自然语言处理(NLP)的DL模型和架构。他们展示了DL在各个NLP领域中的应用,比较了DL模型,并讨论了可能的未来趋势。
      Zhang等人(2017)讨论了用于前端和后端语音识别系统的最新深度学习技术。
      Zhu等人(2017)提出了有关DL遥感技术的最新进展。他们还讨论了用于深度学习的开源DL框架和其他技术细节。
      Wang等人 (2017)描述了深度学习模型在时间顺序方式上的演变。简要介绍了模型,并介绍了DL研究的突破。如果想以进化的方式了解深度学习的起源,那么这篇论文将是不错的阅读。他们还提到了神经网络的优化和未来的研究。
      Goodfellow等人 (2016年)详细讨论了深度网络和生成模型。他们从机器学习(ML)的基础知识,深度架构的优缺点出发,全面总结了最近的DL研究和应用。
       LeCun等人 (2015)发表了使用卷积神经网络(CNN)和递归神经网络(RNN)的深度学习(DL)模型的概述。他们从表示学习的角度描述了DL,展示了DL技术是如何工作的以及如何在各种应用中成功使用,并基于无监督学习(UL)预测了未来的学习。他们还指出了文献中DL的重大进展的文章。
       Schmidhuber(2015)对深度学习以及CNN,RNN和深度强化学习(RL)进行了一般性的历史回顾。他强调了序列处理的RNN,同时指出了基本DL和NN的局限性,以及改进它们的技巧。
       Nielsen(2015)详细描述了神经网络以及代码和示例。他还在某种程度上讨论了深度神经网络和深度学习。
       Schmidhuber(2014)讨论了基于时间序列的神经网络、采用机器学习方法进行分类,以及在神经网络中使用深度学习的历史和进展。
       Deng和Yu(2014)描述了深度学习的类别和技术,以及DL在多个领域的应用。
       Bengio(2013)从表示学习的角度简要概述了DL算法,即有监督和无监督的网络,优化和训练模型。他专注于深度学习的许多挑战,例如用于大型模型和数据的缩放算法,减少优化难度,设计有效的缩放方法等。
       Bengio等人 (2013年)讨论了表示和特征学习又称为深度学习。他们从应用,技术和挑战的角度探索了各种方法和模型。
       Deng(2011)从信息处理和相关领域的角度概述了深度结构化学习及其架构。
      Arel等人 (2010年)简要介绍了近年来的DL技术。
      Bengio(2009)讨论了深度架构,即AI的神经网络和生成模型
      最近有关深度学习(DL)的所有概述论文都从多个角度讨论了深度学习的重点。对于DL研究人员而言,有必要进行研究。但是,DL现在是一个蓬勃发展的领域。即使在最近发布的有关DL的概述论文之后,也发明了许多新技术和体系结构。另外,以前的论文从不同的角度关注。本文主要针对该领域的学习者和新手。为此,我们将尝试向新的研究人员和对该领域感兴趣的任何人提供深度学习的基本且清晰的概念。

四、近期进展

      人工神经网络(ANN)和其他深度模型已经走了很长一段路。第一代人工神经网络由用于感知器的简单神经层组成,只能进行有限的简单计算。第二代使用反向传播,根据错误率更新神经元的权重。然后,支持向量机(SVM)浮出水面,并在一段时间内超过了人工神经网络。为了克服反向传播的局限性,人们提出了受限玻尔兹曼机,使学习变得更容易。此时其他技术和神经网络也出现了,例如前馈神经网络(FNN),卷积神经网络(CNN),循环神经网络(RNN)等,以及深度信念网络,自动编码器等。从那时起,人工神经网络以各种方式和出于各种目的进行了改进和设计。
      Schmidhuber(2014),Bengio(2009),Deng and Yu(2014),Goodfellow等。 (2016),Wang等。 (2017a)等对有关深度神经网络和深度学习(DL)的发展和历史的详细概述。在大多数情况下,深层架构是简单架构的多层非线性重复,这有助于从输入中获得高度复杂的函数(LeCun等人,2015)

五、深度学习的方法

      深度神经网络(DNN)在监督学习(SL)中获得了巨大的成功。此外,深度学习(DL)模型在无监督,混合和强化学习中也非常成功。

5.1深度监督学习

      当标记数据并将分类器用于类或数字预测时,将应用监督学习。 LeCun等人(2015年)提供了关于监督学习方法以及如何形成深度框架给出了一个精简的解释。 Deng和Yu(2014)提到了许多用于监督学习和混合学习的深度网络,并对它们进行了解释,例如深度堆叠网络(DSN)及其变体。 Schmidhuber(2014)的研究涵盖了从早期神经网络到最近成功的卷积神经网络(CNN),循环神经网络(RNN),长期短期记忆(LSTM)及其改进的所有神经网络。

5.2深度无监督学习

      如果未标记输入数据,则采用无监督学习方法从数据中提取特征并对它们进行分类或标记。 LeCun等人(2015年)预测了无监督学习中深度学习的未来。 Schmidhuber(2014)也描述了用于非监督学习的神经网络。 Deng和Yu(2014)简要介绍了用于无监督学习的深度架构,并详细解释了深度自动编码器。

5.3深度强化学习

      强化学习对学习模型所产生的下一步行动使用奖惩系统。这主要用于游戏和机器人,通常解决决策问题。 Schmidhuber(2014)描述了强化学习(RL)中深度学习的进展以及RL的深度前馈神经网络(FNN)和循环神经网络(RNN)的使用。 Li(2017)讨论了深度强化学习(DRL)及其架构,例如Deep Q-NetWork(DQN)及其在各个领域中的应用。
      Mnih等人(2016)提出了一种使用异步梯度下降进行DNN优化的DRL框架。
       van Hasselt等人 (2015年)提出了一种使用深度神经网络(DNN)的DRL架构。

六、深度神经网络

      在这一部分中,我们将简要讨论深度神经网络(DNN),以及它们最近的改进和突破。神经网络具有与人脑相似的功能。这个主要由神经元和连接物组成。当我们说深度神经网络时,我们可以假设应该有相当多的隐藏层,可以用来从输入和计算复杂函数。Bengio(2009)解释了深层结构的神经网络,如卷积神经网络(CNN)、自动编码器(AE)等及其变体。Deng和Yu(2014)详细介绍了一些神经网络结构,如AE及其变体。古德费罗Goodfellow等人(2016)撰写并巧妙地解释了深层前馈网络、卷积网络、循环网络及其改进。Schmidhuber(2014)提到了神经网络从早期神经网络到最近成功技术的完整历史。

6.1深度自编码器

      自动编码器(AE)是以输出为输入的神经网络(NN)。AE接收原始输入,对压缩表示进行编码,然后解码以重构输入。在深度AE中,较低的隐藏层用于编码,较高的层用于解码,错误反向传播用于训练。

6.1.1变分自动编码器

      变分自动编码器(VAE)可以算作解码器。VAE建立在标准神经网络的基础上,可以通过随机梯度下降进行训练(Doersch,2016)

6.1.2多层降噪自编码器

      在早期的自动编码器(AE)中,编码层的维度比输入层小,在叠加降噪自动编码器(SDAE)中,编码层比输入层宽(Deng and Yu,2014)。

6.1.3变换自编码器

      深层自动编码器(DAE)可以是变换型的,即从多层非线性加工中提取的特征因学习者的不同而发生变化。变换自编码器(TAE)既可以使用输入向量,也可以使用目标输出向量来应用转换不变性属性,将代码引导到期望的方向(Deng和Yu,2014)。

6.2深度卷积神经网络

      四个基本思想构成了卷积神经网络(CNN),即局部连接、共享权重、池和多层使用。CNN的第一部分由卷积层和池化层组成。后一部分主要是全连接层。卷积层从特征中检测局部连接,池化层将相似的特征合并为一个。CNN在卷积层中使用卷积而不是矩阵乘法。
      Krizhevsky等人(2012)提出了一种深度卷积神经网络(CNN)架构,也称为AlexNet,这是深度学习(DL)方面的一个重大突破。由五个卷积层和三个全连接的层组成。该架构采用图形处理单元(GPU)进行卷积运算,采用线性整流函数(Relu)作为激活函数,用Dropout以减少过拟合。
      Iandola等人(2016),提出了一个小型CNN架构,名为SqueezeNet。
      Szegedy等人(2014)提出了一种深度CNN架构,名为Inception。Dai等人(2017)提出了对Inception-ResNet的一种改进。
      Redmon等人(2015)提出了一种名为YOLO(You Only Look Once)的CNN架构,用于均匀和实时的目标检测。
      Zeiler and Fergus (2013)提出了一种将CNN内部激活可视化的方法。
      Gehring等人(2017)提出了一种用于序列对序列学习的CNN架构。
      Bansal等人(2017)提出了PixelNet,使用像素来表示。
      Goodfellow等人(2016)解释了CNN的基本架构和思想。Gu等人(2015)介绍了CNN的最新进展,CNN的多种变体,cnn的架构,正则化方法和功能以及在各个领域的应用进行了很好的概述。

6.2.1深度最大池化卷积神经网络

      最大池化卷积神经网络(MPCNN)主要对卷积和最大池化进行操作,特别是在数字图像处理中.MPCNN一般由其他三种类型的层组成。而不是输入层。卷积层获取输入图像并生成特征图,然后应用非线性激活函数,最大池层向下采样图像,并保持子域的最大值。全连接层进行线性乘法(Masci等人,2013 )。在深层MPCNN中,在输入层之后周期性地使用卷积和混合池化,然后是全连接层(Giusti等人,2013)。

6.2.2极深的卷积神经网络

      Simonyan和Zisserman(2014 )提出了非常深的卷积神经网络(VDCNN)架构,也称为VGGNet。VGGNet使用非常小的卷积滤波器,深度达到16-19层。
      Conneau等人(2016)提出了另一种用于文本分类的VDCNN架构,它使用小的卷积和池化。他们声称这个架构是第一个在文本处理中使用的,该架构由29个卷积层组成。

6.3网络中的网络

      Lin等人(2013年)提出了网络中的网络(NIN)。NIN以具有复杂结构的微神经网络代替传统的卷积神经网络(CNN)的卷积层。它使用多层感知器(MLPConv)用于处理微神经网络和全局平均池化层,而不是全连接层。深度NIN架构可以由NIN结果的多重叠加组成。

6.4基于区域的卷积神经网络

      Girshick等人(2014)基于区域的卷积神经网络(R-CNN),它使用区域进行识别。CNN使用区域来定位和分割目标。这个架构包括三个模块组成,即定义候选区域集合的类别独立区域建议、从区域中提取特征的大型卷积神经网络(CNN)以及一组类特定线性支持向量机(SVM)。

6.4.1 Fast R-CNN

      Girshick(2015)提出了基于快速区域的卷积网络(Fast R-CNN)。该方法利用R-CNN的架构并快速地产生结果。Fast R-CNN由卷积层和池化层、区域建议层和一系列的全连接层组成。

6.4.2 Faster R-CNN

       Ren等人(2015)提出了更快的基于区域的卷积神经网络(Faster R-CNN),它使用区域提议网络(RPN)进行实时目标检测,RPN是一个全卷积网络,能够准确而高效地产生区域建议。

6.4.3 Mask R-CNN

       何恺明等人(2017)提出了基于区域掩模的卷积网络(MASKR-CNN)实例目标分割,Mask R-CNN扩展了R-CNN的架构,并使用了一个额外的分支用于预测目标掩模。

6.4.4 Multi-Expert R-CNN

       Lee等人(2017)提出了基于多专家区域的卷积神经网络(MER-CNN),该网络利用了Fast R-CNN架构。MER-CNN从选择性和详尽的搜索中生成兴趣区域(ROI)。另外,它使用的是per-ROI多专家网络,而不是单一的每per-ROI网络。每个专家都是来自Fast R-CNN的全连接层的相同架构。

6.5 深层残差网络

       何恺明等人(2015年)提出的残差网络(ResNet)由152层组成。ResNet具有误差小、容易通过残差学习进行训。更深层次的ResNet实现了更好的性能,在深度学习领域,人们认为ResNet是一个重要的进步。

6.5.1Resnet in Resnet

       Targ等人(2016)Resnet in Resnet(RIR)中提出将ResNets和标准卷积神经网络(CNN)结合到深层双流架构中

6.5.2ResNeXt

       Xie等人(2016)提出了ResNeXt架构。ResNext利用ResNets,重复使用拆分变换合并策略的图层。

6.6胶囊网络

       Sabour等人(2017)提出了胶囊网络(CapsNet),这是一个具有两个卷积层和一个全连接层的架构。Caps Net通常包含多个卷积层,胶囊层位于末端,CapsNet被认为是深度学习的最新突破之一,因为据说这是建立在卷积神经网络局限性而提出的。它使用的是一层有一层的胶囊,而不是神经元。激活的较低级胶囊做出预测,在同意多个预测后,更高级的胶囊变得活跃。在这些胶囊层中使用了一种协议路由机制。Hinton之后提出EM路由,利用期望最大化(EM)算法对CapsNet进行了改进。

6.7循环神经网络

      循环神经网络(RNN)更适合于顺序输入,例如语音和文本以及生成序列。 当时间展开时,循环隐藏单元可以被认为是具有相同权重的非常深的前馈网络。 RNN过去由于梯度消失和爆炸问题而难以训练,后来人们提出了许多改进措施来解决此问题。
       Goodfellow等人(2016)详细的分析了循环神经网络的架构细节,其变体以及相关的门控和记忆网络。
      Karpathy(2015)使用字符级语言模型来分析和可视化预测、表示训练动态和RNN及其变体(如LSTM)的错误类型等。
      J‘ozefowicz等人(2016)探讨了RNN模型和语言模型的局限性。

6.7.1 RNN-EM

      Peng and Yao(2015)提出了具有外部记忆的循环神经网络(RNN-EM)来提高RNN的记忆能力。他们声称在语言理解方面达到了最先进的水平,比其他RNN更好。

6.7.2 GF-RNN

      Chung等人(2015)提出了门控反馈递归神经网络(GF-RNN),它通过将多个递归层叠加到全局门控单元来扩展标准RNN。

6.7.3 CRF-RNN

      Zheng等人(2015年)提出的条件随机场作为循环神经网络(CRF-RNN),它结合了卷积神经网络(CNN)和条件随机场(CRF)进行概率图形建模。

6.7.4Quasi-RNN

      Bradbury等人(2016)提出了用于神经序列建模和沿时间步的并行应用的准循环神经网络(QRNN)。

6.8记忆网络

      Weston等人(2014年)提出了的问答记忆网络(QA)。记忆网络由记忆、输入特征映射、泛化、输出特征映射和响应组成。

6.8.1 Dynamic Memory Networks

      Kumar等人(2015年)提出了用于QA任务的动态记忆网络(DMN)。DMN有四个模块,即输入、问题、情景记忆、输出。

6.9增强神经网络

      Olah和Carter(2016)很好地展示了注意力和增强循环神经网络,即神经图灵机(NTM)、注意接口、神经编程器和自适应计算时间。增强神经网络通常是利用逻辑函数等额外属性和标准的神经网络架构组成的。

6.9.1神经图灵机

      Graves等人(2014年)提出了神经图灵机(NTM)架构,由一个神经网络控制器和一个记忆库组成。NTMS通常将RNN与外部记忆库结合起来。

6.9.2神经GPU

      Kaiser和Sutskever(2015)提出了神经GPU,解决了NTM的并行问题。

6.9.3神经随机存取机

      Kurach等人(2015)提出了神经随机存取机,它使用外部可变大小的随机存取存储器。

6.9.4神经编程器

      Neelakantan等人(2015)提出了神经编程器,一种具有算术和逻辑功能的增强神经网络。

6.9.5神经编程器-解释器

      Reed and de Freitas(2015)提出了可以学习的神经编程器-解释器(NPI)。NPI由周期性内核、程序内存和特定域编码器组成(Reed和de Freitas,2015年)。

6.10长短期记忆网络

      Hochreiter和Schmidhuber(1997)提出了长短期记忆(LSTM),克服了循环神经网络(RNN)的误差回流问题。LSTM基于循环网络以及基于梯度的学习算法,LSTM引入了自循环产生路径,以便梯度可以流动。
      Greff等人(2017)对标准LSTM和8个LSTM变体的大规模分析,用于三种用途,即语音识别、手写识别和复调音乐建模。他们声称这八种LSTM没有取得显著的改善,而只有标准的LSTM表现良好。
      Shi等人(2016)提出了深度长短期记忆网络(DLSTM),它是一个LSTM单元的堆栈,用于特征映射学习表示。

6.10.1批-归一化LSTM

      Cooijmans等人(2016)提出了批-归一化LSTM(BN-LSTM),它对递归神经网络的隐藏状态进行批量规范化。

6.10.2Pixel RNN

      van den Oord等人(2016)提出的像素递归神经网络(PixelRNN),由多达12个二维LSTM层组成。

6.10.3双向LSTM

      Wüallmer等人(2010)提出了双向LSTM(BLSTM)循环网络与动态贝叶斯网络(DBN)相结合,用于上下文敏感关键词检测。

6.10.4Variational Bi-LSTM

      Shabanian等人(2017)提出的Bi-LSTM变分结构,是双向LSTM架构的一个变体。Variational Bi-LSTM使用变分自编码器(VAE)在LSTM之间创建一个信息交换通道,以学习更好的表示。

6.11谷歌神经机器翻译

      Wu等人(2016)提出的用于自动翻译的Google神经机器翻译(GNMT)系统,该系统包括编码器网络、解码器网络和注意力网络。遵循共同的序列对序列(Sequence-to-Sequence)的学习框架。

6.12Fader Networks

      Lample等人(2017)提出的Fader网络,一种新的编解码结构,通过改变属性值来产生真实的输入图像变化。

6.13超网络

      Ha等人(2016)提出HyperNetworks,为其他神经网络生成权值,例如静态超网络、卷积网络、循环网络的动态超网络。
      Deutsch(2018)使用超网络生成神经网络。

6.14 Highway Networks

      Srivastava等人(2015)提出了高速公路网络,该网络使用门控单元来学习管理信息。跨多个层次的信息流称为信息高速公路。
      Zilly 等人提出了循环高速路网络(RHN),它扩展了长短期记忆(LSTM)架构。RHN在周期性过渡中使用Highway 层。

6.15Highway LSTM RNN

      Zhang等人(2016)提出了高速公路长期短期记忆(HLSTM)RNN,它在相邻层的内存单元之间扩展了具有封闭方向连接(即Highway)的深度LSTM网络。

6.16长期循环CNN

      Donahue等人(2014)提出了长期循环卷积网络(LRCN),它使用CNN作为输入,然后LSTM用于循环序列建模和生成预测。

6.17深度神经SVM

      Zhang等人(2015 A)提出了深度神经支持向量机(DNSVM),它使用支持向量机(SVM)作为深层神经网络(DNN)分类的顶层。

6.18卷积残差记忆网络

      Moniz和Pal(2016)提出了卷积残差记忆网络,该网络将记忆机制纳入卷积神经网络(CNN)。它增强了卷积残差网络长期记忆机制。

6.19分形网络

      Larsson等人(2016)提出的分形网络,即Fractal Network,作为残差网的替代方案。他们声称在没有残差学习的情况下训练超深神经网络。分形是简单扩展规则生成的重复架构。

6.20WaveNet

      Van den Oord等人(2016 A)提出用于生成原始音频的深神经网络波形网WaveNet,WaveNet由一堆卷积层和Softmax分布层组成,用于输出。
      Rethage等人(2017)提出了一种用于语音去噪的WaveNet模型。

6.21指针网络

      Vinyals等人(2017)提出了指针网络(PTR-Nets),它解决了使用一个叫做“指针”的最大概率分布来表示可变字典的问题。

七、深度生成模型

      Bengio(2009)解释了深层架构,如Boltzmann Machine(BM)和Restriced Boltzmann Machines(RBM)等及其变体。
      Goodfellow等人(2016)详细解释深度生成模型,例如限制和不受限制的Boltzmann机及其变体、深度Boltzmann机、深度信念网络(DBN)、定向生成网、生成随机网络等。
      Maaløe等人(2016)提出了辅助的深层生成模型,其中他们扩展了深层生成模型的辅助变量。辅助变量利用随机层和跳过连接生成变分分布。
      Rezende等人(2016)开发了一类深度生成模型的一次性泛化。

7.1玻尔兹曼机

      Boltzmann机器是一种用于学习任意概率分布的连接主义方法,它使用最大似然原理进行学习。

7.2受限玻尔兹曼机

      受限Boltzmann机器(RBM)是一类特殊的马尔可夫随机场,包含一层随机隐藏单元,即潜变量和一层可观测变量。
      Hinton和Salakhutdinov(2011)提出了一种使用受限Boltzmann机器(RBM)进行文档处理的深度生成模型。

7.3深层信念网络

      深信度网络(DBN)是一种具有多个潜在二元变量或真实变量层的生成模型。
      Ranzato等人(2011)建立了一个基于深度信念网络(DBN)的深度生成模型,用于图像识别。

7.4深度Lambertian网络

      Tang等人(2012)提出的深度朗伯网络(DLN)是一个多层生成模型,其中潜在变量是反照率、表面法线和光源。DLN是朗伯反射率与高斯限制Boltzmann机和深度信念网络的结合。

7.5生成对抗网络

      Goodfellow等人(2014)提出了生成对抗性网(GAN),用于通过对抗过程来评估生成模型。GAN架构是由一个针对对手(即一个学习模型或数据分布的判别模型)的生成模型组成。Mao等人(2016)、Kim等人(2017)对GAN提出了改进。
      Salimans等人(2016)提出了几种训练GAN的方法。
      Denton等人(2015年)提出了一种基于生成性对抗网络(GaN)的深度生成模型(DGM),称为拉普拉斯生成对抗性网络(LAPGAN)。使用生成对抗网络(GAN)方法。该模型还在拉普拉斯金字塔框架中使用卷积网络。

7.6循环支持向量机

      Shi等人(2016 A)提出了循环支持向量机(RSVM),它使用循环神经网络(RNN)从输入序列中提取特征,用标准支持向量机(SVM)进行序列级目标识别。

八、训练和优化技术

8.1 Dropout

      Srivastava等人(2014)为防止神经网络过拟合而提出的Dropout。Dropout是一种神经网络模型平均正则化方法,通过增加噪声到其隐藏单元。在训练过程中,它会从神经网络中随机抽取单元和连接。Dropout可以用于像RBM(Srivastava et al., 2014)这样的图形模型中,也可以用于任何类型的神经网络。最近提出的一个关于Dropout的改进是Fraternal Dropout,用于循环神经网络(RNN)。

8.2 Maxout

      Goodfellow等人(2013)提出Maxout是一个新的激活函数,将用于Dropout。Maxout的输出是一组输入的最大值,有利于Dropout的模型平均。

8.3 Zoneout

      Krueger等人(2016)提出了Zoneout,一种用于循环神经网络(RNN)的正则化方法。Zoneout在与Dropout相似的训练中随机使用噪声,但保留了隐藏的单元而不是丢弃。

8.4深度残差学习

      He等人(2015)提出了深度残差学习框架,该框架被称为低训练误差的ResNets。

8.5批归一化

      Ioffe和Szegedy(2015)提出了一种通过减少内部协变量转移来加速深度神经网络训练的批量归一化方法。Ioffe(2017)提出的批量重整归一化,扩展了以前的方法。

8.6Distillation

      Hinton等人(2015)提出了将知识从高度正则化模型(即神经网络)集合中的知识转移到压缩和较小的模型的方法。

8.7层归一化

      Ba等人(2016)提出了层归一化,特别是针对RNN的深度神经网络加速训练,并解决了批量归一化的局限性。

九、深度学习的框架

Theano、TensorFlow、PyTorch、PyBrain、Caffe、Blocks and Fuel、CuDNN、Honk、ChainerCV、PyLearn2、Chainer、torch

十、深度学习的应用

  • 图像分类与识别
  • 视频分类
  • 序列生成
  • 缺陷分类
  • 文本、语音、图像和视频处理
  • 文本分类
  • 语音处理
  • 语音识别和口语理解
  • 文本到语音生成
  • 查询分类
  • 句子分类
  • 句子建模
  • 词汇处理
  • 预选择
  • 文档和句子处理
  • 生成图像文字说明
  • 照片风格迁移
  • 自然图像流行
  • 图像着色
  • 图像问答
  • 生成纹理和风格化图像
  • 视觉文本问答
  • 视觉识别和描述
  • 目标识别
  • 文档处理
  • 人物动作合成和编辑
  • 歌曲合成
  • 身份识别
  • 人脸识别和验证
  • 视频动作识别
  • 人类动作识别
  • 动作识别
  • 分类和可视化动作捕捉序列
  • 手写生成和预测
  • 自动化和机器翻译
  • 命名实体识别
  • 移动视觉
  • 对话智能体
  • 调用遗传变异
  • 癌症检测
  • X射线CT重建
  • 癫痫发作预测
  • 硬件加速
  • 机器人

你可能感兴趣的:(深度学习,计算机视觉)