本文我们将简要讨论其他深度架构,它们使用与深度神经网络类似的多个抽象层和表示层,也称为深度生成模型(deep generate Models,DGM)。Bengio(2009)解释了深层架构,例如Boltzmann machine(BM)和Restricted Boltzmann Machines(RBM)及其变体等。
Goodfellow等(2016)详细解释了深度生成模型,如受限和非受限的玻尔兹曼机及其变种、深度玻尔兹曼机、深度信念网络(DBN)、定向生成网络和生成随机网络等。
Maaløe等(2016)提出了辅助的深层生成模型(Auxiliary Deep Generative Models),在这些模型中,他们扩展了具有辅助变量的深层生成模型。辅助变量利用随机层和跳过连接生成变分分布。
Rezende等(2016)开发了一种深度生成模型的单次泛化。
玻尔兹曼机
玻尔兹曼机是学习任意概率分布的连接主义方法,使用最大似然原则进行学习。
受限玻尔兹曼机
受限玻尔兹曼机(Restricted Boltzmann Machines,RBM)是马尔可夫随机场的一种特殊类型,包含一层随机隐藏单元,即潜变量和一层可观测变量。
Hinton和Salakhutdinov(2011)提出了一种利用受限玻尔兹曼机(RBM)进行文档处理的深度生成模型。
深度信念网络
深度信念网络(Deep Belief Networks,DBN)是具有多个潜在二元或真实变量层的生成模型。
Ranzato等(2011)利用深度信念网络(deep Belief Network,DBN)建立了深度生成模型进行图像识别。
深度朗伯网络
Tang等(2012)提出了深度朗伯网络(Deep Lambertian Networks,DLN),它是一个多层次的生成模型,其中潜在的变量是反照率、表面法线和光源。DLNis是朗伯反射率与高斯受限玻尔兹曼机和深度信念网络的结合。
生成对抗网络
Goodfellow等(2014)提出了生成对抗网络(generate Adversarial Nets,GAN),用于通过对抗过程来评估生成模型。GAN架构是由一个针对对手(即一个学习模型或数据分布的判别模型)的生成模型组成。Mao等(2016)、Kim等(2017)对GAN提出了更多的改进。Salimans等(2016)提出了几种训练GAN的方法。
拉普拉斯生成对抗网络
Denton等(2015)提出了一种深度生成模型(DGM),叫做拉普拉斯生成对抗网络(LAPGAN),使用生成对抗网络(GAN)方法。该模型还在拉普拉斯金字塔框架中使用卷积网络。
循环支持向量机
Shi等(2016)提出了循环支持向量机(RSVM),利用循环神经网络(RNN)从输入序列中提取特征,用标准支持向量机(SVM)进行序列级目标识别。
此外,还有一些用于正则化和优化深度神经网络(DNN)的技术,主要包括:
Dropout
Srivastava等(2014)提出Dropout,以防止神经网络过拟合。Dropout是一种神经网络模型平均正则化方法,通过增加噪声到其隐藏单元。在训练过程中,它会从神经网络中随机抽取出单元和连接。Dropout可以用于像RBM这样的图形模型中,也可以用于任何类型的神经网络。最近提出的一个关于Dropout的改进是Fraternal Dropout,用于循环神经网络(RNN)。
Maxout
Goodfellow等(2013)提出Maxout,一种新的激活函数,用于Dropout。Maxout的输出是一组输入的最大值,有利于Dropout的模型平均。
Zoneout
Krueger等(2016)提出了循环神经网络(RNN)的正则化方法 Zoneout。Zoneout在训练中随机使用噪音,类似于Dropout,但保留了隐藏的单元而不是丢弃。
深度残差学习
He等(2015)提出了深度残差学习框架,该框架被称为低训练误差的ResNet。
批归一化
Ioffe和Szegedy(2015)提出了批归一化,通过减少内部协变量移位来加速深度神经网络训练的方法。Ioffe(2017)提出批重归一化,扩展了以前的方法。
Distillation
Hinton等(2015)提出了将知识从高度正则化模型的集合(即神经网络)转化为压缩小模型的方法。
层归一化
Ba等(2016)提出了层归一化,特别是针对RNN的深度神经网络加速训练,解决了批归一化的局限性。
目前,已经建立了大量的开源库和框架供深度学习使用。它们大多是为Python编程语言构建的,如Theano、Tensorflow、PyTorch、PyBrain、Caffe、Blocks and Fuel、CuDNN、Honk、ChainerCV、PyLearn2、Chainer、torch等。
自深度学习(DL)出现以来,DL方法以监督、非监督、半监督或强化学习的形式被广泛应用于各个领域。从分类和检测任务开始,DL应用正在迅速扩展到每一个领域。例如:
图像分类与识别
视频分类
序列生成
缺陷分类
文本、语音、图像和视频处理
文本分类
语音处理
语音识别和口语理解
文本到语音生成
查询分类
句子分类
句子建模
词汇处理
预选择
文档和句子处理
生成图像文字说明
照片风格迁移
自然图像流形
图像着色
图像问答
生成纹理和风格化图像
视觉和文本问答
视觉识别和描述
目标识别
文档处理
人物动作合成和编辑
歌曲合成
身份识别
人脸识别和验证
视频动作识别
人类动作识别
动作识别
分类和可视化动作捕捉序列
手写生成和预测
自动化和机器翻译
命名实体识别
移动视觉
对话智能体
调用遗传变异
癌症检测
X射线CT重建
癫痫发作预测
硬件加速
机器人
Deng和Yu(2014)提供了DL在语音处理、信息检索、目标识别、计算机视觉、多模态、多任务学习等领域应用的详细列表。
使用深度强化学习(Deep Reinforcement Learning,DRL)来掌握游戏已经成为当今的一个热门话题。现在,人工智能机器人都是用DNN和DRL创建的,它们在战略和其他游戏中击败了人类世界冠军和象棋大师,从几个小时的训练开始。例如围棋的AlphaGo和AlphaGo Zero。
尽管深度学习在许多领域取得了巨大的成功,但它还有很长的路要走。还有很多地方有待改进。至于局限性,例子也是相当多的。例如:Nguyen等表明深度神经网络(DNN)在识别图像时容易被欺骗。还有其他问题,如Yosinski等提出的学习的特征可迁移性。Huang等提出了一种神经网络攻击防御的体系结构,认为未来的工作需要防御这些攻击。Zhang等则提出了一个理解深度学习模型的实验框架,他们认为理解深度学习需要重新思考和概括。
Marcus在2018年对深度学习(Deep Learning,DL)的作用、局限性和本质进行了重要的回顾。他强烈指出了DL方法的局限性,即需要更多的数据,容量有限,不能处理层次结构,无法进行开放式推理,不能充分透明,不能与先验知识集成,不能区分因果关系。他还提到,DL假设了一个稳定的世界,以近似方法实现,工程化很困难,并且存在着过度炒作的潜在风险。Marcus认为DL需要重新概念化,并在非监督学习、符号操作和混合模型中寻找可能性,从认知科学和心理学中获得见解,并迎接更大胆的挑战。
尽管深度学习(DL)比以往任何时候都更快地推进了世界的发展,但仍有许多方面值得我们去研究。我们仍然无法完全地理解深度学习,我们如何让机器变得更聪明,更接近或比人类更聪明,或者像人类一样学习。DL一直在解决许多问题,同时将技术应用到方方面面。我们希望深度学习和人工智能将更加致力于改善人类的生活质量,通过开展最困难的科学研究。
深度学习的最新研究进展(一)
深度学习的最新研究进展(二)
什么是机器学习?(上)
什么是机器学习?(下)
人工智能(AI)经历了怎样的发展历程?