简明深度学习方法概述 Deep Learning:Methods and Application

简明深度学习方法概述 Deep Learning:Methods and Application

 人工智能  小林子   7个月前 (03-05)   2558℃   0评论

作者:@神一手golden

说明:本文主要是翻译整理Li Deng 和 Dong Yu所著的《Deep Learning:Methods and Application》文章并没有全文翻译,而是一个总结并加入个人理解生成的概括性文章。如果要深入了解推荐读原文。博主真心能力有限,所以理解之处错误在所难免,请勿喷。

一、 综述


在这片介绍性文章开始,先简单介绍一下深度学习的概念。深度学习(Deap Learning),是机器学习的一个新的研究领域,它的定义有很多,这里随意列举一两个定义你们感受一下(老外的语言还是很干练的):

1) “A class of machine learning techniques that exploit many layers of non-linear information processing for supervised or unsupervised feature extraction and transformation, and for pattern analysis and classification.”
2) “deep learning is a set of algorithms in machine learning that attempt to learning in multiple levels, corresponding to different levels of abstraction. It typically uses artificial neural networks. The levels in these learned statistical models correspond to distinct levels of concepts, where higher-level concepts are defined from lower-level ones, and the same lower-level concepts can help to define many higher-level concepts”

上述英文定义的共同点包括两个主要方面:

  1. 模型由多个层次或多个非线性信息处理模块阶段组成
  2. 特征表示的监督和非监督学习方法在深度模型的更高抽象层次里

深度学习是多学科领域的交叉,比如神经网络、人工智能、图建模、最优化理论、模式识别和信号处理。需要注意的是本文所描述的深度学习是在信号和信息处理内容中学习出一种深度结构。它不是对信号和信息处理知识的理解,尽管某些意义上说它俩相似,但深度学习重点在于学习出一种深度网络结构,是实实在在存在的一种计算机可存储结构,这种结构表示了信号的某种意义上的内涵。
从06年开始,深度结构学习方法(深度学习或者分层学习方法)作为机器学习领域的新的研究方向出现。由于三种主要领域的技术进步(比如芯片处理性能的巨大提升,数据爆炸性增长和机器学习与信信号处理研究的进步),在过去的短短几年时间,深度学习技术得到快速发展,已经深深的影响了学术领域,其研究涉及的应用领域包括计算机视觉、语音识别、对话语音识别、图像特征编码、语意表达分类、自然语言理解、手写识别、音频处理、信息检索、机器人学。
由于深度学习在众多领域表现比较好的性能,越来越多的学术机构把目光投入深度学习领域。今年来活跃在机器学习领域的研究机构包括众多高校比如斯坦福,伯克利,还有一些企业例如Google,IBM 研究院,微软研究院,FaceBook,百度等等。这些研究机构在计算机领域的众多应用中都成功利用了深度学习方法,甚至有一个关于分子生物学的研究指出他们利用深度学习方法引领下发现了新的药物。
本文只是阐述了截止2014年最新的有关深度学习研究的一部分内容综述,如果需要了解这个领域的最新进展,推荐到以下网址获取:

  • http://deeplearning.net/reading-list/
  • http://ufldl.stanford.edu/wiki/index.php/UFLDL_Recommended_Readings
  • http://www.cs.toronto.edu/∼hinton/
  • http://deeplearning.net/tutorial/
  • http://ufldl.stanford.edu/wiki/index.php/UFLDL_Tutorial

二、 深度学习历史

直到近些年,大多数机器学习和信号处理技术大多还是采用浅层的结构,这些典型结构包含至多一层或两层非线性特征变换。这种浅层结构的代表比如高斯混合模型(GMM),线性或非线性动态系统,条件随机场(CRFs),最大熵模型,支持向量机(SVMs),逻辑回归(LR),核回归,多层感知器(MLPS)。例如,SVMs 使用了一个浅层的线性模式分类器,当使用核技巧的话,包含一个特征转换层。浅层结构方法(既机器学习方法)已经在一些简单和有限制难题中得到了比较好的结果,但是当处理复杂的现实世界的问题时(例如语音,自然声音图像,语言,视场等),它们有限的模型复杂度和表达能力就遇到了困难。
人类自我信息的处理和理解(例如视觉信息,声音信息),一直以来都比较复杂,因此需要更深的结构算法从输入层中提取特征。比如说,语音生成和理解系统在把波形信号转变成语言级别的信号的时候,就是设置了清晰的多层结构去学习。历史上来看,深度学习的概念起源于神经网络的研究。含有多隐层的前馈神经网络(BP)或者多层感知器(多隐层MLPs通常指深度神经网络DNNs),就是一个深度结构模型的例子。BP神经网络流行在上世纪80年的,已经成为广为人知的学习算法。遗憾的是,加入多隐层的BP神经网络算法效果却并不好(网络中普遍存在的非凸目标函数的局部最优化调整问题是主要的训练难题)。随着网络深度的增加,越难达到局部最优化。而这个困境的原因是忽视了机器学习和信号处理领域的研究,比如机器学习方法中的SVM,CRF,和最大熵模型,包含损失函数,使用这些方法可以有效获得全局优化。
深信网络(deep belief network DBN)提出后,深度模型的最优化困难可以在经验上得到降低。DBN是由一组限制玻尔兹曼机(RBMs)组成的层次网络学习算法,它可以在线性的时间复杂度内达到模型参数的最优化。使用MLP采用合理配置初始化权值后,DBN经常能表现的比随机参数更好一点。同理,含多隐层的MLPs 或者深度神经网络(DNN)学术上也被称为DBNs。最近,研究人员已经更精细的区分DNNs和DBNs,如果使用DBN去初始化DNN的训练的话,那么这个网络就可以被称为DBN-DNN。这上述的深度学习的理论提出后,学术界不断提出改进的理论来丰富深度学习的内容,深度学习理论已经得到了极大的丰富和发展。
我们可以从另一个角度来了解这个发展历程,下图展现了不同时代的神经网络被宣传的热度。巅峰期出现在1980s和1990s,此时被称为神经网络的第二代。DBN在06年被研究出来,当DBN被用在初始化DNN的时候,学习算法的效率就变的更加有效,这促进了学术界连续的快速研究成果。DBN和DNN的产业级语音特征提取和识别应用出现在09年,当时产业界和学术界以及深度学习的研究专家有着密切的相互合作。这种合作快速发展了语音识别的深度学习方法,并由此而取得了巨大成功。

图中“plateau of productivity(稳定产出)”短语目前还没有到来,但是期望在未来将会比图中显示出的走势更加剧烈,像标记中的虚线那样,而我们就是刚刚处于这个时期,尤其最近深度学习概念屡屡被热炒,其发展热度可见一斑。

三类深度学习网络

本篇介绍深度学习的大致分类,根据其应用方式的不同,我们可以粗分类几种不同结构的深度学习方法。

(1) 三种深度学习网络分类方式


如文章(一)中所述,深度网络是指一大类的机器学习和各种层次结构结合的网络,其特性是使用多层的非线性信息处理方法(这和一般神经网络结构类似,包含了更多的隐层)。根据这些结构和技术的应用领域比如综合/生成或识别/分类,我们可以大致的把这些结构分为三类:

  1. 非监督学习或生成学习深度网络,当目标的类标签信息不可获取的时候,这类深度网络趋向于为了模式分析和综合的目的,提取可视数据中高度自相关性(可参考机器学习中对于非监督学习的描述)。在学术上,非监督特征或者表示学习指的就是这类深度网络。当用在生成模型中的时候,很多这类模型也用来描述可视数据的统计分布和他们的相关类属的分布,并把它们作为数据的一部分。
  2. 监督学习深度网络,这类模型用在直接提供模式分类中的识别能力,经常以描述可视数据的类的后验分布形式给出。类标签可以直接或间接得到(因为是监督学习)。
  3. 混合深度网络,目标是辅加生成学习或者深度非监督学习效果的数据分类问题。一般可以使用最优化和第2类深度网络模型来解决。这种网络使用监督学习的标准去估计任何深度生成模型或者非监督深度网络中的参数。

“混合”这一称呼和一般学术指的不同,学术上可能指把一个神经网络的概率输出反馈到HMM(隐形马尔科夫模型,推荐李航的《统计学习方法》中了解)中所组成的语音识别系统。
如果按照普通的采用机器学习的惯例,那就可以很自然的把深度学习技术分为深度判别模型(监督学习)(比如深度神经网络或者DNNS,递归神经网络或者RNNs,卷积神经网络或者CNNs等等)和生成或非监督模型(比如限制玻尔兹曼机或者RBMs,深信网络或者DBNs,深度玻尔兹曼机(DBMs)规则自编码器等等)。但这两种分类方式都忽略了生成或非监督模型通过最优化和正则化可以极大的改进DNNs和其他深度判定模型和监督模型的训练。并且,深度无监督学习网络未必能从数据中有意义的采样。我们注意到已经有研究通过生成传统的去噪自编码器来来有效采样(具体论文不列出,大家可以去搜搜看)。不管怎么说,传统的两种分类方式的确指出了监督学习和非监督学习深度网络中的不同点。比较上面提到的两类深度学习方法,深度监督学习方法例如DNNs是通常可以有效测试和训练的模型,可以灵活构建并且适合复杂系统的首位相连的学习(比如loopy belief propagation)。另一方面来说,深度非监督学习模型,特别是概率生成模型,更容易解释,容易嵌入局部先验知识,容易组织和容易处理不确定性。但是它在推理学习和复杂系统学习方面比较困难。这些区分也保留在本文推荐的三类深度网络模型分类里面,这是一个好现象。

(2) 非监督学习或生成学习深度网络

非监督学习指学习没有监督信息的数据(比如根本没有数据的类标签,无法根据数据的类属性分类)。很多这类深度网络可以从神经网络知识里借鉴生成,比如RBMs,DBNs,DBMs和生成去噪自编码器。还有一些比如稀疏编码网络以及深度自编码器的原始形式。下面给出这类网络的样例以及相关文献信息,具体内容可以根据兴趣学习:

[1] Y. Bengio, N. Boulanger, and R. Pascanu. Advances in optimizing recurrent networks. In Proceedings of International Conference on Acoustics Speech and Signal Processing (ICASSP). 2013
[2] Y. Bengio, P. Lamblin, D. Popovici, and H. Larochelle. Greedy layerwise training of deep networks. In Proceedings of Neural Information Processing Systems (NIPS). 2006.
[3] Y. Bengio. Learning deep architectures for AI. in Foundations and Trends in Machine Learning, 2(1):1–127, 2009.
[4] Y. LeCun, S. Chopra, M. Ranzato, and F. Huang. Energy-based models in document recognition and computer vision. In Proceedings of International Conference on Document Analysis and Recognition (ICDAR).2007.
[5] J. Ngiam, Z. Chen, P. Koh, and A. Ng. Learning deep energy models. In Proceedings of International Conference on Machine Learning (ICML).2011.
[6] L. Deng, M. Seltzer, D. Yu, A. Acero, A. Mohamed, and G. Hinton.Binary coding of speech spectrograms using a deep autoencoder. In Proceedings of Interspeech. 2010.
[7] G. Hinton and R. Salakhutdinov. Reducing the dimensionality of data with neural networks. Science, 313(5786):504–507, July 2006.
[8] P. Vincent, H. Larochelle, I. Lajoie, Y. Bengio, and P. Manzagol.Stacked denoising autoencoders: Learning useful representations in a deep network with a local denoising criterion. Journal of Machine Learning Research, 11:3371–3408, 2010.
[9] G. Hinton. A better way to learn features. Communications of the Association for Computing Machinery (ACM), 54(10), October 2011.
[10] I. Goodfellow, M. Mirza, A. Courville, and Y. Bengio. Multi-prediction deep boltzmann machines. In Proceedings of Neural Information Processing Systems (NIPS). 2013.
[11] R. Salakhutdinov and G. Hinton. Deep boltzmann machines. In Proceedings of Artificial Intelligence and Statistics (AISTATS). 2009.
[12] R. Salakhutdinov and G. Hinton. A better way to pretrain deep Boltzmann machines. In Proceedings of Neural Information Processing Systems (NIPS). 2012.
[13] N. Srivastava and R. Salakhutdinov. Multimodal learning with deep boltzmann machines. In Proceedings of Neural Information Processing Systems (NIPS). 2012.
[14] G. Dahl, M. Ranzato, A. Mohamed, and G. Hinton. Phone recognition with the mean-covariance restricted boltzmann machine. In Proceedings of Neural Information Processing Systems (NIPS), volume 23, pages 469–477. 2010.
[15] M. Ranzato and G. Hinton. Modeling pixel means and covariances using factorized third-order boltzmann machines. In Proceedings of Computer Vision and Pattern Recognition (CVPR). 2010.
[16] A. Mohamed, G. Hinton, and G. Penn. Understanding how deep belief networks perform acoustic modelling. In Proceedings of International Conference on Acoustics Speech and Signal Processing (ICASSP). 2012.
[17] R. Gens and P. Domingo. Discriminative learning of sum-product networks.Neural Information Processing Systems (NIPS), 2012.
[18] H. Poon and P. Domingos. Sum-product networks: A new deep architecture.In Proceedings of Uncertainty in Artificial Intelligence. 2011.
[19] J. Martens and I. Sutskever. Learning recurrent neural networks with hessian-free optimization. In Proceedings of International Conference on Machine Learning (ICML). 2011.
[20] Y. Bengio. Deep learning of representations: Looking forward. In Statistical Language and Speech Processing, pages 1–37. Springer, 2013.
[21] I. Sutskever. Training recurrent neural networks. Ph.D. Thesis, University of Toronto, 2013.
[22] T. Mikolov, M. Karafiat, L. Burget, J. Cernocky, and S. Khudanpur. Recurrent neural network based language model. In Proceedings of International Conference on Acoustics Speech and Signal Processing (ICASSP), pages 1045–1048. 2010.
[23] G. Mesnil, X. He, L. Deng, and Y. Bengio. Investigation of recurrentneural-network architectures and learning methods for spoken language understanding. In Proceedings of Interspeech. 2013.
[24] K. Yao, G. Zweig, M. Hwang, Y. Shi, and D. Yu. Recurrent neural networks for language understanding. In Proceedings of Interspeech.2013.
[25] Z. Ling, L. Deng, and D. Yu. Modeling spectral envelopes using restricted boltzmann machines for statistical parametric speech synthesis.In International Conference on Acoustics Speech and Signal Processing (ICASSP), pages 7825–7829. 2013.
[26] M. Shannon, H. Zen, and W. Byrne. Autoregressive models for statistical parametric speech synthesis. IEEE Transactions on Audio, Speech,Language Processing, 21(3):587–597, 2013.
[27] H. Zen, Y. Nankaku, and K. Tokuda. Continuous stochastic feature mapping based on trajectory HMMs. IEEE Transactions on Audio,Speech, and Language Processings, 19(2):417–430, February 2011.
[28] M. Wohlmayr, M. Stark, and F. Pernkopf. A probabilistic interaction model for multi-pitch tracking with factorial hidden markov model.IEEE Transactions on Audio, Speech, and Language Processing, 19(4),May 2011.
[29] R. Socher, C. Lin, A. Ng, and C. Manning. Parsing natural scenes and natural language with recursive neural networks. In Proceedings of International Conference on Machine Learning (ICML). 2011.
[30] R. Socher, Y. Bengio, and C. Manning. Deep learning for NLP.Tutorial at Association of Computational Logistics (ACL), 2012, and North American Chapter of the Association of Computational Linguistics (NAACL), 2013.
http://www.socher.org/index.php/DeepLearning Tutorial.

(有点多。。。大家可以根据需要检索,不过都是比较新的索引文献,值得一读)

(3) 监督学习深度网络

很多信号和信息处理方面的监督学习的判别技术都是浅层结构比如HMMs(隐形马尔科夫模型)和条件随机场(CRFs),条件随机场本质上就是一个浅层判别模型,在输入特征和多度特征上用线性关系描述。最近深度组织CRFs被提出来,它存储每一层CRF的输出,和原始输入数据一起传输到它的更高层。各种版本的深度组织CRFs已经成功的应用在了电话语音识别,语音识别和自然语言处理上。下面给出监督学习相关的深度网络方面的参考文献,具体内容大家根据兴趣查找阅读:

[1] M. Gibson and T. Hain. Error approximation and minimum phone error acoustic model estimation. IEEE Transactions on Audio, Speech, and Language Processing, 18(6):1269–1279, August 2010.
[2] Heintz, E. Fosler-Lussier, and C. Brew. Discriminative input stream combination for conditional random field phone recognition. IEEE Transactions on Audio, Speech, and Language Processing, 17(8):1533–1546, November 2009.
[3] G. Heigold, H. Ney, P. Lehnen, T. Gass, and R. Schluter. Equivalence of generative and log-liner models. IEEE Transactions on Audio, Speech,and Language Processing, 19(5):1138–1148, February 2011.
[4] D. Yu, S. Wang, and L. Deng. Sequential labeling using deep-structured conditional random fields. Journal of Selected Topics in Signal Processing,4:965–973, 2010.
[5] D. Yu and L. Deng. Deep-structured hidden conditional random fields for phonetic recognition. In Proceedings of Interspeech. September 2010.
[6] D. Yu, S. Wang, and L. Deng. Sequential labeling using deep-structured conditional random fields. Journal of Selected Topics in Signal Processing,4:965–973, 2010.
[7] N. Morgan. Deep and wide: Multiple layers in automatic speech recognition.IEEE Transactions on Audio, Speech, & Language Processing,20(1), January 2012.
[8] L. Deng and D. Yu. Deep convex network: A scalable architecture for speech pattern classification. In Proceedings of Interspeech. 2011
[9] L. Deng, D. Yu, and J. Platt. Scalable stacking and learning for building deep architectures. In Proceedings of International Conference on Acoustics Speech and Signal Processing (ICASSP). 2012a.
[10] B. Hutchinson, L. Deng, and D. Yu. A deep architecture with bilinear modeling of hidden representations: Applications to phonetic recognition.In Proceedings of International Conference on Acoustics Speech and Signal Processing (ICASSP). 2012.
[11] L. Deng, G. Tur, X. He, and D. Hakkani-Tur. Use of kernel deep convex networks and end-to-end learning for spoken language understanding.In Proceedings of IEEE Workshop on Spoken Language Technologies.December 2012.
[12] L. Deng, K. Hassanein, and M. Elmasry. Analysis of correlation structure for a neural predictive model with application to speech recognition.Neural Networks, 7(2):331–339, 1994.
[13] A. Graves. Sequence transduction with recurrent neural networks. Representation
[14] Learning Workshop, International Conference on Machine Learning (ICML), 2012
[15] A. Graves, A. Mohamed, and G. Hinton. Speech recognition with deep recurrent neural networks. In Proceedings of International Conference on Acoustics Speech and Signal Processing (ICASSP). 2013.

(4) 混合深度网络

“混合”这个名词使用在这个类别里正是指一类既包含和利用了生成模型也用了判别模型的一种深度网络。在目前学术圈发表的混合结构模型中,生成组件最常被用来帮助判别模型,判别模型是这个混合模型的最终目标。生成模型如何促进判别模型可以从下列两种观点来佐证:

  1. 最优化观点,生成模型就是在非监督数据集上根据这种观点被训练的。它为高度非线性参数估计难题提供了极好的初始化参数(通常深度网络中使用的名词“预训练”就是因此被引入的)。
  2. 正则化观点,据此非监督学习模型能有效的提供一个在一组模型函数集上的先验。

下面提供关于这类模型相关的参考文献,相信大家可以从中学习到比较深入的知识。

[1] D. Erhan, Y. Bengio, A. Courvelle, P.Manzagol, P. Vencent, and S. Bengio.Why does unsupervised pre-training help deep learning? Journal on Machine Learning Research, pages 201–208, 2010.
[2] D. Erhan, Y. Bengio, A. Courvelle, P.Manzagol, P. Vencent, and S. Bengio.Why does unsupervised pre-training help deep learning? Journal on Machine Learning Research, pages 201–208, 2010.
[3] A. Mohamed, D. Yu, and L. Deng. Investigation of full-sequence training of deep belief networks for speech recognition. In Proceedings of Interspeech. 2010.
[4] B. Kingsbury, T. Sainath, and H. Soltau. Scalable minimum bayes risk training of deep neural network acoustic models using distributed hessian-free optimization. In Proceedings of Interspeech. 2012.
[5] M. Ranzato, J. Susskind, V. Mnih, and G. Hinton. On deep generative models with applications to recognition. In Proceedings of Computer Vision and Pattern Recognition (CVPR). 2011.
[6] H. Lee, R. Grosse, R. Ranganath, and A. Ng. Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations.In Proceedings of International Conference on Machine Learning (ICML). 2009.

在接下来的一篇文章中,我们将详细说明三种深度学习领域典型类型的模型。给出简单的结构描述和数学描述。这三种举例的模型可能不一定是最具代表性和有影响力的模型,不过可以作为一种说明来让大家明白区别。

深度自编码———-非监督学习

一下介绍了非监督学习深度网络模型,我们以此开始三种类别网络的实例化介绍。
深度自编码是一类特别的DNN(不含有类标签),它的输出向量和输入向量维度相同。它常常用来学习一种原始数据的表示或者有效的编码方式,并在隐藏的输入层作为向量的形式表示。注意自编码模型是一种非线性特征提取模型,没有类标签。同样的,特征提取模型目标是保存和更好的表示信息而不是任务分类,经过某些方面来说这两个目标相互联系。
一个典型的自编码模型拥有一个可以表示原始数据的输入层或者说叫输入特征向量(比如,图像像素或者声音频谱),一个或者更多表示特征转换的隐藏层,以及一个匹配输入层用来重建的输出层。当隐藏层数量超过一个的时候,自编码模型就认为是深度自编码模型。隐藏层的维度既可以比输入层维度更小(目的是压缩特征)也可以更大(目的是把特征映射到更高维空间)。
自编码模型经常使用随机梯度下降法训练参数。尽管这样的方法很有效,但经常在训练带有多隐层的网络的时候有一些基本困难。当一些误差反馈到初始的一些层的时候,误差变得极小,训练变得无效起来。虽然有些其它的更高级的反馈传播方法某种程度上可以去解决这些困难,但是仍然导致低效,尤其是当训练数据有限的时候。但幸运的是,这个难题可以通过把每一层网络昨晚自编码模型进行预训练来解决(引用:G. Hinton, S. Osindero, and Y. Teh. A fast learning algorithm for deep belief nets. Neural Computation, 18:1527–1554, 2006.)。这种策略已经被应用在很多方面比如:使用深度自编码去把图像映射到一个基于短二进制编码的图像检索中,编码文档(称为语意哈希)以及编码频谱类语音特征中。
1) 使用深度自编码提取语音特征
这里我们回顾一组工作,其发表在(L. Deng, M. Seltzer, D. Yu, A. Acero, A. Mohamed, and G. Hinton.Binary coding of speech spectrograms using a deep autoencoder. In
Proceedings of Interspeech. 2010.),这篇文章发展出了使用非监督方式从原始频谱语音数据中提取二进制语音编码的方法自编码模型。这种从模型中提取的依据二进制编码的离散表示法能应用在信息检索或者在语音识别中作为瓶颈特性。
包含256种频段和1,3,9或13帧的频谱块生成模型如下图所示。这种称为无向图模型称为Gaussian-Bernoulli RBM(高斯-伯努利受限玻尔兹曼机),它含有一个加高斯噪声的线性参数的可见层和一个包含500到3000二进制隐变量的隐层。学习Gaussian-Bernoulli RBM后,它的隐单元的响应可以作为训练其他Gaussian-Bernoulli RBM的输入。这两个Gaussian-Bernoulli RBM可以组成一个深信网络(deep belief net DBN),这篇论文中使用的DBN表示在图的左侧,两个RBMS被分开表示。
这个包含三层隐层的深度自编码模型使用DBN的权矩阵铺开组成。最底下一层使用权矩阵编码输入,上一层使用权矩阵倒序的编码输入。然后此深度自编码模型使用误差反馈来微调以最小化重建误差,如图右边所示。当学习过程结束的时候,一个可变长度的频谱图可以被编码和重构。

2) 堆叠噪声自编码模型
在早期的自编码研究中,编码层维度比输入层维度小。然而,在某些应用领域需要编码层维度更大一些,这些情况下,一些需要一些技术去防止神经网络学习一些琐碎无用的映射函数。使用更高维度隐层和编码层的一个原因是使得自编码模型捕捉到输入数据的更丰富的信息。
避免上面提到琐碎映射函数问题的方法包括使用稀疏约束,或者使用随机丢弃方法比如随机的强制某些数值归零,由此引入输入层或者隐层数据噪声。例如,在堆叠噪声自编码模型(详细见,P. Vincent, H. Larochelle, I. Lajoie, Y. Bengio, and P. Manzagol.
Stacked denoising autoencoders: Learning useful representations in a
deep network with a local denoising criterion. Journal of Machine
Learning Research, 11:3371–3408, 2010.)中,随机噪声加在输入数据里。这有几个目的,第一,强制输出匹配原始无失真输入数据,模型能避免学习到琐碎无用函数。第二,噪声随机加入后,学习到的模型在同样畸变的测试数据中将更具鲁棒性。第三,每处畸变输入样本不同,极大的提高了测试集尺寸并因此减轻过拟合线问题。
3) 变换自编码模型
上述深度自编码模型可以提取稳固的特征向量编码归功于模型中多层的非线性处理过程。然而,这种方法提取到的编码是多种多样的。换句话说,当测试者选择的输入特征向量变化的时候,提取的编码将会改变。有时候需要编码变化是可预测的并且反应获取内容的相对不变性。怀着这种目标的变换自编码模型在图像识别中被提出(G. Hinton, A. Krizhevsky, and S. Wang. Transforming autoencoders. In
Proceedings of International Conference on Artificial Neural Networks.
2011.)。
变换自编码模型的构件是一个被称为“胶囊”的东西,它是一个独立子网络,其提取一个单一参数化特征并且表示一个单一实体(一个可视的或者音频的东西)。变换自编码同时接收输入向量和目标输出向量(通过一个全局变换机制从输入向量变换得到)。一个显示表示全局变换机制假定已知。变换自编码模型的编码层由一些“胶囊”组成。
在训练阶段,不同的胶囊学习提取不同的实体以便最小化最终输出和目标输出的误差。
除了这里介绍的深度自编码结构以外,这里有很多学术上描述的生成模型只使用数据本身(无分类标签数据),用来自动获取高层特征信息。

预训练深度神经网络———-混合体

在此篇里,我们介绍一种广泛使用的混合深度结构————预训练深度神经网络(PDNN)并且讨论一下相关技术以及构建RBM(受限玻尔兹曼机)和DBN(上面描述过)。我们在深度神经网络(DNN)之前讨论混合的DNN实例部分是因为从非监督模型到DNN中间的混合模型再到DNN的过度比较自然。监督学习的属性已经广为人知,因此很容易理解使用了非监督预训练的DNN混合模型。
本节参考了最近发布的文章:
【1】G. Dahl, D. Yu, L. Deng, and A. Acero. Context-dependent, pre-trained
deep neural networks for large vocabulary speech recognition. IEEE
Transactions on Audio, Speech, & Language Processing, 20(1):30–42,
January 2012.
【2】G. Hinton, L. Deng, D. Yu, G. Dahl, A. Mohamed, N. Jaitly, A. Senior,
V. Vanhoucke, P. Nguyen, T. Sainath, and B. Kingsbury. Deep neural
networks for acoustic modeling in speech recognition. IEEE Signal
Processing Magazine, 29(6):82–97, November 2012.
【3】D. Yu and L. Deng. Deep learning and its applications to signal and
information processing. IEEE Signal Processing Magazine, pages 145–
154, January 2011.
1) 限制玻尔兹曼机(RBM)
限制玻尔兹曼机是一种特殊类型的马尔科夫随机场,它含有一层随机隐藏单元和一层随机可见单元。RBM能表示一个二分图,所有可见的单元链接到所有隐藏单元,而且没有可见—-可见或者隐藏—-隐藏之间的链接。
2) 非监督层级预训练
这里我们描述如何堆叠RBMs并构成DBN作为DNN预训练的基础。在讨论细节之前,我们首先注意一下由Hinton和Salakhutdinov提出的程序(【1】G. Hinton, S. Osindero, and Y. Teh. A fast learning algorithm for deep
belief nets. Neural Computation, 18:1527–1554, 2006.),这是一个更一般的非监督层级预训练。也就是说,不仅RBMs可以堆叠生成深度生成网络,其他类型的神经网络也可以做相同的事情,比如由Bengio提出了使用自编码的一个变体记性预训练生成深度网络(Y. Bengio, P. Lamblin, D. Popovici, and H. Larochelle. Greedy layerwise
training of deep networks. In Proceedings of Neural Information
Processing Systems (NIPS). 2006.)。
层次堆叠的RBM可以生成DBN,如下图就是一个这样的例子。堆叠过程如下:当学习一个高斯伯努利RBM(比如连续语音特性的应用)后,我们把当前层的响应作为下一层的训练数据。第二层的响应用作为第三层的输入数据,以此类推。这种层次堆叠的贪婪学习策略已经在文章【1】有了理论分析验证。注意这种学习过程是非监督的而且不需要类标签。
当用在分类任务的时候,这种预训练模型可以相互连接,并且有识别能力的学习过程可以微调所有连接权提高网络的能力。这种可识别的能力的微调通过添加表示一组表示目标输出数据的最终参数层来实现。然后,反馈调节算法可以调整网络权值来修正参数。最上一层的标签层是什么是根据DNN的应用领域的不同而定。

基于RBM堆叠为RBM的预训练已经在大多数场合得到很好表现。需要指出的是除了这种方式以外还有很多其他方式作为预训练方法。

3) 连接DNNS和HMMS
目前讨论的预训练的DNN是一个显著的混合深度网络,它是一个输入向量固定维度的静态分类器。然而,很多实际的模式识别和信息处理难题,包括语音识别,机器翻译,自然语义理解,视频处理和生物信息处理需要连续识别。在连续识别中,输入层和输出层的维度是变化的。
基于动态编程操作的隐形马尔科夫模型(HMM)是一个解决这个问题的方便方法。因此,很自然而然的想到结合前馈神经网络和HMM桥接。一个使用DNN解决这个问题的流行结构如下图所示。这个结构成功的应用在了语音识别实验中(G. Dahl, D. Yu, L. Deng, and A. Acero. Context-dependent DBNHMMs
in large vocabulary continuous speech recognition. In Proceedings
of International Conference on Acoustics Speech and Signal Processing
(ICASSP). 2011.)。

深度堆栈网络———-监督学习

在识别和分类任务包括语音识别和图像分类中,DNN已经展现了巨大的威力,但是训练一个DNN网络却因为复杂度高而难以计算。尤其是常见的训练DNN的技术涉及计算复杂度高的随机梯度下降法,这很难通过机器并行(CPU)来提高速度。这使得学习变成一个大规模复杂问题。现在可以使用一个单一功能强悍的GPU去训练DNN为基础的包含数十到数百数千小时训练数据的表现很好的语音识别器。然而,现在还不清楚如何使用更大规模的训练数据来提高识别的成功率。J. Dean, G. Corrado, R. Monga, K. Chen, M. Devin, Q. Le, M. Mao,
M. Ranzato, A. Senior, P. Tucker, K. Yang, and A. Ng. Large scale
distributed deep networks. In Proceedings of Neural Information Processing
Systems (NIPS). 2012.介绍了一些最近的探索工作。
这里我们描述一种新的深度学习结构——-深度堆叠网络(DSN)。这小节基于最近发表的几篇文章并作进一步讨论:
【1】L. Deng and D. Yu. Deep convex network: A scalable architecture for
speech pattern classification. In Proceedings of Interspeech. 2011.
【2】L. Deng, D. Yu, and J. Platt. Scalable stacking and learning for building
deep architectures. In Proceedings of International Conference on
Acoustics Speech and Signal Processing (ICASSP). 2012a.
【3】B. Hutchinson, L. Deng, and D. Yu. A deep architecture with bilinear
modeling of hidden representations: Applications to phonetic recognition.
In Proceedings of International Conference on Acoustics Speech
and Signal Processing (ICASSP). 2012.
【4】B. Hutchinson, L. Deng, and D. Yu. Tensor deep stacking networks.
IEEE Transactions on Pattern Analysis and Machine Intelligence,
35:1944–1957, 2013.
DSN的主要设计概念基于堆叠方法,在L. Breiman. Stacked regression. Machine Learning, 24:49–64, 1996.中有基本概念的描述。堆叠方法首先构建一个单模型函数或分类器,然后把这些函数相互堆叠“堆叠”以便学习复杂的函数或分类器。很多实现堆叠的操作方法在最近被提了出来,主要思想是利用在单一模型中使用可监督的信息。堆叠分类器上层的分类器使用串联结构中的下层分类器的输出以及初始输入中获取新的特征。在这片论文中
(W. Cohen and R. V. de Carvalho. Stacked sequential learning. In
Proceedings of International Joint Conference on Artificial Intelligence
(IJCAI), pages 671–676. 2005.)堆叠模型使用的简单模型是条件随机场(CRF)。添加隐藏状态后,这类深度结构在自然语言处理和语音识别领域(这些应用的训练数据的分割信息位置)应用取得了进一步发展并取得成果。在这片论文中
(K. Jarrett, K. Kavukcuoglu, and Y. LeCun. What is the best multistage
architecture for object recognition? In Proceedings of International
Conference on Computer Vision, pages 2146–2153. 2009.),卷积神经网络也被当做堆叠结构,但是监督信息通常在最终的堆叠模型中并未使用。
DSN结构最早在论文【1】中提出,当时被作为深度凸网络,用来强调主要学习网络算法中的凸特性。DSN把监督信息用在相互堆叠的基础模型中,模型利用了多层感知器的方便性。在基础模型中,输出单元是线性的而且隐层sigmoidal(反曲函数)非线性。输出层的线性特征能使用较好的凸优化求解。由于在输入和输出之间的封闭限制,输入层权值能高效估计出来。
一种基础深度堆叠网络结构
如下图所示是一种DSN结构模型,包含可变数量的层次化模型,其中每一个模型都是由一个隐层和两组可训练的权值组成典型的神经网络结构。在图中,只展示了四个此类模型,每个模型都由不同的颜色表示。事实上,在图像和语音分类实验中有数百数千个模型被高效训练着。

DSN结构中最低一层模型包含一个线性输入单元的输入层,一个非线性单元的非线性隐层和第二个线性输出单元的线性层。隐藏层使用了sigmoidal非线性函数(当然可以使用其他非线性函数,原理相同,非线性函数保证模型训练出的映射的非线性,否则训练出的映射是线性)。如果DSN用在识别一个图像,输入单元可以适应一组图像像素(或者一组图像特征)。如果用在语音识别,输入单元可以适应一组语音波形样本或者提取的语音波形特征,比如功率谱和倒谱系数。输出单元表示目标的分类信息。例如, DSN用来识别数字,输出可能表示0,1,2,3 等等的数值并采用二进制编码的形式。
较低层的权值矩阵我们可以用W表示,连接了线性输入单元和非线性隐层单元。上一层权值矩阵用U表示,连接非线性隐层和线性输出层。权值矩阵U可根据W的值采用均方差训练方法确定封闭解。
如上所述,DSN包括一组连接,重叠和层次的模型。其中每个模型有相同的结构。注意的是底层输出单元是临近高层模型的输入单元的子集。具体来说,DSN靠上的一层的输入层包含底层输出层的单元,逻辑上说也包括初始时候的原始图像特征。
一个学习好的DSN可以部署在自动分类任务例如帧水平语音通话或者状态分类中。把DSN的输出层连接到HMM或者任何动态可编程设备可以进行连续语音识别任务和其他类型序列模式识别任务。

文章出处:http://www.goldencui.org/2014/12/02/%E7%AE%80%E6%98%8E%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0%E6%96%B9%E6%B3%95%E6%A6%82%E8%BF%B0%EF%BC%88%E4%B8%80%EF%BC%89/

你可能感兴趣的:(DeepLearning)