深度学习

深度学习

一、基础理论


演变历史

  • 1949 Hebb学习规则
  • 1950 图灵测试
  • 1957 感知机 (the perceptron)
  • 1958 线性分类模型
  • 1967 最近邻算法 kNN
  • 1981 神经网络反向传播(BP)算法
  • 1986 决策树ID3算法
  • 1995 SVM
    支持向量机可把非线性问题转换成线性问题
  • 2006 Deep Learning
  • 2012 LDA, SparseLDA, AliasLDA, LightLDA, WarpLDA
  • 2013 word2vec
  • Deep reinforcement learning
  • 2014 词表示学习方法
  • 2015 CNN RNN LSTM
    Facebook开源Torch
    谷歌收购DeepMind
    AWS开放机器学习服务
    苹果收购Perceptio
    谷歌开源TensorFlow
    IBM开源项目SystemML
  • 2016 Attention,LSTM with attention
  • 2017 external memory,Knowledge Graph,one-shot learning

深度学习发展历史过程

  • 感知机
    心理学家弗兰克· 罗森布拉特(Frank Rosenblatt)构想了感知机。
  • 神经网络
    准确的说应该是「人工神经网络(ANN,Artificial Neural Networks)」就是多层感知机(今天感知机通常被称为神经元)而已,只不过在这个阶段,只有一层——输出层。
  • 联结主义(Connectionism)
  • 反向传播BP的基本思想
    反向传播由上世纪60年代早期多位研究人员提出,70年代,由Seppo Linnainmaa引入电脑运行,但是,Paul Werbos在1974年的博士毕业论文中深刻分析了将之用于神经网络方面的可能性,成为美国第一位提出可以将其用于神经网络的研究人员。我们可以利用微积分将一些导致输出层任何训练集误差的原因分配给前一隐藏层的每个神经元,如果还有另外一层隐藏层,我们可以将这些原因再做分配,以此类推——我们在反向传播这些误差。而且,如果修改了神经网络(包括那些隐藏层)任一权重值,我们还可以找出误差会有多大变化,通过优化技巧(时间长,典型的随机梯度下降)找出最小化误差的最佳权值。不幸的是,科学圈里几乎无人知道Werbo的研究。1982年,Parker重新发现了这个研究办法并于1985年在M.I.T上发表了一篇相关报道。就在Parker报道后不久,Rumelhart, Hinton和Williams也重新发现了这个方法,他们最终成功地让这个方法家喻户晓,也主要归功于陈述观点的框架非常清晰。这三位作者没有止步于介绍新学习算法,而是走得更远。同年,他们发表了更有深度的文章《Learning internal representations by error propagation》。神经网络也因此重新复活了。
  • 神经网络获得视觉
    1989年,Yann LeCunn在AT&T Bell实验室验证了一个反向传播在现实世界中的杰出应用,即「反向传播应用于手写邮编识别(Backpropagation Applied to Handwritten Zip Code Recognition)」。
  • 卷积神经网络(CNNs/ConvNets)
    卷积的思想最开始被称作「权值共享」,也在1986年Rumelhart、Hinton和Williams关于反向传播的延伸分析中得到了切实讨论。LeCun也在贝尔实验室继续支持卷积神经网络,其相应的研究成果也最终在上世纪90年代中期成功应用于支票读取。
  • 神经网络进入无监督学习时期
  • 自编码神经网络
    监督式机器学习需要的训练集是输入-输出对(标记数据),来近似地生成能从这些输入得到对应输出的函数。自编码器并不是一种监督式学习;它们实际上是一种非监督式学习,只需要一组输入数据(未标记的数据),目的是找到这些数据中某些隐藏的结构。换句话说,非监督式学习对函数的近似程度不如它从输入数据中生成另一个有用的表征那么多。这样一来,这个表征比原始数据能重构的表征更小,但它也能被用来寻找相似的数据组(聚类)或者潜在变量的其他推论(某些从数据看来已知存在但数值未知的方面)。
  • 神经网络做决定
    神经网络运用于无监督学习的发现之旅结束后,让我们也快速了解一下它们如何被用于机器学习的第三个分支领域:强化学习。
  • 神经网络变得呆头呆脑
    要解决理解语音的问题,研究人员试图修改神经网络来处理一系列输入(就像语音中的那样)而不是批量输入(像图片中那样)。Alexander Waibel等人(还有Hinton)提出的解决方法之一,在1989年的「 Phoneme recognition using time-delay neural networks」中得到了介绍。积卷神经网络变得对图像处理至关重要,而在语音识别方面,时延神经网络则败北于另一种方法——递归神经网络(RNNs)。
  • 新的冬日黎明(AI的第二次寒冬)
    有一个问题。一个大问题。而且,基本而言,这个问题就是近来的一个巨大成就:反向传播。卷积神经网络在这里起到了非常重要的作用,因为反向传播在有着很多分层的一般神经网络中表现并不好。然而,深度学习的一个关键就是——很多分层,现在的系统大概有20左右的分层。但是,二十世纪八十年代后期,人们就发现,用反向传播来训练深度神经网络效果并不尽如人意,尤其是不如对较少层数的网络训练的结果。原因就是反向传播依赖于将输出层的错误找到并且连续地将错误原因归类到之前的各个分层。然而,在如此大量的层次下,这种数学基础的归咎方法最终产生了不是极大就是极小的结果,被称为『梯度消失或爆炸的问题』。通过时间顺序扁平化BP路径本质上跟具有许多层的神经网络一样,所以,用反向传播来训练递归神经网络是比较困难的。由Schmidhuber指导的Sepp Hochreiter及Yoshua Bengio都写过文章指出,由于反向传播的限制,学习长时间的信息是行不通的。分析问题以后其实是有解决办法的,Schmidhuber 及 Hochreiter在1997年引进了一个十分重要的概念,这最终解决了如何训练递归神经网络的问题,这就是长短期记忆(Long Short Term Memory, LSTM)。简言之,卷积神经网络及长短期记忆的突破最终只为正常的神经网络模型带来了一些小改动,电脑不够快、算法不够聪明,所以在九十年代左右,对于神经网络一个新的AI寒冬开始来临——社会对它们再次失去信心。
  • 支持向量机(SVM)
    一个新的方法,被称为支持向量机(Support Vector Machines),得到发展并且渐渐被发现是优于先前棘手的神经网络。简单的说,支持向量机就是对一个相当于两层的神经网络进行数学上的最优训练。事实上,在1995年,LeCun的一篇论文,「 Comparison of Learning Algorithms For Handwritten Digit Recognition」,就已经讨论了这个新的方法比先前最好的神经网络工作得更好,最起码也表现一样。支持向量机分类器具有非常棒的准确率,这是最显著的优点,因为与其他高质量的分类器比,它对问题不包含有先验的知识。事实上,如果一个固定的映射被安排到图像的像素上,这个分类器同样会有良好的表现。比起卷积网络,它依然很缓慢,并占用大量内存。但由于技术仍较新,改善是可以预期的。另外一些新的方法,特别是随机森林(Random Forests),也被证明十分有效,并有强大的数学理论作为后盾。因此,尽管递归神经网络始终有不俗的表现,但对于神经网络的热情逐步减退,机器学习社区再次否认了它们。寒冬再次降临。
  • 深度学习的密谋
    随着支持向量机SVM的上升和反向传播的失败,对于神经网络研究来说,上世纪早期是一段黑暗的时间。Lecun与Hinton各自提到过,那时他们以及他们学生的论文被拒成了家常便饭,因为论文主题是神经网络。CIFAR的资助鼓励还没有直接应用的基础研究,这项资助首先鼓励Hinton于1987年搬到加拿大,然后一直资助他的研究直到九十年代中期。Hinton 没有放弃并改变他的方向,而是继续研究神经网络,并努力从CIFAR那里获得更多资助。Hinton和这个小组孕育了一场密谋:用「深度学习」来「重新命名」让人闻之色变的神经网络领域。接下来,每位研究人员肯定都梦想过的事情真的发生了:2006年,Hinton、Simon Osindero与Yee-Whye Teh发表了一篇论文,这被视为一次重要突破,足以重燃人们对神经网络的兴趣:A fast learning algorithm for deep belief nets。「深度学习」的运动完全可以说是由这篇文章所开始。但是比起名称,更重要的是如果权重能够以一种更灵活而非随机的方式进行初始化,有着多层的神经网络就可以得以更好地训练。历史上的第一次,神经网络没有好处且不可训练的信念被克服了,并且这是个非常强烈的信念。 Yoshua Bengio等在这项工作后于2007年提出了「深层网络冗余式逐层训练( “Greedy Layer-Wise Training of Deep Networks)」,其中他们表达了一个强有力的论点,深度机器学习方法(也就是有着多重处理步骤的方法,或者有着数据等级排列特征显示)在复杂问题上比浅显方法更加有效(双层ANNs或向量支持机器)。
  • 蛮力的重要性
    Hinton与他的两个研究生,Abdel-rahman Mohamed和George Dahl,展现了他们在一个更具有挑战性的任务上的努力:语音识别( Speech Recognition)。利用DBN,这两个学生与Hinton做到了一件事,那就是改善了十年间都没有进步的标准语音识别数据集。这是一个了不起的成就,但是现在回首来看,那只是暗示着即将到来的未来——简而言之,就是打破更多的记录。算法对于深度学习的出现有着不容置疑的重要性。结果确实强烈表明大型训练数据集与快速计算的蛮力方法是一个关键。Dahl与Mohamed利用GPU打破记录是一个早期且相对有限的成功,但是它足以激励人们,并且对这两人来说也为他们带来了在微软研究室实习的机会。这两个学生在三个月的实习期中轻易地证明了深度学习的能力,微软研究室也自此成为了深度学习语音识别研究的前沿地带。微软不是唯一一个意识到深度学习力量的大公司。Navdeep Jaitly是Hinton的另一个学生,2011年曾在谷歌当过暑假实习生。他致力于谷歌的语音识别项目,通过结合深度学习能够让他们现存的设备大大提高。修正后的方法不久就加强了安卓的语音识别技术,替代了许多之前的解决方案。
  • 深度学习的上升
    结合2006年以来的这些发现,很清楚的是非监督预训练对深度学习来说不是必要的。虽然,它的确有帮助,但是在某些情况下也表明,纯粹的监督学习(有正确的初始权重规模和激活函数)能超越含非监督训练的学习方式。那么,到底为什么基于反向传播的纯监督学习在过去表现不佳?Geoffrey Hinton总结了目前发现的四个方面问题:
    带标签的数据集很小,只有现在的千分之一.
    计算性能很慢,只有现在的百万分之一.
    权重的初始化方式笨拙.
    使用了错误的非线性模型
    深度学习。数十年研究的积累,总结成一个公式就是:
    深度学习=许多训练数据+并行计算+规模化、灵巧的的算法
    现代的深度学习其实就是将一些很旧的概念(例如卷积神经网络的池化及卷积层,输入数据的变化)与一些新的关键观点(例如十分高性能的GPU、ReLU神经元、丢弃法等)重新组合,而这点,正是这一点,就是现代深度网络的所有深意了。

数学基础

  • 激活函数
    • softmax激活函数
      softmax主要用在深度神经网络的最后一层。
    • sigmoid激活函数
    • relu激活函数
      relu比sigmoid带来更好的训练结果,所以在深度学习的中间层常常使用relu激活函数。为什么relu比sigmoid更好,科学家们也没搞明白,但是实际训练中观察到relu比sigmoid带来了更高的精度。

二、核心技术


技术框架

  • Caffe
  • Keras
    Python
    MNIST dataset
  • MXNet
    MxNet被Amazon和很多IT公司支持。
  • Torch
  • CNTK(Computational Network Tooltik)
    微软公司推出
  • BigDL
    Intel的BigDL另辟蹊径,在CPU上优化深度学习,而且和Spark无缝集成,看起来对于已经使用云计算和大数据工具的公司来说吸引力还是有的。
  • Theano
    It’s already dead
  • Chainer
  • PyTorch
    Facebook的PyTorch口碑还不错。
  • Google tensorflow
    tensorflow从其他框架的每一个中都吸取了一些feature和设计思想。根据进化论的观点,tensorflow更能适应当前的需求。一种设计的产生是和它的需求紧紧相关的,tensorflow的设计可能会有很多人想到,但tensorflow却只能由google设计和实现,因为需求。而tensorflow的产生也是google大一统移动和PC和Server的战略需求。
  • Apple Turi Create

核心算法

  • 线性回归linear regression
    tensorflow实现代码例子(github源码)
  • 逻辑回归Logistic Regression
    tensorflow实现代码例子(github源码)
  • 感知机perceptron
  • 多层感知器(MLP)
    tensorflow实现代码例子(github源码)
  • SVM
    svm的tensorflow实现代码例子(Linear SVM github源码)。(MultiClass Kernel SVM github源码)
  • 神经网络neural networks
    使用tensorflow可以很容易的开发一个神经网络模型(例子详解)。
    斯坦福nn课程(web),
  • BP算法
  • 最近邻回归nearest neighbor regression
  • k-means Clustering
  • 卷积神经网络(CNN
  • 递归神经网络(RNN
  • 长短期记忆网络(LSTM)
  • DSSM
  • 增强学习Reinforcement Learning
  • 序列-序列模型
  • word2vec
  • Dropout

开源项目

nlp开源项目

编程语言

  • Python

三、需求


  • 语音
  • 图像
    • 人脸识别
      从人脸识别到万物识别,再到机器眼,三步走。
  • NLP

四、产品


五、公司


六、专家


七、开源项目


八、技术测评

  • TRECVID
    http://trecvid.nist.gov
    TRECVID是视频检索领域最权威的国际评测,由美国国家标准技术局(National Institute of Standards and Technology, NIST)组织,得到了包括美国国防部高级研究计划局 (DARPA) 在内的美国多个政府部门的支持,代表国际视频相关技术的领先水平。
  • RoboCup
    RoboCup 是目前全球规模最大、水平最高、影响最广的机器人专业赛事,其机器人足球项目被分为仿真组、小型组、大型组、标准平台组和人形组五个组别,代表了未来几年双足人形机器人进行足球比赛的技术方向。

sennchi
http://www.jianshu.com/p/35595909b85c

你可能感兴趣的:(深度学习)