神经网络的发展

背景

  • 神经网络诞生于人类对于大脑智能的理解。我们简要概述图神经网络的发展历程。

神经网络发展史

  • Warren McCulloch 和Walter Pitts首次提出神经网络模型[1],是第一个模仿生物神经元的模型,并且通过数字形式对人类大脑工作原理进行描述。在这种模型中,通过神经元信号的输入,然后进行信号的加权求和,并通过设置阈值的方式,决定信号是否进行输出。神经网络可以计算数学中的任何算数和逻辑函数等,并在理论上进行证明[1]。神经网络中神经元之间的连接可以进行分析,并且可进行不同强度变化的表示。
  • Donald Olding Hebb [2]提出Hebb学习规则,可以对神经网络中的权重进行调整。
  • 在1958年,Frank Rosenblatt 提出感知器模型[3],是一种前馈神经网络的简单形式。感知器的发明使得神经网络的发展进入到了新的阶段。Frank Rosenblatt提出的感知器模型是一种具有激活函数的分类模型。
  • 在1969 年,通过数学证明,Seymour Papert和Marvin Minsky发现神经网络不能很好的解决异或逻辑问题[4],使得神经网络的发展受到了阻碍。
  • 在1972 年,KohonenT 提出一种新的神经网络方法,叫做SOM (Self Organizing Maps)。
  • 在1974年,反向传播的神经网络算法由Paul Werbos提出,对神经网络算法的发展做出重大贡献。
  • 在1982年,David Parker重视反向传播神经网络算法,为反向传播算法进一步发展奠定坚实的基础。
  • 在1983 年,Sejnowski, T和. Hinton, G. E 设计玻尔兹曼机,首次提出了隐层单元概念。
  • 在1986年,Geoffrey E. Hinton, Ronald J. Williams, David E. Rumelhart 提出反向传播的算法[5]。在反向传播算法之后,提出径向基神经网络,简称RBF (RadialBasis Function Neural Network)[6]。这种神经网络仅仅由三层组成,包括输入层,隐藏层,输出层。非线性变化应用到输入层和隐藏层之间,线性变化应用到隐藏层和输出层之间。RBF算法采用核函数的思想,将低维不可分的向量映射到高维度。使得向量在低维度不可分时,在高维度可分,提高模型对分类任务的性能。
  • 在神经网络经历了漫长的发展后,在1997年,Jurgen Schmidhube和Sepp Hochreiter提出处理序列数据的模型[7],称为LSTM (Long short-term memory)。LSTM 是循环神经网络的一种变体结构,可以处理序列任务,并缓解梯度消失的问题。
  • 在2006年,G. E.Hinton提出用神经网络降低数据维度的网络模型,使得深度学习的发展迈入新的台阶。一般地,浅层网络模型有支持向量机[7] SVM (Support Vector Machine), 最大熵模型MaxEnt (Maximum Entropy), 条件随机场[8] CRF (Conditional Random Fields), 隐马尔可夫模型[9] HMM (Hidden Markov Model), 以及仅包含输入层,隐含层,输出层的三层线性感知机。
  • 在2006 年,G. E. Hinton 等人提出深度信念网络, 简称DBN (Deep Belief Network)[8]。
  • 1998 年,Yann Le Cun使用卷积神经网络对于字符进行识别,提出LeNet5[10]。
  • 2012 年,AlexNet在ImageNet 图像分类竞赛中取得优异的性能[11]。
  • 2017年,Vaswani A 使用注意力机制应用在自然语言处

参考资料

[1] MCCULLOCH W S, PITTS W H. A Logical Calculus of the Ideas Immanent in Nervous Activity[G] //BODEN M A. Oxford readings in philosophy : The Philosophy of Artificial Intelligence. :Oxford University Press, 1990 : 22 – 39.
[2] HEBB D O. The organization of behavior: A neuropsychological theory[M]. : Psychology Press,2005.
[3] ROSENBLATT F. The perceptron: a probabilistic model for information storage and organization in the brain.[J]. Psychological review, 1958, 65(6) : 386.
[4] BLOCK H D. A Review of ”Perceptrons: An Introduction to Computational Geometry” by Marvin Minsky and Seymour Papert[J/OL]. Inf. Control., 1970, 17(5) : 501 – 522. https://doi.org/10.1016/ S0019-9958(70)90409-2.
[5] RUMELHART D E, HINTON G E, WILLIAMS R J. Learning representations by back-propagating errors[J]. nature, 1986, 323(6088) : 533 – 536.
[6] BROOMHEAD D S, LOWE D. Radial basis functions, multi-variable functional interpolation and adaptive networks[R]. : Royal Signals and Radar Establishment Malvern (United Kingdom), 1988.
[7] HEARST M A, DUMAIS S T, OSUNA E, et al. Support vector machines[J]. IEEE Intelligent Systems and their applications, 1998, 13(4) : 18 – 28.
[8] HINTON G E. Deep belief networks[J]. Scholarpedia, 2009, 4(5) : 5947.
[9] EDDY S R. What is a hidden Markov model?[J]. Nature biotechnology, 2004,
https://blog.csdn.net/jinking01/article/details/103344186

你可能感兴趣的:(人工智能,深度学习,机器学习,神经网络,人工智能)