浅谈神经网络发展史:从莫克罗-彼特氏神经模型到深层神经网络

2016年,随着AlphaGo战胜了李世石,人工智能与深度学习达到了一个空前火热的状态。很多人也是第一次开始接触到了深度神经网络这个概念,但是其实神经网络的历史可以追溯到1943年,1943年的时候,二战都还没有结束。
中间的这段时间里,是由几个标志性的事件影响着神经网络算法的发展,其发展史大概可以分为三个阶段,下面我们就围绕这几个事件简要介绍这三个阶段。

McCUlloch-Pitts Neuron model与感知机的提出

最早的神经网络数学模型由Warren McCulloch教授和Walter Pitts教授与1943年在论文A logical calculus of the ideas immanent in nervous activity中提出。论文中提出了一种模拟模拟大脑神经元的结构—莫克罗-彼特氏神经模型(McCUlloch-Pitts Neuron model),它是一个类似下图的结构:

浅谈神经网络发展史:从莫克罗-彼特氏神经模型到深层神经网络_第1张图片

人类神经元处理信号的原理到现在对我们也并没有完全清晰,所以莫克罗-彼特氏神经模型其实采用的是简单的线性加权的方式来模拟这个过程,其中I为输入,W为权重,加权的和经过一个阈值函数后作为输出。可以看到,其实这个模型和后来的神经网络里的单个神经元已经非常像了。所以这个模型性能的好坏完全由分配的权重决定,然后莫克罗-彼特氏神经模型手动分配权重的方式既麻烦又很难达到最优分类效果。

为了让计算机能够更加自动且更加合理的设置权重,Frank Rosenblatt教授于1958年提出了感知机模型(perceptron),或者叫感知器模型。感知机使用特征向量来表示的前馈式人工神经网络,它是一种二元分类器,在人工神经网络领域中,感知机也被指为单层的人工神经网络。

1969年,Marvin Minsky 和 Seymour Papert 在《Perceptrons》书中,仔细分析了以感知机为代表的单层神经网络系统的功能及局限,证明感知机不能解决简单的异或(XOR)等线性不可分问题,Marvin Minsky教授甚至做出了“基于感知机的研究注定失败”的结论。

由于 Rosenblatt 教授等人没能够及时推广感知机学习算法到多层神经网络上,又由于《Perceptrons》在研究领域中的巨大影响,及人们对书中论点的误解,造成了人工神经领域发展的长年停滞及低潮,之后的十多年内,基于神经网络的研究几乎处于停滞状态。

虽然Marvin Minsky教授的结论是神经网络在20世纪70年代低潮的原因之一,但是这不能磨灭Marvin Minsky教授对人工智做出的伟大贡献,这仅仅是认知在某个时间段为的局限性,就像“日心说”一样。

直到人们认识到多层感知机没有单层感知机固有的缺陷及反向传播算法在80年代的提出,才有所恢复。1987年,书中的错误得到了校正,并更名再版为《Perceptrons - Expanded Edition》。这也是神经网络发展的第二个阶段。

分布式表达与反向传播算法

20世纪80年代末,神经网络的研究迎来了第二次兴起,这源于分布式表达与反向传播算法的提出。

分布式知识表达的核心思想是现实世界中的知识和概念应该通过多个神经元来表达,而模型中的每一个神经元也应该参与多个概念。分布式只是表达大大加强了模型的表达能力,解决了类似异或这种线性不可分的问题。

除了分布式表达,David Everett Rumelhart教授等人于1986年在自然杂志上首次提出了著名的反向传播算法,此算法大幅降低了模型训练所需要的时间。直到今天,反向传播算法仍然是训练神经网络的主要算法。

浅谈神经网络发展史:从莫克罗-彼特氏神经模型到深层神经网络_第2张图片
同时,计算机的飞速发展也使得计算机有了更强的计算能力,这些因素使得神经网络在80年代末到90年代初又迎来了发展的高峰期。

然后。在神经网络发展的同时,传统的机器学习算法也取得了突破性的进展,支持向量机算法具有完整的理论基础,少样本量等优点。同时由于BP算法针对深层网络的梯度消失问题,当时的数据量太小无法支撑深层网络训练等问题。兴起了没多久的神经网络逐步被支持向量机所取代。

DNN与Deep Learning

时间进入21世纪,计算机性能进一步的提高,GPU加速技术的出现,使得计算量不再是阻碍神经网络发展的问题。与此同时,互联网+的发展,使得获取海量数据不在像上个世纪末那么困难,这些背景为神经网络再次发展提供了条件。

在这里不得不提的就是ImageNet项目的建立,斯坦福大学的李飞飞教授开启了Visual Genome(视觉基因组)计划,把语义和图像结合起来,缔造了当前世界上最大的图像数据库—ImageNet,这个庞大的数据库由来自世界上167个国家的接近5万个工作者完成,ImageNet的出现使所有人都能够轻松的获取足以支撑其深度网络训练的数据。同时斯坦福大学每年都会举行一个比赛,邀请谷歌、微软、百度等IT企业使用ImageNet数据库,而第一个应用深度神经网络的算法—Alexnet,就是ImageNet 竞赛2012年冠军,这个著名的网络结构如下图:

浅谈神经网络发展史:从莫克罗-彼特氏神经模型到深层神经网络_第3张图片

Alexnet取得的突破性进展使得神经网络的研究再一次达到了一个高峰,随后其他关于DNN的更复杂的结构也陆续出现,并在除了计算机视觉外的诸多其他领域内取得了优异的成绩,如语音识别,自然语言处理等等。

直到2016年,google的AlphaGo战胜了李世石,深度学习作为深层神经网络的代名词,被各行各业的人所熟知。深度学习的发展也开启了一个AI的新时代。

最后需要指出的一点是,虽然深度学习领域的研究人员相比于其他机器学习领域更多的受到大脑工作原理的启发,媒体也经常出于某种原因强调深度学习和大脑工作原理的相似性(可能这样显得更AI),但是现代深度学习的发展已经不完全是模拟人脑神经元的工作过程,或者可以说目前人类对大脑的工作机制的认知还不足以为当下的深度学习模型提供指导。(以上这段话摘录自《TensorFlow:实战Google深度学习框架》,个人感觉写的很有观点)

你可能感兴趣的:(Deep,Learning)