转载至新智源
最近几年,计算机和电子商务领域最激动人心的发展,莫过于通过人工智能技术实现了在声音识别、图像识别、无人驾驶、医学诊断、自然语言翻译等领域的突破。机器识别中的神经网络深度学习方法成为学术界和工业界关注的热点。在这一技术的发展推动下,研究人脑的认知和模拟人脑成为美国政府支持的研究对象。
模拟人脑神经元的神经网络理论模型最早出现在20世纪40年代。第一个把神经网络原理成功应用到图像识别的是康奈尔大学的心理学教授罗森布拉特。他在1957年制作的电子感知机因为能读入并识别简单的字母和图像而在当时引起轰动,引发了业界的诸多联想,使得很多专家预测在几年后计算机将具备思考功能。但是早期单层神经网络无法实现异或逻辑,再加上计算机运算能力的局限性,使得这一方向不久就停滞不前而让工业界和学术界失去了兴趣。
感知机流行时,霍普金斯大学的住院医师戴维·休伯尔(David Hubel)与托斯坦·威瑟尔(Tosten Wiesel)结识并成为学术搭档,开始了长达20多年的研究,他们也因此获得了诺贝尔奖。1959年,他们通过观察猫的脑部视觉中枢对由视网膜进入的图像的处理方式发现,一些神经元对不同光强度或者不同角度的斜线有反应,另一些神经元对光感和简单斜线没有反应,但是对物体移动具有敏感性,即便物体的边界发生形变也不影响其激发。休伯尔和威瑟尔将前一类神经元称为简单细胞,后一类称为复杂细胞。
休伯尔和威瑟尔的这一发现以及后来的研究给从事神经网络研究的计算机专家提供了重要的建模思路,比如视神经元对信息处理的分工是分层进行的,不同神经元关注的对象特征不同,每一层神经元抽象出对象的部分特征进行处理,所有信息经过逐层激发,在中枢最高层激发出对整个对象产生认知的“祖母神经元”。
20世纪80年代神经网络技术得到进一步发展,以前只具有输入层和输出层的单层网络结构中添加了中间的隐层。这一变化使得神经网络可以解决更加复杂的分类问题。但层数的增加为各个层的神经节点之间连接的权重选取带来了困难。反向传播算法(back propagation)的出现在一定程度上解决了权重选取问题。另外,计算机运算能力的提高使得多层神经网络的计算成为可能。在此基础上,人工智能领域的一个分支——连接主义开始流行。通过分布式计算为多层神经网络提供架构支持成为的新研究方向。但是由于工业界在专家系统上过度投资导致泡沫产生,加上反向传播算法在处理深度多层神经网络时的局限性,导致神经网络技术在80年代末再次出现进展缓慢的现象。这中间还穿插着试图将专家系统发展到极致的LISP2计算机崛起及其随后被工作站取代的故事。至此人工智能领域进入所谓的第二个低潮期——“人工智能的冬天”。在这期间支持向量机、线性分类等相对有效的机器识别方式逐渐取代神经网络成为主流。
接下来的20年间,互联网蓬勃发展。人工智能开始以智能代理、协同过滤商品推荐(亚马逊)以及搜索引擎(谷歌)等专业性应用渗透到各类电商服务中。多层神经网络也因为深度学习方法的出现而获得新生。
20世纪六七十年代,通过回归分析来逐层学习和提炼最优的神经网络层数和节点数的方法出现。乌克兰数学家伊万科夫(A.G. Ivakhnenko)及其同事在1971年发表过8层神经网络模型。1979年日本京都大学的福岛邦彦(Kunihiko Fukushima)成功通过多层神经网络学习进行手写字母的图像识别。1992年密歇根州立大学翁巨扬提出了最大池化方法(max pooling)和卷积神经网络(convolution neural net),此方法后来被广为传播和使用。
深度学习能够在北美走向主流与被戏称为“加拿大黑手党”的三个专注机器学习领域多年的计算机专家的坚持不懈有直接关系。他们是加拿大多伦多大学计算机系的杰弗里·欣顿(Geoffrey Hinton)、曾经在欣顿门下做博士后的纽约大学计算机系教授雅恩·乐昆(Yann LeCun)、与乐昆在贝尔实验室共同工作过的加拿大蒙特利尔大学教授约书亚·本吉奥(Yoshua Bengio)。
欣顿1970年从剑桥心理学专业本科毕业,1978年从爱丁堡大学获得人工智能专业博士学位。他毕业时恰好遇到人工智能发展的第二次高潮,于是投入到神经网络的研究中。他和乐昆在1989年将反向传播算法应用到前馈多层神经网络学习过程,使得该算法能够识别出手写的邮政编码。随着层度的加深,反向传播算法无法有效地调整神经连接之间的权重,导致学习时间很长。80年代末人工智能研究进入低谷,很多同行开始研究别的领域,但是欣顿等人仍然坚守在这一领域。以至于有很长一段时间,多伦多大学计算机系私下流行着一句对新生的警言:不要去欣顿的实验室。
在欧洲学术界,多层神经网络的研究在90年代也取得了一些进展。慕尼黑工业大学的人工智能专家于尔根·施米德休伯(Jürgen Schmidhuber)和他的学生团队在1992年提出了非监督学习时间递归神经网络(recurrent neural net),为语音识别和自然语言翻译提供了重要的模型。与前馈网络不同的是,递归神经网络允许各个神经节点直接形成环状循环连接,甚至允许一个神经节点接受自己的输入,这种架构使得每个节点能够更好地利用历史权重,从而更适合处理音频和文字等序列数据。1997年他们提出了简化时间递归神经网络的长短期记忆人工时间递归神经网络(LSTM RNN),解决了时间递归网络在学习过程中的误差消失和放大问题。
但是,同在90年代,无论是北美还是欧洲,因为计算能力这一根本性限制,神经网络研究都没能在应用领域取得突破。2004年,欣顿从加拿大高等研究所(Canadian Institute for Advanced Research)获得了每年50万美元的经费,在乐昆和本吉奥的协助下开启了神经计算和适应感知项目。该项目将一批一流的计算机、生物学、电子工程、神经科学、物理学和心理学专家聚合在一起,共同探讨用神经网络深度学习的方法模拟人脑智能。
有了经费的支持和智慧的聚合,欣顿团队利用大规模的计算平台很快发现了更优的算法,早期反向传播算法难以克服的困难陆续得到解决。通过采用与时间递归网络类似的逐层培训方式,欣顿团队在深度前馈网络中采取了预培训方式解决了反向传播算法的梯度消失问题,用逐层培训和抽象的方式有效地降低了观察对象的维度。简单地说就是将被识别对象的特征从最底层(例如单个像素)开始通过池化方式逐层抽象收集,后一层把前一层的特征抽取结果作为新的识别对象,用同样的方法提取出新的特征。这种方式可以采用非监督的自动编码和解码的方式来矫正,不需要预先对识别对象进行标注。2006年前后,这一算法在图像识别等分类型预测方面取得了突破性进展。同一时期,施米德休伯等人的时间递归算法也在图像识别和语音识别方面取得突破性进展。
深度学习能够在这段时间取得突破,除了与前后两代深度学习领域专家的不懈努力密不可分外,与整个信息产业在此期间的巨大变化也有密切关系。2006年3月,亚马逊正式推出弹性云服务。同年8月谷歌总裁施密特开始使用“云计算”一词来区别传统的客户/服务器模式。此时的亚马逊和谷歌内部早已进入大数据和云计算阶段。在以后的几年时间里,其他互联网公司纷纷步其后尘。大数据和云计算为深度学习算法提供了海量数据和近乎无限的计算能力这两个必要的前提条件。用欣顿在2013年加拿大英属哥伦比亚大学的一次演讲中的话来说,深度学习以前不成功是因为缺乏三个必要前提:足够多的数据、足够强大的计算能力和设定好初始化权重。
大数据的积累和云计算平台的形成为深度学习提供了前提条件中的前两个,而GPU的问世和市场成熟则为第三个前提条件的快速实现提供了硬件加速支持。1999年首次问世的GPU在成本和价格趋势上同样遵循摩尔定律。GPU最初是为电脑游戏的3D渲染而设计的硬件加速设备。与只拥有少量内核的CPU相比,GPU拥有上百个内核,可以同时处理上千个指令相同的线程。这意味着对神经网络的权重计算这种高度一致的重复性的并行计算工作,GPU的处理效率可能是普通CPU的几十倍,从而可以高速有效地进行各种识别计算。这些因素综合到一起使得以前只在理论上有突破的前馈和递归神经网络算法开始呈现出威力。
最早将深度学习引入语音识别的公司是微软。2009年圣诞前夕微软研究院在加拿大召开了一个小型学术会议,邀请欣顿介绍深度学习研究成果。欣顿的算法并没有引起大多数与会专家的重视,但是微软的两个与会代表邓立和俞栋却在会后组织了人员对数据进行了测试,结果发现非监督的深度学习算法可以使得语音识别的准确率提升25%,远超业界期望值的5%。于是微软开始对这一算法不断优化,并将其应用到语音识别的各类产品和服务中。其中最具媒体效应的是2012年10月微软首席研究官里克·拉希德(Rick Rashid)在天津“21世纪的计算大会”上公开演示的一段视频。该视频介绍了后来一时热透中国互联网的全自动同声传译系统(错误率仅为7%)。
微软在语音技术上的突破标志着深度学习获得了足够多的数据和计算资源,后者有可能进行更加复杂的图像识别工作。显然互联网为这一想法提供了重要的实验平台。 2007年,斯坦福大学教授李飞飞和普林斯顿大学教授李凯合作开发了ImageNet项目。该项目团队从互联网上下载了10亿多张图片,然后通过“亚马逊机械土耳其人”这一低成本网络众包的方式,雇佣了来自167个国家共 5万多人对这些图片进行了分类标注。截至2009年,该项目成功产生了一个包含2.2万个不同门类,共1500万张带标签的图片数据库。该数据库里的图片分类和标签质量超过以往任何数据库,其中仅猫这一门类就有6.2万张不同的图片,包含了所有种类的驯养的和野生的猫。建成这一数据库后,李飞飞和她的团队利用深度学习方法使得计算机通过监督学习方式识别包含各种物体的图像,而且能够用自然语言生成对每一个图像中的物体关系的简单描述。这一成果进一步引发了学术界和工业界对深度学习的关注。ImageNet目前以开源形式为各种深度学习算法的测试和比赛提供数据支持。
ImageNet项目主要为监督学习方式提供了数据标签支持。但是标签图片与整个互联网的所有图片数量相比,仍然是九牛一毛。绝大多数数据仍然是以无标签形式存在的。更重要的是人脑尤其是婴儿大脑的发育过程是以标签方式进行的。所以无监督学习和让神经网络自我学习成为另外一个研究方向。
2011年谷歌高级研究员杰夫·迪恩(Jeff Dean)和斯坦福大学教授吴恩达在未来技术实验中心(Google X)联合发起了“谷歌大脑”研究计划。该计划通过模拟新生婴儿的大脑发育环境来研究人脑是如何进行物体识别和语言认知等功能的。他们利用谷歌拥有的大数据和云平台优势搭建了一个配备1.6万个并行处理CPU和10亿个突触神经连接的谷歌大脑计算平台。为了收集有效的、能够表征我们周围生活环境的数据,他们从谷歌YouTube上随机选取了1000万个视频,从每个视频里随机获取一个200×200像素的截屏,相当于模拟婴儿用眼睛不断观察到的周围环境。
数据收集完成后,他们用欣顿2006年提出的深度学习分层训练模型和自我编码解码校验方式自动对这1000万张图片进行特征抽取和分析。这一项目的目标之一是查看该模型的分层抽象特征提取方式是否能够最终产生一批高度异化的“祖母神经元”。最终该实验不但发现了模拟状态的祖母神经元的存在,而且发现在抽象最高层形成物体判断的神经元中居然有一张对应的是猫的面部图像。也就是说,通过深度学习,该人工大脑形成了对猫的印象。
从2010年起,除了欣顿等人在深度学习领域频出成果外,在瑞士人工智能实验室(IDSIA)担任主任的施米德休伯及其学生们也不断取得突破。他们利用长短记忆时间递归神经网络识别序列信息的优势在各种图像识别比赛中夺魁,其中包括德国的交通标识自动识别比赛、国际汉字、阿拉伯文等手写体识别比赛。2010年他的三个博士生创立了深思(DeepMind)公司,根据深度学习理论和对数据流的研究开发出了能够像人一样通过观察普通人玩街机游戏的画面来了解游戏规则,再通过学习的规则去玩同样的游戏,甚至击败人类对手。2014该公司以5亿美元被谷歌公司收购。
与前面这两代人工智能领域的专家孜孜不倦地在深度学习方向上的研究和突破相比,在人脑认知模拟领域另具传奇色彩的是奔迈数字助理(Palm PDA)的创始人霍金斯的特立独行和他的人脑分层式即时记忆(Hierarchical Temporal Memory)理论。
1979年,从康奈尔电子工程专业毕业的霍金斯在读了同年出版的《科学美国人》“大脑特刊”里的DNA双螺旋结构发现者克里克的一篇文章后,对人脑研究产生了浓厚的兴趣。1982年霍金斯和妻子移居加州,加入了研制笔记本电脑的创业公司GRiD(该公司后来成为奔迈的前身)。在GRiD工作期间,霍金斯把全部业余时间都用在了研究如何模拟大脑认知上。他边读理论边编写模拟大脑认知的软件,试图设计一种可以模拟人脑的计算机。后来在妻子的劝说下,他申请并进入了伯克利大学的生物物理专业进行博士学习。此后的三年时间里,他逐渐形成了一套关于大脑智力产生的理论,但由于找不到合适的导师而不得不在1988年放弃学业。
时间一晃到了2002年,此时已经通过出售奔迈而成为亿万富翁的霍金斯对人脑研究的热忱依然未减。在与数家神经科学研究机构交流未果后,他索性自己在硅谷门罗帕克创立了红杉神经科学研究所(Redwood Neuroscience Institute)。该研究所专门致力于对人脑认知理论的研究。两年后,他在《论智慧》(On Intelligence)一书中阐述了他和他的团队整理出的人脑分层式即时记忆理论。
霍金斯的HTM理论认为大脑皮层(neocortex)通过不断接收序列信息来学习建立外部世界的感知-动作模型(sensory-motor model)的器官。对于大量涌入的序列数据(比如声音和动作),大脑皮层通过稀疏分布的表达方式层层激发处理信息。HTM理论也认为大脑存在祖母神经元,但是信息激发到祖母神经元后并没有停止,而是根据以前记忆形成的预期开始向下激发相应的各种感知和动作神经元。这些预期与新的信息进行对比后,相应的神经元会针对出现的偏差做出新的突触连接调整。
霍金斯等人还发现尽管信息导入的器官不同,但大脑皮层的各部分神经元在处理信息上并没有本质不同,都是感知和动作的综合体,不断通过“接收—预测—反馈—调整再接收”这一过程来调整记忆。这是HTM理论最为新颖之处。
理论框架成熟后,霍金斯和以前他在奔迈公司的老搭档以及红杉研究所的首席科学家三人在2005年成立了Numenta公司。该公司根据HTM理论开发的第一个软件产品Grok在检测大量序列数据的异常模式方面有所突破,被用来预测信息系统服务器的异常以及股票市场的个股等等。另外,他们还提供了开源软件NuPIC供感兴趣的专业用户使用。
在目前这轮人工智能和深度学习的新高潮里,互联网信息技术领域的主要公司早已纷纷布局,抢夺人才。谷歌董事长施密特公开表示,机器学习是谷歌目前最主要的工作。2013年,谷歌通过收购欣顿的DNNresearch 公司将包括欣顿和他的几个学生在内的一批人才收揽。随后谷歌又在2015年收购了深思公司,把欧洲的深度学习专家也收拢到谷歌旗下。脸谱创始人扎克伯格在读完深度学习论文后,从纽约大学高薪聘走了乐昆。华盛顿大学计算机系从卡内基梅隆大学挖来了盖斯成(Carlos Guestrin)夫妇,后者与亚马逊合作开发机器学习项目。而在这之前,谷歌从该系挖走了7名计算机系教授。斯坦福大学的吴恩达则被百度从谷歌挖走,成为硅谷百度研究院的首席研究员。
2014年牛津大学教授尼克·博斯特伦(Nick Bostrom)在他的《超级人工智能:路径、危险和策略》一书里提出,人工智能技术很可能在不久的将来孕育出在认知方面全面超越人类的超级智能。他认为超级智能在给人类社会带来好处的同时,也造成了人类本身的生存危机。2015年1月,包括物理学家霍金、企业家马斯克等在内的主要来自欧洲科技界的精英联名发表了一封公开信,敦促业界关注人工智能发展的稳健性和风险控制,通过合作和共识形成一个控制人工智能发展方向的框架9。博斯特伦提出的超级智能可以追溯到冯·诺伊曼在1958年的奇点预测。冯·诺伊曼认为,随着计算机技术的不断发展,终有一天计算机将能够自我设计,从而进入自我进化状态。一旦进入到这一奇点状态,人类智能将与计算机智能迅速拉开差距,前者将逐渐被后者取代。
相对于欧洲科技界对超级智能的相对谨慎态度,北美科技界对这一趋势的到来倒是充满乐观和期待。美国计算机和未来学家雷·库兹韦尔(Ray Kurzweil)在2005年的《奇点已近》(The Singularity Is Near: When Humans Transcend Biology)一书里把奇点来临时间预测为2045年。他乐观地估计,到时候人类可以把意识转移到计算机里获得永生。霍金斯不但不相信超级智能的威胁论,而且认为仅从神经节的连接密度来看,人类还远远达不到复制大脑的水平,更不用说复制意识了。
如果我们的计算机技术仍然停留在冯·诺伊曼架构和硅芯片基础上,或许霍金斯的估计还是比较准确的。但是这几年量子计算机的发展已经提速。加拿大的D-Wave公司在2013年研制出了世界上第一台可以优化机器学习运算的量子计算机。谷歌在2014年宣布开始研制自己的量子计算机。这些通向一个全新运算数量级的努力似乎又为奇点的到来增添了一些筹码。