↑ 点击上方“数盟”关注我们
刚刚过去的ACM会议上,递归神经网络(RNN)之父、瑞士人工智能实验室科学事务主管 Jürgen Schmidhuber 接受专访,畅谈深度学习技术和人工智能理念。Schmidhuber 认为,RNN 是打造通用人工智能的基础,与其借鉴脑科学发展人工智能,还不如深入研究数学和算法,尤其是机器学习和推荐程序。他认为不用很多年,我们就能够制造出基于神经网络的 AI(NNAI),NNAI 能够通过逐步学习,跟一些动物一样聪明。最终,AI将改变一切,人类文明只是一个更加恢弘的计划的一部分,整个宇宙迈向越来越不可估量的复杂的过程中,重要(但不是最后)的一步。
【人物介绍】Jürgen Schmidhuber 是瑞士人工智能实验室 IDSIA 的科学事务主管,同时任教于卢加诺大学和瑞士南部应用科学与艺术学院。他于1987年和1991年在慕尼黑工业大学先后获得计算机科学的学士和博士学位。自1987年以来,一直引领着自我改进式(self-improving)通用问题求解程序(problem-solver)的研究。从1991年开始,他成为深度学习神经网络领域的开拓者。
他在 IDSIA 和慕尼黑工业大学的研究团队开发了一种递归神经网络,并率先在正式的国际性比赛中获胜。这些技术革新了手写体识别、语音识别、机器翻译和图片注释技术,现在被谷歌、微软、IBM、百度和其他很多公司应用。谷歌 DeepMind 的创始人中,有两位都是他以前的学生。
2009年,Schmidhuber 当选欧洲科学与艺术学院的院士。他获得过很多奖项,包括 2013 年国际神经网络协会的亥姆霍兹奖,以及 2016 年电气与电子工程师协会的神经网络先锋奖。2014 年,他参与创办了人工智能公司 NNAISENSE,旨在打造第一个有实用价值的通用人工智能。
递归神经网络是建造通用智能的基础
问:在谈21世纪前,我们先看看20世纪影响最深远的发明是什么?
Schmidhuber:1999年,《自然》把20世纪最有影响力的发明做了一个表单。排名第一的是让20世纪领先于其他所有世纪的发明,是这项发明‘引爆了人口爆炸’(V.Smil),让世界人口从 1900 年的16亿增长到马上就要突破的 100 亿大关。这项发明就是哈伯法,从空气中提取氮气制造肥料的过程。没有了哈伯法,世界上一半的人口根本就不会存在。很快这个比例就会变成 2:3。没有什么比这个对人类生存的影响更深远了。(而且在过去的 20 亿年中,没有什么比这个对全球氮循环的影响更大了。)
问:那 21 世纪最重大的发明又是什么呢?
Schmidhuber:21 世纪的主题更加宏伟:真正的人工智能(AI)。AI 将能学会几乎人类能够做的每件事情,甚至更多。未来会有一场 AI 大爆发,相比之下人口爆发根本就不算什么。
问:你从多早开始意识到 AI 是一项改变世界的新技术?
Schmidhuber:上世纪 70 年代我十三岁到十九岁的时候,那时我的目标是建造一台能够自我改进的 AI,比我自己聪明,然后退休,看 AI 用一种人类绝不可能的方法殖民并改变整个太阳系、银河系和剩下的宇宙。因此我学了数学和计算机科学。我在 1987 年毕业论文的封面上画了一个以看似不可能的手法引导自身的机器人(见下)。
问:能更详细地谈一谈这篇预测 AI 走向的论文吗?
Schmidhuber:那篇论文寓意高远,描述了世界上第一个具体的自我改进的“元程序”,不仅能够通过学习提升自己在特定领域的表现,还能改进自己的学习算法,以及它学习自己学习的方式等等。这是系列论文的第一篇,之后十年我都在研究自我改进的递归算法,为了给制造超级智能打基础。
问:你认为基本的终极 AI 算法会是很简洁优雅的吗?
Schmidhuber:终极的自我改进算法看上去应该非常简单,高中生都能看懂并且懂得怎么用,这是我之前回过头去看做的预测。我曾经说过,这是一个人能创造的最无关紧要的东西,因为之后的一切都从它开始。我现在也这么认为。不同的是现在大家听我说的话了。为什么?因为我们为了实现这一目标开发的方法,被全球最有价值的公司大规模地使用。
问:我们应该用什么样的计算设备建造实用的 AI 呢?
Schmidhuber:物理学规定了,未来高效的计算硬件看起来将是跟大脑十分相似的递归神经网络(RNN),一台通用的计算机,有很多处理器被压缩在一个三维空间里,彼此通过很多短的和几条特别长的线路相连,从而实现沟通成本最小化。你的大脑中枢有超过 100 亿的神经元,平均每个神经元都与另外的 1 万个神经元相连。其中有些是输入神经元,为其他部分提供数据(声音、视觉、触觉、疼痛、饥饿)。剩下的是输出神经元,控制肌肉。大多数神经元都隐藏在这两者之中,这里也是思考发生的地方。所有的神经元都通过改变连接强度进行学习,连接强度决定了神经元之间彼此影响力的大小,你一生的经验也似乎都编码在里面。对于我们的 RNN 来说也是一样的,RNN 也通过学习比上一次更好地识别语音或手写字体或视频,让疼痛最小、快乐最大化,驾驶模拟汽车等等。
“他们最终都改变了想法,现在重度使用我的技术”
问:你和你的团队早期关于神经网络的研究与其他人的有什么不同?
Schmidhuber:我们的神经网络跟别人不一样的地方在于,我们搞清楚了怎么让神经网络更深、更强,尤其是 RNN,最普遍也是最深层的神经网络,有反馈连接,在理论上能够运行任意的算法或程序与环境互动。1991 年,我发表了第一个“Very Deep Learners”,这是一个比“深度学习之父”、乌克兰数学家 Ivaknenko 在上世纪 60 年代提出的 8 层网络深了很多的系统。到上世纪 90 年代初,我们的系统已经学会解决很多以前被视为不可学的问题。不过这也只是刚开始。
问:这只是刚开始是怎么一回事?这跟摩尔定律和未来计算能力的发展有什么关联?
Schmidhuber:在当时已经很清楚每 5 年计算机每美元大约会快 10 倍。不像摩尔定律(最近才失效),这一趋势自从 Konrad Zuse 在 1935 年到 1941 年建造第一台可以工作的、由程序控制的计算机以来就一直如此。现在,75 年后,单位价格的硬件大约是以前的 1000 亿倍快。我们从这种增速中受益很多。很快我们就能使用原始计算力堪比一个人脑的便宜设备了。再过几十年,就是所有 100 亿个人脑合在一起,加起来每秒大概进行有意义的基本操作不超过 10 的 30 次方那么多次。事情到这里还没有完;根据 Bremermann 的物理局限,1 千克计算基质的能力还要比这大 10 的 20 次方。就算按照这种趋势发展,这些界限也要到下一个世纪才会碰到,当然,还是很快了——一个世纪仅仅是人类文明 1 万年中的 1%。
问:你之前提到了神经网络。能够再更详细地介绍一下你和你的团队在神经网络方面的开创性工作吗,比如长短时记忆网络(LSTM)?
Schmidhuber:大多数当前商用的神经网络都需要人教。它们依赖一种叫做反向传播的方法,反向传播这一优雅简洁的形式最早是在1970年由 Seppo Linnainmaa 提出的(控制论早期工作的延伸),而后在1982年 Paul Werbos 将其应用到监督学习神经网络当中。但是,反向传播对深度神经网络和 RNN 来说不是很好用。1991 年,我的第一个学生 Sepp Hochreiter(现在是教授了)在研究我第一个深度学习项目时找出了不好用的原因,也就是梯度消失的问题。在当时我们用一种叫长短时记忆(LSTM)的深度学习 RNN 解决了这个问题,现在 LSTM 已经得到了广泛的应用。
后来,在我的学生还有博士后 Felix Gers、Alex Graves、Santi Fernandez、Faustino Gomez、Daan Wierstra、Justin Bayer、Marijn Stollenga、Wonmin Byeon、Rupesh Srivastava、Klaus Greff 等人的帮助下,LSTM 得到了进一步拓展。LSTM 原理已经成了现在所谓深度学习的基本,尤其是处理序列数据。(另外,现在最大的 LSTM 有 10 亿多个连接。也就是说,25 年后,在 Zuse 第一台计算机出现的百年之后,用同样的价格我们就能够做出人脑大小的 LSTM,有百万亿的连接,将上述趋势推广至无限。)
问:能举一个 LSTM 样例吗?
Schmidhuber:你有智能手机吗?从 2015 年中旬开始,谷歌的语音识别功能就基于 LSTM 了,这种 LSTM 递归单元有忘记门(forget gate),使用我们 2006 年提出的“Connectionist Temporal Classification(CTC)”方法训练。这一方法不只是让 Google Voice 性能提高了 5% 或 10%(这样已经算很多了),而是整整提高了将近 50%。现在千千万万智能手机用户都在使用。
问:LSTM 的研究基金是从哪里来的?
Schmidhuber:欧洲纳税人的钱资助了 LSTM 的研发,尤其是我 1995 年起在瑞士人工智能实验室(USI & SUPSI)从事长期研究获得的 SNF 基金。
问:能列举其他 LSTM 及相关概念成功应用的例子吗?
Schmidhuber:2009 年,LSTM 成为首个在国际模式识别竞赛获奖的 RNN,这是我之前的博士生和博士后 Alex Graves 的工作。微软最近在 ImageNet 2015 夺冠的网络与我们的“highway networks”十分相似。Highway network 是第一个有几百层的极深前馈网络,也是基于 LSTM 原理。中国的搜索巨头百度也在我们的 CTC 等方法的基础上开展工作,他们在《福布斯》杂志公布了这一消息。苹果也在最近的 WWDC 2016 开发者大会上对它如何使用 LSTM 提升 iOS 操作系统性能做了解说。谷歌不仅将 LSTM 用于语音识别,还用于自然语言处理、机器翻译、生成图说、自动邮件回复等领域。最终这些都将成为一个巨大的 LSTM。
问:你的团队还在深度监督前馈神经网络方面有所进展,能谈谈这方面的工作吗?
Schmidhuber:我们实验室有一项虽然不是那么影响深远但非常实用的贡献,那就是极大地加快了深度监督前馈神经网络在图像处理器上的速度,尤其是使用 Linnainmaa 的反向传播技巧训练的卷积神经网络架构。2009年,很多人还认为无监督预训练对于训练深度神经网络是必须的。但是,我的团队,当时由Dan Ciresan领导,没有使用任何预训练,就赢得了一系列机器学习竞赛,成绩比以前的系统有了大幅提升:2011年在图像识别任务上率先取得超越人类的表现,2012 年成为最先在物体检测和图像分割竞赛中获奖的深度学习系统,2012 年在医疗图像癌症检测最佳、2013 年 MICCAI 挑战赛冠军,等等。现在,很多著名的公司都在各种不同的应用中使用这种方法。
问:你是如何从上世纪 90 年代的“神经网络冬天”走向了成功?其他人是如何评价你的开创性工作的?
Schmidhuber:现在回过头看,连加拿大、美国和其他地方那些知名的神经网络专家都没有意识到在上世纪 90 年代初我们一个地处前阿尔卑斯山脉的小小实验室开发的极深递归神经网络的潜力,这实在是件很好笑的事情。例如 1995 年,第一篇 LSTM 的论文被著名的 NIPS 会议拒绝了。但最终这些科学家都改变了想法,他们(还有他们的公司)都在重度使用我们的技术。
研究通用人工智能与脑科学没有什么关系
问:你能谈谈无监督学习还有它跟意识之间可能存在的联系吗?
Schmidhuber:真正的AI做的远远不止是通过深度神经网络模仿老师。这也是为什么无监督学习(UL)会这么火。UL有两种:被动的和主动的。被动 UL 就只是在所观察的信息流中检测规律。这意味着学会使用很少的计算资源(比如空间、时间和能量)编码数据,比如通过预测编码做数据压缩,这能在一定的程度那样过反向传播实现,也有助于接下来的有明确目标的学习,就像上面说过的1991年 Very Deep Learner 展示过的那样。它可以应对接下来上千个神经网络处理阶段。它的一个变种甚至模拟意识的某些方面,通过一个递归的“automatiser RNN”吸收或过滤数据,说实话,意识和自我意识都被夸大了。我一直将它们视为压缩问题解决程序的观察历史所产生的天然副产物,通过高效编码常见的观察,包括对问题解决程序自我的观察。
问:你提出了一个关于好奇心和创造力的简单理论。你能谈谈这方面的工作吗?你制造出了具有好奇心和创造力的简单 AI 了吗?
Schmidhuber:我们的主动 UL 或者说“人工好奇心”远比被动 UL 丰富:主动 UL 是关于通过行动序列或试验学会塑造观察到的信息流,有助于学习的主体弄明白世界是如何运作的,以及自己能在世界里做什么。一些 AI 的奖励最大化控制器 C 该进行哪项无监督试验才能达到自我设定目标,并通过收集数据快速优化它对世界的预测模型 M,M 能学会预测如果 C 做了这个或那个接下来将要发生什么,也可以用来规划未来的有目的的行动?M 可以是一个无监督 RNN,它的训练数据包括迄今为止所有的行动历史和观察结果。我关于好奇心和创造力的简单却正式的理论(最早在 1991 年提出)认为:将 M 的学习过程(尤其是压缩过程)视为对 C 额外的内在奖励(或趣味性),促使 C 想出其他值得一试的试验。我以前论证过这个简单通用的原理能够用于说明各种好奇和创意行为,不论是在艺术、科学还是在戏剧里。我们也确实基于这个原理制造出了简单的人造“科学家”。机器不能拥有好奇心和创意是没有道理的。
问:你在人工智能方面做了很多开创性以及基础性的工作,现在也是如此。很多技术巨头都在使用你的研究成果。你的团队是 AI 领域的顶尖团队,你实验室的一些学生现在都创立了公司,做了很多了不起的工作。例如 DeepMind 最早一批人工智能和机器学习博士,还有 DeepMind 4 名创始人中的两个都曾经是你实验室的学生。DeepMind 被谷歌收购后引起世人关注,又凭 AlphaGo 闻名全球。有人说初创公司取得的下一个重大突破能抵十家微软,相当于创造了超过 4 万亿美元的市值。你能谈谈将你的成果商业化的事情吗?
Schmidhuber:虽然我们的工作影响了大大小小很多公司,但绝大多数研究通用人工智能(AGI)基本学习算法和方法的先驱都还在瑞士,或者与我们自己的公司 NNAISENSE 有关。NNAISENSE(音 nascence)的目标是创造基于神经网络的通用人工智能(NNAI),我们有 5 位联合创始人,一些员工,现在是通过不断出售最先进的产业和金融应用盈利,当然我们也有跟投资人交谈。我们相信我们能够大幅向前,实现切实的重大突破,一扫所有事物的风貌,就像我在上世纪 70 年代的座右铭那样:“制造一个比我自己聪明的 AI 这样我才能退休”。
问:现在很多人关注脑科学及其对 AI 的影响。我们有欧洲人脑计划、美国脑计划、DARPA资助的大脑研究项目。你的研究也能够因为脑科学成果受益吗?
Schmidhuber:基本不会。上一次神经科学对 AI 有启发是几十年前的事情了。最近深度学习的成功主要是由于数学和工程上的发现,与神经科学基本没什么关联。在本世纪初,我在 IDSIA 实验室制造出了从数学上进行优化的通用 AI 和问题解决程序(例如 Marcus Hutter AIXI 模型,或者我提出的自引用的哥德尔机器),它们都只包含几个公式。我认为从简单的原理综合得出一个实用的智能模型,比起分析现有样例——也即人类大脑——要简单得多。从上世纪 90 年代起,我在演讲中就一直谈到这样一个例子,现在有一个 19 世纪的工程师,他懂一点点电的原理,他该如何研究一台现代手机的智能呢?或许他会用针去戳芯片,测量各个半导体特有的曲线(就像神经科学家测量神经元钙离子通道的细节),完全没有意识到半导体的主要存在理由是作为一个简单的二元开关。或许他会监测微处理器根据时间散热分布的变化(就像神经科学家研究大规模现象,比如在思考时脑区的活动),完全没有意识到它上面运行的程序的简单性质。理解智能的原理并不需要神经生物学或电子工程学,而是需要数学和算法,尤其是机器学习和搜索程序的技术。
AI 对社会、对生命、对宇宙的影响:改变一切;人类不再是宇宙中传播智能的主要角色
问:你认为接下来 AI 最大的进展是什么,会对社会带来什么影响?
Schmidhuber:小孩甚至一些动物都比我们现在最好的自学机器人要强。但我认为不用很多年,我们就能够制造出基于神经网络的 AI(NNAI),NNAI 能够通过逐步学习,变得至少跟一些动物一样聪明,拥有好奇心和创造力,持续地学习进而将一系列不同的问题计算、推理、拆解成迅速可解(或已经解决)的子问题,全部以一种非常通用的方式。
一旦我们实现了动物水平的智能,接下来迈向人类水平 AI 的步伐就不会太大了:聪明的动物演化出来花了几十亿年,但那之后再到最聪明的人类只用了几百万年。而且技术演化比生物演化快很多,因为死路被淘汰的速度更快。也就是说,一旦我们实现了动物水平的 AI,几年或者几十年以后我们就可以拥有人类水平的 AI 了,那是真正没有局限的应用,所有的商业都会改变,整个文明都会改变,一切都会为之改变。
问:AI 近期对社会的影响是什么?
Schmidhuber:智能机器人和/或它们的所有者将会为了避免社会动荡缴纳更多的税金。对人类来说剩下该做什么呢?从艰苦的体力劳动中解放出来,“Homo Ludens”(玩耍的人类)将(一如既往地)发明新的方式专门用于与其他人互动。现在大部分人(很可能包括你在内)都在从事“奢侈工作”,不像农耕,不会关系到种族存亡问题。机器比博尔特快多了,但博尔特仍然能够通过在百米赛道上战胜其他人类获得几百几千万美元。在韩国,一个神奇的国家,新的工作不断在产生,比如职业电子游戏玩家。值得一提的是,那些单位人口拥有机器人数量较多的国家(比如日本、德国、韩国、瑞士)失业率都相对较低。我在上世纪 80 年代的话放到现在仍然适用:预测哪些工作会消失很容易,但预测哪些新的工作被创造出来很难。
问:我们应该害怕 AI 吗?
Schmidhuber:很多人都在谈论 AI。但制造 AI 的人很少。近来,著名的企业家、哲学家、物理学家等等没有那么多 AI 专业知识的人警告世人 AI 的威胁。我曾试着缓和他们的恐惧,指出使用像 LSTM 这样的人工神经网络制造友好的 AI,让用户变得更加健康幸福的商业压力是巨大的。不过话说回来,也没有人能否认军队也会使用智能机器人。这里我想用我在 1994 年 Ernst Dickmanns 让第一辆真正的自动驾驶汽车在高速公路上路时说过的话:军方也能使用类似的机器作为自动驾驶地雷搜索器。
但是,我们更应该担忧的是一项半个世纪以前的技术——氢弹火箭。一个氢弹的杀伤力比所有传统武器(或者说二战时的全部武器)加在一起都大,很多人都忘记了这一点,尽管从上世纪 80 年代核武器起经历了数次大消减,但现在我们拥有的氢弹仍然可以在几个小时内把整个人类文明摧毁,根本没有 AI 的事情。AI 并不会对人类生死存亡带来新的威胁。
问:那 AI 将会做什么呢?
Schmidhuber:人类不能够在太空中生活,但经过合理设计的 AI 却可以,因此也就为我们提供了远比地球表面这薄薄一层、日照仅为十亿分之一的生态圈要多得多的资源。虽然有些 AI 还会对生命感兴趣,至少在它们没有彻底弄明白生命是怎么回事以前,大部分 AI 将会对机器人和软件在太空里的奇妙应用更加感兴趣。在小行星带会有数不清的自我复制机器人的制造工场,它们将改变余下整个太阳系的面貌,在几百万年內改变整个银河系的,在几十亿年内将剩下所有可以达到的宇宙都改变了,只有光速是它们无法超越的。
上世纪很多科幻小说都提到了一个 AI 统治一切的场景。我曾经论述过,更加实际的情况应该是,一大批各不相同的 AI 集合在一起,试图优化各种各样部分矛盾(而且迅速演变)的实用功能,其中很多都是自动生成的(我们在上个千年就已经演化出实用功能);那时候,每个 AI 都在持续努力地寻找能够让自己生存下去,并且适应周围快速变化的环境的方法,AI 生态系统中充满了激烈的竞争与合作,彼此的规模与程度都远远超出我们当前的想象。
问:AI 会追求它们自己的梦想,也拥有好奇心和创造力,形式跟人类和许多哺乳动物类似,但规模却要大得多。我们的下一代和年轻人需要为此感到担忧吗?
Schmidhuber:我认为他们会希望不要像施瓦辛格电影里演的那样,在“我们”和“它们”之间没有那么多的目标冲突。人类也好,其他动物也罢,都对那些能够与自己竞争和合作的对象感兴趣,因为两者的目标一致。搞政治的人一般只对政界人士感兴趣,小孩子只关注同年龄的小孩子,山羊只关心其他的山羊。超级智能的 AI 大多只会对其他超级智能的 AI 感兴趣,不会关心人类。就像大部分人一般只对另外的人感兴趣,而不会关注蚂蚁。需要注意的是,所有的蚂蚁加起来重量是可以和整个人类相当的。
在将智能遍布宇宙的过程中,人类不再拥有重要的角色。但这没关系。不要以为人就是万物之灵了。应该把人类文明视为一个更加恢弘的计划的一部分,整个宇宙迈向越来越不可估量的复杂的过程中,重要(但不是最后)的一步。现在看起来是迈出这一步的时候了,这一步堪比 30 多亿年前生命的出现。这不止是另一场工业革命,这是超越整个人类甚至所有生物的变革。能够见证到这一过程的开端并且对此作出贡献,我感到非常荣幸。
问:这是你今天最后想说的吗?你还有什么更兼容并蓄的理念吗?
Schmidhuber:有的。对宇宙最简单的解释是什么?从 1997 年起,我就发表文章,探讨计算所有逻辑上可行的系统(也包括人类的智能,假设智能是可以被计算的,目前没有证据反对这一点)非常简单、渐进上最快(asymptotically fastest)、最优、最高效的方法。任何有自尊的“Great Programmer”都应当使用这种最优的方法,创造并且掌握所有逻辑上可行的系统(或者寻找对足够复杂的问题的解决方案),由此生成了副产物——关于确定可计算系统(宇宙)的很多历史,这些宇宙中很多都有观察者居住。由于优化方法的特性,我们无法得知 Great Programmer 在计算过程中任意时间点上的目标(也不清楚到底有没有目标),但是,包含你的那个宇宙,它计算到那一刻为止大部分都是因为有了最短、最快计算出你的那个程序。这种洞见能够让你做出关于你未来重要且喜人的预测。