【新智元导读】吴恩达深度学习系列课程 Deeplearning.ai 上线,专设对话部分,用视频的形式将他对 7 位深度学习领袖的采访呈现出来,分别是 Geoffrey Hinton、Yoshua Bengio、Ian Goodfellow、Andrej Karpathy、林元庆、Ruslan Salakhutdinov、Pieter Abbeel。新智元重点整理了深度学习先驱 Hinton、Bengio 和新秀 Goodfellow 的访谈。他们如何进入深度学习领域,如何看深度学习发展?他们曾犯过哪些错误,如何做好的深度学习研究。这些高手间的交流将为你带来深度冲击。
全部视频地址:http://v.qq.com/u/videos/#cover_edit/6f6000801v5zdtf
Geoffery Hinton:少看论文,绝对不要停止编程
吴恩达:作为深度学习的前沿研究者,您提出了有关深度学习的许多新观点,许多人称您为“深度学习教父”,虽然我刚才跟您聊天的时候才知道是您自己首先自称“深度学习教父”的。那么我想问一下您的传奇背后的故事。您是如何开始涉足AI,机器学习,以及神经网络的呢?
Geoffery Hinton(以下简称Hinton):我读高中时,遇到一位非常好的班主任。他是一名卓越的数学家,有一天上课时,他问,“你知道大脑全息图(hologram)吗?“那大概是在1966年,我当时问,“什么是全息图?”他解释说,在全息图中,你可以切掉一部分,但仍能看到整个画面,也就是说大脑中的记忆可能是分布在整个脑中。“我猜他读过 Lashley 的实验,就是切掉小鼠的部分脑皮层,发现很难找到大脑的哪个区域是存储特定记忆的地方。这是我第一次对大脑如何存储记忆感兴趣。于是我上大学时,就开始修读生理学和物理学。后来我放弃这两个学科,转修哲学,因为我认为哲学能给我更多对于大脑的理解。但是在我看来,哲学的理解方式也无法让我满意。所以我转向了心理学,心理学领域有非常简单的理论,在我看来这些理论完全不足以解释大脑的工作方式。于是我去当了1年的木匠。再后来我去爱丁堡大学研究生院,决定学习AI,师从 Longuet-Higgins。他曾在神经网络方面做过一些很好的工作,但却在那时放弃了神经网络,改为支持传统的人工智能论点。所以我去爱丁堡时,他认为我做的是过时的东西,叫我应该从符号学的角度去研究。我们有过很多争吵,但我只是一味坚持我所相信的工作。
我终于获得了一个AI的PhD,但没能在英国找到工作。我于是去了加利福尼亚州,那里一切都不一样。在英国,研究神经网络被认为是愚蠢的事情,但在加利福尼亚,Don Norman 和 David Rumelhart 等人对神经网络的观点非常开放。那是我第一次体会到,思考大脑如何工作,思考大脑的工作方式与心理学的联系是一件非常积极的事情,这是非常有趣的。特别是与 David Rumelhart 的合作经历非常好。
吴恩达:那么,您是在UCSD(加州大学圣地亚哥分校)时,与 Rumelhart 合作写了那篇著名的反向传播(back-propagating)方面的论文,对吗?
Hinton:实际上,这件事还要复杂一些。大概是在1982年初,David Rumelhart 和我,还有 Ronald Williams,一起开发了反向传播算法。这主要是 David Rumelhart 提出的idea。我们后来发现有其他许多人已经提出过这一算法了。David Parker 提出过,可能他是在我们之后提出的,但发表论文是在我们之前。Paul Werbos 也比我们早几年发表过论文,但没有得到很多重视。还有其他许多人也提出了类似的算法。
吴恩达:为什么你认为是你们的研究论文让这个研究圈子接受了反向传播的算法?给我的感觉是你们的论文起了很大作用。
Hinton:我们在1986年得以在 Nature 期刊上发表了一篇论文。为了让论文被接收,我做了很多工作。我得知其中一位审稿人可能是 Stuart Sutherland,他是英国的一位著名心理学家。我去和他谈了很久,向他解释反向传播是什么。这给他留下了非常深刻的印象,我猜这是论文被 Nature 接收的一个原因。
(Hinton接着解释了一下反向传播算法)
吴恩达:最近有关GPU、超级计算机,这些超快的计算机如何加速深度学习的谈论很多,但在1986年,或者说90年代初,您和Bengio就已经开始做深度学习了。
Hinton:是的,这是一个巨大的进步。在1986年,我使用的计算机运算能力不足1/10 megaflops到大约1993年,达到10 megaflops,也就是说计算力增加了100倍。正是由于计算机变的越来越快,深度学习变得易于使用了。
吴恩达:在过去几十年里,你发明了神经网络和深度学习的许多方法,在您发明的所有东西中,哪个是您现在仍然觉得是最令人兴奋的?
Hinton:我认为最美的一个是我与Terry Sejnowski一起发明的玻尔兹曼机(Boltzmann machin)。我们发现有一个真正非常简单的学习算法,可以应用于很大很密集的网络,你只会看到几个节点,它会学习隐藏的表示。它真的是一个非常简单的算法。
(Hinton接着解释了玻尔兹曼机的机制)
(Hinton接着讲了一堆技术干货,以及他正在做的研究,请看视频)
吴恩达:您已经在深度学习领域工作了几十年,我想问,这几十年间您对AI的理解有什么变化?
Hinton:我的很多研究是围绕反向传播的,包括如何使用反向传播,如何利用它的能力。在20世纪80年代中期,我们在判别学习(Discriminative learning)中使用它,能表现得很好。到90年代初,我开始认为人类学习中的大部分都是无监督学习(unsupervised learning),我开始对无监督学习有了更多兴趣,提出了 Wake-Sleep 算法。
吴恩达:您那时的思想也深深地影响了我。
Hinton:是的,我也可能是误导了你。但长期来看,我认为无监督学习是关键的。但你也要面对现实,在过去十多年里,能起效的是监督学习,是区分性训练(Discriminative training),使用有标签的数据。但我仍然认为无监督学习将会变成关键,将能够变得比现在好很多,但我们目前仍未能做到。
吴恩达:是的,我想研究深度学习的许多人都这样相信,包括我也是,都对无监督学习感到兴奋,只是现在没有人知道如何可以做得更好。
(Hinton 接着讲了无监督学习中有前途的一些idea)
吴恩达:您对想进入深度学习领域的新人有什么建议?我想您肯定已经一对一地给许多人提过建议,但对于很多人,对于正在观看这个视频的一大批人,请您对他们提一些建议。
Hinton:我的建议是,要阅读文献,但不要读太多。这也是我从我的老师那里得到的建议,可能与大部分人认为的不一样。大部分人认为应该花上好几年的时间,读很多很多的文献,然后再开始做自己的研究。可能对于一部分研究者来说这样很好,但对于创造性的研究者来说,我认为你应该读一些文献,了解其他人走了哪些弯路,就是某些研究给人感觉不对。然后你要找到如何做对的方法。就算有人跟你说那样做不好,你也要坚持做。关于如何坚持,我有一个好原则,就是不要管你的直觉是好是坏,如果直觉是好的,那你应该继续,结果会成功;如果你的直觉不对,那也没关系。你应该相信你的直觉,没有理由不相信它们。
我的第二个建议是,不要停止编程。因为如果你让一个学生去做某个项目,如果进行不顺,这个学生可能会跑回来说它不work。要推导为什么它不work,需要做一些小决策,他们没能认识到这是关键的。但假如是优秀的学生,比如说你,你会回来说它是work的。
吴恩达:对于想要进入AI,或者深度学习的人,您还有什么建议吗?
我想关键是你要有直觉,然后相信你的直觉。不要担心其他人说什么,那是无意义的。如果你认为那真的是一个好点子,但其他人说那完全没意义,那你就知道你真的遇到大事了。一个例子是, Radford 和我提出变分方法(variation method)的时候,我给我的一个学生写信解释这个方法,这个学生叫 Peter Brown。他又给他的工作同事解释,叫Della Pietra 兄弟的,我猜他们是双胞胎。Brown后来告诉我这两兄弟说了什么,他们说,这非常愚蠢。所以说,他们真的认为我们提出的新方法毫无意义。所以,当你在做的事情被别人认为是垃圾的时候,就是它真的是一个超级好的idea的迹象。
Yoshua Bengio:无监督学习 × 强化学习将带来领域革新
Bengio 已经成为深度学习代表人物之一,他是如何进入这个领域的?Bengio 在采访中表示,他 1985 年读博的时候读到神经网络的论文,了解到人类是如何学习的,这对于当时还在上经典人工智能,也就是专家系统课程的他来说非常激动。他读了 Hinton 的论文,了解到联结主义,于是开始研究 RNN、语音识别、图模型,毕业后进入 AI&T,贝尔实验室,在 MIT 读博士后,最后回到蒙特利尔。
见证了深度学习这几十年的发展历程,Bengio 谈了最开始他们直觉上知道深度学习和神经网络会更加强大,但是却无法证明。现在,我们已经明白了为什么 BP 这么好用,深度为什么对网络重要。Bengio 以前认为,BP 要好好工作必须有平滑的非线性(smooth nonlinearites),他曾经很担心遇到 Flat parts,导数为 0 会出现失败。但在 2010 年左右,他发现 ReLu 实际上比 Sigmod 训练起来更好,这令他十分意外。
这一发现也与生物学有关。实际上,Bengio 最初对神经网络感到兴奋的点,就是信息在人类大脑里是分布式地存在于每个神经元,而不是一开始以为的存在“祖母细胞”,后者代表了符号表征(symbolic representaion)。也是由此,他当年进行了很多相对浅层但分布式的 word embedding 模型。
上世纪 90 年代末,Bengio 和他的弟弟 Samy 一起,试图用神经网络解决“维度诅咒”这一在统计学习上的老问题。其中涉及到对随机变量进行有效分布式表征的工作,于是将其拓展到序列联合表征上,这就是 word embedding 的由来。
Bengio 和他的团队提出了很多理论、技术,他最自豪的工作包括长期依赖(long-term dependency,这也是 Bengio 认为人们理解还不够深的一项工作)。其他令他自豪的还有自编码器、消失的梯度、piecewise 线性激活函数、神经机器翻译(NMT)。
其中,神经机器翻译被用在了包括谷歌翻译在内的多个产业服务上。这项工作使用了注意力机制,Bengio 表示注意力机制的提出十分重要,以前神经网络是向量到向量的映射,而注意力机制让神经网络可以处理任何类型的数据。
Bengio 最近在做的一项工作是提出类似 BP 的方法,但是让人类大脑可以理解。他的研究团队在这方面已经发表了几篇论文,是神经科学研究人员会感兴趣的。
实际上,Bengio 一直以来都对深度学习和大脑的联系很感兴趣,在这方面也思考了很多。他听 Hinton 第一次关于深度学习的 workshop,Hinton 提到了大脑是如何工作的,如何利用时间信号做 BP,这对他十分有启发。他认为目前深度学习与大脑就像一个拼图(puzzle),一方面我们已经有了很多证据(pieces),比如 spike timing-dependent 可塑性,另一方面有很多机器学习的概念,比如使用目标函数对系统进行全局训练,credit assignment。但是,如何将两方面联系起来?Credit assignment 真正意味着什么?
Bengio 认为,BP 后面实际上还有更 general 的概念,这将是 credit assigment 有用的一个原因。这方面也是研究强化学习的人在讨论的。
无监督学习也是 Bengio 感兴趣的方向,并且多次在演讲中提到。Bengio 认为,无监督学习并不仅仅关系着有没有标签,而是在更加深层的意义上,如何让机器能够通过观察学习,如何让机器从人机交互中学习,就像人类学习一样。
Bengio 认为,无监督学习和强化学习的结合,或许会带来在底层上更多的共通点,接下来几年这方面或许会有大突破——那种在领域内掀起革新的突破。因为,目前有很多方法去实现无监督学习,换句话说,关于什么是无监督学习还没有定论。如何定义一个好的表征,什么是一个好的目标函数,现在都没有明确的标准。
Bengio 认为,目前的深度学习和所谓智能系统的表现,表明当前我们只做到了非常肤浅的部分,还远远没有触及智能的本源。我们必须去研究机器如何观察世界、理解世界,研究高层抽象,进行认知方面的探索。这个世界既包括真实世界,也可以是简单如视频游戏的虚拟环境。
同时,这样做不需要与谷歌、Facebook 或百度这样的巨头竞争,世界上任何人都能研究这一点,并且有巨大的潜力和机会改变世界。
深度学习结合强化学习也会带来应用上的启发。Bengio 一直以来都在研究 toy problem,以小见大。随着硬件性能的提高,他可以做很多很多 toy experiments,加快研究周期。
最后,Bengio 谈了他关于深度学习作为科学(science)的看法。Bengio 认为深度学习不止是工程,也是科学,因此他一直在研究深度学习本身,理解深度学习原理和现象。当然,不一定要有各种数学证明(有当然更好),但至少要能有理有据,说服对方(比如这里为什么要用深度学习)。因此,研究不是为了刷新基准,超越其他实验室或公司的人,而是提出有意义的问题,比如与其提出性能更好的算法,还不如设计实验去理解当前已有的算法。
Ian Goodfellow:濒死体验让他坚定做AI
Ian Goodfellow 作为最近的深度学习红人(very visible),也接受了吴恩达的采访。他在访谈中讲述了他自己是如何进入深度学习,他提出 GAN 的故事,以及《深度学习》这本书。
实际上,Goodfellow 最开始学的是神经科学,那时候的 AI 都是 game-AI。后来,他的导师让他去进一步了解,他就上了吴恩达的 AI 入门课程。在吴恩达的课上,Goodfellow 看到了线性回归、variants decomposition……等等概念,这让他意识到,深度学习是一门科学(real science),他可以把自己的研究生涯建立在这个基础上。后来,在朋友的影响下,他读了 Hinton 关于深度信念网络的论文,感到非常激动,自己和朋友在斯坦福建造了基于 CUDA 的 GPU 机器。
当时 Goodfellow 就强烈预感,深度学习是未来的大方向(is the way to go in the future)。因为深度学习不像当时的其他方法,比如 SVM(SVM 数据增多训练就变慢),于是他尽可能地聚焦深度学习。起初是自己出钱在朋友妈妈的家里弄,后来才开始用斯坦福实验室的资金做一些研究。
GAN 是当前讨论最多的深度学习方法之一。Ian Goodfellow 也讲了他是如何发明 GAN 的。当时他在研究生成模型,在酒吧里跟朋友讨论,说你应该这么做这么做这么做,我打赌一定会有用。但是朋友不信,于是他直接从酒吧回去开始做实验,一晚上就写出了 GAN 论文。
Goodfellow 表示他很幸运第一次就 work 了,这样他不用去调参数。实际上当时他正在写《深度学习》这本书。现在,《深度学习》中译本已经出版,回过头看,Goodfellow 表示,他们在写作这本书的时候,特意强调了数学,尤其是线性代数和概率论,就像当年吴恩达的 AI 课一样,他认为你必须具备基础数学知识才能真正做深度学习。
GAN 属于生成模型的一种,虽然现在应用很多,但训练十分不稳定。Goodfellow 认为,实际上 GAN 能做的事情很多其他生成模型也能做,现在 GAN 正处于交叉路口,如果能稳定下来,甚至能像深度学习那么可靠,那么 GAN 就能真正发展起来。如果不能,那么 GAN 将会被其他方法取代,成为发展中的一个过程。现在,他有大约 40% 的时间用在稳定 GAN 上面。
Goodfellow 还提到了一件趣事,他曾经有过一次临死体验,正是这一经历坚定了他从事 AI。当时他头超级超级痛,可能是大脑出血,在等 MRI 检查结果的时候,他意识到他最想让人做的,是研究他论文中提出的东西。虽然现在想来,都是些很稚嫩的概念,但是,他意识到从事 AI 研究是他人生的第一大事。吴恩达听后表示,这真正体现了决心(commitment)。