本周可选部分采访了深度学习领域的先驱者,也是刚获得2019年图灵奖的三巨头之一Geoffrey Hinton。其实以前一直认为学好在线课程应学部分就可以了,附加部分没多少必要去看。今天尝试的看了看才觉得以前自己错过了很多东西,并且收获良多。
采访从Hinton的个人经历讲起,他不可谓不传奇:先是有初中同学提到的全息图和拉利时实验启发他萌生模拟人思考过程的想法,之后他先后尝试了不同的领域:物理生物、哲学、心理学最后才开始研究人工智能。
他提出的反向传播算法,大大提升了神经网络的性能(之前一直是前馈神经网络),带动了基于神经网络的深度学习研究热潮。谈到了特征工程的一般意义,即是将原始数据提取为特征,再将特征表示为更一般化的信息的过程。还谈到在未来仍具有很多研究价值的玻尔兹曼机,它能够学习到数据中的隐藏特征。现在比较有效的变体是受限玻尔兹曼机,它通过利用置信网络,将原本神经网络层级之间的密集连接变为疏用连接。
还提出了变分方法,即贝叶斯变分法来提升EM算法的效果。除此之外,Hinton坚信反向传递不是无中生有的事物,我们的大脑中也一定存在对应的结构。他还提到了自己团队提出ReLU的过程,以及最近比较火的自动编码器结构。
此外,他也说到了自己最新提出的胶囊网络,用来表示多维实体:用一堆神经元和活动来表示同一事物在不同维度的特征(如大小和颜色),一般说来一个特征对应一个胶囊。虽然现在很多人都不相信他,但他仍坚持自己的看法并认为就像当初他刚提出反向传播概念被大多数否定的那样,只要坚持,时间会证明他的努力。
更多详细内容请看如下整理的采访原文。
在我上中学的时候,我有一个同学 他在任何方面都比我出色,他是一个卓越的数学家 一天他来到学校跟我说,你知道大脑使用全息图吗? 我猜那是在1966年左右,我说我知道一些,然后问什么是全息图? 他解释说道,在一个全息图里,你可以砍掉其中一半 之后你仍然能够看到整张图 而记忆在大脑里可能分布在整个大脑上 所以我猜他读过拉什利的实验 在实验中你砍掉一小部分老鼠的大脑然后 发现想要找到哪一小块大脑储存着哪一部分记忆是非常困难的 这就是第一次让我对大脑如何存储记忆感兴趣的原因 然后等我上了大学之后 我开始学习生理学和物理学 我想当我在剑桥的时候 我是唯一一个做生理学和物理学的本科生 接着我放弃了 然后试着去从事哲学,因为我认为这也许可以给我更多的启示 但实际上在我看来 哲学并不能很好的鉴别出某些人说出的错误的东西 所以之后我转向了心理学 然后在心理学里,他们只有非常非常简单的理论,而这个对我来说似乎 不足以去解释大脑在做什么 于是我抽出了一些时间,成为了一个木匠 然后我决定我想尝试一下人工智能,然后我去了爱丁堡 去跟朗格希金斯(Langer·Higgins)学习人工智能 他已经在神经网络上做出了很好的工作 然后他刚好放弃了神经网络,并且对Winograd的论文印象深刻 所以当我到爱丁堡的时候,他认为我在做那种过时的东西 他认为我应该从符号学的人工智能开始 我们有过很多的争论,但我一直在做着自己觉得对的事情 然后呢? 我最终拿到了我在人工智能上的博士学位,然后我在英国找不到工作 但是我看到了一个很棒的广告 是关于加州的Sloan奖学金,然后我努力拿到了一个 之后我去了加州,在那里一切都与之前不同了 在英国,神经网络被认为是种愚蠢的东西 但是在加州,唐·诺曼和 大卫·鲁梅尔哈特都对神经网络持非常开放的态度 这是我第一次在某个地方开始思考大脑是如何运作的 同时思考这个问题如何与心理学联系起来 这些问题被当作一个非常正面的事情 而且非常有趣 特别是跟大卫·鲁梅尔哈特的合作非常的棒 很好,所以这是当您在UCSD 您和儒大卫在1982年左右 一起撰写关于反向传播的会议论文时候,对吧? 实际情况比这更复杂 — 发生了什么 我想是在1982年初 大卫·鲁梅尔哈特,我和润·威廉 我们一起开发这个逆传算法 这个主要是大卫·鲁梅尔哈特的主意 我们后来才发现很多其他人发明了它 戴维·帕克发明过,也许在我们之后,但是在我们发表之前 保罗·韦伯斯早几年前就已经发表了 但是没有人注意它 其他人研发了非常相似的算法 只是反向传播的定义还很模糊 但使用链式法则来求得导数并不是一个新奇的想法 我明白了。
所以我们在1986年的时候成功在Nature上面发了一篇文章 我做了大量的政治工作来让我的文章被接受 我发现了其中一个审稿人可能会是斯图尔特·萨德兰 一个英国著名的心理学家 我跟他谈了很久 跟他精确地解释这到底是怎么一回事 而他对这一事实印象深刻 我们演示了逆传算法能够学习文字的表达 你可以看一下这些表达,都是一些小的向量 你能够理解这些个体特征的意义 所以我们实际上用关于家庭族谱的三字组合来训练它 比如玛丽有个妈妈叫维多利亚 然后你给它前两个词,它就能够预测最后一个词 在你训练它之后 你可以在单个词上看到所有的特征表达 比如一个人的国籍 他们是哪一代,属于哪一个分支等等 这个就是让斯图尔特·萨瑟兰印象深刻的东西 我认为这就是这篇文章能够被接收的原因。 非常早期的词嵌入中,您就已经能看到一些特征 一些从训练算法中生成的语义特征 是的,从心理学的观点来看,有一点比较有趣就是 关于知识是什么样有两个完全不同的想法。 有个老心理学家认为一个概念只是 一大推捆绑的特征并由很多证据所组成。 有一个对于时间的AI观点则是一个规范主义的观点。 这是一个概念如何与其他概念进行关联。 为了捕捉一个概念,你必须做一些像图表结构或 是一个语义网。 反向传播的例子中展示的是你可以给它 信息让它进入到图形结构中或例子中的系谱。 它能将信息转换成特征,这种方法它能够 将特征来获得新的一致的信息,即一般化。 但关键是这种来回之间的图形表示或 树形结构的系谱和 用来表征人的一个很大的特征向量。 事实上,你可以从图形表征得到特征向量。 转化为向量转化为向量 从特征向量,你可以得到更多的图形代表。 所以这是1986年? 在90年代初,Bengio表明你可以利用真实的数据, 你可以采用英语文本,并应用相同的技术和 从英文文本中获取嵌入信息,这给人们留下了深刻印象。 我想最近我们谈论了很多关于计算机像gpu和 超级计算机的快速运行速度正在推动深入学习。 我没有意识到,1986和90年代初,这听起来像 你和Benjio已经开启了这个趋势的开端。 是的,这是一个巨大的进步。 在1986年,我用的是一台每秒浮点运算速度不到10万次的机器 大约1993左右,人们可以见到每秒浮点运算次数在千万解级别的机器。 我明白了。所以是100倍的差别, 所以它很容易使用, 因为电脑变得越来越快。 在过去的几十年里,你发明了 很多神经网络和深度学习。 我真的很好奇你所发明的东西 哪一个仍使你最为兴奋? 我认为最漂亮的一个是我 和特里谢诺夫斯基共同工作的玻尔兹曼机器。 我们发现这真的是 非常非常简单学习算法,但可以应用在很大的 密集连接的网络中,其中你只可以看到几个节点。 它会学习隐藏代表,而且这是一个非常简单的算法。 像这种事情应该可以在大脑中运行因为 每个突触只需要知道两个直接相连接 的神经元的行为。 通过传播的信息也是一致的。 它有两个不同的阶段,我们称之为唤醒和睡眠。 但在两个不同的阶段中, 你以同样的方式传播信息。 就像反向传播一样,有正向传播和 反向传播,但他们的工作方式不同。 他们发送不同种类的信号。 所以我认为这是最美丽的东西。 多年来,它看起来就像好奇心, 因为看起来太慢了。 但是后来,我去掉了一点点的优雅性,它开始 在一些稍简单的网络中,一次迭代到最优状态。 这给了玻尔兹曼机一些限制, 但其实这种方法在应用中相当有效。 例如,在Netflix的竞争中, 受限的玻尔兹曼机是成功的一个开始。 事实上,约2007开始,很多神经网络和 深度学习的回潮,是受限玻尔兹曼机 和非受限玻尔兹曼机引领的,这都是你和你的实验室的成果。 是的,所以这是另一个我很满意的作品, 你可以训练你的限制性玻尔兹曼机器,它只 有一层隐藏特征,你可以学习一层特征。 然后,你可以把这些特征当做数据,并再做一次, 然后你可以把你学到的新特征当作数据来处理, 次数随你而定。 所以这很好,而且它在实际中能实现。 然后UY泰意识到,整件事情可以被视为单一的模型, 但这是一种怪异的模式。 这是一个在顶部你有一个受限玻尔兹曼机,但 下面你有一个sigmoid置信网络, 而它在很多年前就已经被发明了。 所以它是一个定向模型, 我们发现训练这些受限玻尔兹曼机的 是在Sigmoid置信网络中进行后续推理的非常有效的方式。 所以,在那个时候, 有人做神经网络,他会使用密集连接网络,但 没有任何好的方法来做概率标记。 你要让人做图形模型,不像我的孩子 他们能正确地做推断,但只会在疏用连接网络。 我们设法展示的是学习这些深度置信网络 是个非常快的推理近似形的方法。 它只提交单一的前向路径,这是一种非常漂亮的结果。 你可以保证,每次你学习额外层的特征 每次你学一个新层,你会得到了新的带, 新的带总会比旧的带好。 在你添加添加新网络层时会显示的那种变形带。 是的,我记得那个视频。 所以这是第二件然我非常兴奋的是。 我想第三件事就是我在变分方法上所做的工作。 实际上,搞统计学的人以前就做过类似的工作, 但我们之前并不知道。 我们使得EM(Expectation–maximization)算法的效果得到很大的提升, 却是通过证明你不需要在步骤 E(Expectation)的时候做得很好。 你可以做一个近似的步骤 E(Expectation)。 在统计学里,EM是一个很重要的算法。 我们展示了对EM的一个很大的拓展。 尤其是在大概1993年,和 Van Camp(Drew Van Camp)一起, 我写了一篇论文,我想是第一篇变分贝叶斯论文。 在那篇文章里我们展示了你实际上做一种贝叶斯学习, 通过用 Gaussian 来逼近真实后验概率,从而使它更易于处理。 你可以用神经网络来实现这个方法。 我对此非常兴奋。 好的,我明白了。 是的,我感觉我记得所有这些论文。 “Neal 和 Hinton” 那篇论文,逼近EM那篇,我花了好几个小时来读。
说是也是,说不是也不是。 其他人也想过矫正线性单元(ReLu)。 我们做了一些关于与受限玻尔兹曼机工作。 这些工作显示 ReLU 几乎完全等同于一堆逻辑单元。 这也是使得 ReLU 流行起来的原因之一。 我对这个非常好奇。 ReLU 这篇论文有很多的数学公式,从而证明这个(ReLU)函数可以通过一个复杂的公式来近似。 你写了很多的数学公式是为了能让你的论文在学术会议上被接收还是因为这些数学上的东西确实影响了 max{0,x} 这个函数的由来。这其实是一个典型的例子。在这里数学对这个想法的发展起到了很大的作用。 这其实是一个典型的例子。在这里数学对这个想法的发展起到了很大的作用。 我之前就知道修正线性单元这个想法,我也知道逻辑单元。基于在玻尔兹曼机的研究工作,所有的基本工作都是由逻辑单元完成的。所以问题是,学习算法是否能在含有修正线性单元(ReLU)的某种东西上工作?通过证明 ReLU 几乎完全等价于一堆逻辑单元,我们展示出其他数学上的公式都成立。我明白了 这这想法启发了现在的很多人,很多人都在使用 ReLU。 而且它确实管用,尽管人们不需要了解当时提出这个想法的动机。 而且它确实管用,尽管人们不需要了解当时提出这个想法的动机。 是的。后来,当我去谷歌的时候,我后来发现一件事。 在2014年,我给 Google 做了一个演讲,关于如何使用 ReLU 和用单位矩阵初始化。 因为 ReLU 的好处是如果你反复地复制隐藏单元, 并且用单位阵来初始化, 每一层就会简单地复制它下面那一层的模式。 那篇文章里我写到,你可以训练一个有300个隐藏层的网络,并且如果用单位阵来初始化,你可以很快地训练它。但我当时没有做跟进的研究,我很后悔没有继续。 我们和 Quoc Le 一起发表了一篇文章,文章里写到你可以通过像 ReLU 一样的来初始化一个循环神经网络(Recurrent nets)。但我应该进一步跟进,因为之后发表的那些残差网络其实就是类似的这些东西(ReLU)。
我现在正在写一个关于这方面的论文。 我主要的想法是这样的。 如果反向传播被证明是一个很好的用来学习的算法, 那么,当然(自然)进化可能已经知道如何实现了。 我的意思是,你有那些可以变成眼球或牙齿的细胞。 如果细胞可以做到这些(变成眼球或牙齿),那么当然他们可以实现反向传播。 想必做这个选择(眼球还是牙齿)的压力一定很大。 一些神经学家认为这个想法似是而非,我觉得他们的想法才愚蠢。 这里面可能有一些很微妙的方法来实现。 我认为大脑里可能存在一些很接近反向传播而不是反向传播的东西。 我认为大脑里可能存在一些很接近反向传播而不是反向传播的东西。 这些年来,我有许多想法来解释这是如何工作的。 在1987年,当我和 Jay McClelland 合作的时候, 我提出了再循环算法。 主要的想法是这样,你在一个循环里发送信息。 你试着让信息在这个循环里传送的时候不发生改变。 你试着让信息在这个循环里传送的时候不发生改变。 一个最简单的版本是假设你有输入单元和隐藏单元, 你将信息从输入(单元)发送到隐藏(单元),然后(信息)返回到输入,然后回到隐藏(单元)然后再回到输入,以此类推。 你想要的是训练一个自动编码器, 但你不想通过反向传播来训练它。 因此,你训练它使得它去除所有活动的变化。 所以突触的学习规则是把权重改成,正比于突触前输入并且正比于突触后输入的该变量。 但在循环算法里,你试图使突触后输入变得更好,而突出前输入变得更差 但在循环算法里,你试图使突触后输入变得更好,而突出前输入变得更差 所以你朝着这个方向改变。 在神经学家提出尖峰时间相关的可塑性(spike-timing-dependent plasticity)之前,我们就发明这个算法。 在神经学家提出尖峰时间相关的可塑性(spike-timing-dependent plasticity)之前,我们就发明这个算法。 尖峰时间相关的可塑性实际上是相同的算法,只不过颠倒了一下,在学习规则里新的东西是好的而老的东西是不好的。 尖峰时间相关的可塑性实际上是相同的算法,只不过颠倒了一下,在学习规则里新的东西是好的而老的东西是不好的。 所以你会权重比例改为正比于突触前的活动乘以新的突触后活动减去老的。 所以你会权重比例改为正比于突触前的活动乘以新的突触后活动减去老的。 后来,在2007年我意识到,如果你训练一堆受限玻尔兹曼机,经过训练,你会得到刚好正确的条件来实现反向传播,只需要重建一下(输入)。如果你看一下重建误差,重建误差会告诉你判别结果的梯度。 2007年,在 NIPS 的第一次深度学习研讨会上,我做了一个相关的演讲。 这个演讲几乎完全被大家忽略了。 后来,Yoshua Bengio 把这个想法捡了起来。 在这方面,他又做了相当多的工作。 我自己也做了更多的工作。 有这么一个想法,如果你有一堆自动编码器,你可以通过把当前的活动反向传播并且观察重建误差来得到梯度。 我认为这是一个非常有趣的想法。大脑很可能就是这么做的。
好的。这可以追溯到我读研究生的前几年。 我第一次讲座是关于所谓的快速权重。 那种能迅速适应,但也会迅速衰减的权重。 因此这些权重可以保持短期记忆。 在1973年我展示了一个非常简单的系统。 (在那个系统里)你可以用这些权重做真递归(True recursion)。 真递归的意思是那些被用来表示事物的神经元会被重新利用来表示递归核里的事物。 那些用来表示知识的权重被重新在递归核里利用。 这就引出了一个问题:当你输出递归核的时候,你如何能记得在这个过程中它们是什么样子的? 这些记忆存在哪里? 因为你把神经元用于递归核。 答案是你可以把记忆放进快速权重里,然后通过它们还原神经元的活动状态。 答案是你可以把记忆放进快速权重里,然后通过它们还原神经元的活动状态。 更近的一段时间,我和 Jimmy Ba 在合作, 我们写了一篇 NIPS 的文章,在文章里我们把快速权重用在了递归上。 我明白了 这中间隔了很长时间。 第一个模型在 1973 年未发布(完成但未公开发表), Jimmy Ba 的模型是在 2015 年或 2016 年(提出的), 这大概是 40 年之后了。
我又回到了我之前的一个阶段,那就是我坚信我的一个想法,而其他人都不相信。 我投过相关的论文,(但)它们都被拒收了。 但我非常相信这个想法,我会继续做下去。 它(胶囊网络)有几个主要的想法。 一个是如何表示多维的实体。 你可以通过一些 *** 活动来表示多维实体,只要你知道它们中的任何一个(活动)。 你可以通过一些 *** 活动来表示多维实体,只要你知道它们中的任何一个(活动)。 这个想法是,在图像的每个区域里,你假设某一种特征只存在一个。 这个想法是,在图像的每个区域里,你假设某一种特征只存在一个。 然后你用一堆神经元和他们的活动来表示这个特征的不同方面。 然后你用一堆神经元和他们的活动来表示这个特征的不同方面。 比如在一个区域里,那个特征的 x 和 y 坐标是什么, 它的方向是什么样? 它移动的速度有多快? 它是什么颜色的? 它有多亮? 诸如此类。 所以你可以用一堆神经元来代表同一个事物不同维度(属性)。 是一样的。 但前提是,特征的某一个属性只(在这个区域里)存在一个。 同平时我们用神经网络的用法不同,这是一个非常不同的来研究表征的方法。 同平时我们用神经网络的用法不同,这是一个非常不同的来研究表征的方法。 通常在神经网络里,我们只有一个很大的层,每个神经元做着他们自己的事情。 通常在神经网络里,我们只有一个很大的层,每个神经元做着他们自己的事情。 而不是把他们捆绑在一起,形成小的团队,来表示同一个事物的不同方面。 而不是把他们捆绑在一起,形成小的团队,来表示同一个事物的不同方面。 所以我认为这样一个额外的结构应该是存在的。 还有一些从这个引申出的其他的想法。 所以这意味着在分布表征里,你把这个表征拆分成更小的部分?所以这意味着在分布表征里,你把这个表征拆分成更小的部分? 是的。 我把每个小部分称为胶囊。我明白了 这个想法就是一个胶囊代表一个特征的,而且只有一个。 这个想法就是一个胶囊代表一个特征的,而且只有一个。 这个胶囊可以表示这个特征不同的性质。 这是一个有很多属性的特征,不同意一个普通的神经网络里的神经元,只有一个数值属性。 对,我明白了。 如果你有一个这样的神经网络,你可以做一些普通的神经网络不擅长的事情。 你可以做一个我叫作 routing-by-agreement 的事情。 假设你想做分割。你有一个可能是嘴巴的东西,还有一个可能是鼻子的东西。 你想知道你是否应该把他们放在一起组成一个事物。 这个想法是有一个针对嘴巴的胶囊,那个胶囊有针对嘴巴的参数。 这个想法是有一个针对嘴巴的胶囊,那个胶囊有针对嘴巴的参数。 并且你还有一个针对鼻子的胶囊,那个胶囊有针对鼻子的参数。 为了决定是否把它们(嘴巴和鼻子)放在一起,你会让它们(胶囊)各自投票来决定针对一张脸的参数应该是什么。 为了决定是否把它们(嘴巴和鼻子)放在一起,你会让它们(胶囊)各自投票来决定针对一张脸的参数应该是什么。 如果鼻子和嘴巴(的胶囊)有着正确的空间关系,它们的选择会是一样。 如果鼻子和嘴巴(的胶囊)有着正确的空间关系,它们的选择会是一样。 当你有两个在同一层的胶囊都选择了同一批参数来往上一层传输,那么你可以假设它们很可能是对的。 当你有两个在同一层的胶囊都选择了同一批参数来往上一层传输,这是因为在高维空间里能出现一致(的选择)是很少见的。 这与我们在普通的神经网络里做滤波是很不同的。 这与我们在普通的神经网络里做滤波是很不同的。 对于提高神经网络对有限数据的泛化能力来说是很重要的。 因此,我认为这个 routing-by-agreement 对于提高神经网络对有限数据的泛化能力来说是很重要的。 我认为它(胶囊)会很擅长视角变化和分割。 我认为它(胶囊)会很擅长视角变化和分割。 我觉得它比我们现在在神经网络上的工作要更高效。 我觉得它比我们现在在神经网络上的工作要更高效。 现在你如果想处理视角变化的问题,你做的不过是人为地改变视角,然后让神经网络在各个视角上训练。 我明白了。与前向学习(feed-forward learning)和监督学习不同,你可以同过这种不一样的方式来学习。 我明白了。与前向学习(feed-forward learning)和监督学习不同,你可以同过这种不一样的方式来学习。 其实我还是打算用监督学习的方式来做,但是前向传播(forward pass)的方式大有不同。 其实我还是打算用监督学习的方式来做,但是前向传播(forward pass)的方式大有不同。 这不是一个纯粹的前向传播,因为这里面涉及到一些循环。 你认为你发现了一个嘴巴和一个鼻子,然后你做一些迭代来决定它们是否应该合起来组成一张脸。 你认为你发现了一个嘴巴和一个鼻子,然后你做一些迭代来决定它们是否应该合起来组成一张脸。 你认为你发现了一个嘴巴和一个鼻子,然后你做一些迭代来决定它们是否应该合起来组成一张脸。 你可以从那个迭代中做反向传播。 所以你可以尝试着把它用在判别上。 我们在多伦多的组就在研究这个问题。 我在多伦多有一个小的谷歌团队,是大脑团队(Google Brain)的一部分。 这就是我现在所兴奋的。 我明白了,很好。 期待那篇论文。 是的,如果它能发表。
我想我过去很多工作都是围绕反向传播的,如何利用反向传播。 首先,在80年代中期,我们用它来做判别学习,并且效果很好。 首先,在80年代中期,我们用它来做判别学习,并且效果很好。 然后我在90年代初觉得实际上多数的人类学习是无监督学习 然后我在90年代初觉得实际上多数的人类学习是无监督学习 后来我就对无监督学习产生了更大的兴趣,也就是那个时候我在研究 wake-sleep 算法。 后来我就对无监督学习产生了更大的兴趣,也就是那个时候我在研究 wake-sleep 算法。 你当时的评论也影响了我的想法。 当我领导谷歌大脑,我们的第一个项目花了很多功夫在无监督学习上,正式因为你的影响。 当我领导谷歌大脑,我们的第一个项目花了很多功夫在无监督学习上,正式因为你的影响。 是的,但我也可能误导了你。 但从长远来看,我认为无监督学习将是非常重要的。 但从长远来看,我认为无监督学习将是非常重要的。 但你必须要面对现实。 过去十年里,好用的是监督学习。 像判别训练,其中你有标签,或者你想预测一系列事件中的下一件,那件事也可以当做标签。 像判别训练,其中你有标签,或者你想预测一系列事件中的下一件,那件事也可以当做标签。 这个方向很成功。 我仍然相信无监督学习将是至关重要的。 当我们使得无监督学习运行合理的时候,无监督学习的效果会非常好。 但我们还没有做到这点。 是的。我觉得深度学习这个领域很多有资历的人,包括我自己,仍然对它(非监督学习)很感兴趣。 是的。我觉得深度学习这个领域很多有资历的人,包括我自己,只是我们谁也不知道怎么做。 也许你知道,我不觉得我知道。 变分自编码器用了重新参数化这个技巧,在我看来是一个不错的想法。 变分自编码器用了重新参数化这个技巧,在我看来是一个不错的想法。 生成对抗网络在我看来也是一个不错的想法。 我认为生成对抗网络是深度学习领域里面很新的很大的想法之一。 我认为生成对抗网络是深度学习领域里面很新的很大的想法之一。 我希望我能使胶囊(网络)成功,但是目前生成对抗网络是一个很大的突破。 我希望我能使胶囊(网络)成功,但是目前生成对抗网络是一个很大的突破。稀疏性和满特征是另外两个无监督学习的方法,它们现在怎么样了? 我从来没有像你这么看重稀疏性。 缓慢特性,我认为是一个错误,你不应该叫它”缓慢”。 缓慢特性,我认为是一个错误,你不应该叫它”缓慢”。 基本的想法是对的,但你不应该去找那些不发生变化的特征,你应该去找那些有规律变化的特征。 基本的想法是对的,但你不应该去找那些不发生变化的特征,你应该去找那些有规律变化的特征。 无论你把任何事物进行建模,这里都有一个基本原则。 你把你的观测量进行非线性的变换,一直变到你得到一个状态矢量作为表征,它实际上就是线性的。 你把你的观测量进行非线性的变换,一直变到你得到一个状态矢量作为表征,它实际上就是线性的。 你把你的观测量进行非线性的变换,一直变到你得到一个状态矢量作为表征,它实际上就是线性的。 所以你不只是假装它是线性的,就像你用 Kalman 滤波器一样。 而且你去寻找一种变换,从测量值到隐藏的变量。从那之后,你可以做线性运算,比如矩阵乘法。 而且你去寻找一种变换,从测量值到隐藏的变量。从那之后,你可以做线性运算,比如矩阵乘法。 而且你去寻找一种变换,从测量值到隐藏的变量。从那之后,你可以做线性运算,比如矩阵乘法。 比如你想改变视角。 如果你要从另一个视角生成图片,你需要做的是从像素变到空间坐标。 如果你要从另一个视角生成图片,你需要做的是从像素变到空间坐标。 当你得到了坐标表征(这也是我希望胶囊网络能实现的功能),你就可以通过矩阵乘法来改变视角。 当你得到了坐标表征(这也是我希望胶囊网络能实现的功能),你就可以通过矩阵乘法来改变视角。 当你得到了坐标表征(这也是我希望胶囊网络能实现的功能),你就可以通过矩阵乘法来改变视角。 然后你可以把坐标表征变回到像素。 这就是你为什么这么做的原因。 我认为这是一个非常非常普遍的原则。 这就是为什么你做了那些人脸合成的工作,对吗? 你把人脸压缩到一个低维的向量,这样你可以处理它,然后得到其他人脸。 你把人脸压缩到一个低维的向量,这样你可以处理它,然后得到其他人脸。 我之前有一个学生做过那方面的工作,我自己没有做太多。 你一定经常被问到,如果一个人想开始研究深度学习,他应该怎么做。 你一定经常被问到。
所以我的建议是要读文献,但不要读得太多。 这是我从导师那里得到的建议,这与大多数人所说的不同。 大多数人都说,你应该花几年阅读文献,然后开始做你自己的工作。 大多数人都说,你应该花几年阅读文献,然后开始做你自己的工作。 对于一些研究人员这可能是真的,但对于创造研究人员, 你需要做的是读一些文献,然后注意到一些大家都做得不对的地方。 你需要做的是读一些文献,然后注意到一些大家都做得不对的地方。 这样说来,我是比较不合群的。 当你看着这个地方的时候,你就是会觉得这个地方有什么不对。 然后想办法用正确的方法去做。 当然有人告诉你说这个方法不对的时候,继续做下去。 我有一个很好的原则,来帮助人们坚持他们的想法。 那就是,要么你的直觉是好的,要么不是。 如果你的直觉是对的,你应该继续做下去,最终你会成功的。 如果你的直觉是对的,你应该继续做下去,最终你会成功的。 如果你的直觉不够好,那么你做什么都无所谓了。 好的。 非常鼓舞人心的建议,我也不妨这么去做。 你也应该相信你的直觉。没有理由不信任你的直觉。 你也应该相信你的直觉。没有理由不信任你的直觉。 好的。 我通常建议人们不只是读文献,而要重复已经发表的工作。 也许这会让你知道你的极限在哪,因为复制别人的工作是很费时间的。 也许这会让你知道你的极限在哪,因为复制别人的工作是很费时间的。 是的。当你试图复制别人的工作,你可以发现那些有用的小窍门。 是的。当你试图复制别人的工作,你可以发现那些有用的小窍门。 我的另外一个建议是,永远不要停止编程。 因为如果你给学生一些事情做,如果他们水平差,他们会回来说,这行不通。 因为如果你给学生一些事情做,如果他们水平差,他们会回来说,这行不通。 而这行不通的原因则是那个学生在一些很小的地方的失误,但他们并没有意识到这些小地方的重要性。 而这行不通的原因则是那个学生在一些很小的地方的失误,但他们并没有意识到这些小地方的重要性。 如果你把它给一个水平很高的学生,比如 A。 你可以让他做任何东西,而他会回来说,这行得通。 我记得这发生过一次。我当时说,慢着,A,自从上次我们讨论之后,我意识到这个想法是行不通的,理由是等等等。 我记得这发生过一次。我当时说,慢着,A,自从上次我们讨论之后,A 马上就说,哦,是的,我也想到了,所以我以为你说的不是这件事儿。 好的。 对其那些想研究深度学习的人来说,还有其他的建议吗? 对其那些想研究深度学习的人来说,还有其他的建议吗? 大体上说就是,读足够的文献直到你开始产生自己的直觉。 然后,相信你的直觉,然后做下去。 即使别人都说这是无稽之谈,也不要担心。 我想,当别人说这是无稽之谈的时候,你也不会知道这是对知错,直到你继续做下去,从而发现它(是对是错)。 我想,当别人说这是无稽之谈的时候,你也不会知道这是对知错,直到你继续做下去,从而发现它(是对是错)。 对,有一件事,如果你认为这是一个绝妙的主意,而其他人告诉你这彻彻底底是一个无稽之谈, 那你就明白其实你在做一件很大的事情。 其中一个例子 Radford Neal 和我第一次提出了变分法(应用在神经网络上)。 我写了一个邮件解释给我的一个名叫 Peter Brown的学生,他很懂EM(Expectation-Maximization)。 我写了一个邮件解释给我的一个名叫 Peter Brown的学生,他很懂EM(Expectation-Maximization)。 他给那些和他一起工作的人看(这封邮件),他们叫做 *** 兄弟。 他给那些和他一起工作的人看(这封邮件),他们叫做 *** 兄弟。 后来他告诉我他们说了什么,他们说,要么这家伙喝醉了,要么就是他很笨 后来他告诉我他们说了什么,他们说,要么这家伙喝醉了,要么就是他很笨 他们真的认为这是无稽之谈。 这可能有一部分的原因是我的描述的方式(不对),因为我用了很直观的表述。 这可能有一部分的原因是我的描述的方式(不对),因为我用了很直观的表述。 当你有一个你认为很好但是其他人认为是无用的想法的时候,那就是一个很好的想法的前兆。 当你有一个你认为很好但是其他人认为是无用的想法的时候,那就是一个很好的想法的前兆。
对新的研究说的建议就是,尝试去找一个和你有着相似的想法的导师。 对新的研究说的建议就是,尝试去找一个和你有着相似的想法的导师。 因为如果你的工作你的导师很认可的话,你会从你的导师那里得到很多好的建议,他们会花时间在你身上。 因为如果你的工作你的导师很认可的话,你会从你的导师那里得到很多好的建议,他们会花时间在你身上。 如果你的工作你的导师不感兴趣,你能得到一些建议,但并不会有多大帮助。 如果你的工作你的导师不感兴趣,你能得到一些建议,但并不会有多大帮助。 好的。
好的,这很复杂。 现在没有足够的有深度学习经验的老师去教授那些需要学习(深度学习)的大学生。 老师的数量不够多。 我想这只是暂时的。 大多数学校对现在所经历的变革了解很少。 大多数学校对现在所经历的变革了解很少。 我同意你的看法,这谈不上是第二次工业革命,但也有差不多的规模。 我同意你的看法,这谈不上是第二次工业革命,但也有差不多的规模。 我们在经历巨大的变化,基本上是因为我们与电脑的关系发生了变化。 我们在经历巨大的变化,基本上是因为我们与电脑的关系发生了变化。 我们现在不是编程让他们去做,而是给它们展示(数据),它们会自己去理解。 这是一个完全不同的使用计算机的方式。 计算机科学系是围绕计算机编程的思想而建立的。 他们不理解,给计算机展示和给计算机输入指令是一样重要的。 他们不理解,给计算机展示和给计算机输入指令是一样重要的。 他们不明白,其实系里面一半的人应该去做展示给计算机这件事。 他们不明白,其实系里面一半的人应该去做展示给计算机这件事。 我所在的系就拒绝承认它应该有很多的教授来做这件事 我所在的系就拒绝承认它应该有很多的教授来做这件事 他们认为他们需要有一些,也许稍微多一点,但不要太多。 在这种情况下,你必须提醒那些大公司去做更多的培训。 在这种情况下,你必须提醒那些大公司去做更多的培训。 所以 Google 现在正在训练人们,我们称之为"大脑居民"。 我猜想大学最终会迎头赶上。 好的,事实上很多学生都已经想通了。 很多前顶级的博士项目,超过半数的申请者实际上是在研究“展示”而不是“编程” 很多前顶级的博士项目,超过半数的申请者实际上是在研究“展示”而不是“编程” 是的。值得提到的是,deeplearning.ai 正在计划一个深度学习的专栏。据我所知,他们的第一次深度学习 MOOC 实际上是你教的 (http://mooc.org/ 另一个网络课堂) 在 Coursera,在2012年,也是你教的。 有些奇怪(巧合)的是,那也是你发布的RMSprop算法的时候,虽然也很粗糙。 对的。你也知道,那是因为你邀请我做 MOOC。 当时我对非常怀疑MOOC,而你不停地催我。 我最终做得很好,虽然它的工作量很大。谢谢你能做那些工作。我记得当时你向我抱怨有那么多的工作要做。你经常做到深夜。 但我想很多学生都从你的第一个 MOOC 课上收获了很多。所以我对此非常感激。 但我想很多学生都从你的第一个 MOOC 课上收获了很多。所以我对此非常感激。 这很好。 这些年里,我见过你卷入对于人工智能范式的辩论中。
当然。我认为在早期,50年代, 像 Von Neumann 等一些人并不相信符号(Symbolic)人工智能 他们更受大脑的启发。 不幸的是,他们都英年早逝,所以人们并不知道他们的想法。 在人工智能的早期阶段, 人们完全相信实现智能所需要的表达方式, 无非是某种形式的符号表达式。 一种被梳理好的逻辑。通过这些逻辑你可以做非单调的事情。 这些事情不是逻辑,但像逻辑。而智能的本质则是推理。 如今,有一个完全不同的看法, 这就是,思想其实是一个表示神经活动的很大的向量。 这与一个思想是一个符号表达这个认识是不同的。 我认为那些认为思想是符号表达的人犯了一个大错误。 我认为那些认为思想是符号表达的人犯了一个大错误。 输入是一连串的单词,而输出也是一连串的单词。 因此,字符串显然是代表事物的方式。 所以他们认为在输入和输出之间也一定是一个字符串,或是像字符串的东西。 所以他们认为在输入和输出之间也一定是一个字符串,或是像字符串的东西。 我认为之间的东西和字符串一点都不像。 我认为这种“思想一定需要某种语言来表达“的想法,跟那些“对于空间的理解一定需要像素来表达”的想法一样愚蠢。 我认为这种“思想一定需要某种语言来表达“的想法
跟那些“对于空间的理解一定需要像素来表达”的想法一样愚蠢。 必须以像素为单位,像素进入。 如果我们有一个点阵式打印机和人脑连接起来, 然后像素就会被打印出来,但介于两者之间的并不是像素。 所以我认为思想只是一些很大的向量。 这些向量有一些导致其他结果的能量 它们能诱导其他的向量。 这完全不同于标准的人工智能观点,那就是思想是符号表达。 我明白了。好的。 我想,人工智能一定是在往这个新的观点发展。 其中一些。 我想很多在人工智能领域的人仍然认为思想一定是符号表达。 非常感谢你来做这次采访。 能了解到深度学习这些年的演变让人非常着迷。 也了解到了你现在是如何帮助深度学习往前推进的。谢谢你,杰夫。 谢谢你给我这个机会。 — 谢谢你