2019年3月27日 ——ACM宣布,深度学习的三位创造者Yoshua Bengio, Yann LeCun, 以及Geoffrey Hinton获得了2019年的图灵奖。
一、简介及获奖理由
简介:杰弗里·欣顿(GeofferyHinton),在爱丁堡大学获得人工智能博士学位。现任谷歌副总裁、工程研究员、多伦多人工智能矢量研究所首席科学顾问、多伦多大学名誉教授。他是加拿大先进研究院神经计算和自适应项目(Neural Computation and Adaptive Perception Program)的创始人,还获得了包括加拿大最高荣誉勋章(Companion of the Order of Canada)、英国皇家学会成员、美国工程院外籍院士、人工智能国际联合会(IJCAI)杰出研究奖、IEEE詹姆斯·克拉克·麦克斯韦金奖(IEEE James Clerk Maxwell Gold Medal)等一系列荣誉。2017年被彭博社(Bloomberg)评为改变全球商业格局的 50 人之一。
主要贡献:在ACM的公告中,Hinton最重要的贡献来自他1986年发明反向传播的论文“LearningInternal Representations by Error Propagation”,1983年发明的玻尔兹曼机(Boltzmann Machines),以及2012年对卷积神经网络的改进。Hinton和他的学生Alex Krizhevsky以及Ilya Sutskever 通过Rectified Linear Neurons和 Dropout Regularization改进了卷积神经网络,并在著名的ImageNet评测中取得了很好的成绩,在计算机视觉领域掀起一场革命。
简介:约书亚·本希奥(Yoshua Bengio),在加拿大麦吉尔大学取得计算机博士学位。现为加拿大蒙特利尔大学教授、加拿大数据定价中心主任(IVADO)、蒙特利尔学习算法研究中心(Mila)科学主任、加拿大先进研究院主任。同时,他与杨立昆一起担任加拿大先进研究院机器与大脑学习项目的主管。他创建了目前世界上最大的深度学习研究中心——蒙特利尔学习算法研究中心(MILA),使蒙特利尔成为世界上人工智能研究最为活跃的地区之一,引来大批公司和研究室入驻。
主要贡献:Bengio的贡献主要在1990年代发明的Probabilistic models of sequences。他把神经网络和概率模型(例如隐马尔可夫模型)结合在一起,并和AT&T公司合作,用新技术识别手写的支票。现代深度学习技术中的语音识别也是这些概念的扩展。此外Bengio还于2000年还发表了划时代的论文“A Neural Probabilistic Language Model”,使用高维词向量来表征自然语言。他的团队还引入了注意力机制,让机器翻译获得突破,也成为了让深度学习处理序列的重要技术。
简介:杨立昆(Yann LeCun),在法国皮埃尔和玛丽·居里大学获得计算机科学博士学位。现任纽约大学柯朗数学科学研究所 Silver 冠名教授、Facebook 公司人工智能首席科学家、副总裁。他获得了包括美国工程院院士、IEEE神经网络先锋奖(IEEE Neural Network PioneerAward)等一系列荣誉。他还是纽约大学数据科学中心的创始人,与约书亚·本希奥一起担任加拿大先进研究院机器与大脑学习项目的主管。
主要贡献:Yann LeCun的代表贡献之一是卷积神经网络。1980年代,LeCun发明了卷积神经网络,现在已经成为了机器学习领域的基础技术之一,也让深度学习效率更高。1980年代末期,Yan LeCun在多伦多大学和贝尔实验室工作期间,首次将卷积神经网络用于手写数字识别。今天,卷积神经网络已经成为了业界标准技术,广泛用于计算机视觉、语音识别、语音合成、图片合成,以及自然语言处理等学术方向,以及自动驾驶、医学图片识别、语音助手、信息过滤等工业应用方向。LeCun的第二个重要贡献是改进了反向传播算法。他提出了一个早期的反向传播算法backprop,也根据变分原理给出了一个简洁的推导。他的工作让反向传播算法更快,比如描述了两个简单的方法可以减少学习时间。LeCun第三个贡献是拓展了神经网络的应用范围。他把神经网络变成了一个可以完成大量不同任务的计算模型。他早期引进的一些工作现在已经成为了人工智能的基础概念。例如,在图片识别领域,他研究了如何让神经网络学习层次特征,这一方法现在已经用于很多日常的识别任务。他们还提出了可以操作结构数据(例如图数据)的深度学习架构。
深度学习可以让那些拥有多个处理层的计算模型来学习具有多层次抽象的数据的表示。这些方法在许多方面都带来了显著的改善,包括最先进的语音识别、视觉对象识别、对象检测和许多其它领域,例如药物发现和基因组学等。深度学习能够发现大数据中的复杂结构。它是利用BP算法来完成这个发现过程的。BP算法能够指导机器如何从前一层获取误差而改变本层的内部参数,这些内部参数可以用于计算表示。深度卷积网络在处理图像、视频、语音和音频方面带来了突破,而递归网络在处理序列数据,比如文本和语音方面表现出了闪亮的一面。
机器学习技术在现代社会的各个方面表现出了强大的功能:从Web搜索到社会网络内容过滤,再到电子商务网站上的商品推荐都有涉足。并且它越来越多地出现在消费品中,比如相机和智能手机。
机器学习系统被用来识别图片中的目标,将语音转换成文本,匹配新闻元素,根据用户兴趣提供职位或产品,选择相关的搜索结果。逐渐地,这些应用使用一种叫深度学习的技术。传统的机器学习技术在处理未加工过的数据时,体现出来的能力是有限的。
几十年来,想要构建一个模式识别系统或者机器学习系统,需要一个精致的引擎和相当专业的知识来设计一个特征提取器,把原始数据(如图像的像素值)转换成一个适当的内部特征表示或特征向量,子学习系统,通常是一个分类器,对输入的样本进行检测或分类。特征表示学习是一套给机器灌入原始数据,然后能自动发现需要进行检测和分类的表达的方法。
深度学习就是一种特征学习方法,把原始数据通过一些简单的但是非线性的模型转变成为更高层次的,更加抽象的表达。通过足够多的转换的组合,非常复杂的函数也可以被学习。
对于分类任务,高层次的表达能够强化输入数据的区分能力方面,同时削弱不相关因素。比如,一副图像的原始格式是一个像素数组,那么在第一层上的学习特征表达通常指的是在图像的特定位置和方向上有没有边的存在。第二层通常会根据那些边的某些排放而来检测图案,这时候会忽略掉一些边上的一些小的干扰。第三层或许会把那些图案进行组合,从而使其对应于熟悉目标的某部分。随后的一些层会将这些部分再组合,从而构成待检测目标。
深度学习的核心方面是,上述各层的特征都不是利用人工工程来设计的,而是使用一种通用的学习过程从数据中学到的。
深度学习正在取得重大进展,解决了人工智能界的尽最大努力很多年仍没有进展的问题。它已经被证明,它能够擅长发现高维数据中的复杂结构,因此它能够被应用于科学、商业和政府等领域。除了在图像识别、语音识别等领域打破了纪录,它还在另外的领域击败了其他机器学习技术,包括预测潜在的药物分子的活性、分析粒子加速器数据、重建大脑回路、预测在非编码DNA突变对基因表达和疾病的影响。
也许更令人惊讶的是,深度学习在自然语言理解的各项任务中产生了非常可喜的成果,特别是主题分类、情感分析、自动问答和语言翻译。我们认为在不久的将来,深度学习将会取得更多的成功,因为它需要很少的手工工程,它可以很容易受益于可用计算能力和数据量的增加。目前正在为深度神经网络开发的新的学习算法和架构只会加速这一进程。
机器学习中,不论是否是深层,最常见的形式是监督学习。
试想一下,我们要建立一个系统,它能够对一个包含了一座房子、一辆汽车、一个人或一个宠物的图像进行分类。我们先收集大量的房子,汽车,人与宠物的图像的数据集,并对每个对象标上它的类别。在训练期间,机器会获取一副图片,然后产生一个输出,这个输出以向量形式的分数来表示,每个类别都有一个这样的向量。我们希望所需的类别在所有的类别中具有最高的得分,但是这在训练之前是不太可能发生的。通过计算一个目标函数可以获得输出分数和期望模式分数之间的误差(或距离)。然后机器会修改其内部可调参数,以减少这种误差。这些可调节的参数,通常被称为权值,它们是一些实数,可以被看作是一些“旋钮”,定义了机器的输入输出功能。
在典型的深学习系统中,有可能有数以百万计的样本和权值,和带有标签的样本,用来训练机器。为了正确地调整权值向量,该学习算法计算每个权值的梯度向量,表示了如果权值增加了一个很小的量,那么误差会增加或减少的量。权值向量然后在梯度矢量的相反方向上进行调整。我们的目标函数,所有训练样本的平均,可以被看作是一种在权值的高维空间上的多变地形。负的梯度矢量表示在该地形中下降方向最快,使其更接近于最小值,也就是平均输出误差低最低的地方。
在实际应用中,大部分从业者都使用一种称作随机梯度下降的算法(SGD)。它包含了提供一些输入向量样本,计算输出和误差,计算这些样本的平均梯度,然后相应的调整权值。通过提供小的样本集合来重复这个过程用以训练网络,直到目标函数停止增长。它被称为随机的是因为小的样本集对于全体样本的平均梯度来说会有噪声估计。这个简单过程通常会找到一组不错的权值,同其他精心设计的优化技术相比,它的速度让人惊奇。训练结束之后,系统会通过不同的数据样本——测试集来显示系统的性能。这用于测试机器的泛化能力——对于未训练过的新样本的识别能力。
当前应用中的许多机器学习技术使用的是线性分类器来对人工提取的特征进行分类。一个2类线性分类器会计算特征向量的加权和。当加权和超过一个阈值之后,输入样本就会被分配到一个特定的类别中。从20世纪60年代开始,我们就知道了线性分类器只能够把样本分成非常简单的区域,也就是说通过一个超平面把空间分成两部分。
但像图像和语音识别等问题,它们需要的输入-输出函数要对输入样本中不相关因素的变化不要过于的敏感,如位置的变化,目标的方向或光照,或者语音中音调或语调的变化等,但是需要对于一些特定的微小变化非常敏感(例如,一只白色的狼和跟狼类似的白色狗——萨莫耶德犬之间的差异)。在像素这一级别上,两条萨莫耶德犬在不同的姿势和在不同的环境下的图像可以说差异是非常大的,然而,一只萨摩耶德犬和一只狼在相同的位置并在相似背景下的两个图像可能就非常类似。
图1 多层神经网络和BP算法
1. 多层神经网络(用连接点表示)可以对输入空间进行整合,使得数据(红色和蓝色线表示的样本)线性可分。注意输入空间中的规则网格(左侧)是如何被隐藏层转换的(转换后的在右侧)。这个例子中只用了两个输入节点,两个隐藏节点和一个输出节点,但是用于目标识别或自然语言处理的网络通常包含数十个或者数百个这样的节点。获得C.Olah (http://colah.github.io/)的许可后重新构建的这个图。
2. 链式法则告诉我们两个小的变化(x和y的微小变化,以及y和z的微小变化)是怎样组织到一起的。x的微小变化量Δx首先会通过乘以∂y/∂x(偏导数)转变成y的变化量Δy。类似的,Δy会给z带来改变Δz。通过链式法则可以将一个方程转化到另外的一个——也就是Δx通过乘以∂y/∂x和∂z/∂y(英文原文为∂z/∂x,系笔误——编辑注)得到Δz的过程。当x,y,z是向量的时候,可以同样处理(使用雅克比矩阵)。
3. 具有两个隐层一个输出层的神经网络中计算前向传播的公式。每个都有一个模块构成,用于反向传播梯度。在每一层上,我们首先计算每个节点的总输入z,z是前一层输出的加权和。然后利用一个非线性函数f(.)来计算节点的输出。简单期间,我们忽略掉了阈值项。神经网络中常用的非线性函数包括了最近几年常用的校正线性单元(ReLU)f(z) = max(0,z),和更多传统sigmoid函数,比如双曲线正切函数f(z) = (exp(z) − exp(−z))/(exp(z) + exp(−z)) 和logistic函数f(z)= 1/(1 + exp(−z))。
4. 计算反向传播的公式。在隐层,我们计算每个输出单元产生的误差,这是由上一层产生的误差的加权和。然后我们将输出层的误差通过乘以梯度f(z)转换到输入层。在输出层上,每个节点的误差会用成本函数的微分来计算。如果节点l的成本函数是0.5*(yl-tl)^2, 那么节点的误差就是yl-tl,其中tl是期望值。一旦知道了∂E/∂zk的值,节点j的内星权向量wjk就可以通过yj ∂E/∂zk来进行调整。
一个线性分类器或者其他操作在原始像素上的浅层分类器不能够区分后两者,虽然能够将前者归为同一类。这就是为什么浅分类要求有良好的特征提取器用于解决选择性不变性困境——提取器会挑选出图像中能够区分目标的那些重要因素,但是这些因素对于分辨动物的位置就无能为力了。为了加强分类能力,可以使用泛化的非线性特性,如核方法,但这些泛化特征,比如通过高斯核得到的,并不能够使得学习器从学习样本中产生较好的泛化效果。
传统的方法是手工设计良好的特征提取器,这需要大量的工程技术和专业领域知识。但是如果通过使用通用学习过程而得到良好的特征,那么这些都是可以避免的了。这就是深度学习的关键优势。
深度学习的体系结构是简单模块的多层栈,所有(或大部分)模块的目标是学习,还有许多计算非线性输入输出的映射。栈中的每个模块将其输入进行转换,以增加表达的可选择性和不变性。比如说,具有一个5到20层的非线性多层系统能够实现非常复杂的功能,比如输入数据对细节非常敏感——能够区分白狼和萨莫耶德犬,同时又具有强大的抗干扰能力,比如可以忽略掉不同的背景、姿势、光照和周围的物体等。
在最早期的模式识别任务中,研究者的目标一直是使用可以训练的多层网络来替代经过人工选择的特征,虽然使用多层神经网络很简单,但是得出来的解很糟糕。直到20世纪80年代,使用简单的随机梯度下降来训练多层神经网络,这种糟糕的情况才有所改变。只要网络的输入和内部权值之间的函数相对平滑,使用梯度下降就凑效,梯度下降方法是在70年代到80年代期间由不同的研究团队独立发明的。 用来求解目标函数关于多层神经网络权值梯度的反向传播算法(BP)只是一个用来求导的链式法则的具体应用而已。
反向传播算法的核心思想是:目标函数对于某层输入的导数(或者梯度)可以通过向后传播对该层输出(或者下一层输入)的导数求得(如图1)。
反向传播算法可以被重复的用于传播梯度通过多层神经网络的每一层:从该多层神经网络的最顶层的输出(也就是改网络产生预测的那一层)一直到该多层神经网络的最底层(也就是被接受外部输入的那一层),一旦这些关于(目标函数对)每层输入的导数求解完,我们就可以求解每一层上面的(目标函数对)权值的梯度了。
很多深度学习的应用都是使用前馈式神经网络(如图1),该神经网络学习一个从固定大小输入(比如输入是一张图)到固定大小输出(例如,到不同类别的概率)的映射。从第一层到下一层,计算前一层神经元输入数据的权值的和,然后把这个和传给一个非线性激活函数。当前最流行的非线性激活函数是rectified linear unit(ReLU),函数形式:f(z)=max(z,0)。过去的几十年中,神经网络使用一些更加平滑的非线性函数,比如tanh(z)和1/(1+exp(-z)),但是ReLU通常会让一个多层神经网络学习的更快,也可以让一个深度网络直接有监督的训练(不需要无监督的pre-train)。
达到之前那种有pre-train的效果。通常情况下,输入层和输出层以外的神经单元被称为隐藏单元。隐藏层的作用可以看成是使用一个非线性的方式打乱输入数据,来让输入数据对应的类别在最后一层变得线性可分。
在20世纪90年代晚期,神经网络和反向传播算法被大多数机器学习团队抛弃,同时也不受计算机视觉和语音识别团队的重视。
人们普遍认为,学习有用的、多级层次结构的、使用较少先验知识进行特征提取的这些方法都不靠谱。确切的说是因为简单的梯度下降会让整个优化陷入到不好的局部最小解。
实践中,如果在大的网络中,不管使用什么样的初始化条件,局部最小解并不算什么大问题,系统总是得到效果差不多的解。最近的理论和实验表明,局部最小解还真不是啥大问题。相反,解空间中充满了大量的鞍点(梯度为0的点),同时鞍点周围大部分曲面都是往上的。所以这些算法就算是陷入了这些局部最小值,关系也不太大。
2006年前后,CIFAR(加拿大高级研究院)把一些研究者聚集在一起,人们对深度前馈式神经网络重新燃起了兴趣。研究者们提出了一种非监督的学习方法,这种方法可以创建一些网络层来检测特征而不使用带标签的数据,这些网络层可以用来重构或者对特征检测器的活动进行建模。通过预训练过程,深度网络的权值可以被初始化为有意思的值。然后一个输出层被添加到该网络的顶部,并且使用标准的反向传播算法进行微调。这个工作对手写体数字的识别以及行人预测任务产生了显著的效果,尤其是带标签的数据非常少的时候。
使用这种与训练方法做出来的第一个比较大的应用是关于语音识别的,并且是在GPU上做的,这样做是因为写代码很方便,并且在训练的时候可以得到10倍或者20倍的加速。2009年,这种方法被用来映射短时间的系数窗口,该系统窗口是提取自声波并被转换成一组概率数字。它在一组使用很少词汇的标准的语音识别基准测试程序上达到了惊人的效果,然后又迅速被发展到另外一个更大的数据集上,同时也取得惊人的效果。
从2009年到到2012年底,较大的语音团队开发了这种深度网络的多个版本并且已经被用到了安卓手机上。对于小的数据集来说,无监督的预训练可以防止过拟合,同时可以带来更好的泛化性能当有标签的样本很小的时候。一旦深度学习技术重新恢复,这种预训练只有在数据集合较少的时候才需要。
然后,还有一种深度前馈式神经网络,这种网络更易于训练并且比那种全连接的神经网络的泛化性能更好。这就是卷积神经网络(CNN)。当人们对神经网络不感兴趣的时候,卷积神经网络在实践中却取得了很多成功,如今它被计算机视觉团队广泛使用。
该综述文章中文译文的下半部分,详细介绍了CNN、分布式特征表示、RNN及其不同的应用,并对深度学习技术的未来发展进行展望
卷积神经网络被设计用来处理到多维数组数据的,比如一个有3个包含了像素值2-D图像组合成的一个具有3个颜色通道的彩色图像。很多数据形态都是这种多维数组的:1D用来表示信号和序列包括语言,2D用来表示图像或者声音,3D用来表示视频或者有声音的图像。卷积神经网络使用4个关键的想法来利用自然信号的属性:局部连接、权值共享、池化以及多网络层的使用。
图2 卷积神经网络内部
一个典型的卷积神经网络结构(如图2)是由一系列的过程组成的。最初的几个阶段是由卷积层和池化层组成,卷积层的单元被组织在特征图中,在特征图中,每一个单元通过一组叫做滤波器的权值被连接到上一层的特征图的一个局部块,然后这个局部加权和被传给一个非线性函数,比如ReLU。在一个特征图中的全部单元享用相同的过滤器,不同层的特征图使用不同的过滤器。使用这种结构处于两方面的原因。
首先,在数组数据中,比如图像数据,一个值的附近的值经常是高度相关的,可以形成比较容易被探测到的有区分性的局部特征。
其次,不同位置局部统计特征不太相关的,也就是说,在一个地方出现的某个特征,也可能出现在别的地方,所以不同位置的单元可以共享权值以及可以探测相同的样本。在数学上,这种由一个特征图执行的过滤操作是一个离线的卷积,卷积神经网络也是这么得名来的。
卷积层的作用是探测上一层特征的局部连接,然而池化层的作用是在语义上把相似的特征合并起来,这是因为形成一个主题的特征的相对位置不太一样。一般地,池化单元计算特征图中的一个局部块的最大值,相邻的池化单元通过移动一行或者一列来从小块上读取数据,因为这样做就减少的表达的维度以及对数据的平移不变性。两三个这种的卷积、非线性变换以及池化被串起来,后面再加上一个更多卷积和全连接层。在卷积神经网络上进行反向传播算法和在一般的深度网络上是一样的,可以让所有的在过滤器中的权值得到训练。
深度神经网络利用的很多自然信号是层级组成的属性,在这种属性中高级的特征是通过对低级特征的组合来实现的。在图像中,局部边缘的组合形成基本图案,这些图案形成物体的局部,然后再形成物体。这种层级结构也存在于语音数据以及文本数据中,如电话中的声音,因素,音节,文档中的单词和句子。当输入数据在前一层中的位置有变化的时候,池化操作让这些特征表示对这些变化具有鲁棒性。
卷积神经网络中的卷积和池化层灵感直接来源于视觉神经科学中的简单细胞和复杂细胞。这种细胞的是以LNG-V1-V2-V4-IT这种层级结构形成视觉回路的。当给一个卷积神经网络和猴子一副相同的图片的时候,卷积神经网络展示了猴子下颞叶皮质中随机160个神经元的变化。卷积神经网络有神经认知的根源,他们的架构有点相似,但是在神经认知中是没有类似反向传播算法这种端到端的监督学习算法的。一个比较原始的1D卷积神经网络被称为时延神经网络,可以被用来识别语音以及简单的单词。
20世纪90年代以来,基于卷积神经网络出现了大量的应用。最开始是用时延神经网络来做语音识别以及文档阅读。这个文档阅读系统使用一个被训练好的卷积神经网络和一个概率模型,这个概率模型实现了语言方面的一些约束。20世纪90年代末,这个系统被用来美国超过10%的支票阅读上。后来,微软开发了基于卷积神经网络的字符识别系统以及手写体识别系统。20世纪90年代早期,卷积神经网络也被用来自然图形中的物体识别,比如脸、手以及人脸识别(facerecognition )。
21世纪开始,卷积神经网络就被成功的大量用于检测、分割、物体识别以及图像的各个领域。这些应用都是使用了大量的有标签的数据,比如交通信号识别,生物信息分割,面部探测,文本、行人以及自然图形中的人的身体部分的探测。近年来,卷积神经网络的一个重大成功应用是人脸识别。
值得一提的是,图像可以在像素级别进行打标签,这样就可以应用在比如自动电话接听机器人、自动驾驶汽车等技术中。像Mobileye以及NVIDIA公司正在把基于卷积神经网络的方法用于汽车中的视觉系统中。其它的应用涉及到自然语言的理解以及语音识别中。
图3 从图像到文字
尽管卷积神经网络应用的很成功,但是它被计算机视觉以及机器学习团队开始重视是在2012年的ImageNet竞赛。在该竞赛中,深度卷积神经网络被用在上百万张网络图片数据集,这个数据集包含了1000个不同的类。该结果达到了前所未有的好,几乎比当时最好的方法降低了一半的错误率。这个成功来自有效地利用了GPU、ReLU、一个新的被称为dropout的正则技术,以及通过分解现有样本产生更多训练样本的技术。这个成功给计算机视觉带来一个革命。如今,卷积神经网络用于几乎全部的识别和探测任务中。最近一个更好的成果是,利用卷积神经网络结合回馈神经网络用来产生图像标题。
如今的卷积神经网络架构有10-20层采用ReLU激活函数、上百万个权值以及几十亿个连接。然而训练如此大的网络两年前就只需要几周了,现在硬件、软件以及算法并行的进步,又把训练时间压缩到了几小时。
基于卷积神经网络的视觉系统的性能已经引起了大型技术公司的注意,比如Google、Facebook、Microsoft、IBM,yahoo!、Twitter和Adobe等,一些快速增长的创业公司也同样如是。
卷积神经网络很容易在芯片或者现场可编程门阵列(FPGA)中高效实现,许多公司比如NVIDIA、Mobileye、Intel、Qualcomm以及Samsung,正在开发卷积神经网络芯片,以使智能机、相机、机器人以及自动驾驶汽车中的实时视觉系统成为可能。
与不使用分布式特征表示(distributed representations )的经典学习算法相比,深度学习理论表明深度网络具有两个不同的巨大的优势。这些优势来源于网络中各节点的权值,并取决于具有合理结构的底层生成数据的分布。首先,学习分布式特征表示能够泛化适应新学习到的特征值的组合(比如,n元特征就有2n种可能的组合)。其次,深度网络中组合表示层带来了另一个指数级的优势潜能(指数级的深度)。
多层神经网络中的隐层利用网络中输入的数据进行特征学习,使之更加容易预测目标输出。下面是一个很好的示范例子,比如将本地文本的内容作为输入,训练多层神经网络来预测句子中下一个单词。内容中的每个单词表示为网络中的N分之一的向量,也就是说,每个组成部分中有一个值为1其余的全为0。在第一层中,每个单词创建不同的激活状态,或单词向量(如图4)。
在语言模型中,网络中其余层学习并转化输入的单词向量为输出单词向量来预测句子中下一个单词,可以通过预测词汇表中的单词作为文本句子中下一个单词出现的概率。网络学习了包含许多激活节点的、并且可以解释为词的独立特征的单词向量,正如第一次示范的文本学习分层表征文字符号的例子。这些语义特征在输入中并没有明确的表征。而是在利用“微规则”(‘micro-rules’,本文中直译为:微规则)学习过程中被发掘,并作为一个分解输入与输出符号之间关系结构的好的方式。
当句子是来自大量的真实文本并且个别的微规则不可靠的情况下,学习单词向量也一样能表现得很好。利用训练好的模型预测新的事例时,一些概念比较相似的词容易混淆,比如星期二(Tuesday)和星期三(Wednesday),瑞典(Sweden)和挪威(Norway)。这样的表示方式被称为分布式特征表示,因为他们的元素之间并不互相排斥,并且他们的构造信息对应于观测到的数据的变化。这些单词向量是通过学习得到的特征构造的,这些特征不是由专家决定的,而是由神经网络自动发掘的。从文本中学习得单词向量表示现在广泛应用于自然语言中。
图4 词向量学习可视化
特征表示问题争论的中心介于对基于逻辑启发和基于神经网络的认识。在逻辑启发的范式中,一个符号实体表示某一事物,因为其唯一的属性与其他符号实体相同或者不同。该符号实例没有内部结构,并且结构与使用是相关的,至于理解符号的语义,就必须与变化的推理规则合理对应。相反地,神经网络利用了大量活动载体、权值矩阵和标量非线性化,来实现能够支撑简单容易的、具有常识推理的快速“直觉”功能。
在介绍神经语言模型前,简述下标准方法,其是基于统计的语言模型,该模型没有使用分布式特征表示。而是基于统计简短符号序列出现的频率增长到N(N-grams,N元文法)。可能的N-grams的数字接近于VN,其中V是词汇表的大小,考虑到文本内容包含成千上万个单词,所以需要一个非常大的语料库。N-grams将每个单词看成一个原子单元,因此不能在语义相关的单词序列中一概而论,然而神经网络语言模型可以,是因为他们关联每个词与真是特征值的向量,并且在向量空间中语义相关的词彼此靠近(图4)。
首次引入反向传播算法时,最令人兴奋的便是使用递归神经网络(recurrent neural networks,下文简称RNNs)训练。对于涉及到序列输入的任务,比如语音和语言,利用RNNs能获得更好的效果。RNNs一次处理一个输入序列元素,同时维护网络中隐式单元中隐式的包含过去时刻序列元素的历史信息的“状态向量”。如果是深度多层网络不同神经元的输出,我们就会考虑这种在不同离散时间步长的隐式单元的输出,这将会使我们更加清晰怎么利用反向传播来训练RNNs(如图5,右)。
图5 递归神经网络
RNNs是非常强大的动态系统,但是训练它们被证实存在问题的,因为反向传播的梯度在每个时间间隔内是增长或下降的,所以经过一段时间后将导致结果的激增或者降为零。
由于先进的架构和训练方式,RNNs被发现可以很好的预测文本中下一个字符或者句子中下一个单词,并且可以应用于更加复杂的任务。例如在某时刻阅读英语句子中的单词后,将会训练一个英语的“编码器”网络,使得隐式单元的最终状态向量能够很好地表征句子所要表达的意思或思想。这种“思想向量”(thought vector)可以作为联合训练一个法语“编码器”网络的初始化隐式状态(或者额外的输入),其输出为法语翻译首单词的概率分布。如果从分布中选择一个特殊的首单词作为编码网络的输入,将会输出翻译的句子中第二个单词的概率分布,并直到停止选择为止。总体而言,这一过程是根据英语句子的概率分布而产生的法语词汇序列。这种简单的机器翻译方法的表现甚至可以和最先进的(state-of-the-art)的方法相媲美,同时也引起了人们对于理解句子是否需要像使用推理规则操作内部符号表示质疑。这与日常推理中同时涉及到根据合理结论类推的观点是匹配的。
类比于将法语句子的意思翻译成英语句子,同样可以学习将图片内容“翻译”为英语句子(如图3)。这种编码器是可以在最后的隐层将像素转换为活动向量的深度卷积网络(ConvNet)。解码器与RNNs用于机器翻译和神经网络语言模型的类似。近来,已经掀起了一股深度学习的巨大兴趣热潮(参见文献[86]提到的例子)。
RNNs一旦展开(如图5),可以将之视为一个所有层共享同样权值的深度前馈神经网络。虽然它们的目的是学习长期的依赖性,但理论的和经验的证据表明很难学习并长期保存信息。
为了解决这个问题,一个增大网络存储的想法随之产生。采用了特殊隐式单元的LSTM(long short-termmemory networks)被首先提出,其自然行为便是长期的保存输入。一种称作记忆细胞的特殊单元类似累加器和门控神经元:它在下一个时间步长将拥有一个权值并联接到自身,拷贝自身状态的真实值和累积的外部信号,但这种自联接是由另一个单元学习并决定何时清除记忆内容的乘法门控制的。
LSTM网络随后被证明比传统的RNNs更加有效,尤其当每一个时间步长内有若干层时,整个语音识别系统能够完全一致的将声学转录为字符序列。目前LSTM网络或者相关的门控单元同样用于编码和解码网络,并且在机器翻译中表现良好。
过去几年中,几位学者提出了不同的提案用于增强RNNs的记忆模块。提案中包括神经图灵机,其中通过加入RNNs可读可写的“类似磁带”的存储来增强网络,而记忆网络中的常规网络通过联想记忆来增强。记忆网络在标准的问答基准测试中表现良好,记忆是用来记住稍后要求回答问题的事例。
除了简单的记忆化,神经图灵机和记忆网络正在被用于那些通常需要推理和符号操作的任务,还可以教神经图灵机“算法”。除此以外,他们可以从未排序的输入符号序列(其中每个符号都有与其在列表中对应的表明优先级的真实值)中,学习输出一个排序的符号序列。可以训练记忆网络用来追踪一个设定与文字冒险游戏和故事的世界的状态,回答一些需要复杂推理的问题。在一个测试例子中,网络能够正确回答15句版的《指环王》中诸如“Frodo现在在哪?”的问题。
无监督学习对于重新点燃深度学习的热潮起到了促进的作用,但是纯粹的有监督学习的成功盖过了无监督学习。在本篇综述中虽然这不是我们的重点,我们还是期望无监督学习在长期内越来越重要。无监督学习在人类和动物的学习中占据主导地位:我们通过观察能够发现世界的内在结构,而不是被告知每一个客观事物的名称。
人类视觉是一个智能的、基于特定方式的利用小或大分辨率的视网膜中央窝与周围环绕区域对光线采集成像的活跃的过程。我们期望未来在机器视觉方面会有更多的进步,这些进步来自那些端对端的训练系统,并结合ConvNets和RNNs,采用增强学习来决定走向。结合了深度学习和增强学习的系统正处在初期,但已经在分类任务中超过了被动视频系统,并在学习操作视频游戏中产生了令人印象深刻的效果。
在未来几年,自然语言理解将是深度学习做出巨大影响的另一个领域。我们预测那些利用了RNNs的系统将会更好地理解句子或者整个文档,当它们选择性地学习了某时刻部分加入的策略。
最终,在人工智能方面取得的重大进步将来自那些结合了复杂推理表示学习(representation learning )的系统。尽管深度学习和简单推理已经应用于语音和手写字识别很长一段时间了,我们仍需要通过操作大量向量的新范式来代替基于规则的字符表达式操作。
蒙特利尔大学计算机科学系教授 Yoshua Bengio
从法国来到加拿大的时候,Yoshua Bengio只有12岁。他在加拿大度过了学生时代的大部分时光,在麦吉尔大学的校园中接受了从本科到博士的完整高等教育,随后又前往麻省理工学院和贝尔实验室做博士后。1993年,他重回蒙特利尔,加入离麦吉尔大学不远的蒙特利尔大学担任计算机科学与运筹学系教授,继续潜心进行深度学习的研究。
从80年代到今天,深度学习从不被大多数人看好的“痴心妄想”,到席卷包括自然语言处理、计算机视觉、语音识别在内的几乎所有人工智能领域,其影响力已经全面覆盖了学术界、产业界以及人们的日常生活。Yoshua Bengio几十年如一日的坚守,证明了深度学习所蕴含的、足以影响我们每个人生活的巨大价值。
深度学习的元老,超过137,000次学术引用,“AI圣经”《Deep Learning》等一系列教科书级著作的作者,笑起来极富表现力的眉毛,这些是Yoshua Bengio大神给人们留下的标志性印象。
深度学习的先驱
上世纪八九十年代的AI唱衰者们不会预料到深度学习在二十一世纪的成功。作为早期开拓者中的一员,Yoshua Bengio也历经了漫长的“AI寒冬”,在上世纪末的三十年中,人工智能曾两度陷入历史的最低谷。
在Yoshua Bengio上大学的八十年代,深度学习在计算机科学中属于非常冷门的理论,符号主义的经典学派占据着学界与大学课堂的主流,但Yoshua Bengio这位独树一帜的学生却偏偏对深度学习产生了强烈的兴趣。用神经网络模拟人脑,用机器学习去揭开人类智慧诞生的奥秘,这对Bengio来说有着巨大的吸引力。就这样,Bengio找到了他在接下来的30余年中始终钟情的研究方向。
但是在当时,几乎没有人看好深度学习的工作。因为对同一项任务来说,既然用传统方法能更轻松地达到更好的效果,为什么要费劲去训练神经网络呢?因此,大多数研究者都不愿意从事这一方向。上世界九十年代人们也曾短暂地看到神经网络的希望,但由于数据量和计算能力的限制,希望很快破灭了,神经网络仍然是痴心妄想。但即使人工智能处于低谷,Bengio仍然全身心地投入深度学习研究,不断贡献了许多新的研究成果。
直到2010到2012年,转机才真正出现。随着大数据的崛起和计算能力的大幅增长,突然之间,人们终于看到了深度学习所蕴藏的真正力量,这使得深度学习一下子被推向人们目光的中心。Yoshua Bengio在过去20年中原本问津者寥寥的诸多科研积累,也迅速成为了人工智能界讨论的焦点,包括深度学习架构、循环神经网络(RNN)、对抗算法、表征学习等等。这些研究成果影响和启发了后来的大量研究者,将深度学习应用到自然语言处理、计算机视觉等人工智能的各个主要领域,对近年来深度学习的崛起和发展起到了巨大的推动作用。
1994年,在Yoshua Bengio与另一位深度学习元老级人物Yann LeCun共同完成的《Gradient-based learning applied to document recognition》论文中,首次提出了用反向传播算法训练的多层神经网络LeNet5,它是世界上最早的也是最著名的卷积神经网络之一。
在2003年发表的《A neural probabilistic language model》中,Yoshua Bengio第一次提出用神经网络结构来建立自然语言模型,这一思路和方法广泛地影响了后人用神经网络做自然语言处理的研究。这一网络结构也被迅速引入自然语言处理的应用实践中并取得了良好的成效,比如最经典的用于生成词向量的word2vec模型,以及近年大热的神经网络机器翻译。Yoshua Bengio的另一篇著作《Learning Deep Architectures for AI》则提纲挈领地总结了深度学习架构中学习算法的动机和原理,为相关的研究提供了理论指导。Yoshua Bengio发表的300多篇学术文章累计的学术引用次数已经超过了惊人的137,000次。
2016年,Yoshua Bengio与Ian Goodfellow和Aaron Courville共同撰写了《Deep Learning》,这本因封面被人们亲切地称为“花书”的深度学习奠基之作,也成为了人工智能领域不可不读的“圣经”级教材。
包括Yoshua Bengio在内的深度学习先驱者们让我们看到了支持长期研究的重要性,他们可贵的研究精神也值得人们敬佩。
虽然眼下深度学习风头正劲,但在几年后甚至几十年后,深度学习还会一直存在吗?在Yoshua Bengio看来,人工智能研究者要不断地提出和发展新的想法,这些新想法可能是受到现有技术和概念的启发而诞生的,也将在未来成为新一轮想法的启蒙。他也坦言,虽然人工智能现在已经对社会和人类生活产生了巨大的影响,但在大多数情况下,人工智能表现出的智力还远远不及哺乳动物,人工智能还有太多潜能留待我们去发掘。
无论如何,Yoshua Bengio的研究兴趣将始终围绕对智力生成机制的探索,并致力于让人工智能的发展为所有人的利益服务。
教书育人,孵化技术
无论产业界的浪潮多么汹涌,在人工智能的研究大牛纷纷入伙科技公司的时候,Yoshua Bengio始终没有离开他位于蒙特利尔大学校园中的三楼办公室。
在这里,他继续潜心科研和教学工作,为人工智能培养了许多杰出的下一代人才。在刚刚进入蒙特利尔大学任教的时候,全校只有Yoshua Bengio一位教授从事深度学习算法的研究,他欣然接收所有对深度学习感兴趣的学生,渐渐在蒙特利尔大学组织起研究团队,与学术界建立联系并开展合作。他建立了蒙特利尔学习算法研究所(Montreal Institute For Learning Algorithms, MILA)并担任科学主任,并作为联合主席共同进行CIFAR机器与大脑学习项目的研究,也担任着数据评估研究所(The institute for data valorization,IVADO)的科学联合主任。
现在,神经网络已经渗入到所有的Facebook产品中,也成为了科技企业竞相研究的领域。
在距离Facebook门洛帕克总部约3000英里之外的曼哈顿中心,有一座米黄色的旧办公楼。在这栋楼里面,一群人正在研究更像是出现在科幻小说中,而不是适用于社交网络的项目。
这个团队是Facebook人工智能(AI)研究团队(FacebookArtificial Intelligence Research)。在Facebook内部,这个团队被称为FAIR。
FAIR专注于一个目标:创造跟人类具有同等智商的计算机。尽管这个目标远远没有达到,但该团队已经取得一些当前很少人认为有可能发生的进展。
他们的人工智能程序可以画出跟人类艺术家的画作几乎没有差别的画,还能完成一些主题限定于维基百科范围内的小测试,甚至会玩《星际争霸》之类的视频游戏。
它们正在慢慢地变得越来越聪明。将来有一天,它们会把Facebook从促进朋友间交流的平台变成可能成为你的朋友的东西。
FAIR不是你想象中的典型Facebook团队。该团队队员不直接研究那些非常受欢迎的Facebook产品:Instagram、WhatsApp、Messenger和Facebook本身。
他们的终极目标可能需要几十年的时间才能实现,甚至有可能永远都无法实现。该团队的领头人也不是你想象中的硅谷成功人士,而是一位曾经在人生中经历过真正失败,然后又奋力东山再起的56岁科研人员。
他的关于人工智能的理论曾经被视如敝履,而现在被认为属于世界级水平。Facebook颁发给他的奖金就是最好的证明。
“您与数字世界、手机、计算机的互动将会发生根本性的变化。”LeCun在谈到人工智能可能意味着什么的时候如此说道。
FAIR正在提高计算机视、听和独立进行沟通的能力。他们的发现正在渗透到Facebook的各个产品中。
从NewsFeed排序,到相片滤镜,到处都有他们的研究结晶。
Facebook对人工智能进行大规模投资,不仅仅是因为人工智能很有趣,而是因为它不可或缺。在当今科技界的每一个角落,企业们都是在人工智能的基础上进行较量。
Uber的智能自动驾驶汽车是其业务战略的核心。
谷歌的基于人工智能的GoogleHome智能音箱可以回答用户口述的问题——在过去,人们遇到问题只能手动输入搜索,或在更久远的过去,只能打开纸质百科全书查询。
亚马逊正在打造只有人工智能收银员的便利店,企图进军市场规模6740亿美元的食品杂货市场。
而在Facebook,处处都有人工智能的影子。举个例子,它的人工智能驱动的照片滤镜正在帮助它击退Snapchat的挑战。Facebook的人工智能能够识别照片里的东西,还能决定向你推送哪些内容。
在人工智能的帮助下,Facebook提供了有趣的用户体验,吸引用户不断再次回头。
同样的技术还被用于监控骚扰、恐怖和色情内容。人工智能可以将这些内容标记下来并清除。
Facebook的应用机器学习(AML)团队负责人JoaquinCandela表示:“人们使用Facebook全系列产品的体验主要取决于人工智能技术。在今天,如果没有人工智能,Facebook就不可能存在。就这样。”
随着该领域不断发展,Facebook需要依靠LeCun及其团队来帮助它走在当前的和未来的竞争对手前面,因为这些竞争对手也有可能拥抱人工智能技术。
在经历多年的批评和忽视之后,LeCun终于拥有了现在的一切:80名科研人员、Facebook的巨大财力支持和大众对他的研究的信任。他现在要做的就是推出产品。
LeCun在曼哈顿
视觉
LeCun在他年轻的时候就相信,他可以让计算机拥有视觉。在今天,面部识别和图像检测已经变得十分普遍。但在20世纪80年代初LeCun在巴黎上大学的时候,计算机实际上是瞎子。它们不能识别照片里的东西,更不知道摄像机镜头里有什么。
在大学期间,LeCun偶然涉足了一种探索人工智能的途径,而这种途径自从60年代以来几乎没有人探索过。他认为,他的研究可以让机器学会完成多种任务,包括感知。
这种途径就是人工神经网络。它研究的是,如何让由小型传感器互联形成的系统把图像等内容分解成非常细小的部分,然后识别出其中的模式,最后根据所有的输入数据确定它们看到了什么。
在阅读了关于神经网络的种种反对观点——难以训练,性能不够强大——之后,LeCun决定推动这项研究。尽管遇到了质疑,但他还是在攻读博士学位期间专注研究人工神经网络。
在谈到这些批评声音的时候,他说:“我只是不相信他们说的。”
人工智能研究经常会遇到困难时期,而且困难难以解决。这样的时期获得了一个专属称呼:人工智能寒冬。
这些时期主要出现在研究人员取得的成果无法达到最初设想之后。
这让人觉得该技术不可行,进一步导致人们对人工智能失去兴趣,投资枯竭,技术进步趋于停滞。
LeCun也遇到过这样的“人工智能寒冬”。在90年代中期加入贝尔实验室从事人工智能研究之后,AT&T的内部矛盾导致了他的团队分崩离析。
当时,他们正在计划推出能读取支票的自动取款机——今天,这种基于神经网络的技术仍在使用中——就在LeCun认为这项技术取得明显进步的时候,他的项目被取消了。
LeCun说:“就在将要取得真正成功的那一天,整个项目被解散了。这真的让人感到非常沮丧。”
与此同时,其他人工智能技术获得了主流研究人员的关注。尽管这些技术后来变得无人问津,但其崛起足以导致神经网络被边缘化。
在本世纪00年代初,其他科研人员甚至拒绝让他在学术会议上介绍他的论文。
神经网络先驱、谷歌的工程专家、多伦多大学教授GeoffHinton表示:“计算机视觉圈子把他拒之门外。外界的看法是,他在从事在上世纪80年代看起来很有前景的研究,但现在他应该放弃这方面的研究。”
“现在没有人这样看了。”他补充说。
在那个年代,其他神经网络研究人员也遇到了类似问题。
蒙特利尔大学教授、蒙特利尔学习算法研究所所长YoshuaBengio发现,他很难找到愿意跟自己一起做研究的研究生。“我不得不强迫学生从事这方面的研究,因为他们害怕在博士毕业后找不到工作。”
2003年,LeCun为自己的重生打下了基础。那一年,他成为纽约大学教师,并与Hinton和Bengio结成非正式的联盟,共同重启对神经网络的研究。LeCun面带微笑地说道:“我们开始了我一直称之为‘深度学习阴谋集团’的合作。”
“深度学习阴谋集团”在神经网络研究领域扮演了至关重要的角色。他们坚持最初的信念,认为不需要为每一类检测对象开发专门的神经网络,你只需使用同样的模板开发一个神经网络,就可以检测图像、视频和语音。
换而言之,你没有必要为识别企鹅和猫分别开发一个神经网络,你可以开发一个能够检测两者并能识别其差异的神经网络。这种新的神经网络也可以经过修改胜任其他任务,例如检测声波,识别语音中的模式。
“深度学习阴谋集团”的研究受益于两个重要的外界因素。一方面,计算机性能大幅度提升,这使得神经网络的运行速度变得足够快,从而可以应用于实际。
另一方面,由于互联网的普及,可获得的数据(包括图片和文字)获得了指数级的增长,让神经网络得到足够的训练,变得更加智能。神经网络因此变得更加灵活、快速、准确,给人工智能领域带来了全新的可能性。
得益于LeCun及其合作伙伴打下的基础,计算机视觉在进入10年代初期出现了爆炸式增长。计算机开始学会识别图像中的物体,接着又能识别视频中的物体,最后又发展到能够识别摄像头拍摄的实时画面中的物体。
现在,当你把摄像头指向一个篮球时,人工智能可以知道摄像头前方有什么。LeCun迅速从人工智能领域的边缘人物变为行业领导者。
他表示:“原来没有什么人从事这方面的研究,但在不到一年的时间里,所有人都在研究人工智能。这真是疯了,完全是疯了。”
2013年12月,LeCun加入Facebook。对于有意将人工智能研究应用于图像识别的科研人员来说,Facebook是一个理想的研究环境。
Facebook平台上有数十亿张图像,这给LeCun及其团队提供了用于践行新想法的丰富资源。FAIR团队经常跟AML团队合作,在Facebook平台上将研究成果付诸实践。
这两个团队共同开发新的系统,让整个Facebook公司都能受益于技术的进步。
AML团队使用FAIR团队的研究成果来识别用户NewsFeed中的内容,或将Facebook的内部内容翻译成其他语言。他们还将这些研究成果应用于Facebook相机,让相机根据用户动作生成各种特效。
FAIR推出的计算机视觉工具SharpMark
思维
教会计算机观察能力是教会它们理解这个世界的运作方式的第一步。人类知道这个世界是如何运作的,原因是我们反复观察了相同的场景,渐渐地知道这些场景将会如何展开。
举个例子,当一辆汽车沿着道路高速地向我们站着的地方驶来时,我们预测这辆汽车可能会撞上我们,于是我们会让开。当天黑之后,我们知道按一下电灯开关会带来光明,于是我们会按一下开关。
FAIR团队正在尝试使用类似的方式教会计算机像人类那样预测事情的结果。LeCun解释说,这个团队正在向人工智能展示许多具有相关性的视频,随后在某个点暂停视频,让机器预测接下来会发生什么。
例如,如果你反复向人工智能系统展示水瓶在人的头顶上倒过来的视频,那么它可以预测,这样的动作会导致有人被弄湿身。
“在某种程度上,智能的本质就是预测。”LeCun解释说,“如果你可以预测你的行为将导致什么结果,那么你就可以做出计划。你可以计划一系列行为,从而达到特定的目标。”
目前,教会人工智能预测能力是这一领域所面临的最棘手的挑战。其主要原因在于,在许多情况下,多个预测结果在理论上都是正确的。
LeCun说,想象一下,你在桌子上方垂直地拿着一支笔,然后放手。如果你问计算机,一秒钟之后这支笔将会位于何处,你不会得到准确的回答。
机器知道这支笔会掉下来,但它无法准确预测这支笔最终会落在哪里。因此,你需要告诉系统,这个问题有多个正确的答案,事实上发生的结果只是多个可能性中的一个。这就是在具有不确定因素的情况下作出预测时存在的问题”。
帮助人工智能理解和接受不确定性是人工智能研究的一个分支。这个分支被称为“无监督学习”(unsupervisedlearning),是机器学习的最前沿领域。在人工智能进行足够多的观察之后,它会懂得这个世界是如何运作的,并学会预测。
那时,它会开始像人类那样思考,并获得健全的判断力。LeCun认为,这是让机器变得更智能的关键。
LeCun及其团队承认,人工智能完全掌握这种技能还需要很多年的时间。不过他们相信,他们终究会实现这个目标。
LeCun下属的研究经理Larry Zitnick表示:“这终将发生,但我会说,这需要超过10年的时间。”
语音
去年12月,扎克伯格公布了一段视频,展示他亲自动手编程打造的人工智能管家“贾维斯”(Jarvis)。
贾维斯可以给他烤面包,能够在识别出扎克伯格父母的脸之后给他们开门。他甚至还会教他的女儿说汉语。
扎克伯格在使用智能管家贾维斯
这个智能管家看起来非常酷炫。但在LeCun看来,这没什么特别的。
“它主要是用脚本写成的,比较简单。而且,从某个角度看来,它的智能程度很低。”LeCun说道。
LeCun想要开发能够真正听懂你的话语的智能助手。“这是一种能够跟你进行对话的机器。”LeCun解释说,“它们能够实现做好计划,它们不会蠢到让你生气。”
打造这样的机器没有蓝图可依,不过FAIR团队正在研发构建部件。让人工智能对这个世界有初步的理解,并训练它预测这个世界上可能会发生的事情属于其中的一个部件。
利用神经网络教会它阅读和写作是另外一个部件。对计算机来说,一个图像是一串数字。一个口语句子也可以用一串数字来代表,文本也一样。因此,LeCun等人可以使用神经网络架构来识别图像中的物体,语音中的单词,或者文本的主题。
人工智能当前仍然无法像理解图像那样理解文字,但LeCun已经看到未来的贾维斯会是什么样子的。他理想中的智能助手将具有基本判断力,并能跟其他助手沟通。
例如,如果你打算跟朋友一起去听音乐会,你让你的智能助手协调一下,它会根据你喜欢的音乐类型、你的日程安排和即将上演的音乐会向你提供切实可行的建议。
LeCun在形容他面临的挑战时说:“机器需要考虑现实世界的情况,一个人不能同时出现在两个地方,也不能在一定的时间之内从旧金山来到纽约,它还需要考虑出行成本。你需要了解很多事情,才能安排好一个人的生活。”
Facebook目前正在试验一个被称为“M”的简单版本数字助手。这个基于FAIR团队研究成果的项目由Messenger团队运作。
Facebook Messenger最近推出了“Msuggestions”(M的建议),让M在认为自己可以提供帮助的情况下加入用户的对话。
比如,当有人问“你在哪里?”的时候,M会弹出来加入对话,向你提供一个一键分享位置的按钮。Facebook未来可能会将此功能扩展到更高级的用途。
M只是Facebook使用人工智能理解意义的其中一个例子。这家公司还在考虑把人工智能技术用于其他用途,甚至可能利用人工智能来打破外界最近指责它帮忙竖起的壁垒。
2016年的美国大选让外界开始关注Facebook上的两极分化和假新闻,然而在此之前,LeCun团队成员Y-LanBoureau就已经开始研究如何利用人工智能在Facebook上创建更具建设性的对话。
同时研究神经学和人工智能的Boureau曾花一个夏天来观察她的朋友在Facebook上和人互撕,没有一点兴趣听取反对意见,于是她决定从事这方面的研究。
她解释说:“如果我们能够更多地了解他们这种的心态背后的驱动力,理解意见如何形成,如何固化成型,了解他们不能彼此沟通的原因,这将是一件大好事。”
Boureau想创造这样一个世界:在人们付诸行动之前,可以看到尽可能多的不同意见。
人工智能可以帮助我们从文本中找出模式,理解哪些环节出了问题,并找出办法让偏离轨道的对话回到正轨。
“如果我们能够通过数据进一步了解对学习过程以及人们的信念是如何形成的,那么我们就能够知道怎样才能进行更多的具有建设性的对话。”Boureau说道。
在2016年美国大选之后,LeCun公开表示,Facebook有技术能力使用人工智能过滤假新闻。有人觉得这种方式还可以用来解决美国的两极分化问题,但LeCun称这个任务最好还是留给第三方解决,而不是交给可能存在偏见的机器。
现实
对人工智能来说,炒作周期可能会引起危机。LeCun深知这一点。而现在,我们似乎就处于这样一个周期。
在2013年第一季度,只有6家公司在其财报电话会议上提到人工智能。根据彭博社的数据,这个数字在2017年第一季度增长到了244个。
在谈到人工智能的未来时,LeCun措辞非常谨慎。他说:“人工智能离我们的目标还非常远,还达不到我们想要的效果”。事实上,正如LeCun警告的那样,人工智能还远远达不到人类的智力水平,即所谓的通用人工智能。
然而,有时候LeCun也无法抑制自己的热情。让他感到尤其兴奋的是对抗性训练。这是一种相对比较新的人工智能研究领域。有助于解决当前人工智能领域面临的预测和不确定性挑战。
对抗性训练让两个人工智能系统互相对抗,从而让它们更了解真实世界。比如,在FAIR团队的一个实验中,研究人员让一个人工智能系统画画,并骗过第二个人工智能系统让其以为这是人类画的,第一个人工智能系统接着利用第二个人工智能系统的反馈把画画得更好。
在今年早些时候的一个会议上,LeCun展示了一些更先进的东西:第一个人工智能试图让第二个人工智能相信,它创造的一段视频中几幅画面属于后者已经看过的一个视频中的一部分。LeCun表示,对抗性训练“是机器学习领域过去10年或者20年来最棒、最酷的想法。”
LeCun会继续研究对抗性训练,再一次把人工智能研究推向新的极限。他一路走来,从20年前默默无闻的年轻研究员变成现在人人仰慕的大牛。
尽管LeCun会第一个告诉你,对人工智能的研究远未结束,成功不属于他
Yoshua Bengio长达15年的实验室组织与管理经验也让他形成了一套自己的方法论,“不要将每个学生束缚在他们自己的项目中,而要让他们灵活合作。学生们与教授也不是一对一的关系,应该将整个实验室的人组成一个大的网络。”
对高校人才培养的执着投入,不代表Yoshua Bengio对产业动向毫不关心,Yoshua Bengio希望现有的人工智能技术能更快地进入人们的生活,真正帮助人们去完成各种各样的任务。
在2016年底,Yoshua Bengio开始为深度学习的产业孵化助力。他作为联合创始人创建了人工智能创业孵化器Element AI,鼓励研究员和企业家们一同创立人工智能公司,将人工智能技术融入各行各业,让人工智能的商业化前景变为现实。在成立后的两年中,Element AI已经帮助数百位来自蒙特利尔大学和麦吉尔大学的研究人员完成了从科研技术到应用产品的转化,也帮助初创公司的企业家在这个飞速崛起的热门领域中保持正确的前进方向。
可以说,Yoshua Bengio不仅在人工智能研究上推动蒙特利尔成为了世界深度学习的一大重镇,也为他所期待的人工智能生态系统添砖加瓦,促成了蒙特利尔如今在人工智能领域的良好学术和创业氛围。
现年54岁的Yoshua Bengio不仅学术著作等身,在大多数学术权威会议中,你都可以看到这张熟悉的面孔。他不仅是加拿大统计学习算法研究主席,在2009年担任了机器学习顶级会议NIPS的主席,还在2013年牵头创办国际学习表征会议(ICLR),让ICLR在短短几年内迅速跻身顶会行列,成为首屈一指的专注深度学习领域的顶级会议。
Yoshua Bengio也获得了许多重量级的名誉和奖项,他是加拿大皇家学院(RSC)及加拿大高等研究院(CIFAR)院士,且在2017年获得了代表加拿大公民最高荣誉的“加拿大总督功勋奖”。尽管如此,Bengio在生活中一直保持着低调,除了演讲之外,很少出现在媒体和大众的视线中。
30多年来, Geoffrey Hinton一直徘徊在人工智能研究的边缘, 以一个局外人的角色坚持着一个简单的命题: 计算机可以像人类一样思考, 使用直觉而不是规则。当一个朋友描述全息图是如何工作的时候, 这个想法在Hinton心里生根发芽: 数不清的光束从一个物体上反射出来,被分散在一个巨大的数据库上。Hinton 出身于一个有点古怪的、一代又一代的科学家家庭, 他立刻意识到人类的大脑也是这样工作的ーー我们大脑中的信息在一个巨大的细胞网络中传播开来, 连接着一张无穷无尽的神经元地图, 沿着数十亿的路径发射、连接和传递。他想知道: 一台计算机的行为方式是否也是如此?
根据学术界主流的观点, 答案是否定的。他们认为,计算机在规则和逻辑上学得最好。此外, Hinton 的概念——神经网络——后来成为"深度学习"或"机器学习"的基础ーー已经被证明是错误的。早在50年代后期, 一位名叫Frank Rosenblatt的康奈尔大学科学家发明了世界上第一台神经网络机器。它被称为感知器, 有一个简单的目标ーー识别图像。理论上,当向它展示一个苹果的图片,就会吐出"苹果" 。感知器运行在 IBM 的主机上, 它很丑陋:一连串交叉的银线, 看起来像是有人把一个炉子过滤器的内脏粘到了冰箱门上。尽管如此, 这个设备还是引发科幻般的夸张。1958年, 《纽约时报》发表了一项预测, 预测它将成为第一个像人类大脑一样思考的设备。 "(感知器)将能够行走, 说话, 看见, 写作, 再现自己, 并意识到它的存在。"
感知器最终并没有走路或说话ーー它几乎不能分辨出左边和右边ーー而变成了一个笑话。在学术界, 神经网络被认为是边缘学科的追求。尽管如此, Hinton 并没有被吓倒。 "大脑必须以某种方式工作, 而且肯定不是某个人写程序并把它们固定在那里的,"辛顿说。 "我们没有被编程,我们有常识。" 他相信, 神经网络的想法并没有错, 主要的问题是能量。当时的计算机无法通过数以百万计的图像进行连接和寻找意义,样本的尺寸太小了。
Hinton在1972年获得博士学位, 并以神经网络作为他的研究重点。每周, 他的导师都会告诉他, 他是在浪费时间。Hinton无论如何都在坚持向前推进,神经网络确实取得了一些小成功ーー后来证明它们在发现信用欺诈方面发挥了作用。毕业后, 他在匹兹堡的卡内基梅隆大学找到了一份工作。Hinton是一位骄傲的社会主义者, 对里根领导下的美国外交政策感到不安, 尤其是对中美洲的干涉。他的妻子是分子生物学家, 曾是伦敦大学学院的教授, 他们计划收养一对来自南美洲的男孩和女孩, 他们不太喜欢在一个卷入血腥拉丁美洲冲突的国家抚养他们。另外, 美国的大多数人工智能研究都是由国防部资助的, Hinton 对此也不满意, 因此他接受了加拿大高级研究所(CIFAR)的提议。CIFAR 鼓励围绕某种非正统的科学思想展开合作, 而这些想法可能在其它地方找不到支持者, 它给Hinton提供了学术自由和体面的薪水。1987年, 他和妻子搬到北方,定居下来。Hinton在多伦多大学计算机科学方面接受了一个与国际计算机科学中心相关的职位ーー尽管他从未上过计算机科学课程ーー并在 CIFAR 开始了机器与大脑学习项目。他在 St. George 校园的史丹佛·佛莱明里设立了一个小办公室, 安静地开始工作。随着时间的推移, 一小撮深度学习的信徒被他吸引。伊利亚苏奇凯弗(Ilya sutskever)现在是 OpenAI 的联合创始人兼董事, 埃隆马斯克(Elon Musk)价值10亿美元的人工智能非营利组织成为 Hinton 实验室的一部分。他描述了大约10名学生在"AI寒冬"期间进行研究, 当时人工智能研究的工作岗位和资金很少, 而且非常稀缺。 "我们是局外人, 但我们有一种罕见的洞察力, 就像我们是特别的一样,"Sutskever 说。
大约在2009年, 当计算机终于有能力挖掘大量数据的时候, 超级神经网络开始在语音和图像识别方面超越了基于逻辑的 AI。业界注意到, 微软、 Facebook、谷歌等大型科技公司开始投资。 2012年, 该公司的最高机密实验室谷歌 x实验室宣布, 它已经建立了一个由16000个计算机处理器组成的神经网络, 并把它放到了 YouTube 上。谷歌大脑是公司的深度学习人工智能分支, 由该部门的高级研究员Jeff Dean领导, 他们通过新的超级计算机从 YouTube 上随机输入了数以百万计的未贴标签的视频框架, 并对其进行编程, 以便弄清楚它看到了什么。 Youtube 是猫咪视频的最重要的储存库, 它认识到ーー除其他外ーー猫。这是人工智能的一个激动人心的时刻。 "我们在训练中从来没有说过'这是一只猫'," Jeff Dean当时说。 "它基本上发明了猫的概念。"
这一突破使 Hinton 和他的追随者成为人工智能运动的领袖。Jeff Dean在2013年招募Hinton加入谷歌兼职。 "我们显然是站在外面, 试图证明传统的智慧是错误的。有趣的是,现在我们已经成为了一个机构,"Sutskever 说。Hinton, 一个曾经被排斥的人, 突然成了这个行业最重要的人物, 从默默无闻变成了明星。那个瘦长的,、年老的英国人先生发现这一切都枯燥有趣。
"我之所以有这么大的影响力, 是因为我是极少数相信这种方法的人之一, 所有自发相信这种方法的学生都来和我一起工作。我不得不从那些最好的人那里挑选出来, 他们都很有判断力,"他笑着说, "良好的判断力意味着他们同意我的观点"。
在他俯瞰市中心校园中央动脉的 U of T 办公室里, Hinton正在走路, 吃着三明治, 在白板上涂鸦, 试图填补我在神经网络方面的知识空白。他停下来画了一只猫(雪人形状的小耳朵) , 在我们的文化中, 人们可能会把狗看成是雄性, 而猫则是雌性。这种描述(以及很多性别歧视)没有逻辑可言, 但是, Hinton说, 我们通过一千种联想和类比来理解, 狗是有攻击性的, 毛茸茸的, 块状的; 猫是狡猾的, 聪明的, 家庭的。前者是男性, 后者是女性。这些都不能用逻辑来证明, 但它存在于我们大脑中隐藏的表象中。机器可以凭直觉感知这些相同的表现: 知识来自于生活, 充满了积累的意义和经验, 存在的神秘实质。这就是神经网络的美妙之处。 "它更接近弗洛伊德的观点, 即意识和深思熟虑的推理和所有这些渗透的东西在下面。下面的东西并不是有意识的深思熟虑的推理, 而是其他的东西——一种类比的东西," Hinton说。
他在与 Justin Trudeau、创新部长 Navdeep Bains 以及谷歌母公司 Alphabet 公司执行董事长Eric Schmidt,在多伦多举行的 Google Go North tech 会议上,每个人都像热切的学生一样坐在一张桌子前, 除了Hinton, 他站在那里, 俯视着他的高层听众。他从来没有坐下来, 因为他的脊椎椎间盘突出, 在19岁的时候, 他试图为母亲移动一个重型加热器, 并且在代谢预示骨质疏松症的钙质代谢方面存在遗传缺陷。随着时间的推移, 问题变得越来越严重。最终, 坐着变得痛苦。所以, 在2005年,他几乎完全停止了坐着——另一个问题解决了。当然, 这种解决方案对任何人来说都不是理想的, 更不用说一个每年被邀请在世界各地举行的无数会议上发言或出席。Hinton可以告诉你如何从多伦多到赫尔辛基, 而不用坐下。这需要11天的时间。
"你躺在去布法罗的公共汽车后座上,你可以在水牛城搭乘芝加哥到纽约的卧铺,你把玛丽女王送到南安普敦,你站起来反抗伦敦,你得到的欧洲之星到巴黎,你站起来反抗巴黎。然后你就可以睡到柏林, 在那里你可以躺下。你可以乘坐一辆小小的老火车去罗斯托克, 那里是在海边, 以前是在东德, 你可以看出来。然后你乘渡船去赫尔辛基。" Hinton经常用这种方式说话: 把数据切成易懂的部分, 眼睛聚焦在距离上, 小嘴唇上露出微笑。
在 Go North 活动中, Hinton 对两名谷歌工程师取得的突破性进展做了一个简洁明了的解释: 胶囊网络。神经网络依赖于大量的数据来学习, 他们需要很长的时间来识别从不同角度看到的物体是同一个物体。胶囊是一种人工神经元, 它可以跟踪物体不同部位之间的关系——一个人的鼻子到嘴巴的小空间就是 Hinton 给出的例子ーー使得识别更快更准确。
Capsule网络在科技领域受到了极大的欢迎。纽约大学的一位教授在《连线》杂志上滔滔不绝地说道:"每个人都在等待, 并且都在寻找Hinton的下一个伟大飞跃。"
每一家大型科技公司的人工智能专家都在争先恐后地在深度学习中寻找下一个变革性的发现。因为 Hinton 的人工智能思想在很长一段时间里都不受欢迎, 但许多专家都是在 Hinton 指导下受训的: 与其说是"学生变成了老师", 倒不如说是"老师变成了竞争对手" 。许多 Hinton 的前学生已经在 Facebook、Google、Apple 和 Uber 以及学术界声名鹊起。他们记得他是一位受欢迎的教授, 以与学生一起工作而闻名, 而不是把任务分配出去, 以及打破深夜研究的“紧张局势”, 用自己的嘴杂耍葡萄——向后倾斜, 将其中一个吹到空中, 然后再用另一种方法抓住第一个, 重复一遍。过去10年, 多伦多经历了一次人才外流, 据媒体报道,当地的初创企业被硅谷吞并,人工智能从业者, 即使是新手和毕业生,每年可以获得从30万美元到50万美元不等的薪水,股票期权可以使这个数字超过百万大关。多伦多必须弄清楚如何利用Hinton的存在, 引诱这些精英深度学习专家留下来, 或者回到他们开始的地方。因此, 价值数百万美元的实验室Vector 研究所的创立,将把人工智能领域的领军人物聚集在一起。但加拿大以前已经失去了领先优势。在曾经强大的加拿大科技公司诺泰尔(Nortel)和黑莓(BlackBerry)痛苦地解体之后, Vector 提供了赎回的可能性。
Hinton说, 在他成长过程中, 他的母亲给了他两个选择:"要么成为一个学者, 要么成为一个失败者。" 他的家谱是科学家们非常重视的一部分。他的曾曾曾祖父是Boolean logic公司的创始人George Boole。George Boole的女婿之一是查理斯·霍华·辛顿, 杰弗里的曾祖父, 一位数学家和科幻作家, 创造了"超立方"的概念(我们可以把三维世界看作一个立方体——所有读者都熟知这部经典儿童小说《时间的皱纹》(a Wrinkle in Time)的读者都熟知这个立体物体, 在维多利亚时代的英格兰因重婚而被赶到了美国。他的儿子, 杰弗里的祖父, 定居在墨西哥,他父亲的堂兄就是琼 · 辛顿, 他是一位核物理学家, 曾参与曼哈顿计划, 并在文化大革命期间居住在中国。
1947年, 杰夫 · 辛顿出生在温布尔顿, 霍华德 · 辛顿是一位昆虫学家, 同时也是一位教师母亲, 玛格丽特 · 克拉克。辛顿描述的童年时代是 Lemony Snicket、哈克贝利·费恩历险记和天才一族的混合物, 显微镜。他和他的三个兄弟姐妹在布里斯托尔的一所大房子里长大, 那里充满了动物。有一只猫鼬——"它占据了很大的空间"ーー车库里的蝮蛇战机被关在一个坑里。年轻的杰夫 · 辛顿曾经挥舞着一块手帕, 让他们去打它, 但是有一个人来到他的手边, 差点把他给杀了。他还照顾了十几只中国海龟, 这些海龟是他父亲在1961年的中国巡回演讲中获得的。虽然中国基本上对游客关闭了, 皮埃尔 · 特鲁多也参观了这里, 他和他的高级同事 Hinton 也共用了一家酒店, 还有一间浴室。根据家族传说, Hinton 把海龟放在浴缸里, 至少有一次阻止了 Trudeau 的洗澡计划。
8岁的Hinton在布里斯托动物园,手里拿着一条蟒蛇。有一段时间,Hinton一家把毒蛇放在车库的一个坑里。
Hinton也曾回忆起他的好奇心是如何诞生的。他四岁的时候,和母亲在乡下乘公共汽车旅行。公共汽车上有一个向后倾斜的座位,朝着车架。Hinton从口袋里掏出一枚硬币放在座位上,但是它没有滑向后面,而是滑向前面,看起来向上移动,对抗重力。这个令人费解的现象,激发了Hinton十多年的想象力。在他十几岁的时候,他发现硬币的动作与天鹅绒座套和巴士的振动有关,这是一个非常令人满意的答案。"有些人完全有能力看到他们不理解的东西,并且能够接受它。我不能接受有什么东西,侵犯了我的世界模型。我真的不能接受那样的事情。"Hinton说。
Hinton的母亲很有爱心,但他的父亲却令人生畏,不管是身体上(他都可以用一只手做俯卧撑,这一壮举曾让瘦小的杰弗里震惊)和智力。"他喜欢人们思维清晰,如果你说的东西有点多余,他会称之为垃圾。他不是一个敏感的思想家。他不是虐待狂,但他非常强硬。"
Hinton就读于一所叫Clifton college的私立学校——Hinton说“不是最好的学校"。他和他的朋友 Inman Harvey,后者现在是一名计算机科学家,同时也是人工智能萨塞克斯大学的访问研究员,习惯于搭便车,偷笑,周围附近的村庄,如Piddlehinton。Hinton回忆起,在选举期间,家人在厨房的餐桌旁谈论社会主义,并在选举期间为工党写信。
"Hinton的父亲对我非常好,但他是一个爱出风头的父亲,很喜欢与别人竞争,"Harvey说。"Hinton继承了一点竞争优势。他的父亲是英国皇家学会的成员,然后杰夫成为了皇家学会的成员。他可能觉得有必要满足父亲的期望。"
Hinton的青年时代与随心所欲的60年代和70年代发生了冲突,他走了一条迂回的路线来实现Hinton家族的与生俱来的权利。1966年,大学前的夏天,Hinton和Harvey背包穿越美国和墨西哥。这些青少年身无分文,他们有时会乘夜间公共汽车,以避免支付酒店费用。在墨西哥南部的一个小渔村,他们在大浪中游泳时,在沙滩上留下了一个行李袋,他们的钱和护照被偷了。每天下午,这对夫妇都会步行7公里到最近的村庄,经过警惕的保安,看看他们的替代旅行支票是否已经到达银行。他们想出了如何靠3美元生存一个星期,并试图在高温下把香蕉皮放在罐子里来制作香蕉汁——这是一个失败的实验。
在70年代,在完成了一个实验心理学学位之后,Hinton正在做一些奇怪的工作和木工活。1972年,他开始攻读人工智能博士学位,但对自己的研究感到沮丧和矛盾。一个周末,他参加了一个研讨会,类似于"EST-y,自我实现疗法"。他讨厌这样。有八个人,一小时一小时地打开心扉,探索他们的需求和需求。在最后一天,每个参与者必须宣布他们真正想要的生活。人们说他们真的想被爱。"原始和无拘无束的东西,"Hinton回忆道。他冻僵了,不知道该说些什么。当他们围着这个团队喊出他们的秘密欲望时,Hinton惊讶地发现:"我真正想要的是博士学位!”他大吼大叫。这个宣言重新点燃了他对神经网络研究的热情。
当被问及在这个非凡的家族历史的阴影下成长的感受时,Hinton 说:"压力。这种感觉就像是压力。"他说,他一生都在与抑郁症作斗争,工作是他放松阀门的方式。当深度学习成功时,抑郁症略微消失了。"很长一段时间,"他说,"我觉得我不是——嗯,我终于做到了,这让我松了一口气。"
面对学术上的冷漠,Hinton 在90年代初成为单身父亲时遇到了一个更严重的私人障碍。在他和他的第一任妻子Ros收养了他们的孩子后不久,Ros死于卵巢癌。Hinton习惯了在自己的脑子里和实验室里生活,他被扔进了一个真实的世界,养育了两个小孩。他的儿子患有注意力不集中症和其他学习困难,即使有保姆,Hinton 也不得不在下午6点回家,为他的儿子管理支持,还要赶着去 Gap 买袜子。
“我无法想象一个有孩子的女人怎么会有学术生涯。我习惯了把时间花在思考想法上。教学是有趣的,但有一点分心,而且我没有时间去做这个,"Hinton说。"但是对于小孩子来说,这种情况并不存在。"Hinton大概是指思考或生活。但不管怎么说,工作的确为想要逃离家庭现实的Hinton提供了港湾。Hinton说:"有时候我认为我用数字和数学来抵御我情绪化的一面,"Hinton说。养育子女迫使我们做出改变。"以前我去超市的时候,收银员不能把两个数字加起来,我会想:'看在上帝的份上,他们为什么不能雇一个会算术的收银员呢现在我想:'超市雇佣这个人真是太好了,他补充道:"我不想成为一个更好的人,它只是发生了。这不是我的目标之一。
1997年,他的第二任妻子Jackie的婚礼上,以及Hinton已经拥有的两个孩子,8岁托马斯和6岁的艾玛。
1997年,他再婚,嫁给了英国艺术史学家Jackie。三年前,她被诊断出患有胰腺癌病,而现在Hinton正处于失去第二任妻子的边缘。
Hinton一生中花了很多时间在医院里。他向员工提出一些过分问题使后者感到恼火。他也非常清楚病人对于等待很久才能获得结果和结果模糊不清感到沮丧。但与大多数人不同的是,他也知道很快就会出现一种技术,这种技术可以让等待一周才能出的结果当天完成。
对于一个克制的英国人来说,Hinton通常会把自己的人工智能信仰传给其他人,最好的例子是他对于深度学习在改革医疗保健方面的潜力热情洋溢。"我看到医疗专业人员使用数据的效率低下。在病人的病史中,有比被利用的更多的信息。我发现医生们真的不能很好地阅读CT扫描。如果你让两个放射科医生读同样的扫描,他们会得到两个不同的结果。"
在三个不同的场合,医务人员告诉他的妻子,根据CT扫描读数,她患上了继发性肿瘤,每次都是错误的。Hinton认为,人工智能最终会让放射科医生失业ーー或者至少消除工作中的“看片子”部分。认知是人工智能的核心,也是成功诊断和治疗的核心。Hinton说:"最终,人工智能的工程师将会研究如何训练免疫系统攻击癌细胞。"Hinton说。
Vector第一批项目中,有一个由Hinton发起,希望能够将神经网络与多伦多医院的大量数据联系起来。当Peter Munk最近向他的同名心脏护理中心捐赠了1亿美元时,医院被指定为数字心血管健康领域的世界领先者,而Vector将得到其中的一部分资金。通过访问大量的数据集本质上就是Munk Centre这样的研究所的病历档案,人工智能技术可以用来实现大量的突破,包括远程监控病人的心跳,帮助医生确定理想的放电时机。Vector的合作伙伴之一——多伦多深层基因组公司(Deep Genomics)正在开发能够读取DNA的人工智能,这将有助于早期发现疾病并确定最佳治疗方案。深基因组学的创始人,Brendan Frey,另一个身份是Hinton的学生。
经过几十年的缓慢步伐,深度学习进展迅速,Hinton似乎陷入了洛伦佐石油的束缚,迫切地推动科学进步,试图摆脱爱人生命中的时钟滴答声。但是,胰腺癌在早期阶段是残酷而难以诊断的。"恐怕对她来说可能已经太迟了,"Hinton用自己慎重的方式说道。
Yoshua Bengio是蒙特利尔大学深度学习领域的先驱,他和Hinton和Facebook的Yann LeCun一样,是科技圈中被标记为"加拿大人工智能黑手党"的成员。几十年来,当本吉奥在多伦多有工作要做时,他一直呆在Hinton的附属房子里,和他一起散步(Hinton走遍了每一个地方,因为他的背部只有在直立的时候才不受伤,如果坐交通工具就必须坐着)。他一直在观察Hinton成为科技界名人的地位,并对他的朋友表现出一定程度的警惕。"他不是神。他很容易犯错误。他只是一个做人类事情的人,"Bengio说。"有时候他能用墨镜看东西。他的个人生活对他来说并不容易。他有自己的黑暗时代。"
九月份,Hinton和他的妻子在Muskoka的小屋里住了几天。每年的那个时候都很美丽。他说:"她非常勇敢,也非常理智,所以她只是认为自己有更多的时间,她决心尽力做到最好,"他说。然后他问我能不能帮他一个忙。他平静地说:"我真的希望你能在这个故事中加入这样一个段落,在过去的两年半里,我能够继续我的工作,因为我的妻子对她的癌症有着积极的态度。"。"非常感谢。"
Vector Institute是多伦多对人工智能人才流失问题的答案,它有一种新车的“味道”,这个名字很适合超级反派的老巢和第一天的学校氛围。加拿大最新的人工智能研究所,位于大学的七楼,去年秋天正式启用。它的玻璃墙面临着女王公园和多伦多大学罗马式的建筑,这两所大学都是Vector的合作伙伴。Vectore目前目前已经获得了超过1亿元的融资和国家资助,同时还获得了30家私企给出的8000万美元,后者包括加拿大银行、加拿大航空、Telus、Google。这也让Vector成为了一家公私兼容、同时混合了学术界、公共机构和行业的机构。到目前为止,20名科学家已经开始寻找技术上的答案来解决一些世界上最大的问题::如何利用人工智能诊断儿童的癌症,并在言语中发现痴呆症?我们如何建造机器来帮助人类看到动物或者创作美妙的音乐,或者利用量子计算来加速分析人类每天产生的大量数据呢?Vector招聘的关键人物之一拉克尔乌尔塔逊(Raquel Urtasun)将同时在Vector和Uber工作,她在后者的岗位上开发自动驾驶汽车。
今天围绕人工智能的狂热不仅仅是金钱的问题,也是人工智能尝试融入日常生活的快速步伐。在这种情况下,传统的翻盖手机与带有人脸识别功能的iPhone X之间相差的时间也只有10年。许多杰出的科学家担心这项技术正在超越我们的管理能力。斯蒂芬·霍金、埃隆·马斯克和比尔·盖茨都警告说,不要让人工智能不受约束。"我担心人工智能会完全取代人类,"霍金最近说。Hinton意识到其中的道德含义:他向联合国签署了一份请愿书,呼吁禁止使用致命的自动武器ーー或者称为杀手机器人ーー的请愿书,并拒绝担任与通信安全机构有关的董事会的职位。他认为政府需要介入并制定规章制度,防止军方利用他毕生致力于完善的技术。他表示,具体而言,就是研发能杀人的机器人。
不过,在大多数情况下,Hinton对人工智能的焦虑感到乐观。"我认为这会让生活容易得多。人们谈论的潜在影响与技术本身无关,而是与社会的组织方式有关。作为一个社会主义者,我觉得当技术出现提高生产力的时候,每个人都应该分享这些收益。"
去年夏天,Hinton和我在市中心Google餐厅吃午饭。这个空间拥有大多数互联网公司的风格:明亮的颜色,沙发和一系列健康的午餐可供很多30岁以下的人们享用。在天井上有一个迷你推杆和一个传粉蜂巢。一台浓缩咖啡机发出巨大的声响。很难想象这是机器入侵的起点,但是。
Hinton说:"电脑接管世界末日的场景不可能在很长一段时间内发生,"Hinton说,站在那里吃着他的藜麦和鸡肉。"我们离这样的事情还有很长很长的路要走。对于哲学家来说,思考是很好的,但是我对这个问题并不是特别感兴趣,因为这不是我一生中必须面对的问题。"一直以来,我都不知道他是不是在开玩笑。
但是,这种对机器的依赖是如何改变我们的呢?我告诉他,每当我的手机提示我一个建议的回应("听起来不错!"、"那里见!")我觉得自己好像失去了控制权。我自己也变得机械化了。自2001年《太空奥德赛》以来,流行文化就一直将这种精确的理解汇集起来。在娱乐方面,机器的进步被认为是个人的孤独,是一种损失。就好像机器变得越来越人性化,我们变得不那么人性化了。
Hinton 听了我的话,看我的眼神并不是不友好,而是带着一丝怀疑。"当你使用计算器的时候,你会觉得不那么人性化吗?"他问道。在他身边,千禧一代吃着沙拉,喝着咖啡,他们的钥匙卡在屁股上摇摆。几乎所有人都在用手机,或者拿着手机。"我们是机器,"Hinton说。"我们只是生物学上的产物。大多数做人工智能的人并不怀疑我们是机器。我们只是极其奇特的机器。我不应该说只是。我们是特别的,奇妙的机器。"